Машины, которые говорят и слушают

Первичные признаки записываются в запоминающем устройстве в виде таблицы (матрицы) параметров. Каждая строчка такой таблицы—это набор признаков, вычисленных при цифровой обра​ботке речи за 10—20 мс, а каждый столбец показывает изменение данного признака во времени (через 10—20 мс). Например, неслож​ная табл. 2.1 соответствует параметрическому представлению слова «семь». При этом признаками первичного описания являются: сред​няя энергия сигнала Ац, средняя частота перехода сигнала через нуль /о (усредненная мгновенная частота) и числа положительных импульсов клиппированной речи. Иными словами, речи, представ​ленной прямоугольными импульсами, полученными из первоначаль​ной речевой волны после ее усиления и предельного ограничения по амплитуде, когда сигнал принимает лишь два значения, од​ному из которых может соответствовать 0, а другому 1. Положи​тельные импульсы находятся в диапазоне длительностей 100—200

77

(Л';), 200—300 (ЛЛ;), 300—400 (Л^з), 400—600 (Л^), 600—800 (/Vg), 800—1200 (Ns), 1200—1800 мкс (Na), свыше 1800 мкс (Nis) и ме. нее 50 мкс {Ns). Все признаки измерены на интервалах в 20 мс.

Данные для такой таблицы получаются цифровыми методами с помощью очень простых алгоритмов. Средняя интенсивность сиг​нала Ay на отрезке в 20 мс может быть получена сложением 400 отсчетов входного сигнала, поступающих с аналого-цифрового преобразователя, без учета их знака и с последующим делением на 400. Усредненная за время анализа «мгновенная» частота сигнала Го вычисляется подсчетом точек, где соседние значения отсчетов имеют разные знаки. Число точек, в которых сигнал меняет знак, деленное пополам, определяет среднее число переходов сигнала че​рез нуль в положительном направлении. Если среднее число умно​жить на 100, то получится усредненная мгновенная частота fo. Та​ким образом, простейшей формулой, определяющей алгоритм вы​числения усредненной мгновенной частоты сигнала, является фор​мула

где Ai и Лц.1—соседние отсчеты речевого сигнала; sign—произве​дение двух чисел Л, и Лг+i, равное 1, если одно из чисел (неваж​но какое) положительное, а другое — отрицательное.

Числа положительных импульсов клиппированной речи, опреде​ляющих интервалы между нулями в возможных интервалах дли​тельностей (Ni—A^ia), также вычисляются очень просто. Представь​те себе, что в массиве чисел, которые соответствуют речевому сигналу и получаются с помощью аналого-цифрового преобразова​теля, отмечены места, где сигнал меняет знак с отрицательного на положительный, и наоборот. Числа, представляющие речь, идут, на​пример, так: 18, 13, 10, 7,3, —1, —8, —12, —20, —32, —25, —19,

—13, —6, —2, 4, 12, 16, 29, 21, 25, 14, 17, 12, 6, —2. —5, —11,

—18, —29, —29, —31, —21, —13 и т. д. В этой последователь​ности соседние числа трижды имеют разные знаки. Дважды сигнал переходит из области положительных значений в область отрица-

—ro-T^iii-.v г, r>ni»u пяэ—ия области отоицательных в область положи-

тельных (эти числа в массиве подчеркнуты). Если частота кванто​вания аналого-цифрового преобразователя 20 кГц, то временные отрезки, которым соответствует интервал между двумя соседними яисламп — 50 мкс (за одну секунду в память ЭВМ вводится 20 ты​сяч отсчетов речевого сигнала). Значит, достаточно подсчитать, сколько чисел прошло между сменой знака с отрицательного на положительный, и наоборот, чтобы определить длительность одного положительного прямоугольного импульса клиппированной речевой волны. В нашем случае число интервалов между второй и тре​тьей сменами знаков составляет 12, т. е. длительность прямоуголь​ного импульса 12Х50—600 мкс. Можно полагать, что параметр Ms должен увеличиваться на единицу. Для каждого из параметров ^V,—,Vi6 имеются ячейки-счетчики, которые называются счетчиками селекции импульсов по длительности и куда программа за время анализа (10—20 мс) заносит для суммирования единицы, если вы​полнено условие записи в соответствующую ячейку памяти после проверки длительности положительного импульса. Это делается сравнением длительности импульсов с константами, определяющи​ми, в какой из диапазонов длительностей попало данное число.

Что дает такая таблица признаков? Рассмотрим данные табл. 2.1 более внимательно. В ней даются 22 строки. Это означает, что длительность слова «семь» 440 мс, так как каждая строка таблицы характеризует отрезок сигнала длительностью в 20 мс. Столбцы таблицы показывают, как изменяются признаки на протяжении слова. Слово начинается с фонемы, характеризующейся высокой мгновенной частотой: 4—5 кГц. Далее следует участок, на котором самая высокая громкость и мгновенная частота снижается до 600— 700 Гц. Затем следует конечный участок слова, на котором и ин​тенсивность падает, и усредненная мгновенная частота снижается до 200—250 Гц. Это соответствует последовательности звуков с—э—м. Особенно следует сказать о признаках Ni—A^g. Для щелевого с дли​тельности положительных импульсов фактически лежат в пределах До 200 мкс. Для ударного гласного э эти длительности лежат в диапазоне 300—800 мкс, а для носового м—в пределах 1000 мкс и более.