Машины, которые говорят и слушают

(рис. 2.5).

В различных работах отмечается, что, несмотря на недостаточ​ную естественность звучания клиппированной речи, ее разборчивость оказывается достаточно высокой, причем разборчивость речи повы​шается, если до клиппирования речевой сигнал подвергнуть диффе​ренцированию. Это явление означает, что информация о распреде​лении интервалов между нулевыми пересечениями сигнала может быть использована для построения устройств автоматического рас​познавания и синтеза речи. Привлекательность автоматического анализа клиппированной речи и использования ее параметров для целей построения говорящих и понимающих речь машин лежит в простоте получения этих параметров.

Если речевой сигнал представлен дискретной последовательно​стью его отсчетов -J х(п)} , то фиксирование момента перехода сигнала через нуль происходит, когда знаки двух соседних дискрет​ных отсчетов речевого сигнала различны, т. е.

sign[x(n)]-^s\gn[x(n—l)'\.

Информация об общем числе переходов сигнала на определен​ном интервале и различных диапазонах длительностей участков между нулями часто используется для грубой оценки частотного состава сигнала. Существует тесная связь между числом нулевых пересечений и распределением энергии по частотам. Общее число переходов сигнала через нуль, величину Л'о, вычисляемую для дис​кретной последовательности А" отсчетов, можно представить в виде

Существуют системы автоматического распознавания речи, в которых, как об этом говорилось ранее, нулевые пересечения ис​пользуются для приближенного определения формантных частот. На рис. 2.6 показано, как оцениваются формантные частоты с по​мощью схемы анализа нулевых пересечений после прохождения сигнала через полосовые фильтры, которые перекрывают диапазоны частот, соответствующие формантным областям (первая форманта Fi лежит в диапазоне 200—900 Гц, вторая—550—2700 Гц и тре​тья— 1100—2950Гц).

Иногда при распознавании речевых сигналов используют так называемую гребенку временной селекции, которая позволяет оце​нить ширину импульсов клиппированного сигнала и тем самым про​вести более точный анализ во временной области, что позволяет относительно простыми средствами отличать одни классы звуков от Других. Так, для фрикативных согласных селекторы импульсов по Длительности дают возможность отделить диффузные (звуки с ши-

89

Рис. 2,7. Блок-схема временной селекции интервалов между нулями

роким спектром типа ф) от компактных (спектр которых сосредо​точен в относительно узкой области—с, ш).

Блок-схема селекции импульсов клиппированного речевого сиг​нала по длительности показана на рис. 2.7.

Обычно с учетом особенностей клиппированных согласных и гласных выбирают пороги временной селекции, равные 50, 100, 200, 400, 600 и 800 мкс (первый селектор отбирает узкие импульсы, длительность которых меньше 50 мкс). Поступающие для дальней​шего анализа числа (со счетчиков импульсов) позволяют получать распределение интервалов между нулями в диапазонах длительнос​тей между пороговыми значениями селекторов — узлов, пропуска​ющих на счетчики импульсы, превосходящие (или не превосходя​щие) по длительности заданный порог.

Следует отметить, что энергия и переходы сигнала через нуль часто совместно используются для разработки алгоритмов выделе​ния моментов начала и конца речевой реализации (изолированного слова фразы). Такой алгоритм применен, например, в отечествен​ной промышленной системе распознавания изолированных слов ИКАР.

90

Подобные алгоритмы основываются на тщательном исследова​нии статистических параметров функций среднего значения сигнала я числа нулевых пересечений для шумов различной природы и различных звуков фраз и изолированных слов.

2.6. ГОМОМОРФНАЯ ОБРАБОТКА СИГНАЛОВ

Как было показано ранее, речевой сигнал на коротких ин​тервалах можно рассматривать как отклик системы с медленно меняющимися параметрами на периодическое или шумовое воз​буждение. Это означает, что во временной области дискретный сиг​нал у(п) представляется результатом свертки функции возбужде​ния х(п) с импульсной реакцией голосового тракта h(n). Гомо​морфная обработка речи сводится к решению обратной задачи — имея речевой сигнал у(п) =х(я)* h(n), можно получить парамет​ры сигналов, участвующих в свертке. Эта задача называется иногда задачей обратной свертки или развертки.