Машины, которые говорят и слушают

zapdash - параметры речевого сигнала, определяющие интегральные характеристики звуков в низкочастотном (< I кГц) и высокочастотном ( >1 кГц) диапазонах. Эти параметры выделяются в реальном масштабе времени из сигнале, поступающего с АЦП в мини-ЭВМ, которая обладает средним быстродействием 600 тыс. операций в I с. Параметры (число нулевых пересечений и амплитудное значение сигнала на интервале анализа для каждого из диапазонов) формируются программно, и их значения дают возможность грубо классифицировать сегменты на 10 различных типов - пауэы (глухая смычка), наличие звонкой смычки, характеризующие звонкие взрывные б, д,г, сонорный согласный, глухой фрикативный (переднеязычный или заднеязычный), носовой, свистящий, гласный высокого иди низкого подъема. В дальнейшем производится пере классификация сегментов на 59 классов, некоторые из них пересекаются в пространстве признаков.

На второй стадии к среднему участку сегментов применяют сравнение с эталонами (этих эталонов для каждого класса сегментов может быть до 100). При сравнении средний участок сегмента по-ступившей на вход реализации сравнивается с множеством эталонов, которые подучены от специально обученных дикторов. Использование сегментации I уровня позволяет, как отмечается в [l79], ускорить общую сегментацию в пять раз по сравнению с унифицированной, основанной .исключительно на коэффициентах линейного предсказания.

Как уже отмечалось, ключевой проблемой систем понимания Речи является верификация сдоврсиьк гипотез.подожданных различ-иыми источниками знаний. Блок словесной верификации должен оце-нвдь, насколько акустические данные входной реализации соответствуют фонетической транскрипции гипотезируеного слова.

2S

В соответствии с оценкой, словесный верификатор отбрасывает большее числе гипотезированных слов, сохраняя возможные пра~ вильные, чтобы впоследствии отобрать единственное с помощью инфор~ мации высших уровней.

В Hearsay -П слова порождаются либо словесным гипотезато-ром снизу вверх (блоком POMOW), либо преде называются сверху вниз семантико-синтаксическим блоком sass . Блок словесной верификации wizard обрабатывает гипотезы о словах снизу вверх, используя акустическую информацию и результаты автоматической сегментации. Каждый сегмент высказывания представлен вектором фонемных вероятностей (т.е. с каждым отрезком высказывания связываются определенные звуки, которым присваиваются некие веса), Каждое слово словаря записывается эталонным графом возможных фонетических произнесений, учитывающим все альтернативные варианты произнесений. Однородная модель, используемая блоком словесной верификации, дает возможность найти оптимальное совпадение одного из эталонов (соответствующее пути на одном из эталонных графов) и участка входной реализации, соответствующего слову.

В системе Hearsay-П при словесной верификации стыки между словами не рассматриваются, делается лишь их внутренняя обработка. wizard пытается верифицировать слова, как будто они находятся в изоляции.

При верификации слова обрабатываются снизу вверх следующим образом: предсказанные моменты начала и конца слова связываются с соответствующими сегментами высказывания bseg и eseg. Исследуются все пути в эталонных графах возможных слов, которые совпадают с отрезками и входной реализацией. Сравниваются с эталонами отрезки, которые начинаются в (baeg-I: beeg +I ) и заканчиваются в jeseg -I I eeeg +I(, т.е. параллельно рассматриваются девять возможных участков высказывания, что приводит к девяти оптимальным путям на эталонных графах, из которых выбирается тот. оценки которого наибольшие, или наиболее соответствуют рассматриваемому участку. Сдвиг на один сегмент вправо или влево позволяет избегать ошибок при представлении входного, высказывания (акустических данных) различными источниками знаний. В результате блок словесной верификации может изменять время словесных гипотез, а также их оценки. Следует отметить, что если в проектах ВШ (Speechlis и HWIM) идет непосредственный переход от фонетического описания к словесному, то в Hearsay-П используется еще промежуточный, слоговый уровень между словами и звуковыми сегментами. Для поддержки словесных гипотез используются так называемые типовые слоги, слоготипы (syltypes).

Ццея слоготипов сводится к тому, что слоги, имеющие похожие сегменты (например "та", " па"), относятся к одному типу. Никаких попыток различать слова с одинаковыми слогами в Нвагвау-П не делается. Каждый слоготип характеризуется слоговым ядром, определяемым эвристически присвоенными сегментными метками и положением максимума энергии на отрезке. Для каждого слоготипа гипотези-руются слова, в которых встречается данный слог; многосложные слова отбрасываются, если плохо согласовываются о последовательностью слоготипов. Подробное описание слогового гипотезатора pokow содержится в С 1783.