Машины, которые говорят и слушают

Другая система, разработанная в Институте систем управления АН ГрузССР,способна работать при более высоком урочне шумов (до 100 дБ и выше) СЗб]. Основной особенностью этой системы распознавания фраз, произносимых с паузами между словами, было наличие комплекса помехозащищенных датчиков, который обеспечил приемлемое отношение сигнал/шум на входе системы распознавания. В качестве приемника речевой информации применялся ларингофон ЛЭМ-3, а также дополнительные помехозащитные признаки устной речи, в качестве которых использовались артикуляционные характеристики ре-чеобразования. Бесконтактные датчики позволяли выделять:

- признак, отражающий изменение величины раствора ротовой щели во время произнесения неогубя°нных звуков;

- признак степени огубяения;

- признак скорости воздушного потока у потового отверстия [42].

Зак.480

17

Изучение свойств речевого сигнала в пространстве выбранных признаков позволило разработать процедуру описания слов, обеспечивающую восстановление как макровременной (имеется в виду пос-хедовательность звонких и глухих участков, а также пауз),так и квазифонемной структуры речи. При испытании систем [ЗЬ,??] выявилась высокая точность распознавания фраз. К сожалению,обе системы реализованы на ЭВМ Ы-200, обладающей малым объемом оперативной памяти и слабым быстродействием, из-за чего время распознавания фраз было в 30 - 50 раз больше реального.

В ранках традиционного аппаратурно-программного направления автоматического распознавания речи ведутся работы в ВЦ и Институте проблем передачи информации АН СССР [13,67,6?] .В основе метода лежит алгоритмическая обработка выделяемых специальной аппаратурой информативных параметров коротких отрезков речевого сигнала (сегментов длительностью 10-20 мс). Последовательность этих отрезков и составляет высказывание, которое требуется дешифрировать. Параметры (признаки) сегментов характеризуют (в большей или меньшей степени) параметры речеобразующего тракта человека, определяющие особенности порождаемых звуков.

В Cl3] рассмотрены алгоритмы распознавания названий чисел от нуля до ста, причем система предусматривает реальное время распознавания и произвольного диктора. Алгоритм распознавания двухступенчатый и состоит из блоков распознавания и подтверждения фонетической структуры (верификации). Если гипотезируемое слово не подтверждается (блоком верификации), то входная реализация сравнивается с другими словами, близкими к ней в пространстве признаков, или подается сигнал переспроса. При распознавании двухсловных сочетаний второе слово анализируется с конца в направлении к его началу. Варианты произношения, на основании которых создавался алгоритм, исследовались на материале около 2200 реализации названий чисел, произносимых 20 дикторами. В результате анализа получены варианты произношения двузначных чисел. Многие из них произносятся сравнительно единообразно и различаются степенью редукции безударных гласных, степенью аффрицирова-ния мягких взрывных, наличием или отсутствием смычек перед аффрикатами и т.д. В других числах может существенно нарушаться фонетическая структура, пропуски отдельных согласных.В условиях, когда возможно множество вариантов произнесения, алгоритм должен использовать лишь наиболее употребительные варианты, в которых сохраняются "оперные" звуки - ударные гласные, щелевые, взрывные, а также начальные и конечные звуки.

I&

В OS?] рассмотрено использование речевого Управления в подсистеме АСУП на базе мини-ЭВМ. Аппаратурно-программная система, разработанная в Львовском ордена Ленина государственном университете им. И.Франко, уже эксплуатируется. Система использует мини-ЭВМ ЕС-1010 в режиме реального времени и параллельной работы около 90 производственных задач. Это налагает жесткие условия на объем оперативной памяти, используемой для программ обработки речевого сигнала (всего 10 Кбайт). Словарь системы 40 слов, которые могут быть организованы в командные фразы (5 слов во фразе). Используется девять типов запроса, примерами которых могут быть: "оперативная сводка выпуска", "ресурсы смены", "выходные характеристики участка первой настройки" и т.п. Из-за жест-' ких ресурсов памяти система ориентирована на работу с одним диктором, сформировавшим свои эталоны и имеющим свой пароль. Работа системы в помещении машинного зала с уровнем шумов 68-75 дБ показала надежность распознавания фраз, превышающую У0%, а после переспроса - более 9Ь%.