Главная / Каталог

Машины, которые говорят и слушают

Недостаточная надежность распознавания с первого ^^произнесения обусловлена в основном упрощениями алгоритма распознавания, на которые пришлось пойти ради экономии'места и оперативной памяти.

Аппаратурно-программное направление представлено также системой [33] , которая на первом уровне распознавания обнаруживала в словах сегменты и классифицировала их по способу образования звуков на гласные, щелевые, аффрикаты, дрожащие , а также глухие и звонкие. На втором этапе некоторые звуки классифицировались внутри данной группы по месту их образования. В результате каждому сегменту присваивалась Кодовая последовательность,занимающая I байт. Четыре старших разряда этого кода указывали групповую принадлежность данного звука, четыре младших разряда определяли тип звука внутри данной группы.

Для распознавания слов образуется элементарная последовательность псевдослогов, сравнивающаяся с эталонами последовательности. При экспериментальной проверке работы система распознавания на материале 50 и 200 слов с участием трех дикторов она показала 93 и 84% точности распознавания соответственно.Анализ ошибок показал, что в большей части они вызвали неправильными формированиями сегментов контрольной реализации или эталонов, возникающими при срабатывании системы до начала произнесения от посторонних шумов или шумов дыхания.

Интерес к построении систем распознавания речи, работающих с множеством дикторов,стали проявяять и исследователи, тради-

19

ционно работавшие с одним диктором. Т.К.Винцюк и соавторы [21] показали, что в рамках существующей однодикторной системы фонемного распознавания речи может быть создана многодикторная система распознавания, которую авторы назвали кооперативной,поскольку система предварительно обучается по выборке кооператива дикторов. Основные результаты экспериментов:

при индивидуальном обучении системы распознавания речи средняя надежность распознавания по чужим дикторам не превышает 80% (на словаре из 100 слов);

- при кооперативном обучении средняя надежность распознавания для четырех членов кооператива составляем 98^, что вполне приемлемо для практического использования;

- кооперативное обучение способствует существенному превышению надежности распознавания речи лиц, не участвовавших в получении обучающей выборки (для двух новых дикторов средняя надежность распознавания 97 и 92%).

S 1.3. Развитие систем распознавания/понимания слитной речи

Задача общения человека и ЭВМ с помощью естественной,слитной речи оказалась гораздо более сложной, чем построение систем распознавания изолированных слов. Одной из первых практических систем распознавания последовательности слитных словосочетаний (пять слов исходного словаря) явилась система фирмы KdC .описанная ранее.

В дальнейшем будем различать системы распознавания *и системы понимания слитной речи. В первых, как правило, рассматриваются фразы, составленные из последовательности слов, между которыми синтаксическая и семантическая связь либо отсутствует,либо слишком жесткая (используется автономная грамматика).Системы понимания, в отличие от систем распознавания, при декодировании входного высказывания используют высшие лингвистические уровни языков, близкие к естественным, работая с фразами, в которых допустимы стилистические ошибки, бессмысленные звуковые сочетания, произвольные паузы и междометия.

При построении систем понимания речи необходимо в большей степени, чем при создании систем распознавания слитной речи, использовать опыт специалистов по искусственному интеллекту, а также привлекать специальные знания о синтаксисе, семантике и прагматике языка общения. В то же время отметим, что деление на системы автоматического распознавания и понимания является 20

достаточно условным и фактически определяется коэффициентом ветвления, который показывает, сколько возможных слов допускается после каждого слова высказывания. В современных системах распознавания слитной речи средний коэффициент не превышает,как правило, 30 (в системе Nac-ISQ), а в системах понимания этот коэффициент достигает 200-300 (бессмысленные звукосочетания типа цмм ... , эээ ... и т.д., а также паузы и междометия можно рассматривать в СПР как возможные варианты слов).

Так как автоматическое распознавание 300 - 300 слов в непрерывном речевом потоке - сложная задача, веди использовать обычные математические методы распознавания, то для ее решения и привлекаются высшие уровни знания о языке (синтаксис, сематика и прагматика), а также другие способы, обеспечивающие сужение числа альтернатив на каждом шаге принятия решения о слове, используемые обычно в задачах искусственного интеллекта (ИИ). В связи с этим в системах понимания говорят о семантической точности распознавания смысла фразы, когда не все составляющие (слова) могут быть распознаны правильно.