Машины, которые говорят и слушают

В нашей стране наблюдается широкий интерес к проблеме исследования речевых сигналов. Регулярно проводятся всесоюзные школы-семинары по проблеме автоматического распознавания слуховых образов (APGO). В каждой союзной республике существуют лаборатории или группы, решающие эти задачи.

Стало традиционным классифицировать системы автоматического распознавания речи на адаптивные, работающие с подстройкой под диктора и словарь, и неадаптивные, обеспечивающие работу с произвольным диктором-носителем нормы произношения данного языка. К практическим системам первого типа относятся vip- юо, WRS и ИКАР, СРД-1, МАРС, к неадаптивным - экспериментальные системы лаборатории Bell, ВЦ и ИППИ АН СССР, устройство фирмы Dialog Systems . Следует отметить, что системы автоматического распознавания речи пока не получили широкого распространения, хотя и выпускаются с 1973 г. серийно.

Более доведенными до уровня коммерческих образцов являются системы автоматического речевого ответа, т.е. системы, основанные на автоматическом синтезе речи. Промышленность США и Японии выпускает большими партиями синтезаторы речи, ориэнтированные на самое разнообразное применение, - от детских игрушек,оснащенных голосовым выводом, до мощных информационных систем, отвечающих голосом по речевому запросу пользователя. В основе современных

б

коммерческих систем речевого ответа лежат три основных способа синтеза - непосредственное кодирование речевой волны (дискретизация и сжатие), формантный синтез и синтез, основанный на линейном предсказании [5]. (Подробное описание достижений науки и промышленности в области автоматического синтеза речи дано

в § 1.4).

В пятой главе подробно рассматриваются особенности разработанной авторами экспериментальной запросной системы речевого ввода, работающей с проблемно-ориентированным языком, словарный запас которого составляет 120 слов. Система базируется на аппаратурно-программном методе распознавания, использующем информативные признаки речевых отрезков ^23,13,9?].

§ I.<i. Современные тенденции построения практических систем распознавания речи

В середине 70~х гг. получили распространение системы распознавания речи, предназначенные для промышленного использования. Важнейшие требования к таким системам - высокая точность и реальное время распознавания высказывания. Постепенно стал накапливаться опыт эксплуатации подобных систем, который определил их дальнейшее развитие. Первые практические системы автоматического речевого ввода информации обладали рядом положительных свойств, необходимых для пользователей. Мартин [&8] отмечает, что к таким свойствам можно отнести мобильность и возможность совмещения работ оператора, гибкость словаря, 100% точность распознавания (при использовании обратной связи), стабильность эталонных данных и уверенность оператора, контактирующего с системой, обладающей высокой точностью распознавания. Главными недостатками первых систем можно считать длительную подстройку под диктора и словарь, малый объем словаря, отсутствие помехозащищенности от слов, не входящих в рабочий словарь, проблемы фонового шума и шумов дыхания, высокую стоимость и т.д.

Первым широко внедренным устройством систем автоматического речевого ввода данных можно считать vip-ioo, подробно описанное в [58,134] .

В [13б] отмечается использование VXP-100 в конфигурации Threshold -500, которая дает возможность вводить информацию голосом в ЭВМ одновременно трем операторам. Указывается,что средняя точность распознавания слов в этих системах колеблется от 96,5 (для словаря из 35 слов и высокого уровня шумов) до 99,5%

(для словаря из 15 слов и тихого помещения). В [136] рассматривается использование vip - 100 для речевого ввода информации в ЭВМ станков с программным управлением. Отмечается, что для этих целей разработаны три специальные систейн: vw - 50, vno- 100 и virc - 200 с использованием соответственно 31 слова и слитного словосочетания, 4Ь и 65 слов.

Системы VHC -200 применяются для управления четырехшиин-дельными сверлильными станками и лазерами, iопользующимися для обработки полупроводников и сверхтвердых материалов, а также для управления токарными станками. Кроме того, эта система применяется для взаимодействуя с системой искусственного интеллекта и управления голосом.