Речевые технологии

Файл : 240-2022.DOC

Перспективы речевого интерфейса

Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие и применение этой технологии только начина​ется (в который раз). С одной стороны, успели сформировать​ся устойчивые стереотипы и пре​дубеждения, с другой - несмот​ря на почти полвека настойчивых усилий не нашли разрешения вопросы, стояв​шие еще перед родоначальниками речевого ввода. Как бы то ни было, продолжат​ся поиски такого интерфейса, ко​торый устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

Исследователи недалеко про​двинулись за прошедшие десятки лет, что заставляет некоторых спе​циалистов крайне скептически от​носиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практи​чески решена. Впрочем, все зави​сит от того, что следует считать решением этой задачи.

Построение речевого интер​фейса распадается на три состав​ляющие.

Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную ин​формацию. Пока что, на нынеш​нем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (пони​мание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клави​атуры микрофоном.

Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дуб​лирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход бу​дет удобнее, чем ввод этих же ко​манд с клавиатуры или при помо​щи мыши. Пожалуй, даже удоб​нее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим); «Старт! Главное меню! Бери!» В идеале компьютер должен четко «осмысливать» ес​тественную речь человека и пони​мать, что, к примеру, слова «Хва​тит!» и «Кончай работу!» означа​ют в одной ситуации разные по​нятия, а в другой - одно и то же.

Третья задача состоит в том, чтобы компьютер мог преобразо​вать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.

Так вот, из этих трех задач достаточно ясное и окончатель​ное решение существует только для третьей. По сути, синтез речи - это чисто математическая за​дача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего, будет совершен​ствоваться только ее техническая реализация.

Препятствием для окончательного решения первой задачи слу​жит то, что никто до сих пор тол​ком не знает, каким образом мож​но расчленить нашу речь, чтобы извлечь из нее те составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов , об этом более подробно я Вам расскажу позже .. Во всяком случае, после предварительной тренировки современные системы распознавания речи работают довольно сносно и делают оши​бок не больше, чем делали оптические системы распознавания пе​чатных символов лет пять-семь назад.

Что касается второй задачи, то она, по мнению большинства спе​циалистов, не может быть решена без помощи систем искусственно​го интеллекта. Последние, как из​вестно, пока не созданы, хотя боль​шие надежды возлагаются на по​явление так называемых кванто​вых. Если же подобные устройства появятся, это будет оз​начать качественный переворот в вычислительных технологиях, и тогда, как знать, может быть , мно​гие теперешние подходы к рече​вому интерфейсу вообще окажут​ся ненужными.

Поэтому пока удел речевого интерфейса - всего лишь дубли​рование голосом команд, кото​рые могут быть введены с клави​атуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область, которая для многих может ока​заться очень привлекательной. Это речевой ввод текстов в компью​тер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «ос​мысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большин​ство выпускаемых ныне программ «речевого интерфейса» ориенти​рованы именно на ввод речи.