Машины, которые говорят и слушают

Итак, допустим, что существует М фонетических групп слов W, , W^, . . . , W^ , . .., W^ , в каждой из которых^ одинаковое число опорных квазифонем. Общее число эталонов И/= U W^ , а ко​личество фонем, составляющих: слова (длина фонетической цепочки) каждой группы, об означим через I ; т= /,/И.

Представляя таким образом слова словаря на входе СРР и ис​пользуя матрицы ошибочной классификации фонем, составляющих слова

/Кй/&)-[Ру], (2.5) можно оценить вероятности p^(v /Wy) спутывания поверхностных

форм слов внутри каждой группы словследующим образом:

где

t = t, 2, . . . , t^ - длина фонетической цепочки группы слов ^ , а^ е ^ , Ь„ е иг,.

В общем случае одно и ъо же слово Wy может иметь К, поверхностных форм, имеющих разное число фонетических элементов и попадающих в разные группы слов W^, . Поэтому общую услов​ную вероятность "спутывания" слов словаря определим

(2.8)

P(v^/w,l= Г P(w^) р^ ( ^ /г^-) .

Для определения потери информации в СРР, которая рассматрива​ется как канал перэдачи информации, в случае распознавания слов используем выражение

86

(2.9)

KV/W)-- -Z p(w,)i p(v^/ w^ locj^ p( v^ /v/,).

/ (V/W)

Тогда 2 определяет эквивалентный размер словаря —

число альтернативных слов на входе системы распознавания, а

2й v) - фактический объем входного словаря, где

R

Х

г'1

(2.10)

Эти выражения, аналогичные формулам (2.4), (2.5), оцениваю​щим фонетическую неопределенность, являются критерием оценки лексической неопределенности. Они определяют сложность распознава​ния словаря и позволяют судить о качестве СРР. При автоматичес​кой маркировке, наряду с ошибками неверной кдассификации фонем, существуют, как уже отмечалось, ошибки неверной сегментации, при​водящие к слиянию отрезков, соответствующих смежным фонемам, в один сегмент или расчленению отрезка, соответсвувщего одной фонеме, на несколько смежных фонем разных классов. При выборе альтернативных слов словаря надо следить за тем, чтобы неприят​ности такого рода не вызывали подобия последовательностей фоне​тических единиц, соответствующих разным словам. Для этого необ​ходимо использовать матрицы, отражающие возможные варианты сег​ментации слов словаря и частоты встречаемости тех или иных вари​антов сегментации, соответствующих различит поверхностным фориам слов. Так как информация о словах, содержащихся в фонемах,избы​точна, то часто при оценке различимости слов словаря вполне достаточно использовать опорные фонемы, допускающие минимум оши​бок расчленения и слияния. Поэтому в формуле (<i.7) дяя прибли​женной оценки спутывания слов необходимо в первуи очередь ис​пользовать вероятности ошибочного распознавания таких опорных фонем, которые в данном слове не дают ошибок слияния и расчлене​ния.

§ 2.3. О языке описания данных в системе автоматического речевого запроса информации

2.3.1. Понятийный язык и двухступенчатое иерархическое пос​троение его грамматического представления. Информационные сис​темы, стояь распространившиеся в настоящее время, требувФ обще​ния с ними с помощью устной речи на языяв, близком к естествен​ному. Необходимая нам информация должна быть выдана по запросу

Зак.480

89

последовательности понятийных дескрипторов, которую человек может произнести, не используя жесткого порядка следования этих дес​крипторов. Такое представление совокупности дескрипторов - поня​тийного поля не только обеспечивает естественность запроса ин​формации из базы данных, но и фактически не увеличивает времени поиска релевантной информации, так как при этом учитываются от​ношения между понятиями и используется иерархический принцип с ыниыой иерархией, обеспечиваемой перестраиваемой структурой дори​ческого дерева. В связи с этим можно представить общую грам​матику 6 формирования понятийного поля, включающего посведо-вательность предложений, которые дают информацию о структуре дег.криптов, в виде иерархически связанных граыиатик верхнего и нижнего уровней. (Процесс формирования свободных от ошибок словесных цепочек, полученных в результате автоматического рас​познавания слов и устного редактирования, рассматривать здесь не будем .) Грамматика верхнего уровня G" определяет общую струк​туру понятийного поля, а языки, обусловленные грамматиками ниж​них уровней б[ , конкретизируют порождение предложений на уров​не формирования понятийных фраз. Грамматика G" допускает по​явление понятий (они выражены запросными фразами S^ ), форми​рующих смысл запроса, в произвольном чередовании. Иными словами, порождающая грамматика последовательности понятий - есть простей-вая грамматика типа 0 (по Хомскому), в которой нетерминальными символами vh являются обобщенный дескриптор понятийного поля (поисковый образ запроса) и понятийный уровень, а терминальными V - конкретное наименование понятий (названия уровней) ^ . Не​терминальный символ { обобщенный дескриптор понятийного поля j является начальным символом S в грамматике в", а правила вы​вода р сводятся к допустимости перестановок терминальных сим​волов s.—^s-.такчто для понятий s,,Sg,...,5^ язык, обус​ловленный этой грамматикой, допускает К ' предложений длины К , в каждом из которых все понятия различны: