Машины, которые говорят и слушают

1.4.2. Повышение качества синтезируемой речи. Несмотря на появление коммерческих систем автоматического речевого ответа,син​тетическая речь еще ке качественна. Поэтому в лабораториях мира продолжают энергично работать над проблемой синтеза речи. В тру​дах ежегодных международных конференций по акустике речи и обра​ботке сигналов, которые проводятся Институтом инженеров по электро​технике и радиоэлектронике США с 1976 г., большинство докладов посвящено автоматическому синтезу. Работы относятся к самым раз​личным языкам.

В С 115] описана разрабатываемая для шведского языка сис​тема "текст-речь", базирующаяся на правилах перевода буквенной информации в фонетическую. Система синтеза состоит из последова​тельности преобразований, каждое из которых отражает часть знаний о речевое процессе. Отмечается, что для получения качественной речи целесообразно математизировать использование таких просоди​ческих параметров, как длительность звуков и интонация. При фор​мализации правил преобразования был использован опыт работ по созданию систем "текст-речь", проводимых в США, и учтен тот факт, что фонетическое представление высказываний в шведском языке бо-яее простое, чем в английском.

Наибольшие трудности вызывает поиск в неразмеченном знаками ударения тексте ударных слогов, а также слогов вторичного ударе​ния ( aecondary stressed syllable ). Во время этого поиска сле​дует использовать различные ключевые индикаторы, такие как сдво​енные гласные, некоторые окончания и комбинации гласных с соглас​ными, образующими ударные слоги.

50

разработаны основные правила преобразования фонетической це​почки в синтезированную акустическую волну.Эти правила, для фор​мализации которых создан специальный язык, работают на сегмент​ном уровне. Например, правило, определяющее длительность сегмента, запювется<"segment>—< DURATION - Т * ЙХР (-ЬОО(В)* 0,12 - LOG(A>*

« 0,35)> ,

где Т - номинальная длительность; А,В,С, - переменные, зависящие от позиции и длительности слова или фразы.

В [Иб] сообщается о системе речевого синтеза, разрабо​танной для английского языка в Bell Laboratories. Система обес​печивает более высокое качество синтезируемой речи за счет» I) более точных правил определения длительности звуков речи, осно​ванных на измерениях, которые продесаны на участках естествен​ной речи; 2) расширяющихся правил учета аллофонических изменений как функции словесных и других границ; 3) введения большого числа правил просодии нижнего уровня, учитывающих особенности речеобра-эования (ассимиляцию звуков, изменения внутри звукосочетания сог​ласных, контекстную зависимость гласных и т.д.); 4) правил, учиты​вающих медленные изменения параметров модели голосовых связок и шумового источника возбуждения. Многие особенности системы син​теза речи Bell Laboratories рассмотрены также в С75,Ь9].В [69], в частности, довольно подробно описаны свойства просодии англий​ского языка.Предполагается различать просодию высшего (собственна Просодические функции) и просодию низшего уровней (их акустичес​кие компоненты) и использовать правила просодии для повышения ка​чества синтезируемой речи.

При исследовании слитной речи выявилось, что в английском языке:

- главный фактор, определяющий длительность гласных, - пози​ция гласной в слове, а слова - в предложении (или в синтагме);

гяасная имеет наибольшую длительность, если она находится в пос​леднем слоге перед паузой; это объясняется особенностями кон​тура основного тона перед паузой, что значительно удлиняет глас​ный; различие длительности гласных в предпауэальной и непредпау-эальной позициях приблизительно находится в соотношении 2:1;

- последующие согласные укорачивают длительность гласного Ьо сравнению с некоторым средним значением), если за гласным сле​дует глухой взрывной (характеризуемый смычкой), и удлиняют, если за гласным следует звонкий фрикативный; наибольшее влияние на дли​тельность гласных согласные оказывают в предпаузальной позиции;

-.длительность безударных гласных, если они не находятся

в конце слова, составпяет около 40 мс; в конечных позициях они Содее длительны;

51

- дифтонгизация сильно удлиняет гласную;

- на длительность согласных основное влияние оказывают 2 фак​тора: положение согласной относительно ударного сдога и границ слова или предложения и консонантность окружения;