Машины, которые говорят и слушают

Машины, которые говорят и слушают

Зак.480 57

дизовать просодику по фонетической цепочке. Так, для выявления динамики основного тона на всем высказывании учитывалось,что од, повременно накладываются друг на друга три явления. Первое обус​ловлено изменением основного тона на всем предложении, второе -контуром основного тона на двух соседних словах ( "элементарный контур") и третье - ыикроваризции основного тона на отдельных звуках.

Структура системы синтеза, основанного на объединении ди-фонов, рассмотрена также и для итальянского языка [160, 181].Ди-фоны представлены кодами lpc. Система проектируется с ориен​тацией на многоканальность и ответ в реально».' времени. Для каж​дого выходного канала этой системы автоматического речевого от​вета выполняются действия: предварительная обработка входной це​почки символов, трансляция в соответствующую последовательность дифонов, порождение просодического контура и управление в реаль​ном времени аппаратурой синтезатора.

Блокл речевого ответа, подключенные к телефонным линиям, могут обеспечивать пользователям получение информации в речевом виде. Основное применение такого оборудования - информационно-по​исковые системы, читающие текст автоматические устройства для сле​пых, в связи с чем к системе предъявляются требования: неогра​ниченный словарь, хорошее качество и естественность речи, возмож​ность подключения систем речевого ответа к разным каналам.Матобе с-печение выполняет все действия, необходимые для преобразования входного текста в последовательность команд, необходимых для уп​равления аппаратурой синтезатора, описанного в [160].

Система синтеза основывается на объединении коротких ре​чевых элемэнтов (дифонов), которые включают переходный участок от согласного к последующему гласному CV , квазистационарный участок гласного V2 и начальный участок гласного звука в на​чале слова VI.

Элементарные дифоны, извлекаемые из естественной речи, ко​дировались в соответствии с акустической моделью речеобразова ния. Математическая модель состоит только из полюсного фильтра, представляющего вокальный тракт, и источника возбуждения. Пара​метры, описывающие вокальный тракт, - это коэффициенты отражения неоднородной акустической трубы, подученные использованием методе линейного предсказания.

При записи информации о дифонах в память используется сле​дующая схема. Первый байт каждого дифона показывает число сре' зов, Используемых для кодирования втого дифона. После атог» каждый фрейм, кодирующий срез дифона, описывается 13 байтами;

56

представляющими коэ^ициент усиления G ,10 ко-^ициентов отраже​ния К, . параметр озвонченности V/UV и длину D этого фрейма. В среднем для кодирования дифонов приходится около 7-6 фреймов. Общий объем памяти для запоминания 150 дифонов - около 15 кбайт.

Наиболее важным преимуществом дифонного синтеза, обеспечи​вающим довольно высокую естественность синтетической речи, явля​ется возможность отгэсительно легкой модификации просодических параметров. Просодический контур порождается правилами, которые используют знание фонетической природы дифонов и символы, вводи​мые модулями предварительной обработки.

В [I77J рассмотрен разработанный в США фирмой ВВЫ дифон" ный синтез для фонетического вокодера, работающего со скоростью 100 бит/с. С каждой финемой вокодер передает ее длительность и значение одного периода основного тона. Для синтеза необходи​мой фонемной цепочки использовался большой список дифонов. (Спи​сок дифонов отбирался таким образом, чтобы можно было различить предвокальные и пьствокзльные аллофоны сонорных согласных.) ду-фоны извлекались ис тщательно сконструированных бессмысленных коротких предложений и запоминались как последовательность LK3-параметров. Во время синтеза участки дифонов деформировались во времени, смыкались и сглаживались, формируя последовательную це​почку LPC- параметре в, которая использовалась при синтезе.

Дифон определялся как область от середины одной фонемы до середины следующей, что учитывает коартикучяционное влия​ние фонем, простирающееся, как правило, не более чем на поло​вину следующей фонемы. Для получения высококачественной речи потребовалось около 2000 дифонов. В некоторых случаях были за​писаны необходимые Трифоны (дифоны в контексте). Общий объем памяти, используемый при синтезе, менее 50 килобайт.