Звучащей речи

Основные задачи современных систем распознавания и обработки

Структура программ распознавания и синтеза звучащей речи

Появление компьютеров оказало мощное влияние на технологию синтеза речи, т.к. от аналоговых устройств исследователи перешли к цифровым. Однако на начальном этапе использования компьютеров для синтеза речи исследователи использовали ограниченное количество речевых образцов, которые хранились в памяти компьютера, поэтому результатом работы первых систем был не собственно синтез звучащей речи, а восстановление этих образцов.

С 60-х годов XX века перед исследователями встала задача озвучивания любого сообщения, подобно тому, как человек читает тексты вслух. В результате получили развитие синтезаторы типа «Текст – Речь». В них впервые появился этап предварительной лингвистической обработки текста.

Современные синтезаторы речи включают два блока: блок лингвистической обработки текста, с помощью которого строится полная фонетическая транскрипция синтезируемого текста, а также блок акустического синтеза, который генерирует речевой сигнал.

Блок лингвистической обработки текста имеет достаточно сложную структуру, поскольку создание транскрипции включает несколько этапов: определение языка входного текста, устранение возможных орфографических ошибок, проведение морфологического анализа словоформ для постановки ударения. Самая трудная задача этапа лингвистической подготовки текста – формирование интонации и просодических характеристик фразы. Во многих случаях для этого необходим значительно более сложный семантический и синтаксический анализ фразы. Последний этап работы блока лингвистической подготовки текста – создание фонетической транскрипции. На этом этапе применяются стандартные правила чтения, при этом сложность и трудоемкость этого этапа определяется соотношением между орфографией и произношением каждого конкретного языка.

После создания фонетической транскрипции начинает работу второй блок синтезатора блок акустического синтеза. Его задача – перевод транскрипции в цифровой сигнал, который, в свою очередь, преобразуется в звуковые колебания при помощи обычного цифро-аналогового преобразователя.

 

Для создания систем автоматического распознавания речи необходимо решить чрезвычайно трудную задачу – формализовать естественный диалог. Трудность этой задачи не только практическая, но и теоретическая. Достаточно сказать, что до сих пор не существует единой теории диалога, в которой были бы учтены лингвистические, социологические и психологические данные исследований.

Задача систем автоматического распознавания речи состоит в установлении того, что было сказано, и выдаче результата, например, в виде фонетической транскрипции или записи другого вида. Для таких систем важно, чтобы не было никакой посторонней информации, кроме акустической. Иными словами, данные системы не ориентированы на распознавание смысла высказывания.

Имеющиеся лингвистические и акустические знания недостаточны для создания эффективной системы по автоматическому распознаванию речи, поэтому ученые обратились к спектральному анализу речевого сигнала.

Спектральный анализ предполагает установление того, какие частоты участвуют в образовании данного звука и какова их интенсивность по отношению друг к другу. В результате спектрального анализа ученые получают амплитудно-частотные спектры. Спектральный анализ стал методом анализа звуков, поскольку известно, что человеческое внутреннее ухо осуществляет предварительный спектральный анализ речевого сигнала непосредственно перед поступлением его в мозг.

Для проблемы автоматического распознавания существенны следующие параметры распознающей системы: количество распознаваемых единиц; ограничения, связанные с голосом диктора; распознавание интонации, акцентов, особенностей произношения, а также время и условия распознавания.

Сегодня наиболее успешно с распознаванием речи справляются те системы, которые используют статистические и вероятностные модели звучащей речи.