Гомоморфная обработка речи.

Рис. 2. Гребенка фильтров.

Иногда частотный диапазон разбивают на неравные полосы с учетом особенностей слухового восприятия человека. Экспериментально установлено, что во внутреннем ухе человека высота тона (частота) звукового сигнала преобразуется в механические колебания определенных участков базилярной мембраны. При этом линейным приращениям координаты вдоль тела мембраны соответствуют логарифмические приращения частоты звука, т.е. частота звука, воспринимаемого человеком, нелинейно зависит от действительной физической частоты. Это приводит к неодинаковой разрешающей способности по частоте и к восприятию звуков в соответствии с механизмом критических частотных полос. Сложный звук постоянной громкости, состоящий из нескольких тонов, лежащих в пределах критической полосы, воспринимается человеком с таким же субъективным ощущением, как одно-тональный звук, соответствующий центральной частоте критической полосы. Ширина критических полос для области частот до Гц составляет примерно Гц. Выше Гц ширина критических полос увеличивается примерно на по сравнению с шириной предыдущей полосы. Ширина критических полос аппроксимируется зависимостью:

[Гц].

Для характеристики субъективных частот, воспринимаемых человеком, предложено несколько шкал: барк-шкала, мел-шкала. Функция

[Барк]

используется для перевода частот, заданных в герцах, в барки.

Гребенка (банк) фильтров с неравными полосами пропускания, заданными в герцах и соответствующими критическим полосам слуха, будет иметь равномерное распределение центральных частот и равные значения полос пропускания, измеренных в барках. Таким образом, применение барк-шкалы соответствует равномерному разбиению оси субъективных частот. Мел-шкала вводится с аналогичной целью и имеет незначительные отличия от барк-шкалы.

Кратковременный спектральный анализ речи может быть также выполнен на основе ДПФ. Кратковременное дискретное преобразование Фурьеопределяется следующим образом:

, (3)

где представляет отрезок речи, взвешенный окном , длиной отсчетов:

, . (4)

Один из алгоритмов определения частоты основного тона основан на вычислении произведения:

. (5)

Значения, вычисляемые с помощью (5), могут быть весьма большими. Для уменьшения значений вычисляют логарифм от (5). Зависимость представляет произведение функций , сжатых по частоте. В вокализованной речи сжатие частоты в раз должно привести к совпадению гармоник основного тона. Благодаря этому в спектре появляется максимум на частоте основного тона. Невокализованная речь характеризуется существенно меньшими значениями и она не имеет максимума в спектре на частоте основного тона. Данный способ определения частоты основного тона устойчив к шумам, поскольку шумовые компоненты в спектре не регулярны.

Речевой сигнал является сверткой функции возбуждения (случайного шума либо квазипериодической последовательности импульсов) и импульсной характеристики голосового тракта. Гомоморфный анализ речи позволяет разделить эти компоненты. Поэтому, используя гомоморфный анализ, можно определить период основного тона и частотные свойства голосового тракта. Общая схема гомоморфной обработки приведена на рис. 3.

Рис. 3. Общая схема гомоморфной обработки.

В соответствии с этой схемой сначала выполняется нелинейное преобразование сигнала , которое определяется отношением:

. (6)

Затем выполняется оператор , который соответствует линейной инвариантной системе. В конце реализуется преобразование .

Пусть сигнал является сверткой двух последовательностей и . Тогда:

. (7)

Подставив (7) в (6), получим:

. (8)

Линейная инвариантная система пропускает на выход только одну из компонент или . Соответственно обратное преобразование дает или . Следовательно, гомоморфная обработка разделяет входные компоненты и , содержащиеся во входном сигнале.

Рис. 4. Гомоморфная система анализа речи.

Гомоморфная система анализа речи показана на рис. 4. Здесь на первом этапе вычисляется логарифм модуля кратковременного преобразования Фурье. Если предположить, что сигнал в точке А является сверткой функции возбуждения и импульсной характеристики голосового тракта, то в точке С мы получим сумму логарифмов спектра функции возбуждения и импульсной характеристики голосового тракта. Сигнал в точке D, полученный с помощью обратного дискретного преобразования Фурье, называется кепстром. Кепстр в точке D равен сумме кепстров функции возбуждения и импульсной характеристики голосового траста.