РЕЧЕВОЙ СИГНАЛ

 

 

Диапазон речевого сигнала

Частотный диапазон речи - объём звучания голоса, определяемый интервалом между доступными им самым низким и самым высоким звуками.

Частотный диапазон речи находится в пределах 70-7000 Гц.

 

При оценке уровня громкости звука в качестве эталона звукового давления P0 выбирается его минимальное значение на частоте 1 кГц, при котором звук становится уже слышимым, т.е. P0=2×10-5Н/м2.

Уровень звукового давления определяется соотношением

,где P - значение звукового давления.

Динамический диапазон речи - разность между максимальным и минимальным уровнями сигналов.

Динамический диапазон речи составляет 35-45 Дб.

 

 

 

 

Цифровое представление речевого сигнала

 

Цифровая система звукозаписи требует представления аналогового речевого сигнала в цифровом виде.

В результате аналого-цифрового преобразования (АЦП) непрерывный сигнал переводится в ряд дискретных отсчетов sk каждый из которых представляет собой целое число, характеризующее аналоговый сигнал в этой точке с определенной точностью.

Точность представления зависит от ширины диапазона получаемых чисел, а следовательно от разрядности АЦП.

Процесс разбиения сигнала на отсчеты носит название дискретизации.

Число отсчетов в секунду называется частотой дискретизации.

Частота дискретизации νD согласно теореме Котельникова должна быть, по крайней мере, в два раза выше максимальной частоты преобразуемого аналогового сигнала. Дело в том, что спектр сигнала, преобразованного с помощью АЦП в цифровую форму, имеет периодический характер. (Спектр сигнала - это его отображение, характеризующее интенсивность и распределение частотных составляющих сигнала.)

Сигнал после АЦП имеет кроме низкочастотной части спектра, отображающей аналоговый сигнал, еще и высокочастотные компоненты: низкочастотный спектр сигнала повторяется в виде боковых полос с центрами в точках, кратных частоте дискретизации (νD, 2νD, νD и т.д.).

При уменьшении частоты дискретизации произойдет наложение низкочастотной части спектра и боковой полосы с центром в точке νD.

Наложение спектров приводит к появлению новых спектральных составляющих в сигнале, а значит, к его искажению.

В звукозаписи наложение спектров можно убрать, установив перед АЦП фильтр низких частот, подавляющий все частоты, лежащие выше половины частоты дискретизации.

Так как на практике нельзя выполнить фильтр с отвесным спадом частотной характеристики, значение частоты дискретизации выбирается несколько больше, чем удвоенное значение верхней частоты спектра речевого сигнала, например, νD=22,05 кГц.

Процесс измерения сигнала с округлением до разряда АЦП носит название квантования.

Задаваясь требуемым динамическим диапазоном цифровой системы звукозаписи, необходимое число разрядов квантования можно определить из выражения D=6n+1.8 , где D - динамический диапазон (в Дб), n - число двоичных разрядов.

Отсюда получаем, что для записи речи необходимо отводить не менее восьми бит на каждый отсчет.

Кадр X (длины N) - конечная последовательность отсчетов речевого сигнала s1,...,sk,...,sN.

Реализация фразы - цифровая запись произнесения фразы в виде последовательности кадров X(1),...,X(t),...,X(L), где L - длина реализации, X(t)=s(t)1,...,s(t)k,...,s(t)N. Длина кадра фиксирована, например, N=256, что при частоте дискретизации νD=22,05 кГц соответствует длительности по времени 11,6 мс.

 

 

Параметры речевого сигнала

 

При распознавании и синтезе речевых сигналов, как правило, оперируют не с исходным речевым сигналом, а с его параметрами, вычисленными на кадре.

Кадр X (длины N) - конечная последовательность отсчетов речевого сигнала s1,...,sk,...,sN.

Кадр определяет периодическую функцию с периодом 1, заданную на сетке из точек вида xl=l/N:

fl=f(xl)=sk+1, если l=Nt+k, где 0≤kN-1, t - целое.

Длина кадра обычно выбирается такой, чтобы длительность кадра по времени T=N/ν (сек.) составляла 10-20 мс.

Пусть на текущем кадре длины N наблюдается последовательность отсчетов s1,...,sk,...,sN .

Рассмотрим основные параметры речевого сигнала, используемые ниже.

  1. Кратковременная энергия речевого сигнала

    .

  2. Число нулей интенсивности Z

    ,

    где .

  3. Коэффициенты разложения в ряд Фурье c0,c1,...,cN/2

    Определяемую кадром периодическую функцию можно разложить в ряд Фурье, т.е. представить в виде

    .

    Скалярное произведение для функций на сетке определяется сдедующим образом:

    .

    Функции gq(xl)=exp{2πiqxl} при 0≤q<N образуют ортонормированную систему относительно так введенного скалярного произведения. Коэффициенты Фурье можно найти по формуле

    (*)

    Непосредственное осуществление этих преобразований требует O(N2) арифметических операций.

    Для сокращения этого числа применяется алгоритм быстрого преобразования Фурье.

    Алгоритм основан на том, что при N=2m в слагаемых правой части выражений (*) можно выделить группы, входящие в выражения различных коэффициентов Aq.

    Вычисляя каждую группу только один раз можно сократить число операций до O(N×log2N). Если N≠2m, то в нашем случае можно добавить нулевые отсчеты.

    Разложение в ряд Фурье дает представление речевого сигнала в виде суммы гармонических колебаний с частотами ν(q).

     Запишем соотношение между частотой ν(q) и индексом q:

    ν(q) = qνD/N = 2-mqνD при q=0,1,...,N/2.

    Здесь νD - частота дискретизации.

    Значения спектра от q = N/2 + 1 до N-1 не содержат новой информации, т.к. значения fl действительны.

    Более точно

    при q=0,1,...,N/2.

    Удвоенное значение Aq - это комплексная амплитуда. Вещественные амплитуды получаются из них по формулам:

    c0=A0, cq=2|Aq| при q=1,...,N/2.

  4. Распределение энергии сигнала по частотным группам p1,...,p20

    Одним из важнейших свойств слуха является разделение спектра звука на частотные группы.

    Слух может образовывать частотные группы на любом участке шкалы частот.

    В области частот ниже 500 Гц ширина частотных групп почти не зависит от средней частоты групп и составляет примерно 100 Гц.

    В области выше 500 Гц она увеличивается пропорционально средней частоте.

    Если частотные группы совместить в один ряд, то в диапазоне от 70 Гц до 7 кГц разместятся 20 частотных групп.

    Распределение энергии по частотным группам можно найти либо непосредственно с помощью гребенки соответствующих фильтров, либо с помощью коэффициентов разложения в ряд Фурье.

    Значение pi для частотной группы от частоты νi-1 до νi с шириной Hiii-1 определяется по формуле:

    .

 

 27.09.2013

kmp