Цифровая система звукозаписи требует представления аналогового речевого сигнала в цифровом виде.
В результате аналого-цифрового преобразования (АЦП) непрерывный сигнал переводится в ряд дискретных отсчетов sk каждый из которых представляет собой целое число, характеризующее аналоговый сигнал в этой точке с определенной точностью.
Точность представления зависит от ширины диапазона получаемых чисел, а следовательно от разрядности АЦП.
Процесс разбиения сигнала на отсчеты носит название дискретизации.
Число отсчетов в секунду называется частотой дискретизации.
Частота дискретизации νD согласно теореме Котельникова должна быть, по крайней мере, в два раза выше максимальной частоты преобразуемого аналогового сигнала.
Дело в том, что спектр сигнала, преобразованного с помощью АЦП в цифровую форму, имеет периодический характер. (Спектр сигнала - это его отображение, характеризующее интенсивность и распределение частотных составляющих сигнала.)
Сигнал после АЦП имеет кроме низкочастотной части спектра, отображающей аналоговый сигнал, еще и высокочастотные
компоненты: низкочастотный спектр сигнала повторяется в виде боковых полос с центрами в точках, кратных частоте дискретизации (νD, 2νD, νD и т.д.).
При уменьшении частоты дискретизации произойдет наложение низкочастотной части спектра и боковой полосы с центром в точке νD.
Наложение спектров приводит к появлению новых спектральных составляющих в сигнале, а значит, к его искажению.
В звукозаписи наложение спектров можно убрать, установив перед АЦП фильтр низких частот, подавляющий все частоты, лежащие выше половины частоты дискретизации.
Так как на практике нельзя выполнить фильтр с отвесным спадом частотной характеристики, значение частоты дискретизации выбирается несколько больше, чем удвоенное значение верхней частоты спектра речевого сигнала, например, νD=22,05 кГц.
Процесс измерения сигнала с округлением до разряда АЦП носит название квантования.
Задаваясь требуемым динамическим диапазоном цифровой системы звукозаписи, необходимое число разрядов квантования можно определить из выражения D=6n+1.8 , где D - динамический диапазон (в Дб), n - число двоичных разрядов.
Отсюда получаем, что для записи речи необходимо отводить не менее восьми бит на каждый отсчет.
Кадр X (длины N) - конечная последовательность отсчетов речевого сигнала s1,...,sk,...,sN.
Реализация фразы - цифровая запись произнесения фразы в виде последовательности кадров X(1),...,X(t),...,X(L), где L - длина реализации, X(t)=s(t)1,...,s(t)k,...,s(t)N. Длина кадра фиксирована, например, N=256, что при частоте дискретизации νD=22,05 кГц соответствует длительности по времени 11,6 мс.
|