ВЫДЕЛЕНИЕ ЛЕКСИЧЕСКИХ ЭЛЕМЕНТОВ

 

 

 

К лексическим элементам (в контексте синтеза и распознавания речи) относят:

  • фонемы

  • аллофоны.

Фонема — минимальная смыслоразличительная единица языка.

Фонема не имеет самостоятельного лексического или грамматического значения, но служит для различения и отождествления значимых единиц языка (морфем и слов)

Для обозначения звука, когда он рассматривается со стороны фонологической, пользуются термином фонема.

Фонема как абстрактная единица языка соответствует звуку речи как конкретной единице, в которой фонема материально реализуется.

Звуки речи бесконечно разнообразны; достаточно точный физический анализ может показать, что один человек никогда не произносит одинаково один и тот же звук. Однако пока все эти варианты произношения позволяют правильно опознавать и различать слова, звук во всех его вариантах будет являться реализацией одной и той же фонемы.

Фонема — объект изучения фонологии, играет важную роль при решении задач синтеза и распознавания речи.

Аллофон — реализация фонемы, её вариант, обусловленный конкретным фонетическим окружением.

Совокупность всех возможных позиций, в которых встречаются аллофоны одной фонемы, называется дистрибуцией фонемы.

Носители языка хорошо распознают фонемы, то есть смыслоразличительные единицы языка, и не всегда в состоянии распознать отдельные аллофоны одной фонемы.

Фонемы в сознании говорящих обычно представлены основными аллофонами.

Основные аллофоны обычно реализуются в сильной позиции звука. Сильная позиция — это позиция, в которой возможно максимальное количество фонем данного типа.

Невозможно выделить из речи фонемы и аллофоны, анализируя только форму огибающей звукового сигнала.

Нельзя ограничиться составлением базы данных из записей звуковых сигналов всех фонем, аллофонов и других лексических элементов для последующего сравнения формы сигналов в процессе распознавания.

Требуется  предварительная обработка звуковых сигналов.

Перед тем как предпринимать попытки распознавания речи, нужно выполнить предварительную обработку речевого сигнала. В ходе этой обработки следует удалить шумы и посторонние сигналы, частотный спектр которых находится вне спектра человеческой речи. Такую обработку можно выполнить при помощи аналоговых или цифровых полосовых фильтров.

Отфильтрованный звуковой сигнал нужно оцифровать, выполнив аналого-цифровое преобразование.

Всю предварительную обработку звукового сигнала можно сделать при помощи стандартного звукового адаптера, установленного в компьютере. Дополнительная цифровая обработка звукового сигнала (например, частотная фильтрация) может выполняться центральным процессором компьютера. Таким образом, при использовании современных персональных компьютеров системы распознавания речи не требуют для своей работы какого-либо специального аппаратного обеспечения.

Важным этапом предварительной обработки входного сигнала является нормализация уровня сигнала. Это позволяет уменьшить погрешности распознавания, связанные с тем, что диктор может произносить слова с разным уровнем громкости.

Заметим, однако, что если входной звуковой сигнал имеет слишком малый уровень громкости, то после нормализации может появиться шум. Поэтому для успешной работы системы распознавания речи необходимо отрегулировать оптимальным образом чувствительность микрофона. Чрезмерная чувствительность может привести к нелинейным искажениям сигнала и, как следствие, к увеличению погрешности распознавания речи.

Информации об амплитуде и форме огибающей речевого сигнала не достаточно для выделения из речи лексических элементов. В зависимости от различных обстоятельств форма огибающей речевого сигнала может меняться в широких пределах, что затрудняет задачу распознавания.

Для решения задачи распознавания необходимо выделить первичные признаки речи, которые будут использованы на последующих этапах процесса распознавания. Первичные признаки выделяются посредством анализа спектральных и динамических характеристик речевого сигнала.

Спектральное представление речи.

На первом этапе осуществляется получение частотного спектра речевого сигнала с помощью набора программных полосовых фильтров (выполняя дискретное преобразование Фурье).

На втором этапе выполняются преобразования полученного спектра речевого сигнала (логарифмическое изменение масштаба в пространстве амплитуд и частот; сглаживание спектра с целью выделения его огибающей; кепстральный анализ (cepstral analysis), т.е. обратное преобразование Фурье от логарифма прямого преобразования).

Перечисленные выше преобразования позволяют учитывать такие особенности речевого сигнала, как понижение информативности высокочастотных участков спектра, логарифмическую чувствительность человеческого уха, и т.д.

Помимо спектральных характеристик, необходимо учитывать и динамические особенности речи.

Для этого используют дельта-параметры, представляющие собой производные по времени от основных параметров.

При этом мы можем отслеживать не только изменение параметров речи, но и скорость их изменения.

Выделение фонем и аллофонов

Для выделения фонем и аллофонов  применяются нейронные сети и метод формирования нейронных ансамблей.

При этом обучение выделению примитивов речи (фонем и аллофонов) может заключаться в формировании нейронных ансамблей, ядра которых соответствуют наиболее частой форме каждого примитива.

Формирование нейронных ансамблей представляет собой процесс обучения нейронной сети без учителя, при котором происходит статистическая обработка всех сигналов, поступающих на вход нейронной сети. При этом формируются ансамбли, соответствующие наиболее часто встречающимся сигналам. Запоминание редких сигналов происходит позже и требует подключения механизма внимания или иного контроля высшего уровня.


 

А.В. Фролов, Г.В. Фролов, Синтез и распознавание речи. Современные решения

 

 

kmp