МОДЕЛИ СИНТЕЗА УСТНОЙ РЕЧИ

 

 

 

Синтез речи

Синтез речи:

  • восстановление формы речевого сигнала по его параметрам.

  • формирование речевого сигнала по письменному (печатному, электронному) тексту.

Синтезатор речи — структура, переводящая текст/образы в речь, в программном обеспечении и/или аппаратных средствах.

Голосовой движок — непосредственно система/ядро преобразования текста/команд в речь, это также может существовать независимо от компьютера.

Модели (алгоритмы) синтеза речи можно подразделить на группы:

  • конкатенативный (компилятивный) синтез;

  • параметрический синтез;

  • формантный синтез (по правилам);

  • предметно-ориентированный синтез.

 

 

 

 

Параметрическая модель синтеза речи

 

Параметрический синтез речи является конечной операцией в вокодерных системах, где речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров.

Параметрический синтез целесообразно применять в тех случаях, когда набор сообщений ограничен и изменяется не слишком часто.

Достоинством такого способа является возможность записать речь для любого языка и любого диктора.

Качество параметрического синтеза может быть очень высоким (в зависимости от степени сжатия информации в параметрическом представлении).

Однако параметрический синтез не может применяться для произвольных, заранее не заданных сообщений.

 

 

 

Модель компилятивного синтеза

 

Модель компилятивного синтеза предполагает синтез речи путем конкатенации (составления) записанных образцов отдельных звуков, произнесенных диктором.

При использовании этой модели составляется база данных звуковых фрагментов, из которых в дальнейшем будет синтезироваться речь.

Пользуясь микрофоном и звуковым редактором (например, редактором GoldWave) можно создать набор файлов различных звуковых фрагментов, а затем сохранить их содержимое в базе данных.

Создавая звуковые WAV-файлы с текстовыми сообщениями, можно озвучить операционную систему и ее приложения.

Модель компилятивного синтеза подходит, главным образом, только в простейших случаях, когда синтезатор должен произносить относительно небольшой и заранее известный набор фраз.

При этом обеспечивается довольно высокое качество речи.

Тем не менее, на стыке составляемых звуковых фрагментов возможны интонационные искажения и разрывы, заметные на слух. Кроме того, создание крупной базы данных звуковых фрагментов, учитывающей все особенности произношения фонем и аллофонов с разными интонациями, представляет собой сложную и кропотливую работу.

 

 

 

Модель формантного синтеза (по правилам)

Формантно-голосовая модель основана на моделировании речевого тракта человека.

Эта модель может быть реализована с применением нейронных сетей и допускает самообучение. К сожалению, ввиду сложности точного моделирования особенностей речевого тракта, а также учета интонационной модуляции речи формантно-голосовая модель обладает относительно низкой точностью синтезируемых звуков речи. Тем не менее, современные программы синтеза речи, построенные с использованием этой модели, синтезируют вполне разборчивую речь и могут применяться в ряде случаев.

Системы голосового предупреждения о возникновении аварийных ситуаций лучше строить с использованием модели компилятивного синтеза, так как разборчивость речи в таких системах выходит на передний план.

Что же касается «бытовых» синтезаторов речи, то в них можно с успехом применять и форманто-голосовую модель.

При построении модели используются данные об артикуляционном аппарате человека, а также данные фонетики и лингвистики.

В качестве исходного сигнала применяется комбинация голосового источника и генератора шума.

Прерыватель и резонансное устройство моделирует работу речевого тракта.

В результате этого моделирования образуется излучаемый звук речи.

При этом для достижения компромисса между качеством модели и ее сложностью были выбраны следующие основные параметры исследуемой системы:

  • частота основного тона;

  • частота шума;

  • количество формант;

  • центральная частота каждой форманты;

  • вклад каждой форманты.

Частота основного тона определяет высоту голоса.

Образование шума представляет собой достаточно сложный процесс, зависящий от многих факторов, таких как давление и скорость воздушной струи, геометрической формы воздушного тракта, акустических свойств материала и пр. Чтобы полностью смоделировать шум речи на физическом уровне, необходимо создать точную модель речевого аппарата человека, что представляет собой очень сложную задачу.

Количество активных формант, участвующих в образовании речи, обычно выбирается экспериментально

Вклад каждой форманты определяет, насколько сильно форманта воздействует на основной сигнал.

Все приведенные выше параметры, кроме количества формант, изменяются в процессе образования речи для получения различных звуков. Х

 

 

Нейроны

 

Нейрон (от др.-греч. волокно) — специализированная сложноустроенная клетка нервной системы.

Кора головного мозга человека порядка 100 000 000 000 нейронов.

В нейроне (условно!) выделяют:

  • ядро,

  • тело клетки,

  • отростки: дендриты и  аксоны (обычно только один аксон).

Взаимосвязанные нейроны образуют нейронную сеть.

Один нейрон может иметь связи с десятками тысяч других нейронов.

Искусственный нейрон (формальный нейрон, математический нейрон Маккалока — Питтса) — модель естественного нейрона (очень ... очень упрощенная).

Искусственный нейрон имеет один выхо (аксон) сигнал с которого может поступать на произвольное число входов других нейронов.

Искусственный нейрон (математически) - нелинейная функция линейной комбинации входных сигналов. 

Полученный результат посылается на единственный выход.

 

 

 

 

Искусственные нейронные сети

 

Искусственная нейронная сеть - модель соединённых и взаимодействующих между собой простых процессоров (искусственных нейронов).

Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам. Соединённые в большую сеть с управляемым взаимодействием, они вместе способны выполнять сложные задачи.

Математическая модель искусственного нейрона была предложена У. Маккалоком и У. Питтсом вместе с моделью сети, состоящей из этих нейронов и способной выполнять числовые и логические операции.

Практически нейронная сеть была реализована Фрэнком Розенблаттом в 1958 году как компьютерная программа, а впоследствии как электронное устройство — перцептрон.

Искусственная нейронная сеть состоит из нескольких слоев нейронов:

  • одного входного слоя (нейроны слоя принимают исходный вектор, кодирующий входной сигнал. Как правило, эти нейроны не выполняют вычислительных операций, а просто передают полученный входной сигнал на выход, возможно, усилив или ослабив его),

  • одного или нескольких внутренних (скрытых) слоев (нейроны этих слоев выполняют основные вычислительные операции),

  • одного выходного слоя (нейроны слоя представляют из себя выходы сети. В выходных нейронах могут производиться какие-либо вычислительные операции).

Поток обрабатываемой информации поступает на входной слой нейронов и проходит через внутренние слои, а результаты обработки информации выдаются через выходной слой нейронов.

Во внутренних слоях нейронов устанавливаются ассоциативные связи между входными и выходными сигналами нейронной сети.

Вариативность ассоциативных связей между входными и выходными сигналами обеспечивается за счет различия порогов чувствительности входов нейронов (синапсов) к входным сигналам.

Пороги чувствительности устанавливаются и корректируются в процессе обучения нейронных сетей.

 

 

 

Обучение нейронных сетей

Нейронные сети не программируются (в привычном смысле этого слова), они обучаются.

Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами.

Технически обучение заключается в нахождении коэффициентов связей между нейронами.

В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение.

В случае успешного обучения сеть сможет вернуть верный результат на основании данных, которые отсутствовали в обучающей выборке, а также неполных и/или «зашумленных», частично искаженных данных.

Обучение нейронных сетей:

  • с математической точки зрения — многопараметрическая задача нелинейной оптимизации,

  • с точки зрения кибернетики - решение проблемы адаптивного управления,

  • с точки зрения развития программирования — решение проблемы эффективного параллелизма.

 

 

 

Синтез речи с помощью нейронной сети

 

 

Модель синтеза речи с помощью нейронной сети.

  • Уровни выходов нейронов эффекторного слоя нейросети при помощи карты эффекторов преобразуются в значения выбранных параметров модели синтеза.

  • Карта эффекторов определяет соответствие между каждым нейроном эффекторного слоя и конкретным параметром модели синтеза, а также предельные значения каждого параметра.

  • Число эффекторов и число параметров модели может не совпадать.

  • Если параметру не соответствует ни один эффектор, используется некоторое фиксированное значение (значение по умолчанию).

  • Далее по текущему состоянию модели синтезируется сигнал в пространстве частот: генерируется линейка частот, представляющих голосовой источник.

  • На эту линейку частот накладывается формантная структура (резонансы).

  • Для синтеза шума используется генератор случайной амплитуды и фазы.

  • На последнем этапе выполняется обратное преобразование Фурье для получения звуков речи.

При обучении системы формировались нейронные ансамбли для каждого звука из обучающей последовательности а, б, в, г, д. Затем проводилось обучение синтезу. В результате в эффекторном слое установились правильные связи с символьным слоем.

 

 

Языковая инфраструктура синтеза речи

 

 

 

kmp