МОДЕЛИ СИНТЕЗА УСТНОЙ РЕЧИ |
Синтез речи
Синтез речи:
Синтезатор речи — структура, переводящая текст/образы в речь, в программном обеспечении и/или аппаратных средствах. Голосовой движок — непосредственно система/ядро преобразования текста/команд в речь, это также может существовать независимо от компьютера. Модели (алгоритмы) синтеза речи можно подразделить на группы:
|
Параметрическая модель синтеза речи
Параметрический синтез речи является конечной операцией в вокодерных системах, где речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров. Параметрический синтез целесообразно применять в тех случаях, когда набор сообщений ограничен и изменяется не слишком часто. Достоинством такого способа является возможность записать речь для любого языка и любого диктора. Качество параметрического синтеза может быть очень высоким (в зависимости от степени сжатия информации в параметрическом представлении). Однако параметрический синтез не может применяться для произвольных, заранее не заданных сообщений. |
Модель компилятивного синтеза
Модель компилятивного синтеза предполагает синтез речи путем конкатенации (составления) записанных образцов отдельных звуков, произнесенных диктором. При использовании этой модели составляется база данных звуковых фрагментов, из которых в дальнейшем будет синтезироваться речь. Пользуясь микрофоном и звуковым редактором (например, редактором GoldWave) можно создать набор файлов различных звуковых фрагментов, а затем сохранить их содержимое в базе данных. Создавая звуковые WAV-файлы с текстовыми сообщениями, можно озвучить операционную систему и ее приложения. Модель компилятивного синтеза подходит, главным образом, только в простейших случаях, когда синтезатор должен произносить относительно небольшой и заранее известный набор фраз. При этом обеспечивается довольно высокое качество речи. Тем не менее, на стыке составляемых звуковых фрагментов возможны интонационные искажения и разрывы, заметные на слух. Кроме того, создание крупной базы данных звуковых фрагментов, учитывающей все особенности произношения фонем и аллофонов с разными интонациями, представляет собой сложную и кропотливую работу. |
Модель формантного синтеза (по правилам)
Формантно-голосовая модель основана на моделировании речевого тракта человека. Эта модель может быть реализована с применением нейронных сетей и допускает самообучение. К сожалению, ввиду сложности точного моделирования особенностей речевого тракта, а также учета интонационной модуляции речи формантно-голосовая модель обладает относительно низкой точностью синтезируемых звуков речи. Тем не менее, современные программы синтеза речи, построенные с использованием этой модели, синтезируют вполне разборчивую речь и могут применяться в ряде случаев. Системы голосового предупреждения о возникновении аварийных ситуаций лучше строить с использованием модели компилятивного синтеза, так как разборчивость речи в таких системах выходит на передний план. Что же касается «бытовых» синтезаторов речи, то в них можно с успехом применять и форманто-голосовую модель. При построении модели используются данные об артикуляционном аппарате человека, а также данные фонетики и лингвистики. В качестве исходного сигнала применяется комбинация голосового источника и генератора шума. Прерыватель и резонансное устройство моделирует работу речевого тракта. В результате этого моделирования образуется излучаемый звук речи. При этом для достижения компромисса между качеством модели и ее сложностью были выбраны следующие основные параметры исследуемой системы:
Частота основного тона определяет высоту голоса. Образование шума представляет собой достаточно сложный процесс, зависящий от многих факторов, таких как давление и скорость воздушной струи, геометрической формы воздушного тракта, акустических свойств материала и пр. Чтобы полностью смоделировать шум речи на физическом уровне, необходимо создать точную модель речевого аппарата человека, что представляет собой очень сложную задачу. Количество активных формант, участвующих в образовании речи, обычно выбирается экспериментально Вклад каждой форманты определяет, насколько сильно форманта воздействует на основной сигнал. Все приведенные выше параметры, кроме количества формант, изменяются в процессе образования речи для получения различных звуков. Х |
Нейроны
Нейрон (от др.-греч. волокно) — специализированная сложноустроенная клетка нервной системы. Кора головного мозга человека порядка 100 000 000 000 нейронов. В нейроне (условно!) выделяют:
Взаимосвязанные нейроны образуют нейронную сеть. Один нейрон может иметь связи с десятками тысяч других нейронов. Искусственный нейрон (формальный нейрон, математический нейрон Маккалока — Питтса) — модель естественного нейрона (очень ... очень упрощенная). Искусственный нейрон имеет один выхо (аксон) сигнал с которого может поступать на произвольное число входов других нейронов. Искусственный нейрон (математически) - нелинейная функция линейной комбинации входных сигналов. Полученный результат посылается на единственный выход. |
Искусственные нейронные сети
Искусственная нейронная сеть - модель соединённых и взаимодействующих между собой простых процессоров (искусственных нейронов). Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам. Соединённые в большую сеть с управляемым взаимодействием, они вместе способны выполнять сложные задачи. Математическая модель искусственного нейрона была предложена У. Маккалоком и У. Питтсом вместе с моделью сети, состоящей из этих нейронов и способной выполнять числовые и логические операции. Практически нейронная сеть была реализована Фрэнком Розенблаттом в 1958 году как компьютерная программа, а впоследствии как электронное устройство — перцептрон. Искусственная нейронная сеть состоит из нескольких слоев нейронов:
Поток обрабатываемой информации поступает на входной слой нейронов и проходит через внутренние слои, а результаты обработки информации выдаются через выходной слой нейронов. Во внутренних слоях нейронов устанавливаются ассоциативные связи между входными и выходными сигналами нейронной сети. Вариативность ассоциативных связей между входными и выходными сигналами обеспечивается за счет различия порогов чувствительности входов нейронов (синапсов) к входным сигналам. Пороги чувствительности устанавливаются и корректируются в процессе обучения нейронных сетей. |
Обучение нейронных сетей
Нейронные сети не программируются (в привычном смысле этого слова), они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение. В случае успешного обучения сеть сможет вернуть верный результат на основании данных, которые отсутствовали в обучающей выборке, а также неполных и/или «зашумленных», частично искаженных данных. Обучение нейронных сетей:
|
Синтез речи с помощью нейронной сети
|
Языковая инфраструктура синтеза речи
kmp