kmp-L

История синтеза речи

Предыстория синтеза речи

1.

Cказки (образы культурных реалий глубокой древности) полны различными устройствами, управляемыми речью:

скатерти-самобранки

печки-самоходы,

ковры-самолеты,

дудочки, горшки и прочая утварь.

Многие из таких "устройств" вещи неодушевленные.

https://ru.wikipedia.org/wiki/Сказка

Владимир Яковлевич Пропп

Морфология волшебной сказки. Исторические корни волшебной сказки
http://flibusta.is/b/608230

http://flibusta.is/a/10003

2.

Терафим — (лат. therafin) — говорящие антропоморфные идолы (в Древнем Израиле).

Этимология слова терафим спорна:

от арабского слова со значением «дарить благо и изобилие»;

от арабского слова со значением «мерзость»;

от арабского слова со значением «маска»;

основу составляет хеттского слова со значением «злой дух», «демон».

В Библии впервые терафимы появляются в связи с Рахилью.

Рахиль забирает их из дома отца своего Лавана Арамеянина в Месопотамии (Быт.31:19). Рахиль прячет терафимов под седлом верблюда (Быт.31:34), что указывает на их компактные размеры, напоминающие куклу.

После прибытия в Ханаан Иаков приказал домашним своим оставить все предметы суеверия, в том числе и похищенных Рахилью терафимов («богов чужих»): они были закопаны под дубом близ Сихема (Быт.35:4).

Практика создания терафимов в израильской среде возвращается во времена судей (Суд.17:5). Боролся с терафимами самарийский пророк Осия (Ос.3:4) и иудейский царь Иосия (4 Цар.23:24), но культ терафимов как предсказателей будущего сохранялся у евреев вплоть до времени пророка Захарии (Зах.10:2) - времени возвращения из Вавилонского плена.

В XIX в. считалось, что терафимы изготавливались из засушенных голов младенцев, убитых во время тайных церемоний. Голова бальзамировалась и ей под язык клалась золотая пластинка с магическим именем. Существуют версии, согласно которым загадочный Бафомет, культовый предмет тамплиеров, представлял собой колдовской терафим — заимствованный от евреев или арабов деревянный кумир, обтянутый кожей младенцев и обмазанный их жиром.

3.

В Х веке Герберту Аврилакскому (он же Сильвестр II) приписывали владение искусством изготовления терафима — говорящей мёртвой головы. Сделанная из бронзы, эта голова словами «да» и «нет» отвечала на вопросы любого к ней обращавшегося.

Сильвестр II (лат. Silvester PP. II), Ге́рберт Орилья́кский (Аврила́кский), также Герберт Реймский (946-1003) — средневековый учёный и церковный деятель, папа римский с 999. Популяризировал в Европе арабские научные достижения. Его имя окутано легендами. Ввел в Европе арабские цифры и распространял часы.

Герберт отроком ушел в монастырь, связался с суккубом (в виде Меридианы), изучал магию, общался с дьяволом. С помощью дочери арабского философа, у которого учился в Кордове и Севилье, завладел книгой заклинаний, и скрылся от учителя, сделавшись невидимым. Создал медную говорящую голову — терафим. Выиграл папство, играя в кости с дьяволом. Умирая, он просил своих кардиналов разрубить его тело, чтобы оно не досталось дьяволу.

Превозносил Оттона III как "нового Константина", взял себе имя Сильвестр II в память о папе Сильвестре I, занимавшем Святой Престол при Константине Великом. Боролся за очищение морального облика священнослужителей. В 1001 г. изгнан из Рима и бежал в Равенну. Вернулся, год спустя скончался и был захоронен в часовне Святого Иоанна. Личность папы Сильвестра II в некоторой степени послужила прообразом легендарного доктора Фауста.

Легендарный образ Герберта использован Михаилом Булгаковым в его «Мастере и Маргарите».
Необходимостью разобрать бумаги Герберта объясняет Воланд свое пребывание в Москве.

– Вы – немец? – осведомился Бездомный.

– Я-то?.. – Переспросил профессор и вдруг задумался. – Да, пожалуй, немец... – сказал он.

– Вы по-русски здорово говорите, – заметил Бездомный.

– О, я вообще полиглот и знаю очень большое количество языков, – ответил профессор.

– А у вас какая специальность? – осведомился Берлиоз.

– Я – специалист по черной магии.

«На тебе!» – стукнуло в голове у Михаила Александровича.

– И... и вас по этой специальности пригласили к нам? – заикнувшись спросил он.

– Да, по этой пригласили, – подтвердил профессор и пояснил: – Тут в государственной библиотеке обнаружены подлинные рукописи чернокнижника Герберта Аврилакского, десятого века, так вот требуется, чтобы я их разобрал. Я единственный в мире специалист.

– А-а! Вы историк? – с большим облегчением и уважением спросил Берлиоз.

– Я – историк, – подтвердил ученый и добавил ни к селу ни к городу: – Сегодня вечером на Патриарших прудах будет интересная история!

4.

В середине XIII века пытались создавать «говорящие головы» Альберт фон Больштедт и Роджер Бэкон.

В конце XVIII века датский учёный Христиан Кратценштейн (нем. Christian Gottlieb Kratzenstein; 1723—1795) , действительный член Российской Академии Наук, создал модель речевого тракта человека, способную произносить пять долгих гласных звуков (а, э, и, о, у). Модель представляла собой систему акустических резонаторов различной формы, издававших гласные звуки при помощи вибрирующих язычков, возбуждаемых воздушным потоком.

24.11.2023

Новая программа ИИ создает реалистичные ‘говорящие головы’ только из изображения и аудио
https://www.zmescience.com/science/news-science/ai-talking-head-generator/

Audio-driven talking face generation with diverse yet realistic facial animations
https://www.sciencedirect.com/science/article/abs/pii/S0031320323005630?via%3Dihub

В 1778 австрийский учёный Вольфганг фон Кампелен (нем. Johann Wolfgang Ritter von Kempelen de Pázmánd, 1734-1804), автор трактата «Механизм человеческой речи», создал говорящую машину, которая состояла из четырёхугольного деревянного ящика, длиной около 1 м и шириной в 0,5 м, снабженного мехами и сложной системой клапанов, штифтиков и т. п.; машина эта воспроизводила голос ребенка 3-4 лет. Около 1828 года эту машину усовершенствовал механик Пош в Берлине.

Шахматная машина Кемпелена в конце XVIII века победила Фридриха II, а в 1808 году Наполеона. Она имела вид комода у которого автомат, одетый турком, искусно играл в шахматы. В ящике его, под шахматной доской, постоянно скрывался хороший шахматный игрок. Автомат сгорел 5 июля 1854 года в Филадельфии.

В 1837 учёный Чарльз Уитстоун (Charles Wheatstone, 1802-1875) представил улучшенный вариант машины, способный воспроизводить гласные и большинство согласных звуков. Он же создал музыкальный инструмент концертину, создал первую действующую телеграфную линию в Англии, изобрел биграммный шифр, предложил мостовой метод электрических измерений, изоброел стереоскоп — аппарат для просмотра трёхмерных изображений.

А в 1846 году Джезеф Фабер (Joseph Faber) продемонстрировал свой говорящий орга́н Euphonia, в котором была реализована попытка синтезирования не только речи, но и пения.

5.

В конце XIX века Александр Белл (Alexander Bell, 1847-1922, американский учёный, изобретатель телефона и бизнесмен, основатель Bell Labs) создал собственную «говорящую» механическую модель, очень схожую по конструкции с машиной Уитстоуна.

История синтеза речи

В XX века началась эра электрических машин

Учёные получили возможность использовать генераторы звуковых волн и на их базе строить алгоритмические модели.

Рыбин Сергей Витальевич

СИНТЕЗ РЕЧИ Учебное пособие. – СПб: Университет ИТМО, 2014. – 92 с.

1937 год - говорящее устройство Риша:

механическая модель речевого тракта, в котором были воспроизведены артикуляторные органы человека: губы, зубы, твердое небо, мягкое небо, язык и глотка.

Для управления конфигурацией голосового тракта применялись похожие на трубы духового оркестра клавиши. Опытный оператор мог извлекать вполне разборчивую речь.

В 1930-х годах

работник Bell Labs Хомер Дадли (Homer W. Dudley) разработал VOCODER (от англ. voice — голос, англ. coder — кодировщик) — управляемый с помощью клавиатуры электронный анализатор и синтезатор речи. Самый первый вокодер Хомера Дадли уже позволял полностью воссоздавать речь с качеством уровня передачи речи по телефону. Водер управлялся от ручной клавиатуры и синтезировал сигналы с заданным спектром. Десять параллельно соединенных полосовых фильтров составляли блок управления резонансами. Переключение источника возбуждения - шумового или импульсного генератора - осуществлялось браслетом на запястье оператора, а управление частотой импульсов - ножной педалью. На выходе фильтров стояли потенциометры, управлявшиеся десятью пальцами и изменявшие напряжение сигнала каждого фильтра. Для имитации взрывных согласных использовались еще три дополнительные клавиши. Обучение операторов "игре" на водере требовало значительного времени, но зато в итоге получалась связная речь с хорошей разборчивостью.

С развитием электротехники и телефонной связи интерес к синтезу речи возрос. Стало окончательно ясно, что для синтеза звуков речи не обязательно копировать голосовой механизм человека, моделируя звукоизвлечение. Задачей стало получение электрического сигнала, аналогичного речевому по форме и воспринимаемого человеком как речь.

С появлением компьютеров вокодерные синтезаторы стали подключать к выходу ЭВМ, так как управляющие сигналы можно было теперь вычислять математически.

1953 год - первые формантные синтезаторы:

PAT (Parametric Artificial Talker), формантный синтезатор речевых сигналов от Вальтера Лоуренса (Walter Lawrence). PAT consisted of three electronic formant resonators connected in parallel. The input signal was either a buzz or noise. A moving glass slide was used to convert painted patterns into six time functions to control the three formant frequencies, voicing amplitude, fundamental frequency, and noise amplitude.

OVE (Orator Verbis Electris), формантный каскадный синтезатор от Гуннара Фанта, который состоял из формантных резонаторов соединенных в каскад

1953 год - DAVO

Dynamic аналогового речевого тракта - артикуляторный синтезатор от Джорджа Розена из MIT...

1961 год - Джон Ларри Келли (John Larry Kelly) и Луи Герстман (Louis Gerstman) из Bell Labs использовали компьютер IBM 704 для синтеза речи.

Голосом Келли с помощью синтезатора была воссоздана песня "Daisy Bell ". Артур Кларк гостил у своего друга и коллеги Джона Пирса на объекте Bell Labs Мюррей-Хилл и был настолько впечатлен демонстрацией того, что он использовал его в кульминационной сцене его сценарий для его роман 2001: Космическая одиссея , , где HAL 9000 компьютер поет ту же песню, как это усыпления космонавтом Dave Bowman. Несмотря на успех чисто электронного синтеза речи, исследования еще проводятся в механическую синтезаторов речи.

1962 год - Фант и Мартони ввели улучшенную OVE II синтезатор, который состоял из отдельных частей для моделирования передаточной функции голосового тракта для гласных, носовых и шипящих согласных.

OVE проекты лежат в основе современной системы синтеза речи Infovox.

https://www.acapela-group.com/infovox-ivox/

1965 год - первые эксперименты c методом линейного предсказания (LPC)

результаты использованы в в недорогих системах, таких как TI Speak'n'Spell (1980 год).

1968 год - первый полнонотекстовый речевой синтезатор для английского языка разработан в лаборатории Норико Умеды (Noriko Umeda) (Electrotehnical, Япония).

Основан на модели артикуляционного синтеза и включал модуль синтаксического анализа со сложной эвристикой. Речь полностью понятна, но однообразна и далека от качества уже существующих систем.

1972 год - создан «Фонемафон 1»

синтезатор русской речи по тексту на основе аппаратной реализации формантного синтеза речевых сигналов, которые основаны на моделировании свойств источников возбуждения (голосового и шумового) и резонансных (формантных) характеристик речевого аппарата человека.

1973 год - разработан и стандартизован для использования в сетях министерства обороны DCS

Defence Communication System) и правительственной связи США вокодер LPC10 c удовлетворительным качеством синтезированной речи и разборчивостью односложных слов на уровне 94 % создан на основе интегральных схем, которые реализовывали сложные алгоритмы параметрической обработки речевого сигнала на основе методов линейного предсказания и гомоморфной фильтрации.

1974 год - улучшенная версия синтезатора — «Фонемафон 2»

с дополнительным блоком преобразования «фонема — аллофон».

1976 год - «Фонемафон 3»

демонстрировался на Всемирной выставке «Телеком 79» в Женеве, где известный фантаст Артур Кларк, посетив павильон СССР и ознакомившись с синтезатором речи, записал в книгу отзывов: «Вы предвосхитили мои фантазии из фильма «Космическая Одиссея — 2001», а швейцарская газета «Обозреватель» опубликовала статью: «Теперь русские изучают иностранные языки с помощью компьютера, который говорит».

В 1978 году Texas Instruments представила «Speak & Spell» (Говори и произноси по буквам))

первый синтезатор речи на однокристальной микросхеме и выпустила на её основе игровой продукт, состоявшей из речевого синтезатора и клавиатуры, которая иногда использовалась некоторыми группами в качестве музыкального инструмента.

В конце70-х для синтеза речи начинают применяться скрытые марковские модели и нейронные сети, став основными методами синтеза речи!

https://ru.wikipedia.org/wiki/Скрытая_марковская_модель

https://neerc.ifmo.ru/wiki/index.php?title=Скрытые_Марковские_модели

https://habr.com/ru/articles/135281/

https://ru.wikipedia.org/wiki/Нейронная_сеть

https://habr.com/ru/articles/312450/

https://neerc.ifmo.ru/wiki/index.php?title=Нейронные_сети,_перцептрон

1983 год - система распознавания речи «Сезам» и речевой интерфейс «Марс»

впервые были интегрированы функции распознавания и синтеза речи. Их серийный впуск впервые в СССР.

1995 год - первая версия Microsoft Speech API для Windows 95 и Windows NT 3.51 .

Включала низкоуровневое прямое распознавание речи и прямой Text To Speech API, которые могли использоваться непосредственно приложениями и "более "голосами" на более высоком уровне для построения API-интерфейсов голосового разговора.

В ХХ веке:

созданы синтезаторы, обеспечивающие качество и разборчивость речи

пригодные для широкого спектра практических приложений.

Однако,

синтезированная речь оставалась ещё далёкой по качеству от натуральной

обладала узнаваемым машинным акцентом по причине недостаточных вычислительных ресурсов компьютеров.

Сегодня и завтра

Возвращение в сказку с умными говорящими машинами на основе
Больших языковых моделей = глубокого обучения генеративных нейросетей

Актуальное здесь )

25.11.2023

kmp