Предыстория синтеза
речи
1.
Cказки (образы
культурных реалий глубокой древности) полны различными устройствами,
управляемыми речью:
Многие
из таких "устройств" вещи неодушевленные.
2.
Терафим
— (лат. therafin) — говорящие антропоморфные идолы
(в Древнем Израиле).
Этимология слова терафим спорна:
-
от арабского слова со значением «дарить благо и изобилие»;
-
от арабского слова со значением «мерзость»;
-
от арабского слова со значением «маска»;
-
основу составляет хеттского
слова со значением «злой дух», «демон».
В
Библии впервые терафимы появляются в связи с
Рахилью.
Рахиль забирает их из дома отца своего Лавана Арамеянина в
Месопотамии (Быт.31:19). Рахиль прячет терафимов под
седлом верблюда (Быт.31:34), что указывает на их компактные размеры,
напоминающие куклу.
После прибытия в Ханаан Иаков приказал домашним
своим оставить все предметы суеверия, в том числе и похищенных Рахилью
терафимов («богов чужих»): они были закопаны под дубом близ Сихема
(Быт.35:4).
Практика создания терафимов в израильской среде
возвращается во
времена судей (Суд.17:5).
Боролся с терафимами самарийский пророк Осия (Ос.3:4) и
иудейский царь Иосия (4 Цар.23:24), но культ терафимов как предсказателей
будущего сохранялся у евреев вплоть до времени пророка Захарии
(Зах.10:2) - времени возвращения из Вавилонского плена.
В XIX в.
считалось, что терафимы изготавливались из
засушенных голов младенцев, убитых во время тайных церемоний. Голова бальзамировалась и ей под язык клалась
золотая пластинка с магическим именем.
Существуют версии, согласно которым загадочный Бафомет, культовый
предмет тамплиеров, представлял собой колдовской терафим —
заимствованный от евреев или арабов деревянный кумир, обтянутый кожей
младенцев и обмазанный их жиром.
3.
В Х веке
Герберту Аврилакскому
(он же
Сильвестр
II)
приписывали владение искусством изготовления терафима —
говорящей мёртвой головы. Сделанная из бронзы, эта голова словами «да» и
«нет» отвечала на вопросы любого к ней обращавшегося.
Сильвестр II (лат. Silvester PP. II), Ге́рберт Орилья́кский
(Аврила́кский), также Герберт Реймский (946-1003) — средневековый учёный и
церковный деятель, папа римский с 999.
Популяризировал в Европе
арабские научные достижения. Его имя окутано легендами. Ввел в Европе
арабские цифры
и распространял часы.
Герберт
отроком ушел в монастырь, связался с
суккубом (в виде Меридианы), изучал магию,
общался с дьяволом. С
помощью дочери арабского философа, у которого учился
в Кордове и Севилье,
завладел книгой заклинаний, и скрылся от
учителя, сделавшись невидимым. Создал медную
говорящую голову — терафим. Выиграл папство, играя в кости с дьяволом.
Умирая, он просил своих кардиналов разрубить
его тело, чтобы оно не досталось дьяволу.
Превозносил Оттона
III как "нового
Константина", взял себе имя Сильвестр II в память о
папе Сильвестре I, занимавшем Святой Престол при Константине Великом.
Боролся за очищение морального
облика священнослужителей.
В 1001 г. изгнан из Рима и бежал в Равенну.
Вернулся, год
спустя скончался и был захоронен в часовне Святого Иоанна. Личность папы Сильвестра II в некоторой степени послужила
прообразом легендарного доктора Фауста.
Легендарный образ Герберта использован Михаилом Булгаковым в его
«Мастере и Маргарите».
Необходимостью разобрать бумаги Герберта
объясняет Воланд свое пребывание в Москве.
– Вы – немец? – осведомился Бездомный.
– Я-то?.. – Переспросил профессор и вдруг задумался. – Да,
пожалуй, немец... – сказал он.
– Вы по-русски здорово говорите, – заметил Бездомный.
– О, я вообще полиглот и знаю очень большое количество
языков, – ответил профессор.
– А у вас какая специальность? – осведомился Берлиоз.
– Я – специалист по черной магии.
«На тебе!» – стукнуло в голове у Михаила Александровича.
– И... и вас по этой специальности пригласили к нам? –
заикнувшись спросил он.
– Да, по этой пригласили, – подтвердил профессор и пояснил:
– Тут в государственной библиотеке обнаружены подлинные
рукописи чернокнижника Герберта Аврилакского, десятого века,
так вот требуется, чтобы я их разобрал. Я единственный в
мире специалист.
– А-а! Вы историк? – с большим облегчением и уважением
спросил Берлиоз.
– Я – историк, – подтвердил ученый и добавил ни к селу ни к
городу: – Сегодня вечером на Патриарших прудах будет
интересная история!
4.
В середине XIII
века пытались создавать «говорящие головы»
Альберт фон Больштедт и
Роджер Бэкон.
В конце XVIII века датский учёный
Христиан Кратценштейн
(нем. Christian Gottlieb Kratzenstein; 1723—1795) , действительный
член Российской Академии Наук, создал модель речевого тракта человека,
способную произносить пять долгих гласных звуков (а, э, и, о, у). Модель
представляла собой систему акустических резонаторов различной формы,
издававших гласные звуки при помощи вибрирующих язычков, возбуждаемых
воздушным потоком.
В 1778 австрийский учёный
Вольфганг фон Кампелен
(нем. Johann Wolfgang Ritter von Kempelen de Pázmánd,
1734-1804),
автор трактата «Механизм
человеческой речи», создал говорящую машину, которая состояла из
четырёхугольного деревянного ящика, длиной около 1 м и шириной в 0,5 м,
снабженного мехами и сложной системой клапанов, штифтиков и т. п.;
машина эта воспроизводила голос ребенка 3-4 лет. Около 1828 года эту
машину усовершенствовал механик Пош в Берлине.
Шахматная машина
Кемпелена в конце XVIII века победила
Фридриха II, а в 1808 году Наполеона. Она имела вид комода у которого автомат, одетый турком, искусно играл в шахматы.
В ящике его, под шахматной
доской, постоянно скрывался хороший шахматный игрок. Автомат сгорел 5
июля 1854 года в Филадельфии.
В 1837 учёный
Чарльз Уитстоун (Charles Wheatstone,
1802-1875) представил улучшенный вариант машины,
способный воспроизводить гласные и большинство согласных звуков.
Он же создал музыкальный
инструмент концертину, создал первую действующую
телеграфную линию в Англии, изобрел биграммный
шифр, предложил мостовой метод электрических
измерений, изоброел стереоскоп — аппарат для
просмотра трёхмерных изображений.
А в
1846 году Джезеф
Фабер
(Joseph Faber) продемонстрировал свой говорящий
орга́н Euphonia, в котором была реализована попытка синтезирования не
только речи, но и пения.
5.
В конце XIX века
Александр
Белл
(Alexander Bell,
1847-1922,
американский учёный, изобретатель телефона и бизнесмен, основатель
Bell Labs) создал собственную
«говорящую» механическую модель, очень схожую по конструкции с машиной Уитстоуна.
|
История
синтеза
речи
В XX века началась эра электрических машин
Учёные получили возможность использовать генераторы звуковых волн и на
их базе строить алгоритмические модели.
1937 год -
говорящее устройство Риша:
-
механическая модель речевого тракта, в котором были воспроизведены артикуляторные органы человека: губы, зубы, твердое небо, мягкое небо, язык и глотка.
Для управления конфигурацией голосового тракта применялись похожие на трубы духового оркестра клавиши. Опытный оператор мог извлекать вполне разборчивую речь.
В 1930-х годах
-
работник Bell Labs
Хомер Дадли (Homer
W. Dudley) разработал
VOCODER (от англ. voice — голос, англ. coder
— кодировщик) — управляемый с помощью клавиатуры электронный анализатор
и синтезатор речи.
Самый первый вокодер Хомера Дадли уже позволял полностью воссоздавать
речь с качеством уровня передачи речи по телефону. Водер управлялся от ручной клавиатуры и синтезировал сигналы с заданным спектром. Десять параллельно соединенных полосовых фильтров составляли блок управления резонансами. Переключение источника возбуждения - шумового или импульсного генератора - осуществлялось браслетом на запястье оператора, а управление частотой импульсов - ножной педалью. На выходе фильтров стояли потенциометры, управлявшиеся десятью пальцами и изменявшие напряжение сигнала каждого фильтра. Для имитации взрывных согласных использовались еще три дополнительные клавиши. Обучение операторов "игре" на водере требовало значительного времени, но зато в итоге получалась связная речь с хорошей разборчивостью.
С развитием электротехники и телефонной связи интерес к синтезу речи возрос. Стало окончательно ясно, что для синтеза звуков речи не обязательно копировать голосовой механизм человека, моделируя звукоизвлечение.
Задачей стало получение электрического сигнала, аналогичного речевому по
форме и воспринимаемого человеком как речь.
С появлением компьютеров вокодерные
синтезаторы стали подключать к выходу ЭВМ, так как управляющие сигналы
можно было теперь вычислять математически.
1953 год -
первые
формантные синтезаторы:
-
PAT (Parametric Artificial Talker),
формантный синтезатор речевых сигналов
от Вальтера Лоуренса (Walter Lawrence).
PAT consisted of three electronic formant resonators
connected in parallel. The input signal was either a
buzz or noise. A moving glass slide was used to convert
painted patterns into six time functions to control the
three formant frequencies, voicing amplitude,
fundamental frequency, and noise amplitude.
-
OVE (Orator Verbis Electris),
формантный каскадный синтезатор
от Гуннара Фанта, который
состоял из формантных резонаторов соединенных в каскад
1953 год - DAVO
1961 год -
Джон Ларри Келли (John
Larry Kelly) и Луи Герстман (Louis
Gerstman) из Bell Labs использовали компьютер IBM 704 для синтеза
речи.
-
Голосом Келли с помощью синтезатора была воссоздана песня "Daisy
Bell ". Артур Кларк гостил у своего друга и коллеги Джона Пирса на
объекте Bell Labs Мюррей-Хилл и был настолько впечатлен демонстрацией
того, что он использовал его в кульминационной сцене его сценарий для
его роман 2001: Космическая одиссея , , где HAL 9000 компьютер поет ту
же песню, как это усыпления космонавтом Dave Bowman. Несмотря на успех
чисто электронного синтеза речи, исследования еще проводятся в
механическую синтезаторов речи.
1962 год - Фант и Мартони ввели улучшенную OVE
II синтезатор, который состоял из отдельных частей для
моделирования передаточной функции голосового тракта для
гласных, носовых и шипящих согласных.
OVE
проекты лежат в основе современной системы синтеза речи
Infovox.
https://www.acapela-group.com/infovox-ivox/
1965 год - первые эксперименты
c
методом линейного предсказания (LPC)
1968 год -
первый полнонотекстовый речевой синтезатор для английского языка
разработан в лаборатории Норико Умеды (Noriko Umeda) (Electrotehnical, Япония).
1972
год - создан
«Фонемафон 1»
1973
год - разработан и
стандартизован для использования в сетях министерства обороны DCS
-
Defence Communication System) и правительственной связи США
вокодер LPC10 c удовлетворительным качеством синтезированной речи и
разборчивостью односложных слов на уровне 94 % создан на
основе интегральных схем, которые реализовывали сложные алгоритмы
параметрической обработки речевого сигнала на основе методов линейного
предсказания и гомоморфной фильтрации.
1974
год - улучшенная
версия синтезатора — «Фонемафон 2»
1976
год - «Фонемафон
3»
-
демонстрировался на Всемирной выставке «Телеком 79» в Женеве, где
известный фантаст Артур Кларк, посетив павильон СССР и ознакомившись с
синтезатором речи, записал в книгу отзывов: «Вы
предвосхитили мои фантазии из фильма «Космическая
Одиссея — 2001», а швейцарская газета «Обозреватель»
опубликовала статью: «Теперь русские изучают иностранные языки с помощью компьютера, который говорит».
В 1978 году Texas Instruments представила
«Speak
& Spell»
(Говори и произноси по буквам))
-
первый синтезатор
речи на однокристальной микросхеме и
выпустила на её основе игровой продукт, состоявшей из речевого синтезатора и
клавиатуры, которая иногда использовалась некоторыми группами в качестве
музыкального инструмента.
В конце70-х для синтеза речи начинают применяться скрытые марковские модели
и
нейронные сети, став основными методами синтеза речи!
|
1983
год - система
распознавания речи «Сезам» и речевой интерфейс
«Марс»
1995
год - первая
версия Microsoft Speech API для Windows 95 и Windows NT 3.51 .
В
ХХ веке:
-
созданы синтезаторы, обеспечивающие
качество и разборчивость речи
-
пригодные для широкого спектра
практических приложений.
Однако,
|
Сегодня и завтра
Возвращение в сказку с умными говорящими машинами на
основе
Больших языковых моделей = глубокого обучения
генеративных нейросетей
Актуальное
здесь )
|
|