История синтеза и распознавания речи

 

 

 

Предыстория синтеза и распознавания речи

Cказки полны различными устройствами, управляемыми речью. Это скатерти-самобранки и печки-самоходы, ковры-самолеты, дудочки, горшки и прочая утварь. Если обратить внимание на отношение к ним сказочных персонажей, то становится ясно, что многие из таких "устройств" изначально были выдуманы как вещи неодушевленные (мало кому придет в голову интересоваться душевным состоянием той же печи-самохода).

Терафим — (лат. therafin) — в Древнем Израиле название говорящих антропоморфных идолов.

Этимология слова терафим спорна:

  • от арабского слова со значением «дарить благо и изобилие»;

  • от арабского слова со значением «мерзость»;

  • от арабского слова  со значением «маска»;

  • основу составляет хеттского слова со значением «злой дух», «демон».

В Библии впервые терафимы появляются в связи с Рахилью. Она забирает их из дома отца своего Лавана Арамеянина в Месопотамии (Быт.31:19). Рахиль прячет терафимов под седлом верблюда (Быт.31:34), что указывает на их компактные размеры, напоминающие куклу.

После прибытия в Ханаан Иаков приказал домашним своим оставить все предметы суеверия, в том числе и похищенных Рахилью терафимов («богов чужих»): они были закопаны под дубом близ Сихема (Быт.35:4).

Практика создания терафимов в израильской среде возвращается во времена судей (Суд.17:5). Боролся с терафимами самарийский пророк Осия (Ос.3:4) и иудейский царь Иосия (4Цар.23:24), но культ терафимов как предсказателей будущего сохранялся у евреев вплоть до времени пророка Захарии (Зах.10:2) - времени возвращения из Вавилонского плена.

В XIX в. считалось, что терафимы изготавливались из засушенных голов младенцев, убитых во время тайных церемоний. Голова бальзамировалась и ей под язык клалась золотая пластинка с магическим именем. Существуют версии, согласно которым загадочный Бафомет, культовый предмет тамплиеров, представлял собой колдовской терафим — заимствованный от евреев или арабов деревянный кумир, обтянутый кожей младенцев и обмазанный их жиром.

В Х веке Герберту Аврилакскому (он же Сильвестр II) приписывали владение искусством изготовления терафима — говорящей мёртвой головы. Сделанная из бронзы, эта голова словами «да» и «нет» отвечала на вопросы любого к ней обращавшегося.

Сильвестр II (лат. Silvester PP. II), Ге́рберт Орилья́кский (Аврила́кский), также Герберт Реймский (946-1003) — средневековый учёный и церковный деятель, папа римский с 999. Популяризировал  в Европе арабские научные достижения. Его имя окутано легендами. Ввел в Европе арабские цифры и распространял часы.

Герберт отроком ушел в монастырь,  связался с суккубом (в виде Меридианы), изучал магию, общался с дьяволом. С помощью дочери арабского философа, у которого учился в Кордове и Севилье, завладел книгой заклинаний, и скрылся от учителя, сделавшись невидимым. Создал медную говорящую голову — терафим. Выиграл папство, играя в кости с дьяволом. Умирая, он просил своих кардиналов разрубить его тело, чтобы оно не досталось дьяволу.

Превозносил Оттона III как "нового Константина", взял себе имя Сильвестр II в память о папе Сильвестре I, занимавшем Святой Престол при Константине Великом. Боролся за очищение морального облика священнослужителей. В 1001 г. изгнан из Рима и бежал в Равенну. Вернулся, год спустя скончался и был захоронен в часовне Святого Иоанна. Личность папы Сильвестра II в некоторой степени послужила прообразом легендарного доктора Фауста.

Легендарный образ Герберта использован Михаилом Булгаковым в его «Мастере и Маргарите». Необходимостью разобрать бумаги Герберта объясняет Воланд свое пребывание в Москве.

 

– Вы – немец? – осведомился Бездомный.

– Я-то?.. – Переспросил профессор и вдруг задумался. – Да, пожалуй, немец... – сказал он.

– Вы по-русски здорово говорите, – заметил Бездомный.

– О, я вообще полиглот и знаю очень большое количество языков, – ответил профессор.

– А у вас какая специальность? – осведомился Берлиоз.

– Я – специалист по черной магии.

«На тебе!» – стукнуло в голове у Михаила Александровича.

– И... и вас по этой специальности пригласили к нам? – заикнувшись спросил он.

– Да, по этой пригласили, – подтвердил профессор и пояснил: – Тут в государственной библиотеке обнаружены подлинные рукописи чернокнижника Герберта Аврилакского, десятого века, так вот требуется, чтобы я их разобрал. Я единственный в мире специалист.

– А-а! Вы историк? – с большим облегчением и уважением спросил Берлиоз.

– Я – историк, – подтвердил ученый и добавил ни к селу ни к городу: – Сегодня вечером на Патриарших прудах будет интересная история!

 

В середине XIII века пытались создавать «говорящие головы»  Альберт фон Больштедт и  Роджер Бэкон.

В конце XVIII века датский учёный Христиан Кратценштейн (нем. Christian Gottlieb Kratzenstein; 1723—1795) , действительный член Российской Академии Наук, создал модель речевого тракта человека, способную произносить пять долгих гласных звуков (а, э, и, о, у). Модель представляла собой систему акустических резонаторов различной формы, издававших гласные звуки при помощи вибрирующих язычков, возбуждаемых воздушным потоком.

В 1778 австрийский учёный Вольфганг фон Кампелен (нем. Johann Wolfgang Ritter von Kempelen de Pázmánd, 1734-1804), автор трактата «Механизм человеческой речи», создал говорящую машину, которая состояла из четырёхугольного деревянного ящика, длиной около 1 м и шириной в 0,5 м, снабженного мехами и сложной системой клапанов, штифтиков и т. п.; машина эта воспроизводила голос ребенка 3-4 лет. Около 1828 года эту машину усовершенствовал механик Пош в Берлине.

Шахматная машина Кемпелена в конце XVIII века победила Фридриха II, а в 1808 году Наполеона. Она имела вид комода у которого автомат, одетый турком, искусно играл в шахматы. В ящике его, под шахматной доской, постоянно скрывался хороший шахматный игрок. Автомат сгорел 5 июля 1854 года в Филадельфии.

В 1837 учёный Чарльз Уитстоун (Charles Wheatstone, 1802-1875) представил улучшенный вариант машины, способный воспроизводить гласные и большинство согласных звуков. Он же создал музыкальный инструмент концертину, создал первую действующую телеграфную линию в Англии, изобрел биграммный шифр, предложил мостовой метод электрических измерений, изоброел стереоскоп — аппарат для просмотра трёхмерных изображений.

А в 1846 году Джезеф Фабер (Joseph Faber) продемонстрировал свой говорящий орга́н Euphonia, в котором была реализована попытка синтезирования не только речи, но и пения.

В конце XIX века Александр Белл (Alexander Bell, 1847-1922, американский учёный, изобретатель телефона и бизнесмен, основатель Bell Labs) создал собственную «говорящую» механическую модель, очень схожую по конструкции с машиной Уитстоуна.

 

 

История синтеза речи

С наступлением XX века началась эра электрических машин, и учёные получили возможность использовать генераторы звуковых волн и на их базе строить алгоритмические модели.

Он вырос в семье потомственных риторов и изобрел: машину для лущения зерна, фонавтограф, телефон, аудиометр, фотофон, металлоискатель, вакуумный насос, пирамидального воздушного змея, лодку на подводных крыльях...

1937 год - говорящее устройство Риша (механическая модель речевого тракта, в котором были воспроизведены артикуляторные органы человека: губы, зубы, твердое небо, мягкое небо, язык и глотка). Для управления конфигурацией голосового тракта применялись похожие на трубы духового оркестра клавиши. Опытный оператор мог извлекать вполне разборчивую речь.

В 1930-х годах работник Bell Labs Хомер Дадли (Homer W. Dudley) разработал VOCODER (от англ. voice — голос, англ. coder — кодировщик) — управляемый с помощью клавиатуры электронный анализатор и синтезатор речи. Самый первый вокодер Хомера Дадли уже позволял полностью воссоздавать речь с качеством уровня передачи речи по телефону. Водер управлялся от ручной клавиатуры и синтезировал сигналы с заданным спектром. Десять параллельно соединенных полосовых фильтров составляли блок управления резонансами. Переключение источника возбуждения - шумового или импульсного генератора - осуществлялось браслетом на запястье оператора, а управление частотой импульсов - ножной педалью. На выходе фильтров стояли потенциометры, управлявшиеся десятью пальцами и изменявшие напряжение сигнала каждого фильтра. Для имитации взрывных согласных использовались еще три дополнительные клавиши. Обучение операторов "игре" на водере требовало значительного времени, но зато в итоге получалась связная речь с хорошей разборчивостью.

С развитием электротехники и телефонной связи интерес к синтезу речи возрос. Стало окончательно ясно, что для синтеза звуков речи не обязательно копировать голосовой механизм человека, моделируя звукоизвлечение. Задачей стало получение электрического сигнала, аналогичного речевому по форме и воспринимаемого человеком как речь.

С появлением компьютеров вокодерные синтезаторы стали подключать к выходу ЭВМ, так как управляющие сигналы можно было теперь вычислять математически.

1953 год - первые формантные синтезаторы:

  • PAT (Parametric Artificial Talker), формантный синтезатор речевых сигналов от Вальтера Лоуренса (Walter Lawrence). PAT consisted of three electronic formant resonators connected in parallel. The input signal was either a buzz or noise. A moving glass slide was used to convert painted patterns into six time functions to control the three formant frequencies, voicing amplitude, fundamental frequency, and noise amplitude. 

  • OVE  (Orator Verbis Electris), формантный каскадный синтезатор от Гуннара Фанта, который состоял из формантных резонаторов соединенных в каскад

1953 год - DAVO (Dynamic аналогового речевого тракта), артикуляторный синтезатор от Джорджа Розена из MIT.   (трек 11 ).

1961 год  - Джон Ларри Келли (John Larry Kelly) и Луи Герстман (Louis Gerstman) из Bell Labs использовали компьютер IBM 704 для синтеза речи. Голосом Келли с помощью синтезатора была воссоздана песня "Daisy Bell ". Артур Кларк гостил у своего друга и коллеги Джона Пирса на объекте Bell Labs Мюррей-Хилл и был настолько впечатлен демонстрацией того, что он использовал его в кульминационной сцене его сценарий для его роман 2001: Космическая одиссея , , где HAL 9000 компьютер поет ту же песню, как это усыпления космонавтом Dave Bowman.  Несмотря на успех чисто электронного синтеза речи, исследования еще проводятся в механическую синтезаторов речи.

1962 год - Фант и Мартони ввели улучшенную OVE II синтезатор, который состоял из отдельных частей для моделирования передаточной функции голосового тракта для гласных, носовых и шипящих согласных. OVE проекты лежат в основе современной системы синтеза речи Infovox.

1965 год - первые эксперименты c методом линейного предсказания (LPC), результаты использованы в  в недорогих системах, таких как TI Speak'n'Spell (1980 год).

1968 год -  первый полнонотекстовый речевой синтезатор  для английского языка  разработан в лаборатории Норико Умеды (Noriko Umeda)  (Electrotehnical, Япония). Он был основан на модели артикуляционного синтеза и включал модуль синтаксического анализа со сложной эвристикой. Речь  полностью понятна, но однообразна и далека от качества уже существующих систем.

1972 год -  создан  «Фонемафон, синтезатор русской речи по тексту  на основе аппаратной реализации формантного синтеза речевых сигналов, которые основаны на моделировании свойств источников возбуждения (голосового и шумового) и резонансных (формантных) характеристик речевого аппарата человека.

1973 год -  разработан и стандартизован для использования в сетях министерства обороны (DCS — Defence Communication System) и правительственной связи США вокодер LPC10 c удовлетворительным качеством синтезированной речи и разборчивостью односложных слов на уровне 94 % создан на основе интегральных схем, которые реализовывали сложные алгоритмы параметрической обработки речевого сигнала на основе методов линейного предсказания и гомоморфной фильтрации.

1974 год -  улучшенная версия синтезатора — «Фонемафон 2», с дополнительным блоком преобразования «фонема — аллофон».

1976 год -  «Фонемафон 3» демонстрировался на Всемирной выставке «Телеком 79» в Женеве, где известный фантаст Артур Кларк, посетив павильон СССР и ознакомившись с синтезатором речи, записал в книгу отзывов: «Вы предвосхитили мои фантазии из фильма «Космическая Одиссея — 2001», а швейцарская газета «Обозреватель» опубликовала статью: «Теперь русские изучают иностранные языки с помощью компьютера, который говорит».

В 1978 году Texas Instruments представила первый синтезатор речи на однокристальной микросхеме и выпустила на её основе игровой продукт под названием «Speak & Spell» (с англ. «Спик энд спэлл» — «Говори и произноси по буквам») время электронной игрушке, состоявшей из речевого синтезатора и клавиатуры, которая иногда использовалась некоторыми группами в качестве музыкального инструмента.

конец 70-х для синтеза речи начинают применяться скрытые марковкие модели .

1983 год - система распознавания речи «Сезам» и речевой интерфейс «Марс», в котором впервые были интегрированы функции распознавания и синтеза речи. Их серийный впуск впервые в СССР.

конец 70-х для синтеза речи начинают применяться нейронные сети, став (наряду со скрытыми марковскими моделями) одним из основных методов синтеза речи.

1995 год - первая версия Microsoft Speech API  для Windows 95 и Windows NT 3.51 . Включала низкоуровневое прямое распознавание речи и прямой Text To Speech API, которые  могли использоваться непосредственно приложениями  и  "более "голосами" на более высоком уровне для построения API-интерфейсов голосового разговора.

В ХХ веке созданы синтезаторы, обеспечивающие качество и разборчивость речи, пригодные для широкого спектра практических приложений. Однако, синтезированная речь оставалась ещё далёкой по качеству от натуральной и обладала узнаваемым машинным акцентом по причине недостаточных вычислительных ресурсов компьютеров того времени.

 

 

 

 

История распознавания речи

1952 год - рождение технических систем распознавания речи. Bell Laboratories представила систему Audrey:

  • распознавала только цифры.  

  • обладала точностью от 60-70%

  • условия достижения максимальной точности в 90% (диктующий человек должен был быть мужчиной, ранее работать с системой, делать паузы между словами 350 миллисекунд.

1962 год -  IBM был представлен компьютер Shoebox, который мог распознать 16 слов на английском языке.

Во второй половине шестидесятых годов в лабораториях США, Великобритании, Японии, СССР ведутся опыты по разработке систем распознавания речи способных распознавать отдельно произнесенные звуки.

1968 год -  в СССР разработано устройство распознавания речевых команд «СЕЗАМ 2» c высоким качеством распознавания 20 команд независимо от голоса диктора, громкости и темпа произношения.

В 1972 году создана коммерческая программа Vip-100, которая могла распознавать несколько сот слов  без поддержки связной речи. Требовалась предварительная «тренировка системы» (надиктовка слов).

В 1971-76 масштабная программа по разработке системы распознавания речи DARPA Speech Understanding Research (SUR) Министерством обороны США, которая:

  • должна распознавать не менее тысячи слов,

  • понимать связную речь (без четко определенных пауз между словами).

1976 год - в рамках DARPA  SUR было продемонстрировано несколько систем. Университет Карнеги-Меллона представил две системы - HARPY и HEARSAY II, фирма Bolt, Branec and Newmen представила систему HWIM, еще одна система была поставлена фирмой System Development Corporation (SDC).

 
Требования проекта HARPY HEARSAY II HWIM SDC
Восприятие слитной речи 184 предло-
жения
22 предло-
жения
124 предло-
жения
54 предло-
жения
большого количества говорящих 3 мужчины и 2 женщины 1 мужчина 3 мужчины 1 мужчина
в тихой
комнате
Зал терминалов ЭВМ Звуко-
изолированное
помещение с хорошими микрофонами
Низко-
качест-
венные микро-
телефоны
Хорошие микро-
фоны
при незначительной настройке на говорящего 20 контрольных предложений 60 контрольных предложений Без настройки Без настройки
при словаре объемом 1000 слов 1011 1011 1097 1000
при менее чем 10% семантических ошибок 5% 9% 56% 76%

Лидером проекта оказалась система HARPY:

  • обладала словарным запасом в 1011 слов (лексикон трехлетнего ребенка),

  • понимала связную речь,

  • обладала эффективным алгоритмом поиска правильных конструкций.

  • требовалась «тренировка»,

  • одно простое предложение обьрабатывалось 1 минуту.

80-е годы:

  • Провал методов использования искусственных нейронных сетей для распознавания речи.

  • Словарный запас систем распознавания достиг нескольких тысяч слов с возможностью неограниченного роста на основе использования скрытой марковской модели (статистического метода) - распознания неизвестных параметров, на основании заданных. Метод позволял  распознавать контекст на самом примитивном уровне и узнавать слова на основании неполных данных, вызванных помехами, акцентом и т. п.

Флагманы 80-х в области распознавания речи:

  • Bell Laboratories - разработка систем,  способных работать с акустической дисперсией, акцентами и не требующих предварительных тренировок.

  • IBM - исследования  N-грамм (непрерывных последовательностей из N элементов заданного текста или речи), и спикерозависимых (тренируемых) систем.

1987 год - кукла Julie Talking Doll  ($100) - первый коммерческий продукт для широкой общественности. Julie Talking Dol обладала функцией распознавания детской речи на основе тренировки, могла реагировать на простые события (попадание на свет или темноту), «читать» специальные книги из комплекта, пользуясь сенсорами на пальчиках.

1990 год -  вышла Dragon Dictate от  Dragon Systems – первой коммерческой программы для обычных пользователей ($9000) с высокими требованиями и низким качеством.

1996 год  -  появился VAL от BellSouth – первый голосовой портал (обработка телефонных справочных запросов, информационных стендов в крупных торговых центрах и т. п.).

1997 год - вышла новая, улучшенная версия программы Dragon – NaturallySpeaking ($695) от  Nuance Communications, способная распознавать нормальную речь (до ста слов в минуту).

2001 год Microsoft выпускает свою систему распознавания речи для Office XP (английский язык, наличие «тренировки», перенастройки с сменой рабочего помещения, нечеткость произношения).

2002 год - Google запускает в тестовом режиме Voice Search для голосового поиска в Интернете. Чтобы выполнять данный поиск, требовалось звонить на специальный номер, сервис вскоре закрыт.

2005 год - Mac OS X Tiger, первая операционная система с функцией распознания речи VoiceOver: способна на распознавание речи, и её синтез (могла прочитать содержимое текстовых документов, почтовых и веб-страниц), была спикеронезависимой и работала с несколькими пользователями одновременно.

2006 год - Windows Vista операционная система с полноценной поддержкой функции распознания речи.

Большинство пользователей не использовали эту функциональность: Windows Speech Recognition и голосовые команды OS X были интересными, но неточными и удобными, как клавиатура и мышь.

2009 год - приложение Voice Search от Google для iPhone использующее облачные дата-центры (суперкомпьютерные вычислительные мощности серверов позволяли провести масштабный анализ данных поиска совпадений между огромным числом голосовых запросов пользователей и их словами). Эта процедура способствовала быстрому росту и совершенствованию системы. Становится самым популярным приложением от Google для мобильных устройств.

2010 год Google добавил персональное распознавание в голосовой поиск телефонов под управлением Android. Программное обеспечение могло записывать голосовые запросы пользователей для построения более точной голосовой модели.

2011 год - функция распознавания голоса в браузере Chrome использующая базу более 230 миллиардов слов на многих языках мира. Приложение добавило к анализу данные миллиардов поисковых запросов, чтобы лучше предугадывать, что сказано.

2011 год - Apple начинает массовую продажу iPhone 4S с установленной программой Siri (персональным виртуальным помощником, поддерживающим живое общение между пользователем и аппаратом (ответы на заданные вопросы, предоставление рекомендаций,  шутки в ответ на глупости). Siri, как и система Goggle Voice Search, полагается на облачные вычисления. Siri использует те данные, которые ей известны о пользователе, чтобы сгенерировать вытекающий из контекста ответ и отвечает на твой запрос, как некая личность. Распознавание речи превратилось из инструмента в развлечение.

2013 год - появление большого количества приложений распознавания речи на различных девайсах, позволяющих контролировать компьютер с помощью голоса или конвертировать голос в текст, различать разные языки, выбирать голос помощника из различных вариантов.

21.06.2013

Компания Nvidia объявила о сотрудничестве с исследовательской группой из университета Стэнфорда. Его целью является создание крупнейшей в мире искусственной нейронной сети. Подобные сети на основе компьютеров способны «учиться» моделировать поведение мозга человека, включая распознавание объектов, характеров, голосов и звуков, эмитируя эти процессы у людей. Создание нейронных сетей большого масштаба является крайне затратным с точки зрения необходимых вычислительных мощностей. Google при разработке подобной сети в прошлом году использовала тысячу серверов, включавших в себя 16 тысяч центральных процессоров, а в качестве имитации нервных связей использовались 1,7 млрд. различных параметров. По сравнению с произведением Google сеть Nvidia и университета Стэнфорда будет в 6,5 раз крупнее. При этом в ней используются всего 16 серверов на основе графических процессоров Nvidia, обрабатывающих 11,2 млрд. параметров. Машинное обучение является отраслью искусственного интеллекта, направленной на создание способных к действию машин, которые при этом не нужно явно программировать. Первыми результатами уже стали автопилоты автомобилей, усовершенствованные алгоритмы веб-поиска и разгадка многих тайн генома человека. Одной из передовых компаний в данной сфере является Nuance, занимающаяся вопросами распознавания речи. Для этого используются терабайты аудиоданных, с которыми сравниваются образцы речи. «Графические процессоры значительно ускоряют процесс обучения сети, исследование ею новых алгоритмов и техник обработки данных. Они позволяют повысить точность всех ключевых технологий нашей компании в сфере здравоохранения, промышленных предприятий и мобильного сегмента».

 

27.06.2013

Новые роботы японской компании Dentsu, произведённые совместно со специалистами из Toyota и Токийского университета — Kirobo и Mirata оснащены системами распознавания голоса, обработки естественной речи и её скоростного синтеза, а также способностями двигаться подобно человеку и распознавать лица именно по этой причине. Роботы будут принимать участие в первом экспериментальном разговоре между людьми и андроидами в космосе, а также в опыте по интеграции роботов в детский образовательный коллектив на Земле. Kirobo 4.08.2013 вылетел на Международную космическую станцию в рамках экспедиции Японского космического агентства. Двигателем всего проекта, по словам его участников из вида homo sapiens, является желание «создать будущее, в котором люди и роботы живут вместе и ладят между собой».

27.06.2013

Отечественные инженеры объявили о намерении выпустить на рынок первый в мире «умный» мотоциклетный шлем LiveMap. Прибор оборудован дисплеем, на который выводится интерфейс мобильной платформы Google Android. Для удобства владельца управление системой производится при помощи голосовых команд, причем речевой интерпретатор установлен локально, без необходимости выходить в Интернет и подключаться к облачным сервисам. Разумеется, такое удовольствие окажется очень недешевым, стоимость LiveMap составляет две тысячи долларов.

 

23.08.2012

QNX Software Systems показала второе поколение QNX CAR - автомобильной мультимедийной платформы для автопроизводителей: имеет поддержку HTML5, Qt, OpenGL и беспроводной связи в формате Ultra HD, продвинутый речевой интерфейс приближающий эпоху connected car. A Connected Cars is a car that is equipped with internet access, and usually also with a wireless local area network. TOften, the car is also outfitted with special technologies that tap into the internet access or wireless LAN and provide additional benefits to the driver.

 

 

28.01.1998

Председатель правления Microsoft Билл Гейтс объявил, что ориентирует компанию на то, чтобы
На конференции, проходившей в рамках выставки IT Expo 98, Гейтс сообщил, что большую часть средств, выделенных на научно-исследовательские работы, а это свыше $2 млрд., Microsoft потратит на технологию, которая даст возможность в течение ближайших пяти лет ввести в Windows речевой интерфейс. Серьезная ставка компании на естественный речевой интерфейс стала одним из многих откровений Гейтса в ходе часовой встречи. Среди других:

  • Появление сетевого компьютера стало «сигналом к пробуждению» для компании, которая до этого времени не обращала внимания на снижение стоимости владения ПК.

  • Microsoft намерена агрессивно использовать HTML в качестве стандарта для Web, а XML — для структурированных данных. «На XML следует обратить внимание», — сказал Гейтс.

Артур Чарльз Кларк (Arthur Charles Clarke,  1917-2008) — английский писатель, учёный, футуролог и изобретатель, наиболее известен совместной работой со Стэнли Кубриком по созданию культового научно-фантастического фильма «Космическая одиссея 2001» (1968). Артура Кларка, Айзека Азимова и Роберта Хайнлайна называют «большой тройкой» научных фантастов, как оказавших большое влияние на жанр в середине XX века.

Рэймонд Курцвейл (Raymond Kurzweil; 1948-...) — американский изобретатель и футуролог. В качестве изобретателя он создал многочисленные системы для распознавания речи. Как футуролог он известен научными технологическими прогнозами, учитывающими появление искусственного интеллекта и средств радикального продления жизни людей. Дал обоснование технологической сингулярности — феноменально быстрого научно-технического прогресса, основанного на мощном искусственном интеллекте и киборгизации людей. В 2009 году возглавил Университет сингулярности (сооснователи  NASA и Google), который готовит специалистов для решения перспективных глобальных проблем человечества. С декабря 2012 года  - технический директор в области машинного обучения и обработки естественного языка в компании Google.

  • 1999 2009: Телефоны будут налету переводить речь с языка на язык. Не сбылось, но в 2010 году Google запускает пилотный проект по такому переводу.

  • 1999 2009: Большая часть текстов будет создаваться путём наговаривания в компьютер и распознания речи. Но большинство людей предпочитают печатать текст, а не говорить, что снижает инвестиции в такие проекты, и программы пока не эффективны.

  • 1999 2019. Люди взаимодействуют с компьютерами не с помощью клавиатуры, а речью и жестами, и при этом компьютер выглядит для них как персонифицированный помощник, что постепенно приводит к стиранию различия между человеком и компьютерами.

  • 1999 2019: Большинство бизнес взаимодействий потребуют общения с симулированным человеком

  • 2005 2030-е сформируется Человеческое тело 2.0, в котором многие системы питания будут заменены нанотехнологическими механизмами, и улучшен скелет.

  • 2005  2040-е годы сформируется человеческое тело 3.0. Оно уже не будет иметь фиксированных форм, а будет скорее управляемой материей из фоглетов (микромашин, способных мгновенно сложиться в любой трёхмерный объект ).
    2005  2045 году произойдёт Сингулярность - системы ИИ превзойдут человека интеллектуально и возьмут технологическое развитие в свои руки. Они начнут улучшать сами себя в самоусиливающиемся взрывообразном процессе, который принципиально непредсказуем.

 

Синтез речи

Печать

Ограничения на синтез речи

Cуществуют различные методы синтеза речи. Выбор того или иного метода определяется различными ограничениями. Рассмотрим те 4 вида ограничений, которые влияют на выбор метода синтеза.

Задача

Возможности синтезированной речи зависят от того, в какой области она будет применятся. Когда необходимо произносить ограниченное число фраз ( и их произнесение линейно не меняется ), необходимый речевой материал просто записывается на пленку. С другой стороны, если задача состоит в стимулировании познавательного процесса при чтении вслух, используется совершенно другой ряд методик.

Голосовой аппарат человека

Все системы синтеза речи должны производить на выходе какую-то речевую волну, но это не произвольный сигнал. Чтобы получить речевую волну определенного качества, сигнал должен пройти путь от источника в речевом тракте, который возбуждает действие артикуляторных органов, которые действуют как изменяющиеся во времени фильтры. Артикуляторные органы также накладывают ограничения на скорость изменения сигнала. Они также имеют функцию сглаживания: гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток.

Структура языка

Ряд возможных звуковых сочетаний опредляется природой той или иной языковой структуры. Было обнаружено, что еденицы и структуры, используемые лингвистами для описания и объяснения языка, могут также использоваться для характеристики и построения речевой волны. Таким образом, при построении выходной речевой волны используются основные фонологические законы, правила ударения, морфологические и синтаксические структуры, фонотактические ограничения.

Технология

Возможности успешно моделировать и создавать устройства для синтеза речи в сильной степени зависят от состояния технико-технологической стороны дела. Речевая наука сделала большой шаг вперед благодаря появлению различных технолоний, в том числе: рентгенография, кинематография, теория фильтров и спектров, а главным образом - цифровые компьютеры. С приходом интегральных сетевых технологий с постоянно возрастающими возможностями стало возсожно построение мощных, компактных, недорогих устройств, действующих в реальном времени. Этот факт, вместе с основательными знаниями алгоритмов синтеза речи, стимулировал дальнейшее развитие систем синтеза речи и переход их в практическую жизнь, где они находят широкое применение.

Методы синтеза

Различные подходы могут быть сгруппированы по областям их применения, по сложности их воплощения.

Синтезаторы делят на два типа: с ограниченным и неограниченным словарем. В устройствах с ограниченным словарем речь хранится в виде слов и предложений, которые выводятся в определенной последовательности при синтезе речевого сообщения. Речевые единицы, используемые в синтезаторах подобного типа, произносятся диктором заранее, а затем преобразуются в цифровую форму, что достигается с помощью различных методов кодирования, позволяющих компрессировать речевую информацию и хранить ее в памяти синтезирующего устройства. Существует несколько методов записи и компоновки речи.

Волновой метод кодирования

Самый легкий путь - просто записать материал на пленку и по необходимости проигрывать. Этот способ обеспечивает высокое качество синтезируемой речи, т.к. позволяет воспроизводить форму естественного речевого сигнала. Однако этот путь синтеза не позволяет реализовать построение новой фразы, т.к. не предусматривает обращение к различным ячейкам памяти и вызов из памяти нужных слов. В зависимости от используемой технологии этот способ может представлять задержки в доступе и иметь ограничения, связанные с возможностями записи. Никаких знаний об устройстве речевого тракта и структуре языка не требуется. Единственно серьезное ограничение в данном случае имеет объем памяти.

Существуют способы кодирования речевого сигнала в цифровой форме, позволяющие в несколько раз уплотнять информацию: простая модуляция данных, импульсно-кодовая модуляция, адаптивная дельтовая модуляция, адаптивное предиктивное кодирование. Данные способы могут уменьшить скорость передачи данных от 50кбит/сек (нормальный вариант) до 10кбит/сек, в то время как качество речи сохраняется. Естественно, сложность операций кодирования и декодирования увеличивается со снижением числа бит в секунду. Такие системы хороши, когда словарь сообщений небольшой и фиксированный. В случае же, когда требуется соединить сообщения в более длинное, сгенерировть высококачественную речь трудно, т.к. значения параметров речевой волны нельзя изменить, а они могут не подойти в новом контексте. Во всех системах синтеза речи устанавливается некоторый компромисс между качеством речи и гибкостью системы. Увеличение гибкости неизбежно ведет к усложнению вычислений.

Параметрическое представление

С целью дальнейшего уменьшения требуемой памяти для хранения и обеспечения необходимой гибкости было разработано несколько способов, которые абстрагируются от речевой волны как таковой, а представляют ее в виде набора параметров. Эти параметры отражают наиболее характерную информацию либо во временной, либо в частотной области. Например, речевая волна может быть сформирована сложением отдельных гармоник заданной высоты и заданными спектральными выступами на данной частоте. Альтернативный путь состоит в том, чтобы форму речевого тракта описать в терминах акустики и искусственным путем создать набор резонансов. Этот метод синтеза экономичнее волнового, т.к. требует значительно меньшего объема памяти, но при этом он требует больше вычислений, чтобы воспроизвести исходный речевой сигнал.

Данный способ дает возможность манипулировать теми параметрами, которые отвечают за качество речи (значение формант, ширина полос, частота основного тона, амплитуда сигнала). Это дает возможность склеивать сигналы, так что переходы на границах совершенно не заметны. Изменения таких параметров как частота основного тона на протяжении всего сообщения дают возможность существенно изменять интонацию и временные характеристики сообщения. Наиболее популярным в наст.вр. методами кодирования в устройствах, использующих параметрическое представление сигналов, является метод, основанный на формантных резонансах и метод линейного предсказания (LPC - linear predictive coding). Для синтеза используются единицы речи различной длины: параграфы, предложения, фразы, слова, слоги, полуслоги, дифоны. Чем меньше единица синтеза, тем меньшее их количество требуется для синтеза.

При этом, требуется больше вычислений, и возникают трудности коартикуляции на стыках. Преимущества этого метода: гибкость, немного памяти для хранения исходного материала, сохранение индивидуальных характеристик диктора. Требуется соответствующая цифровая техника и знание моделей речеобразования, при этом, лингвистическая структура языка не используется.

Синтез по правилам

Описанные выше методы синтеза ориентированы на такие речевые единицы, как слова, предварительно введенные в устройство с голоса диктора. Данный принцип лежит в основе функционирования синтезаторов с ограниченным словарем. В синтезаторах с неограниченным словарем элементами речи являются фонемы или слоги , поэтому в них применяется метод синтеза по правилам, а не простая компоновка. Данный метод весьма перспективен, т.к. обеспечивает работу с любым необходимым словарем, однако качество речи значительно ниже, чем при использовании метода компоновки.

При синтезе речи по правилам также используются волновой и параметрический методы кодирования, но уже на уровне слогов.

Метод параметрического представления требует компромисса между качеством речи и возможностью изменять параметры. Исследователи обнаружили, что для синтеза речи высокого качества необходимо иметь несколько различных произношений единицы синтеза (например, слога), что ведет к увеличению словаря исходных единиц без каких бы то ни было сведений о контекстной ситуации, оправдывающей тот или иной выбор. По этой причине процесс синтеза получает еще более абстрактный характер и переходит от параметрического представления к разработке набора правил, по которым вычисляются необходимые параметры на основе вводного фонетического описания.Это вводное представление содержит само по себе мало информации. Это обычно имена фонетических сегментов ( напр, гласные и согласные) со знаками ударения, обозначениями тона и временных характеристик.

Таким образом, метод синтеза по правилам использует малоинформационное описание на входе ( менее 100 бит/сек). Этот метод дает полную свободу моделирования параметров, но необходимо подчеркнуть, что правила моделирования несовеншенны. Синтезированная речь хуже натуральной, тем не менее, она удовлетворяет тестам по разборчивости и понятности. На уровне предложения и параграфа правила предоставляют необходимую степень свободы для создания плавного речевого потока.

Конвертация текста в речь

Синтез по правилам требует детального фонетического транскрибирования на входе. Хотя для запоминания этой информации требуется мало памяти, чтобы извлечь из нее необходимые параметры, необходимы знания эксперта. Для конвертации неограниченного английского текста в речь необходимо сначала проанализировать его с целью получения транскрипции, которая затем синтезируется в выходную речевую волну. Анализ текста по своей природе задача лингвистическая и включает в себя определение базовых фонетических, слоговых, морфемных и синтакисическмих форм, плюс - вычленение семантической и прагматической информации.

Системы конвертации текста в речь являются наиболее комплексными системами синтеза речи, включающие в себя знания об устройстве речевого аппарата человека, лингвистической структуре языка, а также которые должны учитывать ограничения, накладываемые областью применения системы, технико-технологической базой. Необходимо заметить, что и текст и речь являются поверхностными представлениями базовых лингвистических форм, поэтому задача преобразования текста в речь состоит в выявлении этих базовых форм, а затем в воплощении их в речи.

Система преобразования текста в речь MITalk

На примере этой системы проиллюстрируем сильные и слабые стороны коммерческих версий. Разработка системы началась в конце 60-х гг. Изначально предполагалось разработать читающую машину для слепых, но система MITalk может применяться в любых ситуациях, где необходимо преобразовать текст в речь. Система имеет блок морфологического анализа, правила преобразования буква-звук, правила лексического ударения, просодический и фонематический синтез.

Анализ текста

Преобразование символов в стандартную форму

В самых различных текстах можно обнаружить символы и аббревиатуры, которые не принадлежат к категории " правильно образованных слов". Такие символы как "%" и "&", аббревиатуры типа "Mr" и "Nov" должны быть преобразованы в нормальную форму. Были разработаны подробные руководства по транскрибированию чисел, дат, сум денег. Иногда возникают двусмысленные ситуации, такие как, например, использование знака дефиса в конце строки. Человек в таких случаях, чтобы определить подходящее произношение, обращается к контексту и к практическим знаниям, которые не поддаются алгоритмизации.

Морфологический анализ

В вводном тексте границы слов легко определяются. Можно хранить произношение всех английских слов. Размер словаря будет большим, но в таком подходе есть несколько привлекательных сторон. Во-первых, в любом случае необходим словарь слов, произношение которых является исключением из общих правил. Такими являются, например, заимствованные слова ( parfait, tortilla). Более того, все механизмы преобразования цепочки букв в фонетические значки допускают ошибки. Интересный класс исключений составляют часто употребительные слова. Например, звук /th/ в начале слова произносится как глухой фрикативный в большинстве слов (thin, thesis, thimble). Но в наиболее частотных, таких как короткие функциональные слова the, this, there, these, those, etc. начальный звук произносится как звонкий. Также /f/ всегда произносится глухо, за исключением слова "of".

Другой пример. В словах типа "shave", "behave" конечный /e/ удлиняет предшествующий гласный, но в таком частом слове как "have" это правило не действует. Наконец, конечный /s/ в "atlas", "canvas" глухой, но в функциональных словах is, was, has он произносится звонко. Таким образом, приходим к выводу, что все системы должны иметь такой словарь исключений. Что касается нормальных слов, то здесь имеется два варианта. Первый крайний случай состоит в том, чтобы составить полный словарь. Хотя число слов ограничено, составить абсолютно полный словарь невозможно, т.к. постоянно появляются новые слова. Кроме того, в словарь необходимо будет внести все изменяемые формы слова. Другой крайний подход состоит в установлении ряда правил, которые бы преобразовывали цепочки букв в фонетические значки. Хотя эти правила очень продуктивны, нельзя избежать ошибок, что ведет к созданию словаря исключений.

Чтобы правильно определить фонетическую транскрипцию слова, нужно правильно разбить слово на структурные составляющие. Было обнаружено, что важную роль в определении произношения играет морфема, минимальная синтаксическая единица языка. Система MITalk использует морфемный лексикон, что может рассматриваться как некоторый компромиссный подход между двумя крайними, упомянутыми выше. Многие английские слова можно расчленить на последовательность морфов, таких как префиксы, корни, суффиксы. Так слово "snowplows" имеет два корня и окончание, "relearn" имеет приставку и корень. Такие морфы являются атомными составляющими слова и они относительно стабильны в языке, новые морфы формируются в языке очень редко. Эффективный лексикон может иметь не более 10,000 морфов. Морфемный словарь действует вместе с процедурами анализа.

Этот подход эффективен и экономичен, т.к. хранение морфемного словаря не занимает много места, а хранить все изменяемые формы слова не нужно. Так как морфы являются основными составляющими слова, проиллюстрируем их полезность при определении произношения. При соединении морфов они часто меняют свое произношение. Например, при образовании множественного числа существительных "dog" и "cat" конечный /s/ будет звонким в первом случае и глухим во втором. Это пример морфофонемного правила, касающегося реализации морфемы множественного числа в различных окружениях. Становится очевидным, что для эффективного и легкого определения произношения нужно распознать составляющие морфемы слова и обозначить их границы. Еще один плюс морфемного анализа - обеспечение подходящей базы для использования правил преобразования буква-звук.

Большинство таких правил рассматривают слово как неструктурированную последовательность букв, используя окно сканирования для нахождения согласных и гласных кластеров, которые преобразуются в фонетические значки. Буквы "t" и "h" в большинстве случаев выступают как единый согласный кластер, но в слове "hothouse" кластер /th/ разрывается границей двух разных морфем. Гласный кластер /ea/ представляет много трудностей для алгоритмов буква-звук, но в слове changeable он явно разрывается. В системе MITalk морфемный анализ всегда проводится перед правилами преобразования букв в звуки. Лежащие в основе слова морфы не всегда очевидны. Например, некоторые морфы множественного числа не всегда легко определить: mice, fish. Подобные формы заносятся в словарь. При помощи морфемного лексикона и соответствующего алгоритма анализа 95-98% слов анализируется удовлетворительно. В результате им приписывается фонетическая транскрипция и часть речи.

Правила "буква-звук" и лексическое ударение

В системе MITalk нормализованный вводный текст подвергается морфологическому анализу. Может быть, что целое слово есть в словаре морфов, как, например, слово "snow". С другой стороны, слово может быть проанализировано как последовательность соединенных морфов. В английском языке среднее число морфов в слове, примерно два. В случае, если ни целое слово не может быть найдено в словаре морфов, ни проанализировано как последовательность морфов, в этом случае применяются правила преобразования "буква-звук". Важно подчеркнуть, что этот метод никогда не применяется, если морфемный анализ удался. Конвертация последовательности букв в последовательность звуков при помощи этих правил проходит в три этапа.

Первый этап - отделение префиксов и суффиксов. Возможность отделения аффиксов не такая сильная, как в морфемном анализе, но действует удовлетворительно. Предполагается, что после отделения префиксов и суффиксов остается одна центральная часть слова, которая состоит из одного морфа, подвергаемого затем правилам преобразования.

Второй этап состоит в преобразовании согласных в фонетические значки, начиная с наиболее длинного согласного кластера до тех пор, пока все отдельные согласные не будут преобразованы. Последний этап - оставшиеся гласные преобразуются при помощи контекстов. Гласные преобразуются последними, потому что это наиболее трудная задача, зависящая от контекста. Например, гласный кластер /ea/ имеет 14 разных произносительных контекстов и несколько произношений (reach, tear, steak, leather).

В системе MITalk правила преобразования букв в звуки действуют в паре с широким набором правил расстановки лексического ударения. Еще 25 лет назад лингвистам не удавалось обнаружить никакой системы расстановки ударений в английских словах. В Настоящее время разработан ряд правил, эффективно справляющихся с этой задачей. Ударения зависят от синтаксической роли слова, например, прилагательное "invalid" отличается от существительного. Таких слов немного, но учитывать их необходимо. Кроме того, на некоторые суффиксы автоматически падают ударения в словах, как, например, в "engineer". Но бывают более сложные случаи, которые разрешаются применением циклических правил.

В системе MITalk разработаны несколько наборов таких правил, некоторые из которых включают в себя до 600 правил. Конечно, большинство из них употребляются довольно редко. Подразумеваются, что все сильные и неправильные формы преобразуются на стадии морфологического анализа. Правила же "буква-звук" используются для преобразования новых и неправильно написанных слов. Например, слово "recieved" получает правильную транскрипцию, благодаря этим правилам преобразования.

Парсинг

Каждая схема преобразования неограниченного текста в речь должна включать синтаксический анализ. Необходимо определить синтаксическую роль слова, т.к. она часто влияет на произношение и ударение. Кроме того синтаксический анализ важен для определения правильного тонального контура и временных характеристик. Просодические характеристики важны для синтеза речи, чтобы она звучала живо и естественно. К сожалению, полный синтаксический анализ на уровне сложного предложения (clause-level parsing) осуществить нельзя. Тем не менее, возможно провести синтаксический анализ на уровне фразы (phrase-level parsing), в результате которого определяется большая часть необходимой для синтеза речи структуры, хотя в некоторых ситуациях неизбежны ошибки из-за отсутсвия анализа целого предложения. Встречается множество синтаксически двусмысленных предложений, таких как "he saw the man in the park with a telescope", для которых фразовый анализ достаточен.

В английском языке существует ряд синтагматических маркеров, по которым можно формально разграничить фразы: это вспомогательные глаголы, детерминативы в номинативных фразах. Система MITalk широко использует это и проводит высокоточный грамматический анализ (augmented-transition-network grammas). Фразовый анализ показал удовлетворительные результаты, хотя эффективный анализатор предложений несомненно улучшил бы работу системы. Пока анализаторы предложений сталкиваются со значительными трудностями, когда встречают неполное или синтаксически омонимичное предложение. По завершении деятельности блока синтаксического анализа система приписывает словам маркеры функциональных частей речи, отмечает синтаксические паузы как основу для дальнейшего уточнения произношения, временных харатеристик, частоты основного тона.

Модификация ударения и фонологические уточнения

Последняя фаза анализа состоит в некоторых незначительных поправках к имеющейся уже фонетической транскрипции на основе анализа контекстного окружения. Простой пример определения произношения артикля "the", которое зависит от начального звука последующего слова. Кроме того, на этом этапе используются некоторые эвристические методы проверки правильного соотношения общего контура предложения с контурами отдельных слов. На этом этапе заканчивается подготовка исходного текста собственно к самому процессу синтеза.

Синтез

Важно осознать, что в системе MITalk не используются готовые речевые волны даже в параметрическом представлении. Система не хранит параметрические представления множества морфов или слов. Вместо этого были разработаны правила контроля параметров, так что можно реализовать любую желаемую речевую волну на выходе.

Просодическая рамка

Первый шаг в создании выходной речевой волны - создание временного контура и частоты основного тона ( основные корреляты интонации ), на основе которых строится детальная артикуляция отдельных фонетических элементов. Распределение ударения, которое было вычислено на стадии анализа, во многом ответственно за контур временного распределения и тональный контур. Часто интенсивность принимают за коррелят ударения, тогда как главными ключами являются длительность и изменения в тональном контуре. Согласные мало меняются по длительности, в то время как гласные более пластичны и могут легко сжиматься или растягиваться. Существует также тенденция растягивать слова на границе основных абзацев предложения, и наоборот, сжимать интервалы на относительно невыделенных участках. Кроме того, на основе временной рамки задается частота основного тона (или тональный контур).

В утвердительных предложениях обычно высота тона резко поднимается на первом ударном слоге, затем плавно снижается до последнего ударного слога, где она резко падает. Вопросительные и повелительные предложения имеют различные тональные контуры. Кроме целостного контура предложения существуют еще локальные ударения. Большее ударение получают слова, выражающие отрицание или сомнение ( например, слово might ), значение частоты основного тона на них возрастает; новая информация в предложении также больше выделяется ударением. С другой стороны, высота тона используется в семантических и эмоциональных целях, что не может быть выведено из письменного текста. Необходимо лишний раз подчеркнуть важность составления правильного просодического контура, т.к. неправильный просодический контур может привести к трудностям в восприятии.

Синтез фонетических сегментов

Когда завершено создание просодической рамки, создаются параметры, соответствующие модели речевого тракта. Обычно таких параметров 25, которые изменяются с интервалом 5 - 10 мсек. В настоящее время используются около 100 контекстных правил описания траектории изменения параметров. Когда значения параметров вычислены, они должны быть перенесены на соответствующую модель речевого тракта (обычно это формантная модель или LPC-модель). Выходная дискретная модель создается обычно на частоте 10 Кгц.

Оценка синтетической речи

С точки зрения понятности, разборчивости качество синтезированной речи достаточно хорошее. Был проведен тест, где одна группа испытуемых прослушивала синтезированную речь с письменным вариантом перед глазами, а другая - без. Выяснилось, что результаты прослушивания мало отличаются друг от друга. Тем не менее, синтезированной речи не хватает живости и естественности, поэтому воспринимать ее на протяжении длительного времени трудно. Исследования показали, что фрикативные и назальные звуки требуют дальнейшего улучшения качества.

 

 

 

По мере развития компьютерных систем становится все более очевидным, что использование этих систем намного расширится, если станет возможным использование человеческой речи при работе непосредственно с компьютером, и в частности станет возможным управление машиной обычным голосом в реальном времени, а также ввод и вывод информации в виде обычной человеческой речи.

Существующие технологии распознавания речи не имеют пока достаточных возможностей для их широкого использования, но на данном этапе исследований проводится интенсивный поиск возможностей употребления коротких многозначных слов (процедур) для облегчения понимания. Распознавание речи в настоящее время нашло реальное применение в жизни, пожалуй, только в тех случаях, когда используемый словарь сокращен до 10 знаков, например при обработке номеров кредитных карт и прочих кодов доступа в базирующихся на компьютерах системах, обрабатывающих передаваемые по телефону данные. Так что насущная задача - распознавание по крайней мере 20 тысяч слов естественного языка - остается пока недостижимой. Эти возможности пока недоступны для широкого коммерческого использования. Однако ряд компаний своими силами пытается использовать уже существующие в данной области науки знания.

Для успешного распознавания речи следует решить следующие задачи:

  • обработку словаря (фонемный состав);

  • обработку синтаксиса;

  • сокращение речи (включая возможное использование жестких сценариев);

  • выбор диктора (включая возраст, пол, родной язык и диалект);

  • тренировку дикторов;

  • выбор особенного вида микрофона (принимая во внимание направленность и местоположение микрофона);

  • условия работы системы и получения результата с указанием ошибок.

Существующие сегодня системы распознавания речи основываются на сборе всей доступной (порой даже избыточной) информации, необходимой для распознавания слов. Исследователи считают, что таким образом задача распознавания образца речи, основанная на качестве сигнала, подверженного изменениям, будет достаточной для распознавани, но тем неменее в настоящее время даже при распознавании небольших сообщений нормальной речи, пока невозможно после получения разнообразных реальных сигналов осуществить прямую трансформацию в лингвистические символы, что является желаемым результатом.

Вместо этого проводится процесс, первым шагом которого является первоначальное трансформирование вводимой информации для сокращения обрабатываемого объема так, чтобы ее можно было бы подвергнуть компьютерному анализу. Примером является "техника сопоставления отрезков", позволяющая сократить вводимую информацию с 50'000 до 800 битов в секунду. Следующим этапом является спектральное представление речи, получившееся путем преобразования Фурье. Результат преобразования Фурье позволяет не только сжать информацию, но и дает возможность сконцентрироваться на важных аспектах речи, которые интенсивно изучались в сфере экспериментальной фонетики. Пример такого представления см на рис. Спектральное представление достигнуто путем использования широко-частотного анализа записи.

Хотя спектральное представление речи очень полезно, необходимо помнить, что изучаемый сигнал весьма разнообразен. Разнообразие возникает по многим причинам, включая:

  • различия человеческих голосов;

  • уровень речи говорящего;

  • вариации в произношении;

  • нормальное варьирование движения артикуляторов (языка, губ, челюсти, нёба).

Для устранения негативного эффекта влияния варьирования голосового тракта на процесс распознавания речи было использовано множество методов. Первым делом рассматривалась характеристика пространства траектории артикуляторных органов, включая гласные, используемые говорящим. Наиболее удачные формы трансформации, использованной для сокращения различий, были впервые представлены Сакоя & Чибо и назывались динамичными искажениями (dynamic time warping). Техника динамичного искажения используется для временного вытягивания и сокращения расстояния между искаженным спектральным представлением и шаблоном для говорящего. Использование данной техники дало улучшении точного распознавания (~20-30%). Метод динамичного искажения используют практически все коммерчески доступные системы распознавания, показывающие высокую точность сообщения при использовании.

Вначале сигнал преобразовывается в спектральное представление, где определяется немногочисленный, но высокоинформативный набор параметров. Затем определяются конечные выходные параметры для варьирования голоса(следует отметить, что данная задача не является тривиальной) и производится нормализация для составления шкалы параметров, а также для определения ситуационного уровня речи. Вышеописанные измененные параметры используются затем для создания шаблона. Шаблон включается в словарь, который характеризует произнесение звуков при передаче информации говорящим, использующим эту систему. Далее в процессе распознавания новых речевых образцов (уже подвергшихся нормализации и получивших свои параметры), эти образцы сравниваются с шаблонами, уже имеющимися в словаре, используя динамичное искажение и похожие метрические измерения. В настоящее время этот метод изучается и дополняется.

Очевидно, что спектральное представление речи позволяет характеризовать особенности голосового тракта человека и способ использования его говорящим. Самый обычный способ моделирования специфических эффектов "модель-источник" - использование фильтров. Речевой аппарат моделируется с использованием источников, вызывающих резонанс, ведущий к пиковым точкам интенсивности звука в соседстве с отдельными частотами, называемыми формантами. При произнесении звуков вибрация голосовых связок является источником возбуждения, и эти короткие импульсы вызывают резонанс между голосовыми связками и губами. Так как язык, челюсть, губы, зубы и альвеолярный аппарат двигаются, размер и место этих резонансов меняются, давая возможность воспроизведения особых параметров звуков.

Возможно построить очень точную модель, также прямо смоделировать движения артикуляторов физиологически реальным путем. Использование этих моделей привели к пониманию пути, в котором происходит речевой сигнал. Но так как наблюдение над артикуляторами затруднено, остаются недостатки. Хотя природа вокального тракта очень сильно влияет на выходной сигнал речи, это не единственное ограничение, которое необходимо принимать во внимание, так как контроль над мускулами звукового тракта обусловлен сигналами моторного кортэкса мозга. Возможно все аспекты влияния акустической структуры контролируют сигналы и форму звукового выхода речи (хотя это не может быть доказано с систематической точки зрения).

Аспекты влияния акустической структуры включает в себя:

  • природу сегментов индивидуального звука (гласные/согласные);

  • структуру слога;

  • структуру морфем (приставки, корни, суффиксы);

  • лексикон;

  • уровень синтаксиса фраз и предложений;

  • долгосрочные ограничения речи (long-term discourse constraints).

Ниже рассматривается влияние ограничений и способ их воздействия производство сигнала речи. Необходимо также принять во внимание тот факт, что человеческий аппарат восприятия также должен быть смоделирован, он сам по себе накладывает на процесс восприятия дополнительные ограничения. Недавно процесс восприятия был изучен с помощью метода сигнального подавления барабанных перепонок через возбуждение нервных клеток, которые образовывают примерно 30 тысяч нервных окончаний слухового нерва. Но изучение нервных окончаний способно только прояснить формирование простых синтетических гласных. Перед исследователями встало новое главное направление в области изучения воспроизводства речи, связанное с интеграцией всей физиологии восприятия человека. В настоящий момент появляются некоторые модели явлений, происходящих в ухе, и не без оснований можно ожидать дальнейшего улучшения понимания процесса распознавания речи из-за более полного понимания характеристик этого влияния.

Что касается уровня артикуляторного контроля, первым уровнем является индивидуальный фонетический сегмент, иначе говоря, - фонема. Во многих естественных языках их примерно 40. Но их набор существенно различатется. Поэтому, например, английские гласные могут быть носовыми, даже ненамеренно, в то время как во французском носализация гласных является фонетическим контрастом, и поэтому влияют на значение произносимого. Во французском языке носовая коартикуляция доминирует в гласных и существенно влияет на восприятие фонем и следовательно на главный смысл значения. Хотя все говорящие имеют одинаковый голосовой аппарат, использование его разное. Так например, использование кончика языка или прищелкивание, как в некоторых африканских языках. Ясно, что природа артикуляционных движений имеет сильное влияние на метод воспроизведения речи. Эти ограничения всегда активно используются в практических системах.

На следующем уровне лингвистической структуры фонетические сегменты сгруппированы в согласные/гласные, а следовательно и в слоги. Далее, в зависимости от роли фонетического сегмента внутри этих слогов их реализация может быть сильно изменена. Так например, начальный согласный в слоге может быть реализован как абсолютно отличный от конечной позиции. Согласные очень крепко связываются между собой, что опять же влияет на последующие ограничения. Например, в английском если начальная группа согласных состоит из трех фонем, первая фонема должна быть /s/, следующей фонемой должен быть непроизносимый согласный, третьей или /r/ или /l/, как например, в слове /scrape/ или /split/.

Говорящие на родном языке избегают этих ограничений или могут активно их использовать во время процесса восприятия. Из выше приведенных примеров очевидно, что хотя и существуют сильные ограничения, влияющие на слушателя, но их сила не является решающей во время произнесения речи. То есть любое моделирование процесса восприятия может быть активным и может оказать большую помощь в понимании главного смысла.

Другой пример, показывающий необходимость применения сфокусированного поиска, может быть представлен в восприятии конечного согласного. Среди многих ключевых слов для распознавания конечного согласного существует спектральная природа шума, воспроизводимого при освобождении конечной перемычки и перехода резонанса второй форманты в гласный, следующий за этой перемычкой. Многие исследователи изучали эти влияния, и результаты их исследований показали, что ограничивающее влияние обоих вышеописанных характеристик на восприятие варьируется природой следующего гласного, и следовательно, мощная стратегия распознавания должна иметь некоторые знания о твердой позиции гласного перед конечным согласным перед тем, как будет сделано само распознавание конечного согласного. Конечные согласные дают яркий пример весьма интересного комплекса фонетики, используемого для лингвистической окраски. Например, при рассмотрении слов rapid и rabid обнаруживается 16 фонетический различий.

Кроме сегментного и слогового уровней существуют ограниченные влияния из-за структуры морфем, которые являются минимальными синтаксическими единицами языка. Они включают в себя приставки, корни, суффиксы. Можно себе представить, что это синтаксис на слоговом и на морфемном уровнях, также как и нормально распознанный синтаксис, характеризующийся способом, в котором английские слова объединяются во фразы и предложения. Возможно представить данные ограничения как последствия рассмотрения грамматики вне контекста. В этом виде ограничений много "шумных" вариаций сегментов речи, которые так же относятся и к иерархическим синтаксическим ограничениям.

Дополнительные ограничения на природе входа новой лексики в язык могут являться уровнем слова. Многие исследования обнаружили, что характеристика слов при введении разбиения на 5 жестких классов фонетических сегментов может быть сокращена до минимума, часто имея единственное в своем роде распознавание. Далее слишком усиливается эффект порядка двух букв и фонетических сегментов с тех пор как в изучении английских и французских словарей было обнаружено, что более 90% слов имели единственное значение и только 0,5% имели 2 и больше альтернатив. На фонемном уровне было обнаружено, что все слова в английском словаре из 20 тысяч слов имели одно значение из-за беспорядочных фонемных пар. Этот пример помогает показать, что все еще существует ограничивающее влияние на лексическом уровне, которое еще не определено в современных системах распознавания речи. Естественно, что исследования в этой области продолжаются.

Кроме уровня слов синтаксис имеет дополнительное ограничительное влияние. Его влияние на последовательный порядок слов часто характеризуется в системах фактором, который в свою очередь характеризует количество возможных слов, которые могут следовать за предыдущим словом в процессе произнесения. Синтаксис также имеет ограничительные влияния на просодические элементы, такие как ударение, например в случае, когда ударение слов в incline и survey варьируется в зависимости от части речи. Возможно для того, чтобы охарактеризовать ударение в слове, нужно принять во внимание не только индивидуальное слово, но вышеприведенные дополнительные ограничения синтаксиса.

Далее, кроме синтаксического уровня ограничения доминируют над семантикой, прагматикой и речью, что плохо осознается людьми, однако имеет очень важное значение для процесса распознавания.

Несмотря на сложность описания характеристик источников различных ограничений, немаловажную роль играют современные системы влияния, которые представлены всеми возможными вариантами произнесения звуков. Например, система HARPI университета Сarnegie-Mellon University является системой, в которой звуковоспроизведение описывается как путь через комплексную сеть. В этом способе ограничения структуры слога, слова и синтаксиса связаны одной структурой. Структура контроля, используемая для поиска, является адаптацией динамичной программной техники. Более сильный подход был предложен моделями использования цепей Маркова. Эти модели использовались как единая структура, где возможности могут быть точно изучены экспериментальным путем.

Закодированные представления спектральной трансформации воспроизводства речи используются для нахождения самого правильного пути через сеть, и недавно были получены очень хорошие результаты. Очень важно подчеркнуть использование такого формально- структурного подхода, который способствует автоматичному определению классов символов через структурирование и параметризацию.

При другом подходе базы данных и связанные с ними процессы обработки используются структурой контроля. Этот подход был изучен системой HEARSAJ 2, которая была разработана в институте Сarnegie-Mellon University, и системой HWIM (hear what I mean). В этих системах комплексная структура данных, которая содержит всю информацию о воспроизведении звуков, изучается с точки зрения конкретных ограничений. Но как выше указано, каждое из этих ограничений имеет особую внутреннюю модель, и полный анализ не может быть произведен. Для проведения анализа в целом структура данных должна иметь взаимодействие между разными процессами, а также средства для интеграции. Несмотря на то, что структура включает в себя несколько весьма различных источников знаний и ее вклад в понимание речи очень общий, она также имеет большое количество степеней свободы, которые могут быть использованы для тщательного системного воспроизведения.

В отличие от этого, техника, основанная на цепях Маркова, имеет математическую поддержку. Чтобы иметь возможность сфокусированного исследования ограничений взаимодействия и интеграции в контексте, необходимо применять обе системы. Те системы, которые описывают ограничение взаимодействия, сфокусированы во многом на воспроизведении знаний, и они относительно слабо контролируемы, а системам с математической поддержкой, которые в свою очередь имеют великолепную технику для установления параметров и оптимизации изучения, не достает использования комплексной структуры данных, необходимых для характеристики ограничений высокого уровня, таких как синтаксис. Оба направления в настоящий момент находятся в процессе развития.

В заключение следует сделать акцент на влияние производственной технологии на эти системы. Технология интеграции не является большой проблемой для систем распознавания речи, наоборот, это является архитектурой этих систем, включая способ представления ограничений. Необходимо провести грандиозные эксперименты и найти новые способы, которые необходимы для ограничительного влияния взаимодействия.

Во многих способах распознавание речи имеет типичный пример стремительно развивающегося класса высоко интегрированных комплексных систем, которые должны использовать лучшую компьютерную технику и самые последние достижения современного математического обеспечения.


 

 

 

Две главные задачи машинного распознавания речи — достижение гарантированной точности при ограниченном наборе команд хотя бы для одного фиксированного голоса и независящее от дикции распознавание произвольной слитной речи с приемлемым качеством — не решены до сих пор, несмотря на длительную историю их разработки. Более того, существуют сомнения в принципиальной возможности решения обеих задач, поскольку даже человек не всегда может стопроцентно распознать речь собеседника.

Когда-то писателям-фантастам возможность обычного разговора с компьютером казалась столь очевидной и естественной, что первые вычислительные машины, лишенные голосового интерфейса, воспринимались как нечто неполноценное.
Казалось бы, почему не заняться решением этой проблемы программно, с использованием «умных» компьютеров? Ведь и производители подобных продуктов вроде бы имеются, и мощность компьютеров непрерывно растет, и технологии совершенствуются. Однако успехи в области автоматического распознавания речи и преобразования ее в текст, похоже, находятся на том же уровне, что и 20-40 лет назад. Помнится, еще в середине 90-х годов компания IBM уверенно заявила о наличии такого рода инструментов в OS/2, а чуть позже и Microsoft подключилась к внедрению подобных технологий. Пыталась заниматься распознаванием речи и компания Apple, но в начале 2000 года она официально объявила об отказе от этого проекта. Продолжают работать в этой области компании IBM (Via Voice) и Philips, причем функцию распознавания речи IBM не только встраивала в свою операционную систему OS/2 (ныне уже канувшую в лету), но и до сих пор выпускает в качестве отдельного продукта. Пакет для распознавания слитной речи Via Voice (http://www-306.ibm.com/software/voice/viavoice) от IBM отличался тем, что с самого начала даже без обучения распознавал до 80% слов. При обучении же вероятность правильного распознавания повышалась до 95%, а к тому же параллельно с настройкой программы на конкретного пользователя происходило освоение будущим оператором навыков работы с системой. Сейчас ходят слухи о том, что подобные новации будут реализованы и в составе Windows XP, хотя глава и основатель корпорации Билл Гейтс неоднократно заявлял, что считает речевые технологии еще не готовыми для массового применения.
Когда-то американская компания Dragon Systems создала, наверное, первую коммерческую систему распознавания речи — Naturally Speaking Preferred, которая работала еще в 1982 году на IBM PC (даже не XT!). Правда, эта программа больше напоминала игру и с тех пор никаких серьезных подвижек компания так и не сделала, а к 2000 году и вовсе разорилась, причем ее последняя версия Dragon Dictate Naturally Speaking была продана компании Lernout&Hauspie Speech Products (L&H), являвшейся тоже одним из лидеров в области систем и методов распознавания и синтеза речи (Voice Xpress). L&H, в свою очередь, тоже дошла до банкротства с распродажей активов и имущества (к слову сказать, Dragon Systems была продана почти за 0,5 млрд. долл., а L&H — уже за 10 млн., так что своими масштабами в этой области впечатляет не прогресс, а регресс!). Технологии L&H и Dragon Systems перешли к компании ScanSoft, которая занималась до этого распознаванием оптических образов (в ее ведении сегодня находятся некоторые известные программы распознавания печатного текста типа OmniPage), но там, похоже, этим никто серьезно не занимается.
Российская компания Cognitive Technologies, достигнувшая значительных успехов в области распознавания символов, сообщила в 2001 году о совместном проекте с Intel по созданию систем распознавания русской речи — для Intel был подготовлен речевой корпус русского языка RuSpeech. Собственно, RuSpeech представляет собой речевую базу данных, которая содержит фрагменты непрерывной русской речи с соответствующими текстами, фонетической транскрипцией и дополнительной информацией о дикторах. Cognitive Technologies ставила перед собой цель создать «дикторонезависимую» систему распознавания непрерывной речи, а речевой интерфейс состоял из системы сценария диалога, синтеза речи по тексту и системы распознавания речевых команд.
Однако на деле до настоящего времени программ для реального распознавания речи (да еще и на русском языке) практически не существует, и созданы они будут, очевидно, не скоро. Более того, даже обратная распознаванию задача — синтез речи, что, казалось бы, значительно проще распознавания, до конца так и не решена. Любая синтезированная речь воспринимается человеком хуже, чем живая, причем это особенно заметно при передаче по каналу телефонной связи, то есть как раз там, где она сегодня наиболее востребована.
«Горыныч проф.» версии 3.0

«Ну все, тебе конец», — сказал Иван Царевич, глядя прямо в глаза третьей голове Змея Горыныча. Она растерянно посмотрела на две другие. Те в ответ злорадно ухмыльнулись.

Анекдот

1997 году выход на коммерческий рынок знаменитого «Горыныча» (по существу адаптации программы Dragon Dictate Naturally Speaking, проведенной силами малоизвестной до того времени российской компании White Group, официального дистрибьютора Dragon Systems) стал своеобразной сенсацией. Программа казалась вполне работоспособной, а ее цена представлялась весьма умеренной. Однако время идет, «Горынычи» меняют интерфейсы и версии, но никаких ценных свойств не приобретают. Может быть, ядро Dragon Naturally Speaking было как-то настроено на особенности англоязычной речи, но даже после последовательной замены драконьей головы на три головы «Горыныча» оно дает не более 30-40% распознавания среднего уровня лексики, причем при тщательном проговаривании. Да и кому это вообще нужно? Как известно, по заявлениям разработчиков компаний Dragon Systems, IBM и Lernout&Hauspie, их программы при непрерывной диктовке были способны правильно распознавать до 95% текста, но ведь и они давно уже не выпускаются, ибо известно, что для комфортной работы точность распознавания необходимо довести до 99%. Надо ли говорить, что для завоевания подобных высот в реальных условиях требуются, мягко говоря, немалые усилия.



Кроме того, программа требует длительного периода тренировки и настройки под конкретного пользователя, очень капризна к оборудованию, более чем чувствительна к интонации и скорости произнесения фраз, так что возможности ее обучения распознаванию различных голосов сильно различаются.
Впрочем, может, кто-нибудь и приобретет этот пакет в качестве некой продвинутой игрушки, но пальцам, уставшим от работы с клавиатурой, это никак не поможет, пусть даже производители «Горыныча» утверждают, что скорость ввода речевого материала и трансформации его в текст составляет 500-700 знаков в минуту, что недоступно даже для нескольких опытных машинисток, если сложить скорость их работы.
При ближайшем рассмотрении новой версии этой программы ничего путного извлечь из нее нам так и не удалось. Даже после длительного «обучения» программы (а стандартный словарь нам вообще не помог) оказалось, что диктовка по-прежнему должна осуществляться строго по словам (то есть после каждого слова нужно делать паузу) и слова нужно произносить отчетливо, что не всегда характерно для речи. Конечно, «Горыныч» — это модификация англоязычной системы, а для английского иной подход просто немыслим, но говорить в такой манере по-русски показалось нам особенно неестественным. К тому же в процессе обычного разговора на любом языке интенсивность звука практически никогда не падает до нуля (в этом можно убедиться по спектрограммам), а ведь распознавать диктовку текстов общей тематики, выполняемую в манере слитной речи, коммерческие программы научились уже лет 5-10 назад.
Система ориентирована в первую очередь на ввод, но содержит средства, позволяющие исправить неверно услышанное слово, для чего «Горыныч» предлагает список вариантов. Можно поправить текст и с клавиатуры, что, кстати, постоянно и приходится делать. С клавиатуры вводятся и слова, отсутствующие в словаре. Помнится, в прежних версиях утверждалось, что чем чаще вы диктуете, тем больше система привыкает к вашему голосу, но ни тогда, ни сейчас мы этого что-то не заметили. Нам даже показалось, что работать с программой «Горыныч» по-прежнему сложнее, чем, например, обучать попугая разговаривать, а из новинок версии 3.0 можно отметить только более «попсовый» мультимедийный интерфейс.
Одним словом, проявление прогресса в этой области только одно: из-за увеличения мощности компьютера совершенно пропала временная задержка между произнесением слова и отображением его письменного варианта на экране, а число правильных попаданий, увы, не увеличилось.
Анализируя возможности программы, мы все больше склоняемся к мнению специалистов, что лингвистический анализ текста — обязательная стадия процесса автоматического ввода под диктовку. Без этого современное качество распознавания не может быть достигнуто, да и многие эксперты связывают перспективы речевых систем именно с дальнейшим развитием содержащихся в них лингвистических механизмов. Как следствие, речевые технологии делаются все более зависимыми от того языка, с которым они работают. А это значит, во-первых, что распознавание, синтез и обработка русской речи являются тем делом, заниматься которым должны именно российские разработчики, а во-вторых, только специализированные отечественные продукты, изначально ориентированные именно на русский язык, смогут по-настоящему решить ту задачу. Правда, здесь следует отметить, что отечественные специалисты петербургского «Центра речевых технологий» (ЦРТ) считают, что создание собственной системы диктовки в нынешних российских условиях не окупится.
Прочие игрушки

ока технологии распознавания речи российскими разработчиками успешно применяются в основном в интерактивных обучающих системах и играх вроде «Мой говорящий словарь», Talk to Me или «Профессор Хиггинс», созданных фирмой «ИстраСофт». Используются они для контроля произношения у изучающих английский язык и аутентификации пользователя. Развивая программу «Профессор Хиггинс», сотрудники «ИстраСофт» научились членить слова на элементарные сегменты, которые соответствуют звукам речи и не зависят ни от диктора, ни от языка (прежде системы распознавания речи не производили такой сегментации, а наименьшей единицей для них было слово). При этом выделение фонем из потока слитной речи, их кодирование и последующее восстановление происходит в режиме реального времени. Указанная технология распознавания речи нашла довольно остроумное применение — она позволяет существенно сжимать файлы с диктофонными записями или речевыми сообщениями. Способ, предложенный фирмой «ИстраСофт», допускает сжатие речи в 200 раз, причем при сжатии менее чем в 40 раз качество речевого сигнала практически не ухудшается. Интеллектуальная обработка речи на уровне фонем перспективна не только как способ сжатия, но и как шаг на пути к созданию нового поколения систем распознавания речи, ведь теоретически машинное распознавание речи, то есть ее автоматическое представление в виде текста, как раз и является крайней степенью сжатия речевого сигнала.
Сегодня фирма «ИстраСофт» помимо обучающих программ предлагает на своем сайте (http://www.istrasoft.ru/user.html) и программы для сжатия/проигрывания звуковых файлов, а также демонстрационную программу голосонезависимого распознавания команд русского языка Istrasoft Voice Commander.
Казалось бы, теперь для того, чтобы создать основанную на новой технологии систему распознавания, осталось сделать совсем немного…

Компьютерные транскрайберы

етербуржская компания «Центр речевых технологий» (http://www.speechpro.ru), которая работает в этой области с 1990 года, похоже, добилась определенных успехов. ЦРТ имеет в своем арсенале целый набор программных и аппаратных средств, предназначенных для шумоочистки и для повышения качества звуковых, и в первую очередь речевых, сигналов — это компьютерные программы, автономные устройства, платы (DSP), встраиваемые в устройства каналов записи или передачи речевой информации (мы уже писали об этой фирме в статье «Как улучшить разборчивость речи?» в № 8’2004). «Центр речевых технологий» известен как разработчик средств шумоподавления и редактирования звука: Clear Voice, Sound Cleaner, Speech Interactive Software, Sound Stretcher и др. Специалисты фирмы принимали участие в восстановлении аудиоинформации, записанной на борту затонувшей подлодки «Курск» и на потерпевших катастрофы воздушных судах, а также в расследовании ряда уголовных дел, для которых требовалось установить содержание фонограмм речи.



Комплекс шумоочистки речи Sound Cleaner представляет собой профессиональный набор программно-аппаратных средств, предназначенных для восстановления разборчивости речи и для очищения звуковых сигналов, записанных в сложных акустических условиях или передаваемых по каналам связи. Этот действительно уникальный программный продукт предназначен для шумоочистки и повышения качества звучания живого (то есть поступающего в реальном времени) или записанного звукового сигнала и может помочь в повышении разборчивости и текстовой расшифровке низкокачественных речевых фонограмм (в том числе архивных), записанных в сложных акустических условиях.
Естественно, Sound Cleaner эффективнее работает в отношении шумов и искажений звука известной природы, таких как типовые шумы и искажения каналов связи и звукозаписи, шумы помещений и улиц, работающих механизмов, транспортных средств, бытовой техники, голосового «коктейля», медленной музыки, электромагнитных наводок систем питания, компьютерной и другой техники, эффектов реверберации и эха. В принципе, чем равномернее и «регулярнее» шум, тем успешнее этот комплекс с ним справится.
Однако при двухканальном съеме информации Sound Cleaner существенно снижает влияние шумов любого типа — например, он имеет методы двухканальной адаптивной фильтрации, предназначенные для подавления как широкополосных нестационарных помех (таких как речь, радио или телетрансляция, шумы зала и т.д.), так и периодических (вибрации, сетевые наводки и т.п.). Эти методы основаны на том, что при выделении полезного сигнала используется дополнительная информация о свойствах помехи, представленная в опорном канале.
Коль скоро мы говорим о распознавании речи, то нельзя не упомянуть о другой разработке ЦРТ — семействе компьютерных транскрайберов, которые, к сожалению, пока еще не являются программами автоматического распознавания речи и преобразования ее в текст, а скорее представляют собой компьютерные цифровые магнитофоны, управляемые из специализированного текстового редактора. Данные устройства предназначены для повышения скорости и улучшения комфортности документирования звукозаписей устной речи при подготовке сводок, протоколов совещаний, переговоров, лекций, интервью, их также применяют в безбумажном делопроизводстве и во многих других случаях. Транскрайберы отличаются простотой и удобством в использовании и доступны даже для непрофессиональных операторов. При этом скорость работы по набору текста возрастает в два-три раза у профессиональных операторов, печатающих вслепую, а у непрофессионалов — в пять-десять раз! Кроме того, значительно уменьшается механический износ магнитофона и ленты, если речь идет об аналоговом источнике. К тому же у компьютерных транскрайберов существует интерактивная возможность сверки набранного текста и соответствующего звукового трека. Связь текста и речи устанавливается автоматически и позволяет в набранном тексте при подведении курсора к исследуемой части текста мгновенно автоматически находить и прослушивать соответствующие звуковые фрагменты речевого сигнала. Повышения разборчивости речи можно добиться здесь как путем замедления скорости воспроизведения без искажения тембра голоса, так и путем многократного повторения неразборчивых фрагментов в режиме кольца.
По желанию заказчика компания может поставить транскрайбер с ножной педалью, посредством которой осуществляется управление функциями цифрового магнитофона, что повышает производительность и комфортность работы. Возможен также вариант программы для стандартной звуковой карты типа Sound Blaster.

Заметки на полях

есмотря на отсутствие сколько-нибудь заметной динамики развития, технология распознавания речи уже достигла такого уровня, что теперь стало возможным использовать ее для организации полностью автоматизированных телефонных служб, способных работать в интерактивном голосовом режиме. Одно за другим появляются сообщения об успешном внедрении таких служб и о предоставляемых ими преимуществах.
Разумеется, гораздо проще реализовать программу, способную распознавать только ограниченный, небольшой набор управляющих команд и символов. Это, например, могут быть цифры от 0 до 9 в телефоне, слова «да»/«нет» и односложные команды вызова нужных абонентов и т.д. Такие программы появились самыми первыми и уже давно применяются в телефонии для голосового набора номера или выбора абонента.
Точность распознавания, как правило, повышается при предварительной настройке на голос конкретного пользователя, причем этим способом можно добиться распознавания речи даже тогда, когда у говорящего имеется дефект дикции или акцент. Все вроде бы хорошо, но заметные успехи в этой области видны только в том случае, если предполагается индивидуальное применение оборудования или ПО одним или несколькими пользователями, в крайнем случае, для каждого из которых создается свой индивидуальный «профиль».
Короче говоря, несмотря на все достижения последних лет, средства для распознавания слитной речи все еще допускают большое количество ошибок, нуждаются в длительной настройке, требовательны к аппаратной части и к квалификации пользователя и отказываются работать в зашумленных помещениях, хотя последнее важно как для шумных офисов, так и для мобильных систем и эксплуатации в условиях телефонной связи.
Однако распознавание речи, как и машинный перевод с одного языка на другой, относится к так называемым культовым компьютерным технологиям, к которым проявляется особое внимание. Интерес к данным технологиям постоянно подогревается бесчисленными произведениями писателей-фантастов, поэтому неизбежны постоянные попытки создать такой продукт, который должен соответствовать нашим представлениям о технологиях завтрашнего дня. И даже те проекты, которые по своей сути ничего собой не представляют, часто бывают коммерчески вполне успешны, так как потребителя живо интересует сама возможность подобных реализаций, даже независимо от того, сможет ли он применить ее на практике.
КомпьютерПресс 12'2004

 

 

 

 

 

Cинтез речи, или история говорящих машин
Опубликовано в журнале "Компьютерра" №15 от 12 апреля 1999 года
Автор: СТАНИСЛАВ КРЕЙЧИ | Раздел: ТЕМА НОМЕРА


http://old.computerra.ru/1999/293/3579/


Когда мне впервые (около 30 лет тому назад) предложили синтезировать речь и сказали, что метод, которым мне предстояло заняться, называется "синтез речи по правилам", мне стало как-то не по себе: я живо представил себе речь человека, который никогда не существовал. Еще я вспомнил античных жрецов, наводивших божественный ужас на свою паству вовсе не "по правилам", а с помощью "говорящих" статуй. Обман вершился чисто архитектурным методом: внутри статуи делался канал для звука, через который вещал скрытый в прилегающем помещении или в самой статуе жрец.


Но у моих заказчиков правила игры были другие. Они вручили мне довольно объемную таблицу цифр, содержащую частоты, амплитуды и длительности отдельных спектральных составляющих речи - спектрально-временную модель фразы "мама мыла Маню". К тому времени у меня уже был 10-летний опыт работы с синтезатором звуков под названием АНС, а потому уже спустя несколько дней мои заказчики с восторгом внимали "голосу" большого черного агрегата, похожего на пианино. Происходило это в московской Студии электронной музыки на первом этаже музея Скрябина (кстати, название АНС происходило от инициалов композитора Скрябина, которому посвятил свое изобретение автор, Е. А. Мурзин). Надо сказать, что первые модели говорящих устройств тех времен были очень похожи на музыкальные инструменты, да и обучение операторов тоже напоминало обучение музыкантов и требовало времени и способностей.

Рис. 1.
Модель механизма речеобразования Кемпелена:
1 - кожаный резонатор,
2 - выход звуков речи,
3 - ноздри,
4 - свисток "sh",
5 - рычаг "sh",
6 - отключение язычка,
7 - рычаг "s",
8 - меха,
9 - свисток "s",
10 - язычок,
11 - вспомогательные меха.

Если моделирование речевой функции началось сравнительно недавно, то сам речевой тракт как источник и физическая "причина" речи заинтересовал ученых гораздо раньше (артикуляторный синтез). Еще в конце XVIII века сотрудник Петербургского университета Кратценштейн построил систему акустических резонаторов, издававших гласные звуки при помощи вибрирующих язычков, возбуждаемых воздушным потоком. А другой изобретатель того же времени, Вольфганг фон Кемпелен, разработал более сложную модель генерации связной речи (см. рис. 1). В ней в роли резонаторов речевого тракта выступала гибкая трубка из кожи, управляемая оператором. Имелись также отверстия для имитации носовых полостей и ручки управления свистками, создававшими фрикативные звуки. Оператор одной рукой приводил в движение меха, управлял "носовыми" отверстиями и плунжером язычка, имитируя работу легких и артикуляционных органов, а другой манипулировал кожаной трубкой, меняя "голосовой" тракт.

А история АНСа, с которого начался мой рассказ, зарождалась приблизительно году в 38-м и была тесно связана с появлением звукового кино. Дар речи "великий немой" получил в начале 30-х, когда придумали фотооптический способ звукозаписи. Сбоку от кадров по всей длине киноленты протянулась оптическая звуковая дорожка, на которой оптическим же способом была записана речевая волна. Предшественник Мурзина в деле звукосинтеза Е. А. Шолпо решил, что звуковую дорожку можно создать искусственно. Он рисовал в крупном масштабе рассчитанные им звуковые волны, фотографировал их кадр за кадром и проигрывал готовую пленку через кинопроектор. Хотя работа была очень трудоемкой и малопроизводительной, Шолпо озвучил этим способом несколько мультфильмов (с помощью построенного им прибора - вариафона). Хорошо знавший работы Шолпо Мурзин, как говорится, пошел другим путем. Он выбрал метод синтеза речи с помощью ряда Фурье - в виде суммы элементарных спектральных составляющих, в музыкальной акустике получивших название "чистые тона". Банк "чистых тонов" Мурзин сконструировал в виде стеклянного диска, очень похожего на современный компакт-диск. Он был покрыт фотоэмульсией, и с помощью специального станка на него концентрическими кольцами были записаны 144 фотооптические звуковые дорожки "чистых тонов".Как происходил синтез звука показано на рис. 2.

Рис. 2.
Функционально-оптическая схема синтезатора АНС.

Свет от источника (1) пропускался через вращающийся диск фотооптического генератора (2) и модулировался по интенсивности звуковыми дорожками. Между диском и читающим фотоэлементом (4) устанавливалась маска (3) с отверстиями для отбора лучей только от нужных дорожек. После фотоэлемента следовал обычный для кинопроектора тракт звукоусиления (5). Методы звукосинтеза Шолпо и Мурзина были попыткой моделировать либо формуколебаний самих звуков речи, либо их спектрально-временной картины.

Другая интересная (механическая) модель речевого тракта - говорящее устройство Риша (1937 год), в котором были воспроизведены артикуляторные органы человека: губы, зубы, твердое небо, мягкое небо, язык и глотка.


Рис. 3.
Говорящее устройство Риша.

Для управления конфигурацией голосового тракта (рис. 3) применялись похожие на трубы духового оркестра клавиши 1-8. Клавиши 4 и 5 управляли клапанами возбуждения К4 (для извлечения глухих звуков) и К5 (для озвученного возбуждения с помощь язычковой камеры). Опытный оператор мог извлекать вполне разборчивую речь.

Первой электрической и одновременно последней аналоговой моделью речевого тракта стал прибор водер (на рис. 4 подробно описано его устройство), разработанный Дадли, Ришем и Уоткинсом.


Рис. 4.
Структурная схема водера.

Происхождение его названия точно не установлено, возможно, что это просто аббревиатура трех фамилий авторов - Watkins, Dudley, Riesz. Прибор с успехом демонстрировался на выставках в Сан-Франциско и Нью-Йорке. (Надо сказать, что во все времена модели, сконструированные для изучения тех или иных явлений, часто представляли еще и аттракцион для публики. Не избежал этого и синтезатор АНС, демонстрировавшийся на Советской выставке в Италии в 1964 году. Но кроме шоу-приложений находились и более серьезные. Так, например, АНС сыграл большую роль в развитии электронной музыки.)

Водер управлялся от ручной клавиатуры и синтезировал сигналы с заданным спектром. Десять параллельно соединенных полосовых фильтров составляли блок управления резонансами. Переключение источника возбуждения - шумового или импульсного генератора - осуществлялось браслетом на запястье оператора, а управление частотой импульсов - ножной педалью. На выходе фильтров стояли потенциометры, управлявшиеся десятью пальцами и изменявшие напряжение сигнала каждого фильтра. Для имитации взрывных согласных использовались еще три дополнительные клавиши. Обучение операторов "игре" на водере требовало значительного времени, но зато в итоге получалась связная речь с хорошей разборчивостью.

С развитием электротехники и телефонной связи интерес к синтезу речи возрос. Стало окончательно ясно, что для синтеза звуков речи не обязательно копировать голосовой механизм человека, моделируя звукоизвлечение. Задачей стало получение электрического сигнала, аналогичного речевому по форме и воспринимаемого человеком как речь. Этот подход (а также идея, положенная в основу водера) получил развитие в системах синтетической телефонии после изобретения Дадли полосного вокодера, открывшего целую эпоху не только в синтезе речи, но и в технике связи, так как он впервые имел в своем составе помимо синтезатора еще и анализатор речи - блок полосовых фильтров, измерявших роль соответствующих спектральных компонентов. Это привело к новому способу кодирования (см. статью этого номера "Сжатие речи"), значительно сужавшему частотную полосу тракта передачи, и, кроме того, повысило скрытность переговоров - порядок передаваемых сигналов менялся по случайному закону на передающем конце и восстанавливался по тому же закону в приемнике.

Разборчивость вокодерной речи оказалось довольно высокой, но звучала эта речь неестественно и воспринималась как машиноподобная - типичный голос робота. Если сначала для военных, ставших основными потребителями технологии, это не имело особого значения, то позднее качество звучания их устраивать перестало. Конечно, когда во время военных действий по каналу связи передаются только команды, о качестве речи не думают. Но военные обеспечивают и правительственную связь, и тут уж подавай качество по высшему разряду. Поэтому модернизация вокодеров шла как по пути повышения естественности речи, так и по пути сокращения количества передаваемых сигналов. Появились корреляционные (по линии связи передается функция корреляции, получаемая быстрым измерением мгновенного спектра речи в дискретных точках, а в синтезаторе на приемном конце по ней восстанавливается мгновенный спектр речи) и формантные вокодеры (информация передается не обо всем мгновенном спектре, а только о резонансных максимумах и минимумах - частотах полюсов и нулей передаточной функции речевого тракта, а также частота ОТ и решение тон-шум). Подобные системы давали разборчивость речи почти 100% для гласных звуков и около 70% для согласных при частотной полосе передачи примерно 300 Гц.

С появлением компьютеров вокодерные синтезаторы стали подключать к выходу ЭВМ, так как управляющие сигналы можно было теперь вычислять математически, а с развитием микропроцессорной техники синтезаторы становятся миниатюрными, и их начинают выпускать в виде небольших периферийных устройств, плат или чипов. Сегодня на рынке имеются чипы ПЗУ, содержащие целые словари готовых слов естественной речи, которые широко применяются в информационных системах и автоматических переводчиках. А с появлением массовых персональных компьютеров синтез речи перешел преимущественно в область программных решений, хотя еще встречаются смешанные продукты для профессионалов.

Но человек, создавший компьютер, хочет общаться с ним на своем же человеческом языке и желательно в устной форме, что тесно связано с проблемами слухового восприятия и не ограничиваться при этом ранее записанными фразами. Более сложная и интересная задача - "настоящий" синтез речи, позволяющий озвучивать тексты (преобразование text-to-speech), обычно происходит так: из текста выделяются отдельные словоформы, и между ними расставляются паузы в соответствие с правилами языка, знаками препинания и пользовательскими предпочтениями. Озвучивание может осуществляться с помощью дробления словоформ на фонемы для получения фонемной транскрипции, а в некоторых системах сначала проводится преобразование слов к типовым их составляющим - морфам (корни, приставки, суффиксы, окончания). К такого рода алгоритмам, например, относится компилятивный метод. Суть его в том, что в библиотеке хранятся отдельные звуки. Здесь можно провести некоторую аналогию с компьютерным синтезом музыки на основе сэмплов. Но с музыкой легче: одним сэмплом можно сыграть целую мелодию, а в речи еще приходится "сшивать" самые разнородные звуки. При этом грубые "швы" настолько раздражают слух, что речь становится неразборчивой, хотя и составлена из естественных звуков. Все дело в том, что артикуляторные органы работают плавно и форма колебаний одного звука переходит в форму следующего очень постепенно через несколько промежуточных фаз, четкую границу между которыми провести совершенно невозможно (это хорошо видно на осциллограмме, приведенной на рис. 5).





Рис. 5.
Осциллограмма слова "ау":
1 - гласная "а",
2 - переходный участок,
3 - гласная "у".
Видно, что однозначную границу между звуками "а" и "у" провести невозможно.

Более того, эти переходные участки играют исключительно важную роль в восприятии речи человеком, да и макроструктура речи весьма многопланова. Важной ее частью является просодия - ритмоинтонационные характеристики речи на уровне целых слов или высказываний. Нарушение произносительных норм приводит иногда к полному непониманию смысла высказывания. Вопросы эти очень важны и играют ключевую роль в построении синтезаторов, ведь для слушателя важно не то, как синтезировано, а что слышит его ухо.

Поэтому сэмплирование звуков речи представляет собой довольно тонкую задачу. А если учесть, что значительная часть смысла высказывания передается через просодию, то круг проблем расширяется еще больше.

Вот такая история говорящих машин... За недостатком места мы смогли рассказать о ней лишь вкратце, а подробнее про оставшиеся за кадром технологии синтеза можно прочитать в статье "Узнайте его по голосу" в КТ #49 за 1997 год.

 

 

 

 

 

 

 

 

 

 

Перспективы речевого интерфейса

Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие и применение этой технологии только начинается (в который раз). С одной стороны, успели сформироваться устойчивые стереотипы и предубеждения, с другой - несмотря на почти полвека настойчивых усилий не нашли разрешения вопросы, стоявшие еще перед родоначальниками речевого ввода. Как бы то ни было, продолжатся поиски такого интерфейса, который устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

Исследователи недалеко продвинулись за прошедшие десятки лет, что заставляет некоторых специалистов крайне скептически относиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практически решена. Впрочем, все зависит от того, что следует считать решением этой задачи.

Построение речевого интерфейса распадается на три составляющие.

I. Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную информацию. Пока что, на нынешнем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (понимание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клавиатуры микрофоном.

II. Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дублирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход будет удобнее, чем ввод этих же команд с клавиатуры или при помощи мыши. Пожалуй, даже удобнее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим); «Старт! Главное меню! Бери!» В идеале компьютер должен четко «осмысливать» естественную речь человека и понимать, что, к примеру, слова «Хватит!» и «Кончай работу!» означают в одной ситуации разные понятия, а в другой - одно и то же.

III. Третья задача состоит в том, чтобы компьютер мог преобразовать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.

Так вот, из этих трех задач достаточно ясное и окончательное решение существует только для третьей. По сути, синтез речи - это чисто математическая задача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего, будет совершенствоваться только ее техническая реализация.

Препятствием для окончательного решения первой задачи служит то, что никто до сих пор толком не знает, каким образом можно расчленить нашу речь, чтобы извлечь из нее те составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов , об этом более подробно я Вам расскажу позже .. Во всяком случае, после предварительной тренировки современные системы распознавания речи работают довольно сносно и делают ошибок не больше, чем делали оптические системы распознавания печатных символов лет пять-семь назад.

Что касается второй задачи, то она, по мнению большинства специалистов, не может быть решена без помощи систем искусственного интеллекта. Последние, как известно, пока не созданы, хотя большие надежды возлагаются на появление так называемых квантовых. Если же подобные устройства появятся, это будет означать качественный переворот в вычислительных технологиях, и тогда, как знать, может быть , многие теперешние подходы к речевому интерфейсу вообще окажутся ненужными.

Поэтому пока удел речевого интерфейса - всего лишь дублирование голосом команд, которые могут быть введены с клавиатуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область, которая для многих может оказаться очень привлекательной. Это речевой ввод текстов в компьютер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «осмысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большинство выпускаемых ныне программ «речевого интерфейса» ориентированы именно на ввод речи.

Хотя и здесь есть место для скепсиса. Если читать вслух, четко выговаривая слова, с паузами, монотонно, как это требуется для системы распознавания речи, то на машинописную страничку у меня уйдет пять минут. Печатаю на клавиатуре я с той же скоростью. Но сочиняю, при наличии вдохновения, раза в два-три медленнее, а без оного - медленнее раз в пять, так что скорость «ввода» и при диктовке и при работе на клавиатуре у меня абсолютно одинакова. Но вот сочинять и одновременно выговаривать сочиняемое с четкой артикуляцией , хоть убей, те не смогу.

Первый - и, пожалуй, основной - вопрос касается области применения. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства, вопреки устоявшемуся мнению, является задачей далеко не тривиальной. Сложившаяся практика применения компьютеров вовсе не способствует широкому внедрению речевого интерфейса.

Для подачи команд, связанных с позиционированием в пространстве, человек всегда пользовался и будет пользоваться жестами, то есть системой «руки- глаза». На этом принципе построен современный графический интерфейс. Перспектива замены клавиатуры и мыши блоком распознавания речи абсолютно отпадает. При этом выигрыш от возложения на него части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьютерах на протяжении уже более тридцати лет. Именно таким сроком оценивается существование коммерчески применимых систем распознавания речи.

Для иллюстрации своих аргументов возможно, несколько спорных утверждений рассмотрю перспективу и основные проблемы применения систем речевого ввода текстов, особенно активно продвигаемых в последнее время.

Для сравнения: спонтанная речь произносится со средней скоростью 2,5 слов в секунду, профессиональная машинопись - 2 слова в секунду, непрофессиональная - 0,4. Таким образом, на первый взгляд, речевой ввод имеет значительное превосходство по производительности. Однако оценка средней скорости диктовки в реальных условиях снижается до 0,5-0,8 слова в секунду в связи с необходимостью четкого произнесения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждающихся в корректировке.

Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому (к этому я еще вернусь) компьютеру. Кроме того, имеющийся опыт эксплуатации подобных систем свидетельствует о высокой вероятности заболевания голосовых связок операторов, что связано с неизбежной при диктовке компьютеру монотонностью речи.

Часто к достоинствам речевого ввода текста относят отсутствие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи- чувствительность к четкости произношения- приводит к потере этого, казалось бы, очевидного преимущества. Печатать на клавиатуре оператор учится в среднем 1-2 месяца. Постановка правильного произношения может занять несколько лет.

Существует и еще одно неприятное ограничение применимости, сознательно не упоминаемое, на мой взгляд, создателями систем речевого ввода. Оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать в звука изолированном отдельном помещении либо пользоваться звукоизолирующим шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумовой фон, будут значительно затруднять работу речевого распознавателя. Таким образом, речевой интерфейс вступает в явное противоречие с современной организационной структурой предприятий, ориентированных на коллективный труд. Ситуация несколько смягчается с развитием удаленных форм трудовой деятельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на узкий круг применения.

Ограничения применимости систем распознавания речи в рамках наиболее популярных традиционных приложений заставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложений за пределами традиционной офисной сферы, что подтверждается коммерческими успехами узкоспециализированных речевых систем. Самый успешный на сегодня проект коммерческого применения распознавания речи - телефонная сеть фирмы АТ&Т. Клиент может запросить одну из пяти категорий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании не встретится одно из пяти ключевых слов. Эта система в настоящее время обслуживает около миллиарда звонков в год.

Несмотря на то, что одним из наиболее перспективных направлений для внедрений систем распознавания речи может стать сфера компьютерных игр, узкоспециализированных реабилитационных программ для инвалидов, телефонных и информационных систем, ведущие разработчики речевого распознавания наращивают усилия по достижению универсализации и увеличения объемов словаря даже в ущерб сокращению процедуры предварительной настройки на диктора.

Даже Билл Гейтс, являющий собой в некотором смысле идеал прагматизма, оказался не свободен от исторически сложившихся стереотипов. Начав в 95-96 году с разработки собственной универсальной системы распознавания речи, он, окрыленный первыми и, пожалуй, сомнительными успехами, в 97-м провозгласил очередную эру повсеместного внедрения речевого интерфейса. Средства речевого ввода планируется включить в стандартную поставку новой версии Windows NT- чисто офисной операционной системы. При этом руководитель Microsoft упорно повторяет фразу о том, что скоро можно будет забыть о клавиатуре и мыши. Вероятно, он планирует продавать вместе с коробкой Windows NT акустические шлемы вроде тех, которые используют военные летчики и пилоты «Формулы 1». Кроме того, неужели в ближайшем будущем прекратится выпуск Word, Ехсеl и т. д. ? Управлять графическими объектами экрана голосом, не имея возможности помочь руками, более чем затруднительно.

Будущее речевого интерфейса в не меньшей степени зависит от умения современных исследователей и разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия «человек-компьютер». Основная работа еще впереди.

Базовая технология

Не следует путать термины «понимание» и распознавание» речи. В то время как второй непосредственно относится к технологии преобразования акустических речевых сигналов в последовательность символов машинной кодировки, например ASCII. первый подразумевает анализ более высоких уровней (прагматический, семантический и т. д.) и формирование на его основе представления о смысловом содержании высказывания. Дальнейшее разграничение задан укрепилось благодаря коммерческому успеху узкоспециализированных систем, ни в малейшей степени не нуждающихся, например, в модуле анализа контекста высказывания.

Традиционно процесс распознавания речи подразделяется на несколько этапов. На первом - производится дискретизация непрерывного речевого сигнала. преобразованного в электрическую форму Обычно частота дискретизации составляет 10-11 кГц. разрядность- 8 бит, что считается оптимальным для работы со словарями небольшого объема (10-1000 слов) и соответствует качеству передачи речи телефонного канала (ЗГц- 3.4кГц). понятно что увеличение объема активного словаря должно сопровождаться повышением частоты оцифровки н в некоторых случаях - поднятием разрядности.

На втором этапе дискретный речевой сигнал подвергается очистке от шумов и преобразуется в более компактную форму. Сжатие производится посредством вычисления через каждые 10 мс некоторого набора числовых параметров (обычно не более 16) с минимальными потерями информации, описывающей данный речевой сигнал. Состав набора зависит от особенностей реализации системы. Начиная с 70-х годов наиболее популярным методом (практически стандартом) построения сжатого параметрического описания стало линейно-предиктивное кодирование (ЛПК), в основе которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярности находится, вероятно, спектральное описание, полученное с помощью дискретного преобразования Фурье.

Очень хорошие результаты, однако, могут быть достигнуты и при использовании других методов, часто менее требовательных к вычислительным ресурсам, например клипирования. В этом случае регистрируется количество изменений знака амплитуды речевого сигнала и временные интервалы между ними. Получаемая в результате последовательность значений, представляющих собой оценку длительностей периодов сохранения знака амплитудой, несмотря на кажущуюся примитивность метода, достаточно полно представляет различия между произносимыми звуками. На таком методе предобработки основана, в частности, система распознавания речи, разработанная в конце 80-х в НИИ счетного машиностроения (Москва).

Временной (10 мс) интервал вычисления был определен и обоснован экспериментально еще на заре развития технологии автоматического распознавания речи. На этом интервале дискретный случайный процесс, представляющий оцифрованный речевой сигнал считается стационарным, то есть на таком временном интервале параметры голосового тракта значительно не изменяются.

Следующий этап- распознавание. Хранимые в памяти компьютера эталоны произношения по очереди сравниваются с текущим участком последовательности десяти миллисекундных векторов, описывающих входной речевой сигнал. В зависимости от степени совпадения выбирается лучший вариант и формируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с очень существенной проблемой - необходимостью нормализации сигнала по времени. Темп речи, длительность произношения отдельных слов и звуков даже для одного диктора варьируется в очень широких пределах. Таким образом, возможны значительные расхождения между отдельными участками хранимого эталона и теоретически совпадающим с ним входным сигналом за счет их временного рассогласования. Достаточно эффективно решать данную проблему позволяет разработанный в 70-х годах алгоритм динамического программирования и его разновидности (алгоритм Витерби). Особенностью таких алгоритмов является возможность динамического сжатия и растяжения сигнала по временной оси непосредственно в процессе сравнения с эталоном. С начала 80-х все более широкое применение находят марковские модели, позволяющие на основе многоуровневого вероятностного подхода к описанию сигнала производить временную нормализацию и прогнозирование продолжений , что ускоряет процесс перебора эталонов и повышает надежность распознавания.

Что такое распознавание речи?

На первый взгляд, все очень просто: вы произносите фразу, на которую техническая система реагирует адекватно .На самом деле за столь простой идеей кроются огромные сложности.

Почему же между постановкой задачи и ее решением лежит дистанция огромного размера? Распознавание речи - молодая, развивающаяся технология. Ее очертания пока зыбки и изменчивы. Поэтому в статье пока больше вопросов, чем ответов. Я попытаюсь немного рассказать о технологиях распознавания речи, и, надеюсь, вам будет интересно.

Немного о терминах

Начнем с главного термина. Что есть речь?

Говоря о речи, мы должны различать такие понятия, как «речь», «звуковая речь», «звуковой сигнал», «сообщение», «текст».

В нашем случае, в приложении к задаче распознавания такие понятия, как «речь» и «звуковая речь» означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при помощи приборов и алгоритмов. То есть речь может быть представлена в виде некоего речевого сигнала, который в свою очередь может использоваться для обратного воспроизведения речи. То есть можно поставить знак эквивалентности между звуковой речью и ее представлением в виде речевого сигнала. При этом под понятием «сообщение» может скрываться любая полезная для получателя информация, а не только текст. Например, если интересоваться не словами а интонациями, то сообщением будут просодические нюансы речи. Что же касается распознавания речи, то в нашем случае задача сводится к извлечению из речи текста.

Но здесь мы сталкиваемся с одним противоречием. Текст, как известно, состоит из букв, слов, предложений, - то есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие от текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск компьютера звучание каждой отдельной буквы, а потом попробуем скомпоновать из этих звуков речь, у нас ничего не получится.

Люди уже довольно давно догадались о том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам. Поэтому придумали понятие фонемы для обозначения элементарных звуков речи. Хотя до сих пор специалисты никак не могут решить - сколько же всего различных фонем существует. Есть даже такой раздел лингвистики - фонетика. Большинство авторов даже для одного и того же языкового диалекта приводят разное количество фонем. В русском языке по одним данным 43 фонемы, по другим - 64, по третьим - более сотни... Но так уж повелось, что есть миф о незыблемости понятия фонемы. И о том, что речевой сигнал состоит непосредственно из кусочков сигнала, каждый из которых является фонемой. К сожалению, все далеко не так просто.

Поначалу ученые рассматривали речевой сигнал как набор неких универсалий, расположенных друг за другом на временной оси, и считали этими универсалиями фонемы. Однако дальнейшие исследования речевых сигналов никаких фонем не обнаружили.

Тогда одни исследователи справедливо решили, что при генерации речевых сигналов наблюдается коартикуляция, то есть взаимопроникновение соседних звуков (мышцы лица, язык и челюсти обладают разной инерцией). Значит, речевой сигнал должен состоять не из фонем, а из аллофонов - комбинаций «слипшихся» фонем.

Другие исследователи, подобно физикам, атаковали идею элементарности фонем и стали утверждать, что фонемы надо поделить на еще более короткие кусочки или даже вообще отказаться от этого понятия и «расчленять» речевой сигнал как-то иначе. Так родились фоноиды и еще масса авторских названий элементарных звуков.

А дальше все многозначительно замолчали. Каждый принялся рассматривать речевой сигнал со своей позиции, сообщай об успехах весьма туманно. Последнее, весьма вероятно, можно объяснить желанием сохранить ноу-хау. Вот такая картина. Люди изобрели целую кучу претендентов на универсальность. Конечно, в их основу положено прежде всего человеческое ощущение звука. Возможно поэтому фонемы ничем не лучше букв. А фоноиды, аллофоны и прочая - лишь усовершенствованная версия звукового деления речи. Может быть, в них и есть какой-то смысл. Мы ведь услышим. А технически-то сигнал состоит не из наших, человеческих компонентов восприятия. Сигнал можно разложить, отфильтровать, как-то еще преобразовать. Задача не в этом. Необходимо найти некий эквивалент, построить модель механизма восприятия звуков речи. Большой интерес для ученых, работающих в области распознавания речи, представляют различные разделы лингвистики, науки о языках. Возможно, удачный синтез достижений этих наук и теории обработки речевых сигналов приведут к успешному созданию систем распознавания .

Главные трудности фонемного подхода

Темп речи варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропо-рционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные - это звуки при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными. Например, так обычно звучат «м», «н», «л» и «р». Смычные звуки образуются при резком смыкании и размыкании органов артикуляции. Например «б», «л», «д», «т». Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. Можно назвать «в», «ж», «с», а также «ш» и другие шипящие. В качестве примеров для простоты намеренно не приведены звуки, не имеющие буквенных обозначений.) Эта свойство называется временной нестационарностью образцов речевого сигнала. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намного сильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарной сетью образцов речевого сигнала (см. примеры спектрограмм). В Изменение темпа речи и четкости произношения является причиной коартикуляционной нестационарности, означающей изменение взаимовлияния соседних звуков от образца к образцу. Проблема кластеризации слитной речи. Из непрерывного речевого потока довольно непросто выделить какие-либо речевые единицы. Многие звуки «слипаются» либо имеют нечеткие границы.

Многообразие видов Существующие системы распознавания речи можно классифицировать по разным признакам.

По назначению:

1) командные системы

2) системы диктовки текста.

По потребительским качествам:

1) диктороориентированные (тренируемые на конкретного диктора)

2) дикторонезависимые (рискую предложить термин «омнивойс»)

3) распознающие отдельные слова

4) распознающие слитную речь.

По механизмам функционирования:

1) простейшие (корреляционные) детекторы

2) экспертные системы с различным способом формирования и обработки базы знаний

3) вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

Довольно трудно выбрать удобный показатель качества работы системы распознавания речи. Наиболее просто такой показатель качества вводится для командных систем. При тестировании в случайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитывается количество правильно распознанных команд и делится на общее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в заданной при эксперименте акустической обстановке. Для систем диктовки похожий показатель качества может вычисляться при диктовке некоторого тестового текста. Очевидно, что это не всегда удобный показатель качества. В действительности мы сталкиваемся с самыми различными акустическими обстановками. Но как быть со сменой дикторов и сопутствующей ей тренировкой системы?

В качестве примера разрешите взять на рассмотрение вариант простейшей командной системы распознавания речи. Функционирование системы основано на гипотезе о том, что спектрально-временные характеристики команд-слов для отдельно взятого диктора изменяются слабо. Акустическая модель такой системы представляет собой преобразователь из речевого сигналов спектрально-временную матрицу и может служить типичным примером изобретательского подхода. В самом простом случае команда локализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить ограниченное число команд плюс еще одну, которая означает все остальные неизвестные системе слова. Как правило, лингвистическая модель строится как алгоритм поиска максимума функционала от входного образца и образцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размерности пространства описания и его метрики может широко варьироваться разработчиком.

Уже исходя из «конструкции» описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В настоящее время на рынке представлено множество коммерческих систем распознавания речи с гораздо большими возможностями:

u Voice Type Dictation , Voice Pilot , ViaVoice от IBM

u Voice Assist Creative от Techonology

u Listen for Windows от Verbex и многие другие.

Некоторые из них (например, ViaVoice) способны, как заявляют разработчики, вводить слитную речь.

Лингвистические блоки современных систем реализуют сложную модель естественного языка. Иногда она основана на математическом аппарате скрытых цепей Маркова, иногда использует последние достижения технологии нейронных сетей либо других ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых систем пытается моделировать естественный слуховой аппарат.

Речевой вывод.

Речевой вывод информации из компьютера- проблема не менее важная, чем речевой ввод. Это вторая часть речевого интерфейса, без которой разговор с компьютером не может состояться. Я имею в виду прочтение вслух текстовой информации, а не проигрывание заранее записанных звуковых файлов. То есть выдачу в речевой форме заранее не известной информации.

Фактически, благодаря синтезу речи по тексту открывается еще один канал передачи данных от компьютера к человеку, аналогичный тому, какой мы имеем благодаря монитору. Конечно, трудновато было бы передать рисунок голосом. Но вот услышать электронную почту или результат поиска в базе данных в ряде случаев было бы довольно удобно, особенно если в это время взгляд занят чем-либо другим. Например, придя утром на работу в офис, вы могли бы поправлять галстуку зеркала или возвращать на место прическу (может быть, даже подкрашивать ногти ) в то время как компьютер будет читать вслух последние известия или почту. Или. например, в середине рабочего дня он может привлечь ваше внимание сообщением, что приближается время заранее назначенной деловой встречи.

С точки зрения пользователя, наиболее разумное решение проблемы синтеза речи - это включение речевых функций (в перспективе - многоязычных, с возможностями перевода) в состав операционной системы. Компьютеры будут озвучивать навигацию по меню, читать (дублировать голосом) экранные сообщения, каталоги файлов, и т. д. Важное замечанием пользователь должен иметь достаточные возможности по настройке голоса компьютера, в частности, при желании, суметь выключить голос совсем.

Вышеупомянутые функции и сейчас были бы не лишними для лиц, имеющих проблемы со зрением. Для всех остальных они создадут новое измерение удобства пользования компьютером и значительно снизят нагрузку на нервную систему и на зрение. По моему мнению, сейчас не стоит вопрос, нужны синтезаторы речи в персональных компьютерах или нет. Вопрос в другом - когда они будут установлены на каждом компьютере. Осталось ждать, может быть, год или два.

Методы синтеза речи

Теперь, после оптимистического описания ближайшего будущего давайте обратимся собственно к технологии синтеза речи. Рассмотрим какой-нибудь хотя бы минимально осмысленный текст, например, эту статью. Текст состоит из слов, разделенных пробелами и знаками препинания. Произнесение слов зависит от их расположения в предложении, а интонация фразы - от знаков препинания. Более того, довольно часто и от типа применяемой грамматической конструкции: в ряде случаев при произнесении текста слышится явная пауза, хотя какие-либо знаки препинания отсутствуют. Наконец, произнесение зависит и от смысла слова! Сравните, например, выбор одного из вариантов за'мок» или «замо'к» для одного и того же слова «замок».

Обобщенная функциональная система синтеза

Структура идеализированной системы автоматического синтеза речи может быть представлена блок- схемой.

Ввод текста

Блоки лингвистической Определение Исправление

Обработки языка текста ошибок

Подготовка текста входного текста

к озвучиванию

Нормализация текста

Лингвистический анализ

 

Формирование Фонемный транскриптор

Просодических Приведение фонем

характеристик к единицам синтеза

Озвучивание Формирование управляющей информации

Получение звукового сигнала

Звук

Она не описывает ни одну из существующих реально систем, но содержит компоненты, которые можно обнаружить во многих системах.

Модуль лингвистической обработки Прежде всего, текст, подлежащий прочтению, поступает в модуль лингвистической обработки. В нем производится определение языка , а также отфильтровываются не подлежащие произнесению символы. В некоторых случаях используются спелчекеры (модули исправления орфографических и пунктуационных ошибок). Затем происходит нормализация текста, то есть осуществляется разделение введенного текста на слова и остальные последовательности символов.Все знаки пунктуации очень информативны.

Для озвучивания цифр разрабатываются специальные подблоки. Преобразование цифр в последовательности слов является относительно легкой задачей, но цифры имеющие разное значение и функцию, произносятся по-разному.

Лингвистический анализ

После процедуры нормализации каждому слову текста необходимо приписать сведения о его произношении, то есть превратить в цепочку фонем или, иначе говоря, создать его фонемную транскрипцию. Во многих языках, в том числе и в русском, существуют достаточно регулярные правила чтения - правила соответствия между буквами и фонемами (звуками), которые, однако могут требовать предварительной расстановки словесных ударений. В английском языке правила чтения очень нерегулярны, и задача данного блока для английского синтеза тем самым усложняется. В любом случае при определении произношения имен собственных, заимствований, новых слов сокращений и аббревиатур возникают серьезные проблемы. Просто хранить транскрипцию для всех слов языка не представляется возможным из-за большого объема словаря и контекстных изменении произношения одного и того же слова во фразе.

Кроме того, следует корректно рассматривать случаи графической омонимии: одна и та же последовательность буквенных символов в различных контекстах порой представляет два различных слова/словоформы и читается по- разному (ср. выше приведенный

пример слова «замок»). Часто удается решить проблему неоднозначности такого рода путем грамматического анализа, однако иногда помогает только использование более широкой семантической информации.

Для языков с достаточно регулярными правилами чтения одним из продуктивных подходов к переводу слов в фонемы является система контекстных правил, переводящих каждую букву/буква - сочетание в ту или иную фонему, то есть автоматический фонемный транскриптор. Однако чем больше в языке исключений из правил чтения, тем хуже работает этот метод. Стандартный способ улучшения произношения системы состоит в занесении нескольких тысяч наиболее употребительных исключений в словарь. Альтернативное подходу «слово - буква-фонема» решение предполагает морфемный анализ слова и перевод в фонемы морфов (то есть значимых частей слова: приставок, корней, суффиксов и окончаний). Однако в связи с разными пограничными явлениями на стыках морфов разложение на эти элементы представляет собой значительные трудности. В то же время для языков с богатой морфологией, например, для русского. словарь морфов был бы компактнее. Морфемный анализ удобен еще и потому, что с его помощью можно определять принадлежность слов к частям речи, что очень важно для грамматического анализа текста и задания его просодических характеристик. В английских системах синтеза морфемный анализ был реализован в системе MiTalk, для которой процент ошибок транскриптора составляет 5%.

Особую проблему для данного этапа обработки текста образуют имена собственные.

 

Формирование просодических характеристик

К просодическим характеристикам высказывания относятся его тональные, акцентные и ритмические характеристики. Их физическими аналогами являются частота основного тона, энергия и длительность. Таким образом, от системы синтеза следует ожидать примерно того же, то есть, что она сможет понимать имеющийся у нее на входе текст, используя методы искусственного интеллекта. Однако этот уровень развития компьютерной технологии еще не достигнут, и большинство современных систем автоматического синтеза стараются корректно синтезировать речь с эмоционально нейтральной интонацией. Между тем, даже эта задача на сегодняшний день представляется очень сложной .

Методы озвучивания

Теперь скажу несколько слов о наиболее распространенных методах озвучивания, то есть о методах получения информации, управляющей параметрами создаваемого звукового сигнала, и способах формирования самого звукового сигнала.

Самое широкое разделение стратегий, применяемых при озвучивании речи, - это разделение на подходы, которые направлены на построение действующей модели рече-производящей системы человека, и подходы, где ставится задача смоделировать акустический сигнал как таковой. Первый подход известен под названием артикуляторного синтеза. Второй подход представляется на сегодняшний день более простым, поэтому он гораздо лучше изучен и практически более успешен. Внутри него выделяется два основных направления - формантный синтез по правилам и компилятивный синтез.

Формантные синтезаторы используют возбуждающий сигнал, который проходит через цифровой фильтр, построенный на нескольких резонансах, похожих на резонансы голосового тракта. Разделение возбуждающего сигнала и передаточной функции голосового тракта составляет основу классической акустической теории речеобразования.

Компилятивный синтез осуществляется путем склейки нужных единиц компиляции из имеющегося инвентаря. На этом принципе построено множество систем, использующих разные типы единиц и различные методы составления инвентаря. В таких системах необходимо применять обработку сигнала для приведения частоты основного тона, энергии и длительности единиц к тем, которыми должна характеризоваться синтезируемая речь. Кроме того, требуется, чтобы алгоритм обработки сигнала сглаживал разрывы в формантией (и спектральной в целом) структуре на границах сегментов. В системах компилятивного синтеза применяются два разных типа алгоритмов обработки сигнала: LP (сокр. англ. Linear Prediction - линейное предсказание) и PSQLA (сокр. англ. Pitch Synchronous Overlap and Add). LP-синтез основан в значительной степени на акустической теории речеобразования, в отличие от PSOLA-синтеза, который действует путем простого разбиения звуковой волны, составляющей единицу компиляции, на временные окна и их преобразования. Алгоритмы PSOLA позволяют добиваться хорошего сохранения естественности звучания при модификации исходной звуковой волны.

Наиболее распространенные системы синтеза (иностранные языки)

Наиболее распространенными системами синтеза речи на сегодня, очевидно, являются системы, поставляемые в комплекте со звуковыми платами. Если ваш компьютер оснащен какой-либо из них, существует значительная вероятность того, что на нем установлена система синтеза речи - увы, не русской, а английской речи, точнее, ее американского варианта. К большинству оригинальных звуковых плат Sound Blaster прилагается система Creative Text- Assist, а вместе со звуковыми картами других производителей часто поставляется программа Monologue компании FirsfByte.

TexAssist представляет собой реализацию формантного синтезатора по правилам и базируется на системе DECTalk, разработанной корпорацией Digital Equipment при участии известного американского фонетиста Денниса Клатта (к сожалению, рано ушедшего из жизни). DECTalk до сих пор остается своего рода стандартом качества для синтеза речи американского варианта английского. Компания Creative Technologies предлагает разработчикам использовать TextAssist в своих программах.

Поддерживаемые операционные системы - MS Windows и Windows 95; для Windows NT существует версия системы DECTalk. изначально создававшейся для Digital Unix. Новая версия TextAsslst, объявленная фирмой Associative Computing, Inc. и разработанная с использованием технологий DECtalll и Creative, является в то же время многоязычной системой синтеза, поддерживая английский, немецкий, испанский и французский языки. Это обеспечивается прежде всего использованием соответствующих лингвистических модулей. разработчик которых- фирма Lemout & Hausple Speech Produсts признанный лидер в поддержке многоязычных речевых технологий. В новой версии будет встроенный редактор словаря, а также специализированное устройство TextReader с кнопочным управлением работой синтезатора в разных режима), чтения текста.

Программа Monologue, предназначенная для озвучивания текста, находящегося в буфере обмена MS Windows, использует систему ProVoice. ProVoice- компилятивный синтезатор с использованием оптимального выбора режима компрессии речи и сохранения пограничных участков между звуками, разновидность TD-PSOLA. Рассчитан на американский и британский английский, немецкий, французский, латиноамериканскую разновидность испанского и итальянский языки. Инвентарь сегментов компиляции - смешанной размерности: сегменты- фонемы или аллофоны. Компания FirstByte позиционирует систему ProVoice и программные продукты, основанные на ней, как приложения с низким потреба пением процессорного времени. FirstByte также предлагает рассчитанную на мощные компьютеры систему артикуляторного синтеза PrimoVox для использования в приложениях телефонии. Для разработчиков: Monologue Win32 поддерживает спецификацию MicrosoftSAPI.

Синтезатор русской речи

В качестве примера рассмотрим разработку «Говорящая мышь» клуба голосовых технологий научного парка МГУ.

В основе речевого синтеза лежит идея совмещения методов конкатенации и синтеза по правилам. Метод конкатенации при адекватном наборе базовых элементов компиляции обеспечивает качественное воспроизведение спектральных характеристик речевого сигнала, а набор правил - возможность формирования естественного интонационно-просодического оформления высказываний. Существуют и другие методы синтеза, может быть, в перспективе более гибкие, подающие пока менее естественное озвучивание текста. Это, прежде всего параметрический (формантный'' синтез речи по правилам или на основе компиляции, развиваемый для ряда языков зарубежными исследователями. Однако для реализации этого метода необходимы статистически представительные акустика-фонетические базы данных и соответствующая компьютерная технология, которые пока доступны не всем.

Инструментарий синтеза русской речи

Упоминавшийся выше инструментарий синтеза русской речи по тексту позволяет читать вспух смешанные русско-английские тексты. Инструментарий представляет собой набор динамических библиотек (DLL), в который входят модули русского и английского синтеза, словарь ударений русского языка, модуль правил произнесения английских слов. На вход инструментария подается слово или предложение, подлежащее произнесению, с выхода поступает звуковой файл в формате WAV или VOX, записываемый в память или на жесткий диск.

Что дальше?

А дальше... С одной стороны, нужно не забывать, что речь - эта все-таки одно из проявлений высшей нервной деятельности человека, и потому вряд пи в ближайшие несколько лет стоит ожидать появления систем распознавания речи по эффективности и удобству сравнимых с секретарем-машинисткой, печатающей «со слов». С другой стороны, в мире технологий все меняется очень быстро, и не известие, что сложнее: расслышать непринужденно сказанную фразу или разыграть красивый эндшпиль...

Думаю не будет секретом то , что любой находящийся в этой аудитории человек если он болен машиной , если он фанатик врятли воспринимает её как неодушевлённый предмет , как мебель . Скорее в кучку железа под таинственным названием компьютер мы вкладываем душу ,вкладываем себя посредством непрерывного общения в прямом смысле этого слова . Лично я не раз замечала за собою безсознательные вещи : набивая текст, составляя программу ,инсталируя приложения я регулярно бросаю компьютеру нелестные отзывы о ней же.Типа: Чего ты еще хочешь Захлопнись , или Ну и кретин же ты. Наивно пологая что когда нибудь она меня всё-таки услышит и на реплику : «Какой же ты балбес» ласково произнесет питание компьютера отключено , потеря всех не сохраненных данных . Именно по-этому темой своего реферата я выбрала близкую мне : Речевые технологии .Хотя я назвала бы ее более лирично : Узнай меня по голосу . В своем выступлении я хотела бы осветить не только проблемы и перспективы развития речевого интерфейса, но по рассуждать о том нужен ли он вообще и ой как не скоро окупят надежды потери времени и денег.

 

 02.07.2013

kmp