kmp-VIT

Речевые технологии

Звуковая речь - генерируемое человеком звуковое сообщение.

Речь может быть объективно зарегистрирована, измерена, сохранена, обработана, воспроизведена при помощи приборов и алгоритмов, представлена в виде некоторого речевого сигнала.

Андрей Зализняк (академик РАН):

Главный миф любительской лингвистики - это приоритет письма перед звучащей речью. Для любителя написание первично, а звучание вторично: "это то, как прочли слово". Любитель настолько привык к своему умению читать и к своей жизни среди письменных текстов, что он уже не в состоянии осознать, что в истории человечества письменность была уделом ничтожной части умеющих говорить.
Любой живой язык - это средство устного общения, тогда как письменная форма (за вычетом двух последних веков) существовала не более чем для одной сотой языков, а доля грамотных людей была, вероятно, еще в тысячу раз меньше.

"О профессиональной и любительской лингвистике" НиЖ, 2009, № 2, С. 55.

Задачи построение речевого интерфейса

Синтез речи (компьютер преобразует информацию, с которой он оперирует, в речевое сообщение, понятное человеку). Задача решена на высоком алгоритмическом уровне, улучшается ее программно-техническая реализация.
Распознавание речи (компьютер извлекает из речи человека полезную информацию). Задача имеет в настоящее время ряд частных и ограниченных решений, которые позволяют создавать эффективные специализированные системы речевого интерфейса (голосовое командное управление ПК, системы диктовки текста, средства идентификации по образцу речи и т.д.).
Понимание речи (компьютер должен воспринимать не просто прямое значение, но смысл сказанного). Перспективная задача - может быть решена только на базе систем искусственного интеллекта, аппаратной основой для которых станут возможно квантовые компьютеры.

11.05.2009 По данным Yankee Group, в мире:

82% компаний уже развернули решения VoIP в том или ином виде,
10% компаний имеют решения VoIP охватывающие всю корпоративную инфраструктуру.

Технология VoIP позволяет компаниям повышать эффективность работы сотрудников, а также существенно экономить на связи, что особенно важно в непростых экономических условиях.

Достоинства и ограничения речевого интерфейса

Речевой интерфейс естественен для человека.
Взаимодействие с компьютером посредством речевого интерфейса требует определенного уровня звукоизоляции рабочего места пользователя;
Речевой интерфейс может привести к заболеванию голосовых связок (следствие напряженности и монотонности речи).
Современные системы речевого интерфейса чувствительны к четкости произношения человека и часто требуют специальной подготовки.

Обучение оператора печати на клавиатуре (профессиональная машинопись - 2 слова/сек.) - 1-2 месяца. Постановка правильного произношения занимает несколько лет (скорость спонтанной речи 2,5 слова/сек., диктовка 0,5-0,8 слова/сек.).

Синтез речи по тексту

Синтез речи (speech synthesis) - процесс преобразования информации, которой оперирует компьютер в речевое сообщение, понятное человеку.

Структура синтеза речи:

Ввод текста;
Определение языка текста, фильтрация шумов и неподлежащих произношению символов. Исправление ошибок входного текста;
Нормализация текста (разделение текста на слова и остальные последовательности символов: знаки пунктуации, окончания абзаца и т.п.);
Лингвистический анализ текста: фонемная транскрипция (превращение его в цепочку фонем);
Формирование просодических характеристик блоками расстановки пауз, приписывания ритма и акцента, тональных характеристик за счет частоты основного тона, энергии и длительности звуковых колебаний. В речи просодия определяется непонятным компьютеру смыслом слов, поэтому речь синтезируется с эмоционально нейтральной интонацией. Формирование просодических характеристик осуществляется
Создание параметров звукового сигнала. Используются три метода: артикулярный синтез (основан на модели голосового тракта человека, наиболее сложен в реализации), формантный (использует сигнал проходящий через цифровой фильтр, построенный на резонансах, подобных резонансам голосового тракта), компилятивный (осуществляется путем склейки нужных единиц речи их имеющегося инвентаря).
генерация звукового сигнала по управляющей информации
вывод звука.

Метод Unit Selection (компилятивный синтез) наиболее выгодный с точки коммерции. Но с точки научности и интереса артикуляторный синтез был и остается «голубой мечтой» любого синтезаторщика – т.е. моделирование звукового тракта. Даже отдельные звуки просинтезировать таким методом очень сложно. Распознавание – более наукоемкая область. В ней очень много статистики и тоже не всё так прозрачно, особенно если отказаться от шаблонных методов (обучение по диктору, произвольных фраз).

Виталий Киселев директор компании «Речевые Технологии»

Синтез речи чаще всего, выполняет звуковая плата под управлением специального программного обеспечения, включающего:

1) голосовые движки (Text-To-Speech, TTS),

2) программы-оболочки, организовывающие удобный пользовательский интерфейс для работы с этими движками.

Для удобства взаимодействия различных прикладных программ с разработанными речевыми продуктами компания Microsoft предложила использовать стандарт для голосовых движков SAPI (Speech Application Programming Interface).

Большинство речевых движков поддерживают одну из версий этого стандартного программного интерфейса для платформы Windows: MS SAPI 4.x или MS SAPI 5.x.

В операционных системах Windows XP и Vista SAPI 5.1 установлен по умолчанию.

Русскоязычные Text-To-Speech

L&H TTS3000 Russian - поддерживает MS SAPI 4.x и имеет мужской и женский голоса c американскиv акцентом.

Digalo Russian Nikolai - синтезирует приятный баритон без акцента (голос создан на кафедре экспериментальной фонетики СПб Гос. Университета.

Движок Клуба голосовых технологий при научном парке МГУ говорит монотонно-механически на русском и английском языке (с русским акцентом) десятью голосами.

Sakrament TTS Engine - разработан белорусской компанией "Сакрамент".

STC TTS Engine 1.5 - разработан белорусско-российской компанией Речевые технологии.

Программы-оболочки:

Говорилка
Рассказчiк
VoiceManager
Salebook

Синтез речи все шире используется в электронных книгах (ICE Book Reader, CoolReader), переводных электронных словарях (LingvoSoft Talking Dictionary, МультиЛекс), системах компьютерного перевода текста (PROMT 8).

20.10.2011

Google внедрил в браузер интерфейсы Text-to-Speech API и теперь любое приложение или расширение Chrome способно читать текст вслух. Синтез речи из расширения осуществляется командойchrome.tts.speak('Hello, world!'); (предварительно требуется добавить tts в список разрешений для данного расширения). С помощью модуля chrome.ttsEngine можно прикрутить к браузеру свой собственный движок синтеза речи (например, для русского языка). Подключенному к Chrome движку синтеза речи разрешено использовать для воспроизведения звука любую веб-технологию, в том числе HTML5 Audio, Web Audio API или Native Client. Интерфейс поддерживает параметры для громкости (volume), скорости речи (rate) и высоты тона (pitch). Расширение может даже синхронизировать действия на экране со словами, которые произносит программа синтеза речи, потому что TTS API позволяют получать фидбек после каждого произнесённого слова.

Как установить:

заходим в интернет-магазин https://chrome.google.com/webstore
выбираем приложение Flite TTS Engine Demo (раздел Утилиты)
устанавливаем (должна быть регистрация в Google+)
запускаем и проверяем.
закрепляем вкладку и пользуемся

Распознавание речи

Распознавание речи (speech recognition) - преобразование речи в электронный текст (последовательность символов машинной кодировки).

Процесс процесс распознавания речи позволяет организовать речевое управление компьютером и ввод текста с микрофона.

Уже в 70-х годах способность устройств речевого ввода распознавать звуки речи превосходила человеческую.

При отсутствии возможности использовать смысловой анализ речи человек явно проигрывает компьютеру. Но в восприятии осмысленной речи имеет неоспоримое преимущество.

Трудности технологий распознавания речи в:

в несоответствии звуков и букв, в неопределенности понятия фонемы (аллофона),
в трудности выделения из непрерывного потока речи речевых единиц,
в их временной нестационарности (непропорциональном сжатии звуков в зависимости от темпа речи),
в их спектральной нестационарности (изменении спектра сигнала под влиянием множества факторов),
в их коартикуляционной нестационарности (взаимовлиянии соседних звуков),
в отсутствии приемлемой модели восприятия звуков речи.

Фонема (от греч. phonema - звук), основная единица звукового строя языка, предельный элемент, выделяемый линейным членением речи.

Аллофон (от греч. иной, другой, и звук), вариант, разновидность фонемы, обусловленная данным фонетическим окружением. Например, в словах "первое" и "апреля" звук "п" находится в разном окружении, и, соответственно, будут разные аллофоны.

Распознать русский язык значительно сложнее английского или немецкого. Он состоит из большего числа звуковых сочетаний и допускает свободный порядок слов, который делает язык много богаче, но представляет колоссальную трудность для создания систем распознавания.

Михаил Хитров, ген. директор Центра Речевых Технологий.

Основные параметры систем распознавания речи:

объем словаря понимаемых слов;
допустимая беглость речи (может речь произноситься слитно, либо между словами должны быть паузы);
степень зависимости от настойки на речь конкретного лица.

Этапы распознавания речи:

дискретизация непрерывного речевого сигнала, преобразованного в электрическую форму. Обычно частота дискретизации составляет 10–11 кГц, разрядность - 8 бит, что соответствует качеству передачи речи телефонного канала (3 Гц - 3,4 кГц).
очистка от шумов и сжатие дискретного речевого сигнала.
интерпретация информации речевого сигнала (хранимые в памяти компьютера эталоны произношения по очереди сравниваются с текущим участком последовательности описывающей входной речевой сигнал, выдвигаются и анализируются гипотезы, выбирается лучший вариант и формируется гипотеза о содержании высказывания).
кодирование в управляющую команду или электронный текст.

Интерпретация информации речевого сигнала сегодня часто решается на основе алгоритмов Витерби (динамического программирования).

Все более широкое применение находят марковские модели, позволяющие на основе многоуровневого вероятностного подхода к описанию сигнала производить временную нормализацию и прогнозирование.

20.10.2011

Приложение для браузера Google Chrome Oweb Голосовой Ввод позволяет вводить информацию на веб-страницах с помощью голоса:

Установить Oweb Голосовой Ввод (в интернет-магазине https://chrome.google.com/webstore).
Перейдите на любую веб-страницу, содержащую поле для ввода текста.
Найти и нажать значок микрофона в текстовом поле и начать говорить.
Поле будет заполнено той информацией, которую Вы произнесли.

25.12.2008

Объем продаж только медицинских систем распознавания речи в США составляет 12–15 млрд. долларов. Медицинским работникам постоянно требуется делать какие-то записи, будь то история болезни или протоколирование действий. Медики в США просто наговаривают текст, который автоматически переводится в машинный вид.

01.06.2009

По данным Datamonitor - объем мирового рынка систем распознавания речи (включая системы голосового управления телефоном) вырастет с $32,7 млн в 2009 году до $99,6 млн в 2014 году. Все более популярным становится использование сетевых систем распознавания для поиска в Интернете.

30.08.2011

Microsoft Research объявило на Interspeech 2011 о прорыве в распознавании речи с помощью CD-DNN-HMM (Hybrid Context-Dependent Deep Neural Networks for Large Vocabulary Speech Recognition — гибридной контекстно-зависимой глубокой нейронной сети). Группе Джорджа Дала (George Dahl) из Университета Торонто команде MR удалось улучшить качество и скорость распознавания речи до «почти человеческих» показателей.

Если рынок речевых систем сохранит темпы развития, то в обозримом будущем появяться голосовые переводчики. Вполне возможно, что такие переводчики появятся уже к Олимпиаде 2014 года в Сочи. И тогда русский человек, зная лишь родной язык и имея небольшую коробочку в кармане, вполне сможет понимать китайца или американца.

Михаил Хитров (ген. директор Центра Речевых Технологий).

Технологии безголосового общения

В марте 2008 года Ambient Corporation показала разработку Audeo в сфере коммуникативных технологий для людей с нарушениями речи «безголосовым общением» (voiceless communication).

Audeo, похожее на горловую повязку, перехватывает нервные сигналы, поступающие из мозга к голосовым связкам.

Использовать Audeo просто — следует специально думать о том, что произносишь слова — а затем транслирует их в компьютер который синтезирует речь.

Технологии речевого поиска

22.04.2008

Voice Digger - новая технология поиска ключевых слов в звуковых фрагментах на русском языке от компании Центр речевых технологий.

Результатом работы VoiceDigger является точное местоположение нужного слова или словосочетания. Интересно, что искомые слова системе предоставляются в виде текста.

Сервис VoiceDigger работает так же, как и обычный поиск внутри текстового документа – на основе слова-запроса текстовый редактор определяет места, в котором это слово-запрос встречается. Voice Digger позволяет определить места в звуковых файлах, где встречаются заданные слова.

Уровень ошибок в работе VoiceDigger меньше 8%.

Подобные разработки для английского языка есть у Yahoo и Google и Tveyes.

Белорусские речевые технологии

Минская компания Речевые технологии представляет:

НЕСТОР - система распределенного компьютерного документирования устных выступлений и фонограмм речи;
ЦЕЗАРЬ - системы документирования устной речи ;
НЕЗАБУДКА - система многоканальной записи, регистрации и архивирования звуковой информации ;
ГНОМ - профессиональные цифровые диктофоны с высококачественной звукозаписью в сложной акустической обстановке;
ЩИТ - портативное устройство маскировки речи в каналах связи ;
ИКАР - экспертная система , состоящая на вооружении в специализированных центрах и лабораториях правоохранительных органов РБ;
SOUND CLEANER - программный комплекс шумоочистки звуковых сигналов в реальном времени ;
ЗОЛУШКА - портативные устройства шумоочистки речевых сигналов в реальном масштабе времени серии ““;
ОРАТОР (Orator SP Edition) - синтезатор русской речи ;
VOICE COM - технология распознавания голосовых команд ;
VOICE KEY - технология разграничения доступа по парольной фразе ;
VOICE DIGGER - Технология автоматического поиска “ключевых” слов и словосочетаний ;
VOICE NET - технология идентификации на основе сравнения биометрических признаков речи.

Orator SP Edition - Windows-приложение, предназначенное для преобразования текстовой информации в звучащую речь. Программа использует технологию MS SAPI 5.x и осуществляет связь c установленными в системе STC TTS Engine 1.5. Система имеет удобный пользовательский интерфейс, возможность автоматического сохранения звучащего варианта в виде файлов wav, mp3.

Orator SP Edition позволяет осуществить “чтение вслух” произвольного русского текста, без специальной предварительной разметки с максимальная приближенностью к естественной слитной речи.

Orator SP Edition имеет возможность настройки синтезированного голоса, редактор словаря ударений, сокращений и аббревиатур, использования 24 интонационных моделей, изменения высоты основного тона и темпа речи в широких пределах.

Сакрамент

Компания Сакрамент основана в Минске (Беларусь) в 1994 году. Разрабатывает системы распознавания и синтеза русской речи, идентификации голоса и т.д.

Sakrament TTS Engine - система синтеза речи на основе уникальной акустической базы с использованием собственных алгоритмов обработки звука. Третья версия синтезатора соответствует MS SAPI 5.1 и поддерживает синтез русской и английской речи.

Sakrament ASR Engine - система распознавания речи.

Рассказчик - позволяет преобразовывать текстовую и числовую информации в синтезированную речь, приближенную по звучанию к натуральной человеческой речи.

Возможности "Рассказчика 3.0":

Озвучивание любых текстов.
4 новых голоса с высоким качеством синтеза.
Вывод речи в MPЗ.
Настройка параметров МРЗ.
Словарь ударений.
Поддержка XML тэгов.
Управление ритмикой (подстройка длительности фонем в зависимости от контекста и типа фразы), просодией и интонацией. Устранение эффекта раздельного звучания слов во фразе.
Реверберация (моделирование интересные эффекты звучания в помещении).
Фильтр (позволяет усилить одни частоты в спектре голоса и ослабить другие).

Sakrament Teller PDA Edition (Russian Version) предназначен для чтения и озвучивания текстов на коммуникаторах и смартфонах, совместимых с Windows CE, платформа PocketPC 2002 и PocketPC 2003.

Возможности Sakrament Teller PDA Edition (Russian Version):

Озвучивание текста любым из доступных в системе голосов с автоматическим переходом на следующую страницу, настройка тембра, скорости и громкости голоса;
Работа с текстом в форматах TXT, HTML, RB, RTF, FB2, PDB/PRC, TCR, автоматическое определение формата;
Работа с документами в архивах ZIP;
Работа с файлами в кодировках WIN, DOS, KOI8R, ISO, UTF8, автоматическое определения кодировки;
Автоматический перенос, выравнивание, поворот экрана, полноэкранный режим;
Наличие статусной строки с информацией о текущем времеми, странице, прогрессе чтения;
Настройки шрифта и фона, создание цветовых схем, поддержка технологии сглаживания текста ClearType;
Работа с закладками (добавление, удаление, просмотр, переход к выбранной закладке), поиск по тексту, пометка документа как прочтенного/непрочтенного;
Управление при помощи кнопок мобильного устройства, блокировка мобильного устройства;
Наличие конвертеров из распознаваемых форматов в обычный текст;
Автоматическое сохранение всех сделанных пользователем настроек.

04.01.2011 Компания "Сакрамент ИТ" — резидент Парка высоких технологий – создала синтезатор грузинской речи для незрячих людей по заказу Союз слепых Грузии. В программе доступны функции изменения скорости чтения текстов, использование интонации, возможность добавления новых слов в пользовательский словарь ударений. Разработка синтезатора речи осуществлялась при участии специалистов Минского государственного лингвистического университета. Ранее компания выполнила подобный заказ для Литвы, сейчас ведет переговоры с Казахстаном и Румынией.

Валерий Егоров: Все тонкости грузинского, литовского или любого другого языка программистам знать вовсе не обязательно. Ведь они применяют компилятивный синтез, используя в качестве донора голоса только носителей языка. Наговоренные профессиональными дикторами тексты разбираются компьютерной программой на так называемые аллофоны – звуковые "кирпичики", из которых синтезатор и конструирует озвученные слова любого печатного текста, существующего в электронной версии.

Сакрамент из первых уст

08.12.2008

Валерий Николаевич Егоров (директор Сакрамент): Наши технологии на данном этапе не хуже, а во многом даже и лучше чем то, что есть в мире. Существуют уникальные разработки, которые в принципе в мире не реализованы. Мы сейчас находимся на передовых рубежах. Минск – один из центров, где серьезно велась работа с речью ещё во времена СССР.

Валерий Николаевич Егоров: У "Сакрамент", одной из немногих в мире, имеется собственный движок для синтеза речи, он полностью совместим с SAPI4-5 и ничуть не хуже зарубежных разработок. Наш синтез зачастую «сходу» людям не нравится – но через 10-15 минут, синтез становится уже приятным и не вызывает никакого отторжения. А у движков наших европейских конкурентов – другая специфика. На одной-двух фразах они слушаются как раз приятнее, но как только начинаешь слушать большие тексты, звук почему-то начинает «плавать» и это очень плохо действует, например, на психику детей.

Валерий Николаевич Егоров: У нас оригинальная собственная модель, построенная на базе непосредственно человеческого голоса. Для каждого языка строится модель языка (русского, английского, литовского), в которую выбираются основные, базовые звуки – гласные, ударные и т.п. Модель должна быть минимальной и достаточной: чем больше «лишних» звуков, тем больше несоответствий. После этого в соответствии с моделью человек записывает определенные тексты, из которых вручную «нарезаются» базовые звуки, создается база данных. В дальнейшем, специальные четыре блока собирают из этих звуков слова, предложения, обрабатывают текст, оформляют паузы, запятые, ударения… Для русского языка у нас 800 базовых звуков, в новой модели будет уже несколько тысяч.

Валерий Николаевич Егоров: Государство поддерживает, интересуется и с удовольствием использует наши продукты. Но получить финансирование нам пока не удалось для этих проектов.

Мы встречались с МТС и Велком. Нам сказали, что когда программа синтеза речи для мобильных устройств появится, они с удовольствием с ней поработают. Вкладывать средства – нет, но использовать – без проблем.

12.04.2009 Программный продукт Sakrament BookAssist компании Сакрамент ИТ признан “Продуктом года” по итогам 2008 г по мнению крупнейшего интернет-магазина Allsoft.ru.

Для не умеющих читать и писать

11.12.2008

Корпорация IBM тестирует голосовую сеть Spoken Web, благодаря которой пользователи, не умеющие читать и писать получат доступ к Интернет.

Spoken Web позволит создавать и распространять контент, используя устную речь вместо письменной.

Благодаря применению технологий VoiceXML (Voice eXtensible Markup Language) и HSTP (Hyper Speech Transfer Protocol) сервис Spoken Web отражает ресурсы World Wide Web на телекоммуникационную сеть, в которой пользователи могут создавать и прослушивать "голосовые сайты" VoiceSites с собственными адресами URL, перемещаться по "голосовым ссылкам" VoiceLinks и даже выполнять бизнес-транзакции.

Для получения доступа к ресурсам голосовой сети нужно позвонить по бесплатному номеру с помощью системы распознавания голоса или тонового набора. Сайты VoiceSites можно создавать непосредственно с телефона, используя набор шаблонов, находящихся на серверной стороне.

Корпорация IBM в сотрудничестве с несколькими индийскими операторами мобильной связи уже реализовала ряд пробных проектов по развертыванию Spoken Web. Стратегия перевода данной технологии на коммерческие рельсы в Индии и других странах будет разрабатываться бизнес-группами IBM.

Поговори со мною, Чапит..

25.07.2010

На выставке Robotech в Токио инженеры представили робота по имени Чапит (Chapit).

Главное умение Чапита – слушать и говорить, благодаря встроенному речевому процессору и автоматической системе обработки голосовых команд.

20.09.2011

Toshiba анонсировала линейку «умных» кондиционеров Daiseikai VoiCE NDR с функцией голосового управления. В комплекте с каждым кондиционером будет поставляться голосовой датчик, способный распознавать 21 команду на японском языке; на сам кондиционер команды передаются по инфракрасной связи.