kmp-VIT

Речевые технологии

Звуковая речь - генерируемое человеком звуковое сообщение.

Речь может быть объективно зарегистрирована, измерена, сохранена, обработана, воспроизведена при помощи приборов и алгоритмов, представлена в виде некоторого речевого сигнала.

Андрей Зализняк (академик РАН):

Главный миф любительской лингвистики - это приоритет письма перед звучащей речью. Для любителя написание первично, а звучание вторично: "это то, как прочли слово". Любитель настолько привык к своему умению читать и к своей жизни среди письменных текстов, что он уже не в состоянии осознать, что в истории человечества письменность была уделом ничтожной части умеющих говорить.
Любой живой язык - это средство устного общения, тогда как письменная форма (за вычетом двух последних веков) существовала не более чем для одной сотой языков, а доля грамотных людей была, вероятно, еще в тысячу раз меньше.

"О профессиональной и любительской лингвистике" НиЖ, 2009, № 2, С. 55.

Задачи построение речевого интерфейса

Синтез речи (компьютер преобразует информацию, с которой он оперирует, в речевое сообщение, понятное человеку). Задача решена на высоком алгоритмическом уровне, улучшается ее программно-техническая реализация.
Распознавание речи (компьютер извлекает из речи человека полезную информацию). Задача имеет в настоящее время ряд частных и ограниченных решений, которые позволяют создавать эффективные специализированные системы речевого интерфейса (голосовое командное управление ПК, системы диктовки текста, средства идентификации по образцу речи и т.д.).
Понимание речи (компьютер должен воспринимать не просто прямое значение, но смысл сказанного). Перспективная задача - может быть решена только на базе систем искусственного интеллекта, аппаратной основой для которых станут возможно квантовые компьютеры.

11.05.2009 По данным Yankee Group, в мире:

82% компаний уже развернули решения VoIP в том или ином виде,
10% компаний имеют решения VoIP охватывающие всю корпоративную инфраструктуру.

Технология VoIP позволяет компаниям повышать эффективность работы сотрудников, а также существенно экономить на связи, что особенно важно в непростых экономических условиях.

Достоинства и ограничения речевого интерфейса

Речевой интерфейс естественен для человека.
Взаимодействие с компьютером посредством речевого интерфейса требует определенного уровня звукоизоляции рабочего места пользователя;
Речевой интерфейс может привести к заболеванию голосовых связок (следствие напряженности и монотонности речи).
Современные системы речевого интерфейса чувствительны к четкости произношения человека и часто требуют специальной подготовки.

Обучение оператора печати на клавиатуре (профессиональная машинопись - 2 слова/сек.) - 1-2 месяца. Постановка правильного произношения занимает несколько лет (скорость спонтанной речи 2,5 слова/сек., диктовка 0,5-0,8 слова/сек.).

Синтез речи по тексту

Синтез речи (speech synthesis) - процесс преобразования информации, которой оперирует компьютер в речевое сообщение, понятное человеку.

Структура синтеза речи:

Ввод текста;
Определение языка текста, фильтрация шумов и неподлежащих произношению символов. Исправление ошибок входного текста;
Нормализация текста (разделение текста на слова и остальные последовательности символов: знаки пунктуации, окончания абзаца и т.п.);
Лингвистический анализ текста: фонемная транскрипция (превращение его в цепочку фонем);
Формирование просодических характеристик блоками расстановки пауз, приписывания ритма и акцента, тональных характеристик за счет частоты основного тона, энергии и длительности звуковых колебаний. В речи просодия определяется непонятным компьютеру смыслом слов, поэтому речь синтезируется с эмоционально нейтральной интонацией. Формирование просодических характеристик осуществляется
Создание параметров звукового сигнала. Используются три метода: артикулярный синтез (основан на модели голосового тракта человека, наиболее сложен в реализации), формантный (использует сигнал проходящий через цифровой фильтр, построенный на резонансах, подобных резонансам голосового тракта), компилятивный (осуществляется путем склейки нужных единиц речи их имеющегося инвентаря).
генерация звукового сигнала по управляющей информации
вывод звука.

Синтез речи чаще всего, выполняет звуковая плата под управлением специального программного обеспечения, включающего:

1) голосовые движки (Text-To-Speech, TTS),

2) программы-оболочки, организовывающие удобный пользовательский интерфейс для работы с этими движками.

Для удобства взаимодействия различных прикладных программ с разработанными речевыми продуктами компания Microsoft предложила использовать стандарт для голосовых движков SAPI (Speech Application Programming Interface).

Большинство речевых движков поддерживают одну из версий этого стандартного программного интерфейса для платформы Windows: MS SAPI 4.x или MS SAPI 5.x.

В операционных системах Windows XP и Vista SAPI 5.1 установлен по умолчанию.

Русскоязычные Text-To-Speech

L&H TTS3000 Russian - поддерживает MS SAPI 4.x и имеет мужской и женский голоса c американскиv акцентом.

Digalo Russian Nikolai - синтезирует приятный баритон без акцента (голос создан на кафедре экспериментальной фонетики СПб Гос. Университета.

Движок Клуба голосовых технологий при научном парке МГУ говорит монотонно-механически на русском и английском языке (с русским акцентом) десятью голосами.

Sakrament TTS Engine - разработан белорусской компанией "Сакрамент".

STC TTS Engine 1.5 - разработан белорусско-российской компанией Речевые технологии.

Программы-оболочки: Балаболка (), Говорилка, Рассказчiк, VoiceManager, Salebook ....

Синтез речи все шире используется в электронных книгах (ICE Book Reader, CoolReader), переводных электронных словарях (LingvoSoft Talking Dictionary, МультиЛекс), системах компьютерного перевода текста (PROMT 8).

Голосовые помощники

Голосовой помощник – сервис, распознающий устную речь и выполняющий действия в ответ на голосовые команды:

вести диалоги,
предлагать быстрые ответы на вопросы,
вызывать такси,
совершать звонки,
прокладывать маршруты,
делать заказы и т.д.

Примеры:

Аpple Siri (2011), GoogleAssistant (2012), Microsoft Cortana (2013), Amazon Alexa (2014)...
Яндекс Алиса (2017) - (см. также Умный дом с Алисой)

«Центр речевых технологий» (ЦРТ) разрабатывает Варвару (встраивается в любое устройство или подключается из облака).

Mail.ru Group, разрабатывает Марусю, а «Тинькофф-банк» Олега.

Голосовые ассистенты:

плюсы: поддерживают естественный разговор, ориентируются на контекст и обучаются, демонстрируют "характер" и юмор.
минусы: распознают речь ... не идеально, общение отлично от человеческого, ограниченный набор функций.
перспективы (на основе глубокого обучения нейронных сетей): полная интеграция с умным домом, проактивность (способность инициировать общение), определение эмоций ++

15.05.2019 Создание голосового ассистента.

Скачиваем:

Visual Studio и 3 microsoft пакета:

https://www.microsoft.com/en-us/download/details.aspx?id=3971

https://www.microsoft.com/en-us/download/details.aspx?id=24003

https://www.microsoft.com/en-us/download/details.aspx?id=24974

...............................

Распознавание речи

Распознавание речи (speech recognition) - преобразование речи в электронный текст (последовательность символов машинной кодировки).

Процесс процесс распознавания речи позволяет организовать речевое управление компьютером и ввод текста с микрофона.

Уже в 70-х годах способность устройств речевого ввода распознавать звуки речи превосходила человеческую.

При отсутствии возможности использовать смысловой анализ речи человек явно проигрывает компьютеру. Но в восприятии осмысленной речи имеет неоспоримое преимущество.

Трудности технологий распознавания речи в:

в несоответствии звуков и букв, в неопределенности понятия фонемы (аллофона),
в трудности выделения из непрерывного потока речи речевых единиц,
в их временной нестационарности (непропорциональном сжатии звуков в зависимости от темпа речи),
в их спектральной нестационарности (изменении спектра сигнала под влиянием множества факторов),
в их коартикуляционной нестационарности (взаимовлиянии соседних звуков),
в отсутствии приемлемой модели восприятия звуков речи.

Фонема (от греч. phonema - звук), основная единица звукового строя языка, предельный элемент, выделяемый линейным членением речи.

Аллофон (от греч. иной, другой, и звук), вариант, разновидность фонемы, обусловленная данным фонетическим окружением. Например, в словах "первое" и "апреля" звук "п" находится в разном окружении, и, соответственно, будут разные аллофоны.

Распознать русский язык значительно сложнее английского или немецкого.

Он состоит из большего числа звуковых сочетаний и допускает свободный порядок слов, который делает язык много богаче, но представляет колоссальную трудность для создания систем распознавания.

Михаил Хитров, ген. директор Центра Речевых Технологий.

Основные параметры систем распознавания речи:

объем словаря понимаемых слов;
допустимая беглость речи (может речь произноситься слитно, либо между словами должны быть паузы);
степень зависимости от настойки на речь конкретного лица.

Этапы распознавания речи:

дискретизация непрерывного речевого сигнала, преобразованного в электрическую форму. Обычно частота дискретизации составляет 10–11 кГц, разрядность - 8 бит, что соответствует качеству передачи речи телефонного канала (3 Гц - 3,4 кГц).
очистка от шумов и сжатие дискретного речевого сигнала.
интерпретация информации речевого сигнала (хранимые в памяти компьютера эталоны произношения по очереди сравниваются с текущим участком последовательности описывающей входной речевой сигнал, выдвигаются и анализируются гипотезы, выбирается лучший вариант и формируется гипотеза о содержании высказывания).
кодирование в управляющую команду или электронный текст.

Интерпретация информации речевого сигнала сегодня часто решается на основе алгоритмов Витерби (динамического программирования).

Все более широкое применение находят марковские модели, позволяющие на основе многоуровневого вероятностного подхода к описанию сигнала производить временную нормализацию и прогнозирование.

20.10.2011

Приложение для браузера Google Chrome Oweb Голосовой Ввод позволяет вводить информацию на веб-страницах с помощью голоса:

Установить Oweb Голосовой Ввод (в интернет-магазине https://chrome.google.com/webstore).
Перейдите на любую веб-страницу, содержащую поле для ввода текста.
Найти и нажать значок микрофона в текстовом поле и начать говорить.
Поле будет заполнено той информацией, которую Вы произнесли.

25.12.2008

Объем продаж только медицинских систем распознавания речи в США составляет 12–15 млрд. долларов. Медицинским работникам постоянно требуется делать какие-то записи, будь то история болезни или протоколирование действий. Медики в США просто наговаривают текст, который автоматически переводится в машинный вид.

01.06.2009

По данным Datamonitor - объем мирового рынка систем распознавания речи (включая системы голосового управления телефоном) вырастет с $32,7 млн в 2009 году до $99,6 млн в 2014 году. Все более популярным становится использование сетевых систем распознавания для поиска в Интернете.

30.08.2011

Microsoft Research объявило на Interspeech 2011 о прорыве в распознавании речи с помощью CD-DNN-HMM (Hybrid Context-Dependent Deep Neural Networks for Large Vocabulary Speech Recognition — гибридной контекстно-зависимой глубокой нейронной сети). Группе Джорджа Дала (George Dahl) из Университета Торонто команде MR удалось улучшить качество и скорость распознавания речи до «почти человеческих» показателей.

Технологии безголосового общения

В марте 2008 года Ambient Corporation показала разработку Audeo в сфере коммуникативных технологий для людей с нарушениями речи «безголосовым общением» (voiceless communication).

Audeo, похожее на горловую повязку, перехватывает нервные сигналы, поступающие из мозга к голосовым связкам.

Использовать Audeo просто — следует специально думать о том, что произносишь слова — а затем транслирует их в компьютер который синтезирует речь.

Технологии речевого поиска

Voice Digger - технология поиска ключевых слов в звуковых фрагментах на русском языке от компании Центр речевых технологий.

Результатом работы VoiceDigger является точное местоположение нужного слова или словосочетания. Искомые слова системе предоставляются в виде текста. VoiceDigger позволяет определить места в звуковых файлах, где встречаются заданные слова – на основе слова-запроса текстовый редактор определяет места, в котором это слово-запрос встречается.

Подобные разработки для английского языка есть у Yahoo и Google и Tveyes.

Белорусские речевые технологии

Минская компания Речевые технологии представляет:

НЕСТОР - система распределенного компьютерного документирования устных выступлений и фонограмм речи;
ЦЕЗАРЬ - системы документирования устной речи;
НЕЗАБУДКА - система многоканальной записи, регистрации и архивирования звуковой информации;
ГНОМ - профессиональные цифровые диктофоны с высококачественной звукозаписью в сложной акустической обстановке;
ЩИТ - портативное устройство маскировки речи в каналах связи ;
ИКАР - экспертная система , состоящая на вооружении в специализированных центрах и лабораториях правоохранительных органов РБ;
SOUND CLEANER - программный комплекс шумоочистки звуковых сигналов в реальном времени ;
ЗОЛУШКА - портативные устройства шумоочистки речевых сигналов в реальном масштабе времени серии ““;
ОРАТОР (Orator SP Edition) - синтезатор русской речи ;
VOICE COM - технология распознавания голосовых команд ;
VOICE KEY - технология разграничения доступа по парольной фразе ;
VOICE DIGGER - Технология автоматического поиска “ключевых” слов и словосочетаний ;
VOICE NET - технология идентификации на основе сравнения биометрических признаков речи.

Orator SP Edition - приложение преобразования текстовой информации в звучащую речь.

Orator SP Edition позволяет осуществить “чтение вслух” произвольного русского текста, без специальной предварительной разметки с максимальная приближенностью к естественной слитной речи.

Orator SP Edition имеет возможность настройки синтезированного голоса, редактор словаря ударений, сокращений и аббревиатур, использования 24 интонационных моделей, изменения высоты основного тона и темпа речи в широких пределах.

Сакрамент

Компания Сакрамент основана в Минске (Беларусь) в 1994 году. Разрабатывает системы распознавания и синтеза русской речи, идентификации голоса и т.д.

Sakrament TTS Engine - система синтеза речи на основе уникальной акустической базы с использованием собственных алгоритмов обработки звука. Третья версия синтезатора соответствует MS SAPI 5.1 и поддерживает синтез русской и английской речи.

Sakrament ASR Engine - система распознавания речи.

Рассказчик - позволяет преобразовывать текстовую и числовую информации в синтезированную речь, приближенную по звучанию к натуральной человеческой речи.

Возможности "Рассказчика 3.0":

Озвучивание любых текстов.
4 новых голоса с высоким качеством синтеза.
Вывод речи в MPЗ.
Настройка параметров МРЗ.
Словарь ударений.
Поддержка XML тэгов.
Управление ритмикой (подстройка длительности фонем в зависимости от контекста и типа фразы), просодией и интонацией. Устранение эффекта раздельного звучания слов во фразе.
Реверберация (моделирование интересные эффекты звучания в помещении).
Фильтр (позволяет усилить одни частоты в спектре голоса и ослабить другие).

Sakrament Teller PDA Edition (Russian Version) предназначен для чтения и озвучивания текстов на коммуникаторах и смартфонах.

Возможности Sakrament Teller PDA Edition (Russian Version):

Озвучивание текста любым из доступных в системе голосов с автоматическим переходом на следующую страницу, настройка тембра, скорости и громкости голоса;
Работа с текстом в форматах TXT, HTML, RB, RTF, FB2, PDB/PRC, TCR, автоматическое определение формата;
Работа с документами в архивах ZIP;
Работа с файлами в кодировках WIN, DOS, KOI8R, ISO, UTF8, автоматическое определения кодировки;
Автоматический перенос, выравнивание, поворот экрана, полноэкранный режим;
Наличие статусной строки с информацией о текущем времеми, странице, прогрессе чтения;
Настройки шрифта и фона, создание цветовых схем, поддержка технологии сглаживания текста ClearType;
Работа с закладками (добавление, удаление, просмотр, переход к выбранной закладке), поиск по тексту, пометка документа как прочтенного/непрочтенного;
Управление при помощи кнопок мобильного устройства, блокировка мобильного устройства;
Наличие конвертеров из распознаваемых форматов в обычный текст;
Автоматическое сохранение всех сделанных пользователем настроек.

Для не умеющих читать и писать

11.12.2008

Корпорация IBM тестирует голосовую сеть Spoken Web, благодаря которой пользователи, не умеющие читать и писать получат доступ к Интернет.

Spoken Web позволит создавать и распространять контент, используя устную речь вместо письменной.

Благодаря применению технологий VoiceXML (Voice eXtensible Markup Language) и HSTP (Hyper Speech Transfer Protocol) сервис Spoken Web отражает ресурсы World Wide Web на телекоммуникационную сеть, в которой пользователи могут создавать и прослушивать "голосовые сайты" VoiceSites с собственными адресами URL, перемещаться по "голосовым ссылкам" VoiceLinks и даже выполнять бизнес-транзакции.

Для получения доступа к ресурсам голосовой сети нужно позвонить по бесплатному номеру с помощью системы распознавания голоса или тонового набора. Сайты VoiceSites можно создавать непосредственно с телефона, используя набор шаблонов, находящихся на серверной стороне.

Корпорация IBM в сотрудничестве с несколькими индийскими операторами мобильной связи уже реализовала ряд пробных проектов по развертыванию Spoken Web. Стратегия перевода данной технологии на коммерческие рельсы в Индии и других странах будет разрабатываться бизнес-группами IBM.