|
|
Звуковая
речь - генерируемое человеком звуковое сообщение.
Речь может быть объективно зарегистрирована, измерена,
сохранена, обработана,
воспроизведена при помощи приборов и алгоритмов,
представлена в виде некоторого речевого сигнала.
Андрей Зализняк
(академик РАН):
-
Главный миф
любительской лингвистики - это приоритет письма перед звучащей речью.
Для любителя написание первично, а звучание вторично: "это то, как
прочли слово". Любитель настолько привык к своему умению читать и к
своей жизни среди письменных текстов, что он уже не в состоянии
осознать, что в истории человечества письменность была уделом ничтожной
части умеющих говорить.
-
Любой живой
язык - это средство устного общения, тогда как письменная форма (за
вычетом двух последних веков) существовала не более чем для одной сотой
языков, а доля грамотных людей была, вероятно, еще в тысячу раз меньше.
"О
профессиональной и любительской лингвистике" НиЖ, 2009, № 2, С. 55.
|
Задачи построение речевого
интерфейса
-
Синтез речи
(компьютер преобразует информацию, с которой он оперирует, в речевое сообщение,
понятное человеку). Задача решена на высоком алгоритмическом уровне,
улучшается ее программно-техническая реализация.
-
Распознавание речи (компьютер извлекает из речи
человека полезную информацию). Задача имеет в настоящее время ряд частных и
ограниченных решений, которые позволяют создавать эффективные
специализированные системы речевого интерфейса (голосовое командное
управление ПК, системы диктовки текста, средства идентификации по
образцу речи и т.д.).
-
Понимание речи (компьютер должен
воспринимать не просто прямое значение, но смысл сказанного).
Перспективная задача
-
может быть решена только на базе систем искусственного интеллекта,
аппаратной основой для которых станут возможно квантовые компьютеры.
11.05.2009 По данным Yankee Group, в мире:
-
82% компаний уже развернули решения VoIP в том или ином виде,
-
10%
компаний имеют решения VoIP охватывающие всю корпоративную инфраструктуру.
Технология VoIP
позволяет компаниям повышать эффективность работы сотрудников, а также
существенно экономить на связи, что особенно важно в непростых
экономических условиях. |
Достоинства
и ограничения речевого интерфейса
-
Речевой интерфейс естественен для человека.
-
Взаимодействие с компьютером посредством речевого интерфейса
требует определенного уровня звукоизоляции рабочего места пользователя;
-
Речевой интерфейс может привести
к заболеванию голосовых связок (следствие напряженности и
монотонности речи).
-
Современные системы речевого интерфейса чувствительны к четкости
произношения человека и часто
требуют специальной подготовки.
Обучение оператора печати на клавиатуре (профессиональная машинопись
-
2 слова/сек.)
-
1-2 месяца. Постановка правильного произношения занимает несколько
лет (скорость спонтанной речи 2,5 слова/сек., диктовка 0,5-0,8
слова/сек.).
|
Синтез речи по тексту
|
Синтез
речи (speech synthesis) - процесс преобразования информации, которой оперирует
компьютер в речевое сообщение, понятное человеку.
Структура синтеза речи:
-
Ввод текста;
-
Определение языка текста,
фильтрация шумов и неподлежащих произношению
символов. Исправление ошибок входного текста;
-
Нормализация текста (разделение текста
на слова и остальные последовательности символов: знаки пунктуации,
окончания абзаца и т.п.);
-
Лингвистический анализ текста: фонемная
транскрипция (превращение его в цепочку
фонем);
-
Формирование просодических характеристик
блоками расстановки пауз, приписывания ритма
и акцента, тональных характеристик за счет
частоты основного тона, энергии
и длительности звуковых колебаний. В речи
просодия определяется непонятным компьютеру
смыслом слов, поэтому речь синтезируется с
эмоционально нейтральной интонацией. Формирование просодических
характеристик осуществляется
-
Создание параметров звукового сигнала.
Используются три метода: артикулярный синтез (основан на модели
голосового тракта человека, наиболее сложен в реализации),
формантный (использует сигнал проходящий через цифровой фильтр,
построенный на резонансах, подобных резонансам голосового тракта),
компилятивный (осуществляется путем склейки нужных единиц речи их
имеющегося инвентаря).
-
генерация звукового сигнала по управляющей
информации
-
вывод звука.
Синтез
речи чаще всего, выполняет звуковая плата под управлением специального
программного обеспечения, включающего:
1)
голосовые движки
(Text-To-Speech,
TTS),
2)
программы-оболочки,
организовывающие удобный
пользовательский интерфейс для работы с этими движками.
Для удобства
взаимодействия различных прикладных программ с
разработанными речевыми продуктами компания Microsoft
предложила использовать стандарт для голосовых движков
SAPI (Speech Application Programming Interface).
Большинство речевых
движков поддерживают одну из версий этого стандартного
программного интерфейса для платформы Windows: MS SAPI
4.x или MS SAPI 5.x.
В
операционных системах Windows XP
и Vista SAPI 5.1
установлен по умолчанию.
Русскоязычные
Text-To-Speech
L&H TTS3000 Russian
-
поддерживает MS SAPI 4.x и имеет мужской и женский
голоса c американскиv
акцентом.
Digalo Russian Nikolai
-
синтезирует приятный баритон без акцента (голос создан
на кафедре экспериментальной фонетики СПб Гос.
Университета.
Движок Клуба голосовых
технологий
при научном парке МГУ говорит
монотонно-механически на русском и английском языке (с
русским акцентом) десятью голосами.
Sakrament TTS Engine
-
разработан белорусской компанией "Сакрамент".
STC TTS
Engine 1.5
- разработан белорусско-российской компанией Речевые
технологии.
Программы-оболочки:
Балаболка (),
Говорилка,
Рассказчiк,
VoiceManager, Salebook
....
Синтез речи все шире
используется в электронных книгах
(ICE Book Reader, CoolReader), переводных
электронных словарях (LingvoSoft Talking Dictionary,
МультиЛекс), системах компьютерного
перевода текста (PROMT 8).
|
Голосовые
помощники
|
Голосовой помощник –
сервис, распознающий устную речь и
выполняющий действия
в ответ на голосовые команды:
Примеры:
«Центр
речевых технологий» (ЦРТ) разрабатывает
Варвару (встраивается в любое
устройство или подключается из облака).
Mail.ru Group, разрабатывает
Марусю,
а «Тинькофф-банк» Олега.
Голосовые
ассистенты:
-
плюсы:
поддерживают естественный разговор, ориентируются на контекст и
обучаются, демонстрируют "характер" и юмор.
-
минусы:
распознают речь ... не идеально, общение отлично от человеческого,
ограниченный набор функций.
-
перспективы (на основе глубокого обучения нейронных сетей): полная
интеграция с умным домом, проактивность (способность инициировать
общение), определение эмоций ++
15.05.2019
Создание голосового ассистента.
Скачиваем:
|
Распознавание речи
|
Распознавание речи
(speech recognition) - преобразование речи в
электронный текст (последовательность символов машинной кодировки).
Процесс
процесс распознавания речи позволяет
организовать речевое управление
компьютером и ввод текста с микрофона.
Уже в 70-х годах способность устройств
речевого ввода распознавать звуки речи превосходила человеческую.
При отсутствии возможности
использовать смысловой
анализ речи человек
явно проигрывает
компьютеру.
Но в восприятии осмысленной речи имеет неоспоримое
преимущество.
Трудности
технологий распознавания речи в:
-
в несоответствии звуков и букв, в неопределенности понятия фонемы (аллофона),
-
в трудности выделения из непрерывного потока речи речевых
единиц,
-
в их временной нестационарности (непропорциональном сжатии звуков
в зависимости от темпа речи),
-
в их
спектральной нестационарности (изменении
спектра сигнала под влиянием множества факторов),
-
в их
коартикуляционной
нестационарности (взаимовлиянии соседних звуков),
-
в отсутствии
приемлемой модели восприятия звуков речи.
Фонема (от греч. phonema
- звук), основная единица звукового строя языка, предельный элемент,
выделяемый линейным членением речи.
Аллофон (от греч. иной,
другой, и звук), вариант, разновидность фонемы, обусловленная
данным фонетическим окружением. Например, в словах "первое" и "апреля"
звук "п" находится в разном окружении, и, соответственно, будут разные
аллофоны.
|
Распознать
русский язык значительно сложнее
английского или немецкого.
Он
состоит из большего числа звуковых сочетаний
и допускает свободный порядок слов,
который делает язык много богаче, но представляет
колоссальную трудность для создания систем распознавания.
Михаил Хитров,
ген. директор Центра
Речевых Технологий. |
Основные
параметры систем распознавания речи:
-
объем словаря понимаемых слов;
-
допустимая беглость речи (может речь
произноситься слитно, либо между словами должны быть паузы);
-
степень зависимости от настойки на речь
конкретного лица.
Этапы
распознавания речи:
-
дискретизация
непрерывного речевого сигнала, преобразованного в электрическую форму.
Обычно частота дискретизации составляет 10–11 кГц, разрядность - 8 бит,
что соответствует качеству передачи речи телефонного канала (3 Гц -
3,4 кГц).
-
очистка от
шумов и сжатие
дискретного речевого сигнала.
-
интерпретация информации
речевого сигнала (хранимые в памяти компьютера эталоны произношения по очереди
сравниваются с текущим участком последовательности описывающей входной
речевой сигнал,
выдвигаются и анализируются гипотезы, выбирается лучший
вариант
и формируется гипотеза о содержании высказывания).
-
кодирование
в управляющую команду или электронный текст.
|
Интерпретация
информации речевого сигнала
сегодня часто решается на основе алгоритмов
Витерби
(динамического
программирования).
Все более широкое
применение находят марковские модели,
позволяющие на основе многоуровневого
вероятностного подхода к описанию сигнала
производить временную нормализацию и
прогнозирование. |
20.10.2011
Приложение для
браузера Google Chrome
Oweb Голосовой Ввод
позволяет вводить информацию на веб-страницах с помощью
голоса:
-
Установить Oweb Голосовой Ввод (в
интернет-магазине
https://chrome.google.com/webstore).
-
Перейдите на любую веб-страницу, содержащую поле для ввода текста.
-
Найти и нажать значок микрофона в текстовом
поле и начать говорить.
-
Поле будет заполнено той информацией, которую Вы произнесли.
|
|
25.12.2008
Объем
продаж только медицинских систем распознавания речи в США составляет
12–15 млрд. долларов. Медицинским работникам постоянно требуется делать
какие-то записи, будь то история болезни или протоколирование действий.
Медики в США просто наговаривают текст, который автоматически
переводится в машинный вид.
01.06.2009
По данным Datamonitor - объем мирового рынка систем
распознавания речи (включая системы голосового управления телефоном) вырастет с $32,7 млн в
2009 году до $99,6 млн в 2014 году. Все более популярным
становится использование сетевых систем распознавания для поиска в Интернете.
30.08.2011
Microsoft Research
объявило на Interspeech 2011 о прорыве в
распознавании речи с помощью
CD-DNN-HMM
(Hybrid Context-Dependent Deep Neural Networks
for Large Vocabulary Speech Recognition —
гибридной
контекстно-зависимой глубокой нейронной сети).
Группе Джорджа Дала
(George Dahl) из Университета Торонто команде MR удалось улучшить
качество и скорость распознавания речи до «почти человеческих»
показателей. |
Технологии безголосового
общения
|
В
марте 2008 года Ambient Corporation показала разработку
Audeo
в сфере коммуникативных технологий для людей с
нарушениями речи «безголосовым общением» (voiceless
communication).
Audeo, похожее на горловую
повязку, перехватывает нервные сигналы, поступающие из
мозга к голосовым связкам.
Использовать
Audeo просто — следует
специально думать о том, что произносишь слова — а затем
транслирует их в компьютер который синтезирует речь.
|
Технологии речевого поиска
|
Voice Digger
- технология поиска
ключевых слов в звуковых фрагментах на русском языке
от компании Центр речевых
технологий.
Результатом работы VoiceDigger
является точное местоположение нужного слова или
словосочетания. Искомые слова системе
предоставляются в виде текста.
VoiceDigger
позволяет определить места в звуковых файлах, где
встречаются заданные слова – на основе слова-запроса текстовый редактор
определяет места, в котором это слово-запрос встречается.
Подобные
разработки для английского языка есть у Yahoo и
Google и Tveyes. |
Белорусские речевые
технологии
|




 |
Минская компания
Речевые технологии
представляет:
-
НЕСТОР
- система распределенного компьютерного документирования устных выступлений
и фонограмм речи;
-
ЦЕЗАРЬ
- системы документирования устной речи;
-
НЕЗАБУДКА
- система многоканальной записи, регистрации и архивирования звуковой
информации;
-
ГНОМ
- профессиональные
цифровые диктофоны с
высококачественной звукозаписью в сложной акустической
обстановке;
-
ЩИТ
- портативное устройство маскировки речи в каналах связи ;
-
ИКАР
- экспертная система , состоящая на вооружении в специализированных центрах и
лабораториях правоохранительных органов РБ;
-
SOUND
CLEANER - программный комплекс шумоочистки звуковых сигналов в реальном времени ;
-
ЗОЛУШКА
- портативные устройства шумоочистки речевых сигналов в реальном масштабе
времени серии ““;
-
ОРАТОР
(Orator SP Edition)
-
синтезатор русской речи ;
-
VOICE COM
- технология распознавания голосовых команд ;
-
VOICE KEY
- технология разграничения доступа по парольной фразе ;
-
VOICE DIGGER
- Технология автоматического поиска “ключевых” слов и словосочетаний
;
-
VOICE NET
- технология идентификации на основе сравнения биометрических признаков речи.
|
|
Orator SP Edition
- приложение
преобразования текстовой информации в звучащую речь.
Orator SP Edition
позволяет осуществить “чтение вслух” произвольного русского текста, без
специальной предварительной разметки с максимальная приближенностью к
естественной слитной речи.
Orator SP Edition
имеет возможность настройки синтезированного голоса,
редактор словаря ударений, сокращений и аббревиатур,
использования 24 интонационных моделей, изменения
высоты основного тона и темпа речи в широких
пределах.
|
|
Сакрамент
|
Компания
Сакрамент
основана в Минске (Беларусь) в 1994 году. Разрабатывает
системы распознавания и синтеза русской речи,
идентификации голоса и т.д.
Sakrament TTS Engine
- система синтеза речи на основе уникальной акустической
базы с использованием собственных алгоритмов обработки звука. Третья версия синтезатора соответствует
MS SAPI 5.1 и поддерживает синтез русской и английской речи.
Sakrament ASR Engine
- система распознавания речи.
Рассказчик - позволяет преобразовывать текстовую и
числовую информации в синтезированную речь,
приближенную по звучанию к натуральной
человеческой речи.
Возможности "Рассказчика
3.0":
-
Озвучивание любых текстов.
-
4
новых голоса с высоким
качеством синтеза.
-
Вывод
речи в MPЗ.
-
Настройка параметров МРЗ.
-
Словарь ударений.
-
Поддержка XML тэгов.
-
Управление ритмикой (подстройка длительности
фонем в зависимости от контекста и типа
фразы), просодией и интонацией.
Устранение эффекта раздельного
звучания слов во фразе.
-
Реверберация
(моделирование
интересные эффекты звучания в
помещении).
-
Фильтр (позволяет усилить одни частоты в
спектре голоса и ослабить другие).
Sakrament
Teller PDA Edition (Russian Version)
предназначен для чтения и озвучивания
текстов на коммуникаторах и смартфонах.
Возможности
Sakrament Teller PDA Edition (Russian
Version):
-
Озвучивание текста любым из доступных в системе голосов
с автоматическим переходом на следующую страницу,
настройка тембра, скорости и громкости голоса;
-
Работа с текстом в форматах TXT,
HTML, RB, RTF, FB2, PDB/PRC, TCR, автоматическое
определение формата;
-
Работа с документами в архивах ZIP;
-
Работа с файлами в кодировках WIN, DOS, KOI8R, ISO,
UTF8, автоматическое
определения кодировки;
-
Автоматический перенос,
выравнивание, поворот экрана, полноэкранный
режим;
-
Наличие статусной строки с информацией о текущем времеми,
странице, прогрессе чтения;
-
Настройки шрифта и фона, создание цветовых схем,
поддержка технологии сглаживания текста ClearType;
-
Работа с закладками (добавление, удаление, просмотр,
переход к выбранной закладке), поиск по тексту, пометка
документа как прочтенного/непрочтенного;
-
Управление при помощи кнопок мобильного устройства,
блокировка мобильного устройства;
-
Наличие конвертеров из распознаваемых форматов в обычный
текст;
-
Автоматическое сохранение всех сделанных пользователем
настроек.
|
Для не умеющих читать и
писать
|
11.12.2008
Корпорация IBM тестирует голосовую
сеть
Spoken Web,
благодаря которой пользователи, не умеющие читать и писать
получат доступ к Интернет.
Spoken
Web
позволит создавать и распространять контент, используя
устную речь вместо письменной.
Благодаря применению технологий
VoiceXML
(Voice eXtensible Markup Language) и HSTP (Hyper Speech
Transfer Protocol) сервис
Spoken Web
отражает ресурсы World Wide Web на телекоммуникационную
сеть, в которой пользователи могут создавать и прослушивать
"голосовые сайты" VoiceSites с собственными адресами URL,
перемещаться по "голосовым ссылкам" VoiceLinks и даже
выполнять бизнес-транзакции.
Для получения доступа к ресурсам
голосовой сети нужно позвонить по бесплатному номеру с
помощью системы распознавания голоса или тонового набора.
Сайты VoiceSites можно создавать непосредственно с телефона,
используя набор шаблонов, находящихся на серверной стороне.
Корпорация IBM в сотрудничестве с
несколькими индийскими операторами мобильной связи уже
реализовала ряд пробных проектов по развертыванию
Spoken Web.
Стратегия перевода данной технологии на коммерческие рельсы
в Индии и других странах будет разрабатываться
бизнес-группами IBM. |
 |