Cинтез речи в приложениях

 

 

Синтез речи в Cool Reader2

CoolReader - программа Вадима Лопатина с открытым исходным кодом для чтения электронных книг в различных форматах в  ОС Windows, Linux, Android, Mac OS X, Symbian OS...

 

Cool Reader2 - для Windows, программа для чтения электронных книг с поддержкой (среди прочего):

  • чтения файлов в формате .fb2 (FictionBook), .txt, .doc, .html, .rtf с автоматическим распознаванием кодировки и форматирования текста (в том числе из архивов: rar, zip, ha, arj, lha, lzh).

  • чтения вслух с использованием голосовых движков SpeechAPI 4.0 и SpeechAPI 5.1.

  • записи книги в формат MP3 для последующего прослушивания на MP3-плеере.

  • подключаемых словарей произношений с настройками отдельно для каждого голосового движка.

  • встроенного редактора словарей произношений.

Программа Cool Reader2 не требует установки, достаточно извлечь содержимое из архива и запустить файл CR2.ехе.

Для чтения книги вслух с помощью Cool Reader2 на компьютере должны быть установлены речевые движки (SpeechAPI 4.0 и SpeechAPI 5.1.).

 

 

Внимание!

  • Установка SAPI 5.1 на компьютеры, где уже установлена высшая версия SAPI (5.3 или 5.4), приводит к ухудшению работы программ, его использующих.

  • В Windows 7 — по умолчанию установлена SAPI 5.4.

  • В Windows Vista — по умолчанию установлена SAPI 5.3.

Обычно Cool Reader2 распространяется с использующими SpeechAPI 4.0:

  • русскоязычным речевым движком Digalo Core Rus (платный, требует ввода регистрационного ключа)

  • бесплатными посредственными речевыми движками Lernout&Hauspie (мужской и женский голос).

 

Работа со словарями в Cool Reader2

CoolReader может подключать словари только из директории «Dict».

Для создания нового словаря можно просто создать пустой файл с расширением «.dic» в директории «Dict».

Обычно Cool Reader2 распространяется со словарями для Digalo Core Rus:

  • словарем dict.zip. Он должен быть распакован в папку с Cool Reader2.

  • словарем ударений и произношений  Digalo.Michelangelo . Свыше 28000 записей в версии v35.1 от 01.09.2012.

 

Запись MP3  в Cool Reader2

Для записи с помощью Cool Reader2 аудио в MP3 необходим файл lame_enc.dll. Он дожден быть извлечен (из архива) в папку с Cool Reader2.

 

Настройка CoolReader2 для голосового чтения:

  • запускаем — CR2.exe,

  • открываем Настройки клавишей F9,

  • выбираем меню "чтение вслух",

  • в подменю "Голос" выбираем голос (например: "Digalo Russian Nicolai <4.0>"),

  • добавляем в список распакованные словари

  • сохраняем настройки,

  • открываем нужную книгу,

  • нажимаем "Enter" (или кнопку меню в верхней всплывающей панели)

  • слушаем книгу.

 

 

 

Синтез речи в Cool Reader3

 

Cool Reader3 - отдельная ветка развития программы Вадима Лопатина.

 Cool Reader3 - для OC Windows неудобна (для kmp).

Cool Reader3 - отличная программа для OC Android (начиная с v1.5) поддерживает чтение текста голосом при наличии  TTS

Cool Reader3 поддерживает форматы epub, fb2, txt, doc, rtf, html, chm, tcr, pdb, pml и множество настроек.

 Для синтеза речи по тексту в Cool Reader3 рекомендуется использовать голосовой движок SVOX Classic TTS 2.0.19

Русскоязычные голоса SVOX Classic TTS 2.0.19: женский (Катя) и мужской (Юрий).

31.08.2012 Вышла Cool Reader3.1.0-19 для OC Android.

 

 

 

 

Синтез речи в Promt Professional 9.0

В системе PROMT начиная с  PROMT Professional 7.0 (2005 год) имеется возможность воспроизведения текстов вслух благодаря технологии синтеза речи Microsoft Agent и speech engines, поставляемых в составе дистрибутивного набора.

 

Использование синтеза речи в Promt Professional 9.0:

Запустить из лингвистической среды ПРОМТ (Пуск/Программы/Promt Professional 9.0) приложение Переводчик Promt:

 

 

Получить перевод текста (выбор языковой пары, настройки перевода и перевод с панелей Перевод и Настрока перевода)

Открыть панель инструментов Сервис.

 

 

Выбрать (отдельно для каждого языка!) голосовой модуль.

Настроить (отдельно для каждого языка!) параметры синтеза речи (скорость, тембр, громкость).

 

 

Поместить курсов в окно с текстом для синтеза и прослушать синтезированную речь с помощью команды Произнести.

 

 

 

Microsoft Agent

 

 

Microsoft Agent — набор программных сервисов, которые поддерживают воспроизведение интерактивных анимированных персонажей в рамках интерфейса Microsoft Windows для создания различных интерактивных приложений, справочных систем, электронных пособий, а также для представления информации в HTML-документах различными способами..

 

 

Microsoft Agent предлагает поддержку распознавания голосовой информации (на основе Microsoft Speech Application Programming Interface, SAPI 4.0), позволяя управлять приложениями на уровне голосовых команд.

Персонажи могут воспроизводить синтезированную речь (text-to-speech, TTS), аудиофрагменты или текст в специальном окне.

Программный интерфейс Microsoft Agent позволяет управлять воспроизведением персонажей, вводом и выводом информации. Персонажи отображаются в собственных окнах.

Microsoft Agent включает ActiveX, доступный из любых языков программирования и средств разработки, поддерживающих технологию COM, а также из скриптовых языков VBScript и JavaScript.

Microsoft Agent предустановлялся в операционную систему, как часть Microsoft Windows (начиная с Windows 2000).

Начиная с Windows 7, Microsoft Agent не включен в операционную систему.

С выходом Windows 8, Microsoft Agent не поддерживается. 

Microsoft Agent сыграл большую роль в разработке голсоовых интеллектуальных агентов.

Microsoft отказалась от развития Microsoft Agent.

 

 

Управление голосом персонажа Microsoft Agent

 

Управление голосом персонажа Microsoft Agent осуществляется при помощи специальных тегов, добавляемых к произносимой строке:

Тег

Значения и описание

\Chr="значение"\

Изменяет голос персонажа: "Normal" (по умолчанию) — нормальный голос "Monotone" — монотонный голос "Whisper" — шепот

\Emp\

На следующем за тегом слове делается ударение

\Map="spokentext"= "balloontext"\

Персонаж вслух произносит строку "spokentext", а над ним отображается строка "balloontext". Т.е. персонаж как бы думает одно, а говорит совершенно другое.

\Pau=значение\

Делает паузу, которая длится "значение" миллисекунд

\Pit=значение\

Устанавливает частоту произношения в Герцах

\Rst\

Устанавливает все параметры в исходное состояние

\Spd=значение\

Устанавливает скорость произношения текста в "словах в минуту"

\Vol=значение\

Устанавливает громкость произношения текста (от 0 до 65535)

Пример для JavaScript:

 

 

 28.11.2013

kmp