kmp-L

Словари и редакторы для TTS

Словари для голосовых движков

Значительно повысить качество синтеза речи позволяет использование дополнительных аннотированных (размеченных) словарных баз для голосовых модулей и движков.

Словарные базы для речевых движков ориентированы на машинное (компьютерное) считывание (извлечение) информации и не имеют удобного пользовательского интерфейса.

Они создаются и редактируются с помощью специальных программ (словарных редакторов).

Можно создать их и в простом текстовом редакторе (Блокнот, например).

Готовые словарные базы можно приобрести или загрузить из открытых интернет-ресурсов.

Словарная база должна может поставляться с речевым движком и быть подключена к нему "по умолчанию".

Дополнительные словарные базы (словари) должен подключить пользователь.

Форматы словарных баз для TTS

Основные форматы словарных баз:

словарь замен dic работающий только по быстрому методу применения правил;
словарь замен dic работающий только по стандартному методу применения правил;
словарь замен dic работающий одинаково как по быстрому так и по стандартному методам применения правил;
словарь замен ini использующий регулярные выражения работающий только по стандарту VBScript;
словарь замен ini использующий регулярные выражения работающий только по стандарту PCRE;
словарь замен ini использующий регулярные выражения работающий одинаково по стандарту VBScript и PCRE;Perl Compatible Regular Expressions.

VBScriptVisual (Visual Basic Scripting Edition) — скриптовый язык программирования, интерпретируемый компонентом Windows Script Host. Iироко используется при создании скриптов в операционных системах семейства Microsoft Windows.

PCRE (Perl Compatible Regular Expressions) — библиотека, реализующая работу регулярных выражений в стиле Perl (с некоторыми отличиями).

Регулярные выражения (regular expressions) — мощный и очень гибкий формальный язык, основанный на использовании метасимволов (wildcard characters, символов-джокеров, образцов, pattern) для поиска по шаблону

Образец (pattern), задающий правило поиска, по-русски также иногда называют «шаблоном», «маской», «паттерном».

Регулярные выражения (regex) являются важной составной частью текстовых редакторов, инструментов поиска и большинства основных языков программирования.

Например, Perl имеет встроенный в их синтаксис механизм обработки регулярных выражений.

Регулярные выражения по существу, представляют собой язык описаний .

С помощью регулярных выражений можно:

Проверять, соответствует ли вся строка целиком заданному шаблону.
Находить в строке подстроки, удовлетворяющие заданному шаблону.
Извлекать из строки подстроки, соответствующие заданному шаблону.
Изменять в строке подстроки, соответствующие шаблону.

Все словари замен предназначены только для использования в программах-читалках. Они не содержат фонетической транскрипции слов и служат только для примитивной разметки текста (коррекции ударений, исправления неточностей набранного текста и т.п.).

Cловари *.dic

*.dic словари - файлы со списками замен, каждая строка которых содержит шаблон и текст, которым будет заменен данный шаблон в тексте; между ними стоит знак равенства (=).

Левая часть - искомый фрагмент текста, правая часть - замена.

В первую очередь рассматриваются шаблоны с максимальным количеством букв, т.е. чем длиннее у правила левая часть тем раньше оно сработает в тексте.

По умолчанию программа не учитывает различий между прописными и строчными буквами при рассмотрении шаблонов. Если регистр букв имеет значение, в правило добавляется символ "$" в начало строки.

Примеры:

Цитата 1:

$МАКЛ=Международная ассоциация компьютерной лингвистики
По умолчанию шаблон представляет из себя отдельное слово (или несколько слов), ограниченное пробелами или знаками препинания. Если шаблон является частью слова, то для обозначения того, что перед текстом или после него могут быть любые символы, используется символ "*" (звездочка). Например:

Цитата 2:

авто*=авта
Данное правило будет применено к словам "автомобиль", "автокатастрофа" и т. д. Чтобы использовать в тексте специальные символы ("#", "*", "$", "="), их записывают дважды в соответствующем месте, например:

Цитата 3:

**=звёздочка
В этом случае отдельный символ "*" в тексте будет читаться как "звёздочка".

Словари *.dic самые распространенные среди различных программ для синтеза речи.

Такие словари используются для быстрой замены текста и как правило, если есть другие форматы пользовательских словарей, они срабатывают самыми последними.

Следует заметить что в последнее время, в связи с появлением других алгоритмов словарных замен форматы словарей могут отличаться друг от друга.

В последних версиях программ «Балаболка» и «Демагог» формат *.INI заменён на формат *.REX.

Данная замена происходит автоматически.

Словари формата *.REX это те же словари использующие регулярные выражения работающие только по стандарту PCRE.

Словари формата *.INI поддерживаются только более ранними версиями программ где есть переключение старого формата словарей.

Cловари *.hmg

*.hmg словари - файлы со списками замен, каждая строка которых содержит перечень словоформ искомого омографа и его искомую форму в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - варианты его замены, перечисленные через запятую.

Омографы - слова, одинаковые по написанию, но различающиеся произношением. Иногда их также называют графическими омонимами. Одной из основных причин возникновения омографов в русском языке является различное ударение: зáмок – замóк. Омографы также возникают за счет того, что в текстах обычно не проставляют точки над ё, например: небо (нéбо и нёбо), берет (берéт и берёт).

Примеры:

Цитата 1:

замок=зАмок,замОк
По умолчанию различие между прописными и строчными буквами при рассмотрении шаблонов не делается. Если регистр букв имеет значение, добавляют символ "$" в начало строки также как и в словарях *.dic:

Цитата 2:

$Толстой=тОлстой,толстОй

Данный формат словарей поддерживается только программой "Балаболка" потому что в ней он и был придуман.

Для каждого омографа программа "балаболка" позволяет добавлять список фраз, замена которых будет осуществляться автоматически (закладка "Фразы с омографом" в редакторе омографов).

Например:

Цитата 3:

замок=замОк
взломали замок=взломали замОк

При выполнении ручного поиска омографов в тексте (пункт главного меню "Текст|Искать омографы") эти выражения автоматически заменяются на новые а для слов, фразы с которыми нет в словаре, программа предлагает выбрать нужный вариант самостоятельно.

В отличии от словарей *.dic, эти словари используются только для ручной разметки текста.

И хотя это очень долго и у многих не хватает терпения возиться со всем этим, особенно если текст весьма объемный, использование данного способа разметки позволяет практически полностью снять омонимию в тексте выставив нужную форму с проставленным ударением.

Лексикон - список слов и их фонетическая транскрипция с помощью которой голосовой движок «понимает» как ему нужно читать то или другое слово.

Он подключается и работает не зависимо от используемой для чтения программы.

Ударение для всех голосов Acapela-Group (в т.ч. Алёна) задаются только через лексикон, причем учитывается также регистр букв слова. Символ пробел игнорируется, допустимы только слова и словосочетания через дефис.

DIC/HMG конвертер - Утилита для объединения, разделения и выделения правил из словарей *.hmg и *.dic добавленных при ручном поиске омографов в формате для лексиконов ударений голсового модуля.

На сегодня есть три способа поиска омографов в тексте:

Ручной - с помощью словаря омографов в той же «балаболке».
Плюсы: максимальное к-во распознанных омографов в тексте.
Минусы: очень долго.

Автоматический - с помощью словаря замены в котором часть часто употребляемых омографов уже прописана.
Плюсы: довольно просто и быстро.
Минусы: не все омографы находятся.

Автоматический - воспользоваться «книгоделом» или «Cognitive Dwarf Shell».
Плюсы: очень быстро и просто.
Минусы: встречаются ошибки не много, но есть.

Словари для TTS IVONA Tatyana

Словари для голосового движка IVONA Tatyana (Татьяна): http://mytts.forum2x2.ru/t501-topic


Michal-Kaszczuk	Lukasz-Osowski

Основные словари (http://mytts.forum2x2.ru/t501-topic):

Словарь коррекции трудночитаемых слов. Обсуждение и описание словаря
Словарь склонения числительных. Обсуждение и описание словаря
Словарь коррекции текста (дополнительный словарь замен корректирующий текст для лучшей расстановки ударений). Обсуждение и описание словаря
Словарь замен для разрешения ё-омографов все/всё - словарь только для программы Demagog версии 241 и выше. Обсуждение и описание словаря
Словарь замен для разрешения ё-омографов все/всё - альтернативная версия словаря для программ без поддержки расширенного формата *.dic словарей но поддерживающих словари построенные на регулярных выражениях. Обсуждение и описание словаря
Словарь замены для Ё-фикации текста. Обсуждение и описание словаря

Дополнительные словари:

Словарь замены текста написанного транслитом
Словарь замен преобразующий текст написанный кириллицей в "транслит" (текст написанный латиницей) и наоборот.
Словарь замен преобразующий текст написанный в виде "12.30" к виду "12:30".
Словарь коррекции для чтения аббревиатур. Обсуждение и описание словаря
Словарь коррекции для чтения дополнительных символов юникод. Обсуждение и описание словаря

Словари для TTS Acapela-Group (Алёна)

Словари для голосового движка Acapela-Group (Алёна): http://mytts.forum2x2.ru/t164-topic
Основные словари:

‎Лексикон омографов (для словаря замен). Обсуждение и описание лексикона.
Словарь замены ударений (рекомендуется использовать совместно с лексиконом омографов и словарем коррекции текста)
Лексикон трудночитаемых слов. Обсуждение и описание словаря.
Лексикон запрета чтения разделительных знаков
Словарь замены числительных и физических величин. Обсуждение и описание словаря.
Словарь склонения числительных. Обсуждение и описание словаря.
Словарь коррекции текста (дополнительный словарь для основного словаря замен корректирующий текст для лучшей расстановки ударений). Обсуждение и описание словаря.

Дополнительные словари:

‎Частотный лексикон (для словаря замен). Обсуждение и описание лексикона.
Словарь замен для разрешения ё-омографов все/всё - словарь только для программы Demagog версии 241 и выше. Обсуждение и описание словаря.
Словарь замен для разрешения ё-омографов все/всё - альтернативная версия словаря для программ без поддержки расширенного формата *.dic словарей но поддерживающих словари построенные на регулярных выражениях. Обсуждение и описание словаря.
Словарь для "ручного" поиска омографов к "балаболка" - Alenka.hmg
Расширенный словарь для ручного поиска омографов (dic+hmg). Обсуждение и описание словаря.
Словарь замены текста написанного транслитом.
Словарь замены для Ё-фикации текста. Обсуждение и описание словаря.
Словарь замен преобразующий текст написанный кириллицей в "транслит" (текст написанный латиницей) и наоборот.
Словарь замен преобразующий текст написанный в виде "12.30" к виду "12:30".
Словарь коррекции для чтения аббревиатур. Обсуждение и описание словаря.
Словарь коррекции для чтения дополнительных символов юникод. Обсуждение и описание словаря.
Лексикон географических названий. Обсуждение и описание лексикона.
«Ё»-лексикон. Обсуждение и описание лексикона.

Словари в программе Балаболка

Доступ к Панели словарей в программе Балаболка: Вид / Показывать / Панель словарей

Установка словарей: поместить словари в папку balabolka\dictionaries.

Подключение словарей : запустить программу "Балаболка" и выставить флажки подключаемым словарям на Панели словарей:

10.12.2013

kmp