*.hmg словари - файлы со списками замен, каждая строка которых содержит перечень словоформ искомого омографа и его искомую форму в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - варианты его замены, перечисленные через запятую.
Омографы - слова, одинаковые по написанию, но различающиеся произношением. Иногда их также называют графическими омонимами. Одной из основных причин возникновения омографов в русском языке является различное ударение: зáмок – замóк. Омографы также возникают за счет того, что в текстах обычно не проставляют точки над ё, например: небо (нéбо и нёбо), берет (берéт и берёт).
Примеры:
Цитата
1:
-
замок=зАмок,замОк По умолчанию различие между прописными и строчными буквами при рассмотрении шаблонов не делается. Если регистр букв имеет значение, добавляют символ "$" в начало строки также как и в словарях *.dic:
Цитата
2:
Данный формат словарей поддерживается только программой "Балаболка" потому что в ней он и был придуман.
Для каждого омографа программа "балаболка" позволяет добавлять список фраз, замена которых будет осуществляться автоматически (закладка "Фразы с омографом" в редакторе омографов).
Например:
Цитата
3:
При выполнении ручного поиска омографов в тексте (пункт главного меню "Текст|Искать омографы") эти выражения автоматически заменяются на новые а для слов, фразы с которыми нет в словаре, программа предлагает выбрать нужный вариант самостоятельно.
В отличии от словарей *.dic, эти словари используются только для ручной разметки текста.
И хотя это очень долго и у многих не хватает терпения возиться со всем этим, особенно если текст весьма объемный, использование данного способа разметки позволяет практически полностью снять омонимию в тексте выставив нужную форму с проставленным ударением.
Лексикон
- список слов и их фонетическая транскрипция с помощью которой голосовой движок «понимает» как ему нужно читать то или другое слово.
Он подключается и работает не зависимо от используемой для чтения программы.
Ударение для всех голосов Acapela-Group (в т.ч. Алёна) задаются только через лексикон, причем учитывается также регистр букв слова. Символ пробел игнорируется, допустимы только слова и словосочетания через дефис.
DIC/HMG конвертер - Утилита для объединения, разделения и выделения правил из словарей *.hmg и *.dic добавленных при ручном поиске омографов в формате для лексиконов ударений
голсового модуля.
На сегодня есть три способа поиска омографов в тексте:
Ручной - с помощью словаря омографов в той же «балаболке».
Плюсы: максимальное к-во распознанных омографов в тексте. Минусы: очень долго.
Автоматический - с помощью словаря замены в котором часть часто употребляемых омографов уже прописана. Плюсы: довольно просто и быстро. Минусы: не все омографы находятся.
Автоматический - воспользоваться «книгоделом» или «Cognitive Dwarf Shell». Плюсы: очень быстро и просто. Минусы: встречаются ошибки не много, но есть. |