Снятие (разрешение) омонимии
- важнейшая проблема
автоматической обработки
естественного языка (NLP,
Natural
Language Processing). |
Омонимия
Омонимия
—
совпадение
слов в написании и звучании при полном различии значений.
-
Омонимы
— слова, совпадающие одновременно по звучанию и по написанию,
но различные по значению.
-
Омофоны
(фонетические омонимы) — слова, совпадающие по звучанию, но
различные по написанию и значению.
-
Омографы
(графические омонимы) — слова, совпадающие по написанию, но
различные по звучанию и значению.
-
Омоформы
(грамматические омонимы) — это разные слова, совпадающие в
отдельных грамматических формах. Например, глаголы лететь и
лечить совпадают в форме 1 лица единственного числа
настоящего времени — лечу.
Омонимия
(многозначность термина):
|
Омографы
Омографы
(от др.-греч. — «одинаковый» и γράφω — «пишу») —
идентичные письменные изображения, имеющие различающиеся
смысловые характеристики и различающееся звуковое прочтение.
Можно систематизировать омографы по разным признакам:
-
сопоставляемые записи слов одной
части речи. Например: замок (с ударением на первый слог) и
замок (с ударением на второй слог) — это сущ. и сущ.
-
сопоставляемые записи слов разных
частей речи. Например: звонок (с ударением на первый слог) и
звонок (с ударением на второй слог) — это прил. и сущ.
-
записи разных форм одного и того
же слова. Например: волны (с ударением на первый слог) и
волны (с ударением на второй слог) — это сущ и то же сущ.
-
ситуативные омографы — имя
собственное, сопоставляемое со словом, записанным с большой
буквы, но не являющимся именем собственным. Например: Коли
(с ударением на первый слог) и Коли (с ударением на второй
слог) — это собственное имя сущ. и гл., записанный с большой
буквы.
а́тлас — атла́с
бе́лки — белки́
бе́регу — берегу́
ви́на — вина
́ви́ски — виски́
в свя́зи — в связи́
гво́здик — гвозди́к
гра́фа — графа́
до́рог — доро́г
ду́хи — духи́
е́ду — еду́ |
жа́ркое — жарко́е
жу́чка — жучка́
за́води — заводи́
за́мок — замо́к
зна́ком — знако́м
избе́гать — избега́ть
коро́бок — коробо́к
кру́жки — кружки́
ле́сок — лесо́к
ми́лую — милу́ю
му́ка — мука́ |
о́рган — орга́н
пи́ли — пили́
пла́чу — плачу́
про́пасть — пропа́сть
со́рок — соро́к
стре́лка — стрелка́
сы́ром — сыро́м
у́же — уже́
у́ха — уха́
хло́пок — хлопо́к |
|
Словари омографов
В 1974 г. описанию омографов было посвящено небольшое
Приложение в «Словаре омонимов русского языка» О.С.
Ахмановой (М., 1974г. — С. 436 — 448).
Впоследствии
на протяжении нескольких десятилетий инвентаризация
омографов не проводилась.
Лишь в начале XXI в. лингвисты
вновь обратились к этой малоисследованной теме.
В результате
было создано несколько словарей омографов.
Машинные словари
омографов:
-
HomoForm.txt
Словарь
омонимичных словоформ
содержит омоформы-омографы, т.е. формы разных
(хотя часто близких по смыслу) слов, имеющие одинаковое
написание. Ударение не учитывается, буква ё не используется
- как это обычно бывает в письменном тексте. Например, бегу
(бег, бежать), берете (брать, берет (головной убор)). Их мы
и назвали омонимичными словоформами. Словарь организован
таким образом, что слева стоят словоформы, а справа -
лексемы (словарные слова), к которым эти словоформы
относятся. В скобках указаны пометы частей речи.
Полный список омонимичных словоформ получен при
порождении всех словоформ из компьютерной версии
Грамматического словаря А.А.Зализняка в отделе
Машинного фонда русского языка Института русского языка
Российской Академии наук.
-
YOhmg.dic
Словарь замен для разрешения ё-омографов все/всё -
словарь с
поддержкой расширенного формата DIC-словарей, допускающего
звездочки внутри правил, а не только в начале/конце правила
а также отдельно стоящие звездочки в правилах а также
применение правила многократным проходом по DIC-словарю,
выполняя замены до тех пор, пока это возможно.)
-
YOhmg.rex
Словарь замен для разрешения ё-омографов все/всё -
словарь с
поддержкой расширенного формата DIC-словарей, допускающего
звездочки внутри правил, а не только в начале/конце правила
а также отдельно стоящие звездочки в правилах а также
применение правила многократным проходом по DIC-словарю,
выполняя замены до тех пор, пока это возможно.)
Фрагмент Словарь
омографов русского языка Ю.Н. Гребневой (Примеры
словарных статей):
ГРАФЕ / ГРАФЕ
Группа I [сущ. и сущ.]
ГРАФЕ,
сущ., м., н. ф. граф; пр., ед.
Лицо, имеющее дворянский титул выше
баронского.
О графе Александре
Сергеевиче Строганове сохранилась память
как о покровителе наук, литературы и
художеств.
Е. Карнович
ГРАФЕ,
сущ., ж., н. ф. графа;
пр., ед. Или: дат., ед.
Полоса на бумажном листе, ограниченная двумя
вертикальными линиями.
Учитель развернул тетрадь и, бережно
обмакнув перо, красивым почерком написал
Володе пять в графе успехов
и поведения.
Л. Толстой
ДРОЖИ / ДРОЖИ
Группа II [сущ. и гл.]
ДРОЖИ,
сущ., ж., н. ф. дрожь; род., ед. Или: пр.,
ед. // дат., ед.
Частое судорожное сокращение мышц.
Мне стало стыдно своего волнения, своей дрожи.
А. Чехов
Голос Абогина дрожал от волнения; в этой дрожи и
в тоне было гораздо больше
убедительности, чем в словах.
А. Чехов
ДРОЖИ,
гл., невозвр., несов., II спр., н. ф. дрожать;
повел., ед., 2 го л.
Бояться; испытывать дрожь, трястись.
Медичка [перед уколом] намазала йодом
под правой лопаткой Вани.
— Тише, не дрожи!
— сказала она и оттянула пальцами кожу.
В. Белов
СТРУНЫ / СТРУНЫ
Группа III [сущ.]
СТРУНЫ,
сущ., ж., н. ф. струна;
вин., мн. Или: им., мн.
Упругая нить, натягиваемая в музыкальных
инструментах и издающая при колебании звук.
На кровати сидел Илья и задумчиво
перебирал струны гитары.
В. Шишков
СТРУНЫ,
сущ., ж., н. ф. струна;
род., ед. См. СТРУНЫ.
Любви дни краткие даны,
Но мне не зреть её остылой;
Я с ней умру, как звук унылый
Внезапно порванной струны.
А. Дельвиг
См.
омонимия
английского языка |
Омофо́ны
Омофо́ны
(фонетические омонимы)
— слова, которые звучат одинаково, но пишутся по-разному и
имеют разное значение.
Примеры:
-
порог —
порок — парок,
-
луг — лук,
-
плод — плот,
-
туш — тушь,
-
бал — балл,
-
косный — костный,
-
предать — придать,
-
компания — кампания,
-
привидение — приведение.
В русском языке два основных источника омофонии:
-
явление оглушения согласных в
конце слов и перед другим согласным звуком,
-
редукция гласных в
безударной позиции.
К омофонии относят также случаи фонетического совпадения
слова и словосочетания или двух словосочетаний.
Используемые буквы могут полностью совпадать и различие в
написании заключается только в расстановке пробелов:
в месте — вместе,
из мяты — измяты,
из люка — и злюка,
не мой — немой,
задело — за дело,
несуразные вещи — несу разные вещи.
В английском омофоны
возникли вследствие исторически сложившегося разного
обозначения на письме одного и того же согласного или
гласного звука, например:
ait(англ.) ([eɪt]) — eight(англ.) ([eɪt])
all(англ.) ([ɔːl]) — awl(англ.) ([ɔːl])
arc(англ.) ([ɑːk]) — ark(англ.) ([ɑːk])
auger(англ.) ([ˈɔːgə]) — augur(англ.) ([ˈɔːgə])
bail(англ.) ([beɪl]) — bale(англ.) ([beɪl])
bait(англ.) ([beɪt]) — bate(англ.) ([beɪt])
be(англ.) ([biː]) — bee(англ.) ([biː])
beach(англ.) ([biːtʃ]) — beech(англ.) ([biːtʃ])
bean(англ.) ([biːn]) — been(англ.) ([biːn])
beat(англ.) ([biːt]) — beet(англ.) ([biːt])
boar(англ.) ([bɔː]) — bore(англ.) ([bɔː])
brake(англ.) ([breɪk]) — break(англ.) ([breɪk])
but(англ.) ([bʌt]) — butt(англ.) ([bʌt])
buy(англ.) ([baɪ]) — by(англ.) ([baɪ])
cache(англ.) ([kæʃ]) — cach(англ.) ([kæʃ]) |
cheap(англ.) ([tʃiːp]) — cheap(англ.) ([tʃiːp])
coign(англ.) ([kɔɪn]) — coin(англ.) ([kɔɪn])
die(англ.) ([daɪ]) — dye(англ.) ([daɪ])
him(англ.) ([hɪm]) — hymn(англ.) ([hɪm])
hole(англ.) ([həul]) — whole(англ.) ([həul])
leaf(англ.) ([liːf]) — lief(англ.) ([liːf])
peace(англ.) ([piːs]) — piece(англ.) ([piːs])
place(англ.) ([pleɪs]) — plaice(англ.) ([pleɪs])
plum(англ.) ([plʌm]) — plumb(англ.) ([plʌm])
rain(англ.) ([reɪn]) — rein(англ.) ([reɪn])
son(англ.) ([sʌn]) — sun(англ.) ([sʌn])
time(англ.) ([taɪm]) — thyme(англ.) ([taɪm])
suite(англ.) ([swiːt]) — sweet(англ.) ([swiːt])
steal(англ.) ([stiːl]) — steel(англ.) ([stiːl])
wait(англ.) ([weɪt]) — weight(англ.) ([weɪt]) |
См.
омонимия
английского языка |
«Buffalo buffalo Buffalo
buffalo buffalo buffalo Buffalo buffalo»
«Buffalo
buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo» —
фраза Уильяма Дж. Рапапорта
(1972, профессора Университета Буффало) на английском языке,
являющаяся грамматически корректной и используемая для
иллюстрации возможностей омофонии и омонимии.
Перевод на русския язык: «Буффальские бизоны,
которых пугают буффальские бизоны, пугают буффальских
бизонов».
Слово buffalo в нём
используется в трёх значениях:
-
имя прилагательное: из
города Буффало, штат Нью-Йорк, США; слово выступает в
значении «буффальский»;
-
имя существительное: животное бизон во множественном
числе;
-
глагол: to buffalo означает «пугать, приводить в
замешательство».
|
PN — имя собственное
N — имя существительное
V — глагол
NP — именная группа
RC — придаточное
VP — глагольная группа
S — предложение |
|
Дизамбигуация
Disambiguation (дизамбигуация):
-
общая лексика: разрешение многозначности, снятие многозначности
-
математика: устранение неопределённости
-
лингвистика:
действие, связанное с избавлением от
омонимии, процесс выбора части омонимов, исходя из контекста), снятие омонимии
-
вычислительная техника: разрешение противоречий, устранение неоднозначности,
устранение противоречий
Снятие (разрешение) омонимии - важнейшая задача Natural Language Processing, (NLP, автоматической
обработки естественного языка).
|
Инструментарий
снятия омонимии
В
системах синтеза речи по тексту
для снятия
омонимии
используются:
-
непосредственная разметка
текста для синтеза речи;
-
специальные списки замен
(хранятся в файлах формата
*.rex);
-
правила замен на основе
синтаксиса
регулярных выражений;
-
словарные базы для машинной
обработки формата
*.dic
|
Регулярные
выражения
Регулярные выражения
(regular expressions) —
формальный язык, основанный на
использовании метасимволов (wildcard
characters,
символов-джокеров).
Регулярные выражения
—
важнейший инструмент компьютерной лингвистики и
электронной обработки текстов. Н
Истоки регулярных выражений
лежат в теории автоматов,
классификации формальных
грамматик Н.А. Хомского, теории
формальных языков.
Регулярные выражения
поддерживает
большинство
современных компьютерных языков
(ActionScript, Perl, Java,
HTML5, PHP, JavaScript, языки
платформы .NET Framework, Python,
Tcl, Ruby, Lua, Gambas, C++
и др.)
Регулярные
выражения поддерживают
все современные системы работы с
текстом.
Регулярные выражения
используются для сжатого
описания некоторого множества строк
с помощью шаблонов, без
необходимости перечисления всех
элементов этого множества.
Регулярные выражения
состоят из констант и
операторов, которые определяют
множества строк и множества
операций на них.
|
|