Корпус-менеджер

 

 

AntConc

 

 

Корпус (в лингвистике) - репрезентативная (соответствующая представляемой функционирования языка) совокупность текстов, собранных в соответствии с определёнными принципами (соответствующими задаче), размеченных (снабженных аннотациями), обеспеченных специализированной поисковой системой.

В понятие «корпус текстов» входит система управления текстовыми и лингвистическими данными, которую часто называют корпус-менеджером.

Корпус-менеджер (анг. corpus manager)- специализированная поисковая система для получения квантитативной информации и предоставления пользователю результатов в удобной форме.

 

 

 

AntConc

 

 

Корпус-менеджер AntConc (разработан Энтони Лоуренсомony)  предназначен для обработки корпусов первого порядка.

Корпусы первого порядка универсальны, они отражают в себе все многообразие речевой деятельности в собрании текстов, объединенных стилевой и тематической принадлежностью.

Корпусы второго порядка отражают специфические лингвистические феномены и построены ad hoc (для специальной цели). Например, корпус пословиц, корпус политических метафор в газетной речи, терминологический корпус.

AntConc  позволяет получить:

  • получить KWIC- конкорданс (инструмент Concordance);

  • входы элементов конкорданса в текст (инструмент Concordance Plot

  • набор ключевых слов текста (инструмент Keyword List

  • получить основные статистики обрабатываемых текстов (инструмент Word List

  • списки коллокатов к опорному элементу с доступом функции расчета критерия связности: MI-score, TI-score (инструмент Collocates

  • кластер с опорным элементом и списки n-грамм (инструмент Clusters) и др...

 

 

 

Конкорданс

 

Конкорданс (англ. concordance) в корпусной лингвистике - список найденных примеров (вхождений) нужного токена (лексемы, леммы, морфемы...) в минимальном контексте.

Обычно такой контекст представляет собой фрагмент из нескольких единиц слева (L) и справа (R).

Многие современные корпуса предлагают конкорданс в качестве дополнительной возможности вывода найденной информации на экран, такой формат вывода называется KWIC (читается «квик», англ. key word іп context).

Конкордансер (англ. Concordancer) - программа для автоматического создания конкордансов

См. https://en.wikipedia.org/wiki/Concordancer

 

 

 

Коллокация

 

 

Коллокация - словосочетание, имеющее признаки синтаксически и семантически целостной единицы, в котором выбор одного из компонентов осуществляется по смыслу, а выбор второго зависит от выбора первого (например, ставить условия — выбор глагола ставить определяется традицией и зависит от существительного условия, при слове предложение будет другой глагол — вносить).

Коллокация -  устойчивые словосочетания, N-граммы.

В отличие от идиом Коллокации, в отличие от идиом, тотальны в языке и необходимы в речи.

Большая часть коллокаций выражает ограниченное количество стандартных смыслов, названных в модели «Смысл — Текст» лексическими функциями.

Различают:

  • неразрывные коллокации

  • разрывные  коллокации(могут включать второстепенные слова (жизнь кипит и жизнь его кипит, жизнь его постоянно кипит и пр.).

Коллокации выявляются при лексическом анализе текста с использованием статистических методов.

 

kmp