kmp-job

Виктор Владиславович Бочаров

Зачем нужны корпус

1. Для различных исследований языка, т.е. для того, чтобы отвечать на перечисленные ниже вопросы (список далеко не исчерпывающий):

как употребляется в текстах то или иное слово, выражение, грамматическая форма, ...?

как изменялось употребление перечисленных объектов со временем?

как оно зависит от пола/возраста/образования/родного языка/... автора?

2. Для составления словарей:

поиска примеров употребления слов в том или ином значении,

оценки их распространённости и т.д.

3. Для обучения математических моделей языка, то есть:

для создания программ, умеющих обрабатывать текст на данном языке: делающих морфологический, синтаксический, семантический и другие виды анализа.

для тестирования таких программ.

Зачем нужен ещё один (т.е. наш) корпус текстов?

Основная цель проекта Открытый Корпус - создание лингвистической разметки (т.е. описания каждого текста, предложения, слова, ...) для обучения математических моделей языка, для тестирования программного обеспечения и для других видов автоматической обработки текста.

Для решения этих задач мы предоставляем весь корпус в виде файла, который любой желающий может скачать на свой компьютер.

Другие известные нам корпуса (в том числе и НКРЯ) не предоставляют полного доступа к разметке.

Задачи, связанные с поиском примеров употребления вручную, являются для нас второстепенными.

По этой причине мы пока не начали делать поисковую систему по корпусу.

Чем отличается Открытый корпус от НКРЯ?

1. Открытый корпус предоставляет все тексты и всю разметку на условиях CC BY-SA. Мы хотим, чтобы компьютерная лингвистика в России развивалась.

Лучший способ простимулировать развитие - создавать свободно доступные данные и инструменты.

кстати, наше пособие предоставляется всем на условиях CC BY-NC-SA

2. В Открытый корпус можно вносить исправления. Права на внесение изменений выдаются по запросу (напишите на opencorpora@opencorpora.org).

3. В Открытом корпусе можно оставлять комментарии под каждым разбором (вот так: http://www.opencorpora.org/sentence.php?id=3774#comm_82 ). В обсуждении сложных случаев могут принять участие все заинтересованные (права на комментирование есть у всех зарегистрированных пользователей).

4. Открытый корпус ориентирован на ручную разметку. Если будет необходимо, при помощи обученных на ручной разметке моделей все желающие смогут разметить любые другие тексты в любом объёме.

5. Открытый корпус маленький: ближайшая цель - 1 млн. словоупотреблений. НКРЯ в настоящий момент включает 341 млн. словоупотреблений. По этой причине на материалах Открытого корпуса нельзя делать утверждения о существовании какого бы то ни было явления в языке в целом.

6. Открытый корпус не сбалансирован: состав существенным образом зависит от доступности текстов на условиях лицензии CC BY-SA. Пользователям нужно будет самостоятельно составлять себе сбалансированные нужным им образом подкорпуса.

7. Открытый корпус ориентирован на тексты, представленные в Интернете. По этой причине у большинства документов есть их html копия, сохранённая в момент добавления документа в базу. Её можно использовать для сопоставления лингвистической и типографской разметок.

NB: Возможно, что будут и тексты, которых нигде больше в сети нет.

8. Открытый корпус включает на современные тексты. На наших материалах нельзя исследовать развитие языка

kmp