Основная цель проекта Открытый Корпус - создание лингвистической
разметки (т.е. описания каждого текста, предложения, слова, ...)
для обучения математических моделей языка, для тестирования
программного обеспечения и для других видов автоматической
обработки текста.
Для решения этих задач мы предоставляем весь
корпус в виде файла, который любой желающий может скачать на
свой компьютер.
Другие известные нам корпуса (в том числе и НКРЯ)
не предоставляют полного доступа к разметке.
Задачи, связанные с поиском примеров употребления вручную,
являются для нас второстепенными.
По этой причине мы пока не
начали делать поисковую систему по корпусу.
1. Открытый корпус предоставляет все тексты и всю разметку на
условиях CC BY-SA. Мы хотим, чтобы компьютерная лингвистика в
России развивалась.
Лучший способ простимулировать развитие -
создавать свободно доступные данные и инструменты.
кстати, наше
пособие предоставляется всем на условиях
CC BY-NC-SA
2. В Открытый корпус можно вносить исправления. Права на
внесение изменений выдаются по запросу (напишите на opencorpora@opencorpora.org).
3.
В Открытом корпусе можно оставлять комментарии под каждым
разбором (вот так: http://www.opencorpora.org/sentence.php?id=3774#comm_82 ).
В обсуждении сложных случаев могут принять участие все
заинтересованные (права на комментирование есть у всех
зарегистрированных пользователей).
4. Открытый корпус ориентирован на ручную разметку. Если будет
необходимо, при помощи обученных на ручной разметке моделей все
желающие смогут разметить любые другие тексты в любом объёме.
5. Открытый корпус маленький: ближайшая цель - 1 млн.
словоупотреблений. НКРЯ в настоящий момент включает 341 млн.
словоупотреблений. По этой причине на материалах Открытого
корпуса нельзя делать утверждения о существовании какого бы то
ни было явления в языке в целом.
6. Открытый корпус не сбалансирован: состав существенным образом
зависит от доступности текстов на условиях лицензии CC BY-SA.
Пользователям нужно будет самостоятельно составлять себе
сбалансированные нужным им образом подкорпуса.
7. Открытый корпус ориентирован на тексты, представленные в
Интернете. По этой причине у большинства документов есть их html
копия, сохранённая в момент добавления документа в базу. Её
можно использовать для сопоставления лингвистической и
типографской разметок.
NB: Возможно, что будут и тексты, которых нигде больше в сети
нет.
8. Открытый корпус
включает на современные тексты. На наших
материалах нельзя исследовать развитие языка