Что такое обработка естественного языка, где и для чего она применяется? Какую пользу может принести бизнесу? Эти и другие вопросы мы адресовали специалисту из России, основателю проекта NLPub Дмитрию Усталову.
— В область ваших научных интересов входит обработка естественного языка или NLP (Natural Language Processing). Расскажите об этом направлении ИИ. Где и для чего оно применяется?
– Люди общаются на естественном языке — письменно и устно.
Методы обработки естественного языка разрабатываются для того, чтобы машины могли понимать наш язык и общаться на нем, помогать нам ориентироваться в окружающей нас информации, а также следить за нашей сетевой перепиской и подбирать контекстную рекламу. Это достигается благодаря сочетанию методов искусственного интеллекта и прикладной лингвистики.
Типичные примеры технологий обработки естественного языка — поисковые машины Интернета, голосовое управление, машинный перевод и многое другое.
— Какие сложности возникают при обработке русского языка?
– Русский язык — флективный язык с нефиксированным порядком слов. Эти особенности приходится учитывать на этапе предварительной обработки, выполняя, например, лемматизацию текста — однозначное приведение слов к начальной форме. Это несколько усложняет модели и делает вычисления дороже.
Более насущной проблемой является нехватка качественных открытых ресурсов и инструментов, позволяющих быстро начать работу и получить результаты. Современные методы обработки естественного языка основаны на статистических моделях, которые обучаются по репрезентативному набору данных. Для этого часто используют корпусы — крупные коллекции текстовых документов с заданными свойствами. Кроме того, для работы необходимы словари, тезаурусы и другие ресурсы, традиционно создаваемые целыми коллективами профессиональных лингвистов. К сожалению, подобные ресурсы для русского языка, как правило, развиты слабо или находятся за семью печатями в стенах различных НИИ.
Не стоит падать духом. Во-первых, ситуация с каждым днем улучшается: появляются новые ресурсы, создаваемые группами неравнодушных исследователей как при помощи краудсорсинга, так и традиционным путем. Плюс, открываются и публикуются некоторые ранее закрытые наборы данных. Во-вторых, существенный рост популярности методов обучения без учителя, таких, как word2vec, снижает требования к разметке данных. В каталоге NLPub мы стараемся собрать и структурировать сведения о существующих ресурсах для обработки русского языка.
— Какими фреймворками вы пользуетесь в работе?
– Томита-парсер, Apache Lucene Core, Weka.
— Вы упомянули проект под названием NLPub. Расскажите о нем. Какие цели преследуете? Чем вы лучше конкурентов?
– Мое знакомство с технологиями обработки естественного языка началось с материалов сайта АОТ, где опубликованы различные лингвистические процессоры на основе теории «Смысл ⇔ Текст». При этом сведения о других инструментах были хаотично разбросаны по Интернету в неактуальном или неопрятном виде. Поэтому первого октября 2012 года на свет появился NLPub — каталог лингвистических ресурсов для обработки русского языка.
Каталог состоит из нескольких разделов, покрывающих основные информационные потребности пользователей: инструменты, ресурсы, методы, обзор рынка, мероприятия, персоналии, литература. Цель NLPub — содействовать развитию исследований и разработок в области автоматической обработки русского языка.
Преимущество каталога NLPub состоит в открытости и оперативности, достигаемым благодаря применению вики-подхода. Например, наш раздел «Обработка текста» регулярно пополняется сведениями о самых разных и порой неизвестных инструментах, на основе которых можно решить типичные задачи обработки текста на русском языке. В статьях мы приветствуем перелинковку с непрофильными для нас тематическими ресурсами, такими как MachineLearning.ru, поэтому пользователь получает разностороннюю и актуальную информацию. На вопрос-ответном сервисе NLPub Q&A можно задать вопросы о вещах, недостаточно подробно раскрытых на основном ресурсе — и вопросы не остаются без ответов.
Несколько месяцев назад на базе NLPub мы успешно провелиRUSSE — первое соревнование систем определения семантической близости русских слов. В нем приняло участие 19 команд, приславшие 105 моделей. Результаты соревнования будут оглашены на конференции «Диалог 2015». Отмечу, что модели на основе word2vec показали прекрасный результат даже на нелемматизированном корпусе.
— На сайте, в частности, есть раздел «Бизнесу». Чем NLP-проекты могут быть полезны для современного бизнеса?
– Многие лингвистические технологии можно встроить в существующий продукт и получить новое качество. Например, применение технологий распознавания голоса позволяет центрам обработки звонков автоматически получать стенограммы разговоров и эффективнее обслуживать абонентов.
Создание лингвистических технологий — кропотливый и трудоемкий процесс. Использование готовых инструментов позволяет избежать траты денег на повторное изобретение велосипедов. NLPub собирает сведения, которые помогают принять правильное решение. Наш список компаний упрощает стартапам обзор рынка и облегчает поиск контрагентов. За консультацией можно обратиться к экспертам, готовым помочь (не надо стесняться!). На мероприятиях можно узнать что-то новое и полезное, а также найти единомышленников или даже будущих коллег.
— Когда говорят об NLP, часто вспоминают и таком направлении как Text Mining. Как эти два направления связаны между собой?
– Я предпочитаю использовать русскоязычные эквиваленты этих терминов. Обработка естественного языка, как дисциплина, занимается построением различных языковых моделей и разработкой соответствующих методов.
Анализ текстовых данных (Text Mining) направлен на применение методов обработки естественного языка для преобразования исходного неструктурированного текста в удобные для анализа структурированные данные. В качестве примеров задач можно привести оценку эмоциональной окраски комментариев, поиск плагиата и заимствований, обнаружение спама.
Лариса Шурига, DataReview