Интервью: Дмитрий Усталов о технологиях NLP и особенностях обработки русского языка

12.05.2015

1 Star2 Stars (5 votes, average: 5,00 out of 5)
 

Tags: 

Что такое обработка естественного языка, где и для чего она применяется? Какую пользу может принести бизнесу? Эти и другие вопросы мы адресовали специалисту из России, основателю проекта NLPub Дмитрию Усталову.

— В область ваших научных интересов входит обработка естественного языка или NLP (Natural Language Processing). Расскажите об этом направлении ИИ. Где и для чего оно применяется?

– Люди общаются на естественном языке — письменно и устно.

Методы обработки естественного языка разрабатываются для того, чтобы машины могли понимать наш язык и общаться на нем, помогать нам ориентироваться в окружающей нас информации, а также следить за нашей сетевой перепиской и подбирать контекстную рекламу. Это достигается благодаря сочетанию методов искусственного интеллекта и прикладной лингвистики.

Типичные примеры технологий обработки естественного языка — поисковые машины Интернета, голосовое управление, машинный перевод и многое другое.

— Какие сложности возникают при обработке русского языка?

– Русский язык — флективный язык с нефиксированным порядком слов. Эти особенности приходится учитывать на этапе предварительной обработки, выполняя, например, лемматизацию текста — однозначное приведение слов к начальной форме. Это несколько усложняет модели и делает вычисления дороже.

Более насущной проблемой является нехватка качественных открытых ресурсов и инструментов, позволяющих быстро начать работу и получить результаты. Современные методы обработки естественного языка основаны на статистических моделях, которые обучаются по репрезентативному набору данных. Для этого часто используют корпусы — крупные коллекции текстовых документов с заданными свойствами. Кроме того, для работы необходимы словари, тезаурусы и другие ресурсы, традиционно создаваемые целыми коллективами профессиональных лингвистов. К сожалению, подобные ресурсы для русского языка, как правило, развиты слабо или находятся за семью печатями в стенах различных НИИ.

Не стоит падать духом. Во-первых, ситуация с каждым днем улучшается: появляются новые ресурсы, создаваемые группами неравнодушных исследователей как при помощи краудсорсинга, так и традиционным путем. Плюс, открываются и публикуются некоторые ранее закрытые наборы данных. Во-вторых, существенный рост популярности методов обучения без учителя, таких, как word2vec, снижает требования к разметке данных. В каталоге NLPub мы стараемся собрать и структурировать сведения о существующих ресурсах для обработки русского языка.

— Какими фреймворками вы пользуетесь в работе?

– Томита-парсер, Apache Lucene Core, Weka.

— Вы упомянули проект под названием NLPub. Расскажите о нем. Какие цели преследуете? Чем вы лучше конкурентов?

– Мое знакомство с технологиями обработки естественного языка началось с материалов сайта АОТ, где опубликованы различные лингвистические процессоры на основе теории «Смысл ⇔ Текст». При этом сведения о других инструментах были хаотично разбросаны по Интернету в неактуальном или неопрятном виде. Поэтому первого октября 2012 года на свет появился NLPub — каталог лингвистических ресурсов для обработки русского языка.

Каталог состоит из нескольких разделов, покрывающих основные информационные потребности пользователей: инструменты, ресурсы, методы, обзор рынка, мероприятия, персоналии, литература. Цель NLPub — содействовать развитию исследований и разработок в области автоматической обработки русского языка.

Преимущество каталога NLPub состоит в открытости и оперативности, достигаемым благодаря применению вики-подхода. Например, наш раздел «Обработка текста» регулярно пополняется сведениями о самых разных и порой неизвестных инструментах, на основе которых можно решить типичные задачи обработки текста на русском языке. В статьях мы приветствуем перелинковку с непрофильными для нас тематическими ресурсами, такими как MachineLearning.ru, поэтому пользователь получает разностороннюю и актуальную информацию. На вопрос-ответном сервисе NLPub Q&A можно задать вопросы о вещах, недостаточно подробно раскрытых на основном ресурсе — и вопросы не остаются без ответов.

Несколько месяцев назад на базе NLPub мы успешно провелиRUSSE — первое соревнование систем определения семантической близости русских слов. В нем приняло участие 19 команд, приславшие 105 моделей. Результаты соревнования будут оглашены на конференции «Диалог 2015». Отмечу, что модели на основе word2vec показали прекрасный результат даже на нелемматизированном корпусе.

— На сайте, в частности, есть раздел «Бизнесу». Чем NLP-проекты могут быть полезны для современного бизнеса?

– Многие лингвистические технологии можно встроить в существующий продукт и получить новое качество. Например, применение технологий распознавания голоса позволяет центрам обработки звонков автоматически получать стенограммы разговоров и эффективнее обслуживать абонентов.

Создание лингвистических технологий — кропотливый и трудоемкий процесс. Использование готовых инструментов позволяет избежать траты денег на повторное изобретение велосипедов. NLPub собирает сведения, которые помогают принять правильное решение. Наш список компаний упрощает стартапам обзор рынка и облегчает поиск контрагентов. За консультацией можно обратиться к экспертам, готовым помочь (не надо стесняться!). На мероприятиях можно узнать что-то новое и полезное, а также найти единомышленников или даже будущих коллег.

— Когда говорят об NLP, часто вспоминают и таком направлении как Text Mining. Как эти два направления связаны между собой?

– Я предпочитаю использовать русскоязычные эквиваленты этих терминов. Обработка естественного языка, как дисциплина, занимается построением различных языковых моделей и разработкой соответствующих методов.

Анализ текстовых данных (Text Mining) направлен на применение методов обработки естественного языка для преобразования исходного неструктурированного текста в удобные для анализа структурированные данные. В качестве примеров задач можно привести оценку эмоциональной окраски комментариев, поиск плагиата и заимствований, обнаружение спама.

Лариса Шурига, DataReview

 

Людзі

Спіс удзельнікаў суполкі:

 

 

Дзе вучыць

Online

Coursera:

Offline:

у Беларусі:

  1. Факультэт прыкладной інфарматыкі БДУ (вучэбны курс на кафедры ІСУ);

  2. Мінскі дзяржаўны лінгвістычны ўніверсітэт (tba);

  3. Гародненскі Дзяржаўны Ўніверсітэт (інф. адсюль);

  4. Гуманітарны факультэт, БДУ, Кафедра прыкладной лінгвістыкі і лінгвадыдактыкі;

  5. Філалагічны факультэт, БДУ, Кафедра прыкладной лінгвістыкі;

  6. Лабараторыя распазнаваньня і сінтэзу маўлення Аб'яднанага інстытута праблем інфарматыкі;

У свеце 

спіс універсітэтаў, дзе есць курсы па computational linguistics

 

 

Інтэрв’ю для суполкі з Аляксандрам Аўтаевым, камп’ютэрным лінгвістам

 

Сябры, для суполкі NLProc.by мы ўзялі інтэрв’ю ў Аляксандра Аўтаева, навукоўцы ва Ўніверсітэце Трэнта (Італія), прыкладнога спецыяліста ў галіне камп’ютэрнай лінгвістыкі.
 

Добры дзень, Аляксандр. Раскажыце пра Ваш вопыт у галіне камп'ютэрнай лінгвістыкі: калі пачалі цікавіцца і на якім узроўні, дзе слухалі, чыталі лекцыі ці вялі прыктыку, які першы быў праект?

Я бы сказал что по сравнению со многими более серьёзно вовлеченными в область у меня весьма скромный опыт. В основном из-за того, что Natural Language Processing (NLP) я использовал скорее как инструмент для решения своих задач. NLP как область искусственного интеллекта (Artificial Intelligence - AI) меня привлекала достаточно давно, ещё в универcитете, но на уровне любопытства, наравне со многими другими областями AI. Чуть более серьёзно заинтересовался NLP после приглашения в аспирантуру в университет Тренто.

Мои аспирантские исследования начались в области управления знаниями с решения задачи “семантического сопоставления” (semantic matching, извините, не уверен в русской терминологии). После ознакомления с задачей и первых экспериментов довольно быстро стало ясно, что одним из направлений улучшения может быть лучшее понимание используемого в исходных данных языка.

Начал разбираться, в итоге другие направления оставил и написал диссертацию по этой теме. В отношении NLP моя диссертация имеет скорее прикладной, нежели фундаментальный характер и описывает применяемое в метаданных подмножество английского языка. Весьма, кстати, простое - в двух словах эта часть языка является комбинациями именных групп (noun phrases).

Разбирался в основном самостоятельно, ибо мой научный руководитель является специалистом в другой области, хоть и тоже в AI. Когда возникала необходимость - консультировался с коллегами из группы NLP соседского исследовательского института. Ну и началось - учебники, статьи, исследовательская работа.

Самая цікавая задача ці некалькі, над рашэннем якіх працавалі? Трошкі пра магчымасці ўжывання ў жыцці.

Одной из интересных задач была попытка унификации языка метаданных в рамках одной грамматики. Безуспешная :)

В языке метаданных есть два основных направления - с прямым порядком слов и с обратным и свести их вместе у меня пока не получилось.

Две другие интересные, но чисто технические задачи - автоматизация тренировки алгоритмов из OpenNLP на пользовательских форматах данных и доработка библиотеки работы с WordNet возможностью редактирования. В результате получилась extJWNL, которую по мере сил поддерживаю.

Гэта цікава. Дзякую за Вашыя намаганні. Дарэчы, можыце размясціць бібліятэку на гітхабенашай суполкі, можа з’явяцца зацікалеўныя дапамагчы, і не так даўно мы пачалі працу надворднэтам для беларускай мовы. Будзем выкарыстоўваць вашую бібліятэку для таго, каб працаваць з варднэтам для англійскай і беларускай моў у будучыні.

Якія найбольш цікавыя трэнды ў галіне бачыце: што развіваецца вельмі хутка? Якія веды будуць карысныя ў бліжэйшыя гады?

Самый интересный на сегодня тренд это “глубокое обучение” (deep learning). Среди главных его особенностей я бы выделил

  1. отказ от ручной разработки признаков (features),
     

  2. расчёт на большие объёмы доступных данных,
     

  3. сравнимая с или даже превосходящая традиционные статистические методы с ручным анализом и подбором признаков производительность,
     

  4. лучшая переносимость в разные языки и домены.
     

Чрезвычайно активная область. К сожалению, сам слежу одним глазом.

Ещё одно интересное направление (мне интересное, уж не знаю, согласятся ли коллеги) это развитие и использование богатых семантико-лингвистических ресурсов (типа WordNet, Entitypedia, Google Knowledge Graph, Facebook Entity Graph) в NLP.

Одна из сложностей в обработке языка это последние проценты качества: 90->99->100.

Зачастую тут сложно что-то сделать машинным обучением - нужно “просто знать”, просто знать “исключения” из правил. Мне кажется эти последние проценты могут быть “дожаты” при помощи богатых семантико-лингвистических ресурсов.

Мне лично было бы очень интересно поработать над слиянием машинного обучения и семантико-лингвистических ресурсов, если появится возможность.

Да, гэта прагрэсіўныя напрамкі.

Магу дадаць наконт Deep Learning, у канцы сакавіка пачаўся добры курс ад Стэнфардскага Ўніверсітэта.

Таксама на свет з’яўляюцца не толькі wordnet’ы, але і іншя карысныя рэсурсы, заснаваныя на той жа ідэі: VerbNet, GeoWordNet, FrameNet. Здаецца, вы таксама мелі вопыт з GeoWordNet.

Наконт апошніх крокаў да 100% - якасці, то да, згодзен з Вамі, такая праблема ў амаль што кожным напрамку камп’ютэрнай лінгвістыкі, нават Крыстафер Маннінг пісаў працу наконт задачы POS-tagging (аўтаматычная разметка часцінамі мовы).

Парайце крыніцы, то бок кнігі, практычныя сшыткі, спасылкі, на Ваш густ;

Область огромная, поэтому совсем субъективная выборка. Две (три) классики:

Курсы онлайн:

Конференции: EMNLP, CoNLL, ACL, EACL, AAAI, HLT NAACL, ICML, CHI, KDD.

Рассылки: пожалуй, оставлю основную: linguistlist.org

Группы LinkedIn: Natural Language Processing People, Natural Language Processing,Computational Linguistics.

Дзякую за цікавае інтэрв’ю, Аляксандр. Наконт спасылак: мы іх дабавім з Вашага дазволу ў нашу скарбонку. Усяго найлепшага і да сустрэчы.