ПОНЯТИЕ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ

 

 

  • Термин «компьютерная лингвистика» в различных терминологических системах.

  • Подходы к определению компьютерной лингвистики через объект исследования, предмет, методы, инструментарий. Компьютерная лингвистика как наука и область исследовательских и конструкторских разработок.

  • Компьютерная лингвистика в ряду других лингвистических дисциплин, ее цели и задачи.

  • Предмет и объект компьютерной лингвистики.

  • Компьютерная лингвистика как учебный предмет для филологических и математических специальностей.

  • Основные центры изучения компьютерной лингвистики.

  • Образовательные ресурсы по компьютерной лингвистике.

 

Зачем лингвисту компьютер

 

 

Светлана Тимошенко из Лаборатории компьютерной лингвистики ИППИ РАН.

 

 

Термин «компьютерная лингвистика»

 

Компьютерная лингвистика (КЛ) имеет множество различных дефиниций и определений.

  • научное направление в области математического и компьютерного моделирования ...

  • направление в лингвистике, связанное с получением новой информации о тексте, речи и языке в целом с использованием компьютеров, математических методов и методов информационного моделирования

  • область знаний, решающая проблемы общения человека и компьютера на естественном языке

  • вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах...

  • набор задач, которые мы можем решить, обрабатывая языки, тексты, созданные на определенном языке, при помощи компьютера

  • область Искусственного Интеллекта, занимающаяся компьютерным моделированием владения языком и решением прикладных задач автоматической обработки текстов и звучащей речи

  • деятельность по формализации знаний о естественном языке на разных его уровнях с целью использования в компьютерных технологиях...

Для эффективной ориентации в этом множестве: необходимо  различать термины «определение» и «дефиниция» и знать научное значение лексемы "термин". См. Понятие термина

Многообразие дефиниций и определений концепта "компьютерная лингвистика" объясняется тем, что он рассматривается с позиции разных терминосистем.

Можно выделить три уровня понимания компьютерной лингвистики, как области человеческой деятельности (со своими терминологическими системами):

  • научно-математический,

  • инженерный,

  • прикладной.

На научно-математическом уровне компьютерная лингвистика рассматривается как область формализации и математического моделирования феноменов как естественного, так и искусственных (формальных) языков.

На инженерном уровне  компьютерная лингвистика рассматривается как область алгоритмизации и автоматизации обработки формально-математических моделей языковых феноменов, воплощения их в информационно-технологические комплексы (программные и аппаратные).

На прикладном уровне компьютерная лингвистика рассматривается как область применения современных информационных сервисов, средств и систем к языковым феноменам (порождение, анализ, обработка устных и письменных текстов).

 

 

 

Теория и практика в компьютерной лингвистике

 

 

Владимир Селегей, директор по лингвистическим исследованиям компании ABBYY, заведующий кафедрами компьютерной лингвистики в РГГУ и МФТИ, председатель Оргкомитета ведущей российской конференции по компьютерной лингвистике «Диалог».

 

 

Подходы к определению компьютерной лингвистики

Определить компьютерную лингвистику можно попробовать определить на основе различных видов определений:

  • Реальных (раскрывающих существенные признаки самого предмета, отвечающих на вопрос, что представляет собой тот или иной предмет),

  • Номинальных  (раскрывающих значение термина, вводимого для обозначения предмета; отвечающих на вопрос, что обозначает то или иное слово или выражение),
     

  • Явных (в которых выражаются существенные признаки определяемого предмета и имеющие вид Dfd = Dfn:

    • родовидовых (подводящих определяемое понятие под более широкое по объему родовое понятие (род) и указывающее
      на видовое отличие, т.е. специфический признак, отличающий определяемый предмет от других предметов.).

    • Генетических (указывают на происхождение предмета, на способ его образования. Неявные определения

  • Неявных (в котором содержание понятия выводится из отношения к другим понятиям):

    • Контекстуальных (определяющих через контекст (пространство имен, языковое окружение)).

    • Остенсивных (путём указания на определяемый предмет).

  • Аксиоматических (в которых содержание понятий задается системой аксиом, в которых это понятие встречается).


 

Компьютерная лингвистика, как область деятельности, включает в себя основные структурные компоненты деятельности и может быть определена относительно любого их них:

  • цели (задач) деятельности

  • предмета деятельности

  • средств

  • содержания

  • субъекта деятельности

Это отражается в различных дефинициях компьютерной лингвистики:

  • направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов  для моделирования функционирования языка

  • деятельность по формализации знаний о естественном языке на разных его уровнях с целью использования в компьютерных технологиях

  • набор задач, которые мы можем решить, обрабатывая языки, тексты, созданные на определенном языке, при помощи компьютера

  • междисциплинарная ветвь лингвистики, занимающаяся моделированием языка с использованием компьютеров

  • направление в лингвистике, связанное с получением новой информации о тексте, речи и языке в целом с использованием компьютеров, математических методов и методов информационного моделирования.

 

Компьютерная лингвистика как дисциплина

 

 

Борис Орехов, Центр цифровых гуманитарных исследований НИУ ВШЭ

 

 

КЛ в ряду лингвистических дисциплин

Связь компьютерной лингвистики с другими областями проблематична:

Татевосов Сергей Георгиевич (доктор фил. наук, профессор кафедры теоретической и прикладной лингвистики МГУ имени М.В. Ломоносова):

  • Одна из самых болезненных проблем современной лингвистики состоит в том, что статус лингвистики как единой науки в настоящее время весьма проблематичен.

  • В действительности существует три разных лингвистики – теоретическая, описательная, прикладная.

  • Большинство тех, кто называет себя лингвистами, трудится в рамках одного из этих направлений и недоуменно взирает на происходящее внутри других.

  • Три лингвистики устроены как три различные науки, с собственной терминологией и даже с собственной теорией. Лингвистика, кажется, единственная наука, устроенная подобным образом.

  • Разрыв между теорией и практикой не преодолен; напротив, возникновение компьютерной лингвистики разделило лингвистов на тех, кто остался в русле теоретической лингвистики и тех, кто ушел в новую науку.

Вместе с тем, компьютерная лингвистика использует результаты и достижения других лингвистических направлений и сама оказывает влияние как на прикладную лингвистику, так и на теоретическую лингвистику (и нормативную (предписательную, прескриптивную), и дескриптивную, описывающую).

 

 

 

Предмет и объект КЛ

Объектом компьютерной лингвистики является язык.

Однако, развитие компьютерной лингвистики проблематизировало сам концепт "естественный язык" и включило в проблемное поле  все множество искусственных языков (в том числе компьютерных).

Определение границ предметной области такого научного направления как "Компьютерная лингвистика" проблематично в связи с отсутствием стабильного объективного предмета этого определения.

Название "Computational Linguistics" (вычислительная лингвистика) утвердилось  в 60-70 гг. за областью использования статических методов в языкознании.

В СССР в 70-х годах получил распространение родственный термин "Математическая лингвистика". В связи с развитием компьютерных технологий и их активным приложениям в лингвистических задачах, этот термин как название области исследовательской деятельности трансформировался, и она получила более четкое определение "Компьютерная лингвистика".

На официальном сайте Association for Computational Linguistics (ACL) дается общее определение:

  • computational linguistics is the scientific study of language from a computational perspective. Computational linguists are interested in providing computational models of various kinds of linguistic phenomena.

ACL проводит международные конференции по Corpus Linguistics: Investigating language strucютерной лингвистике COLING, выпускает  ежеквартальный журнал "Computational Linguistics".

 

С точки зрения западного подхода основным направлением компьютерной лингвистики является Natural Language Processing (Автоматическая обработка естественного языка и речи).

При анализе документов (архивов конференций, содержания базовых сайтов) Ассоциации Компьютерной лингвистики COLING было отмечено, что западные лингвисты включают следующие прикладные направления в область компьютерной лингвистики:

  • Computational Morphology and Syntax (Компьютерная морфология и синтаксис).

  • NLP (Автоматическая обработка языка и речи).

  • Digital Libraries (Электронные библиотеки).

  • Information Extraction (Извлечение информации).

  • Information Retrieval (Информационный поиск).

  • Knowledge Representation and Semantics (Представление знаний и семантика).

  • Machine Translation (Машинный перевод).

  • Speech Processing (Распознавание и синтез речи).

  • Statistical Language Processing (Статистическая обработка языка).

  • Summarization (Реферирование и аннотирование).


Ю.Н. Марчук  определяет компьютерную лингвистику как "лингвистические основы информатики", что собственно предполагает решение задач, связанных с разработкой и использованием искусственных языков, обеспечивающих общение человека с компьютером.

См: Е.П.Соснина О проблеме определения границ предметной области компьютерной лингвистики

 

 

 

Компьютерная лингвистика как учебный предмет

Компьютерная лингвистика первоначально вводилась как учебный предмет для математических специальностей и рассматривалась с точки зрения инструментария математического моделирвоания и алгоритмизации полученных моделей.

Проблема определения границ предметной области актуализировалась перед разработчиками программ учебных дисциплин в области прикладной и компьютерной лингвистики для гуманитарных специальностей.

Разработчики программы курса МГЛУ (Московского го. лингвистического университета) основное внимание уделяют компьютерному моделированию естественного языка в решении задач искусственного интеллекта, фундаментальным принципам моделирования языка, т.е. направлениям, которые связаны с моделированием общения человека и компьютера.

Разработчики программы курса в МГУ выделяют такие задачи и направления, как проблемы лингвистического обеспечения современных автоматизированных информационных систем, автоматическую обработку естественного языка, создание словарных и текстовых процессоров.

Основными направлениями, рассматриваемыми в курсе компьютерной лингвистики в РГГУ являются: информационный поиск, машинный перевод, терминология, терминоведение, терминография, компьютерная лексикография, распознавание и синтез речи, проблемы обучения языку с помощью компьютера. Программа этого университета наиболее близка программе Ульяновского государственного технического университета.
 

На практике часто к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании, в связи с чем и происходит путаница задач с практическими решениями.

Таким образом, при определении границ предметной области компьютерной лингвистики необходимо более четко разграничивать 2 точки зрения:

  • АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЯЗЫКА (Language Processing), что будет включать задачи анализа и моделирования языковой структуры, а именно:
    графематический/фонематический анализ языка;
    морфологический анализ;
    лексико-грамматический анализ языка;
    синтаксический анализ, или парсинг;
    анализ и моделирование семантической структуры;
    задача синтеза языковых элементов, в т.ч. генерация текстов;
    автоматическая лингвостатистика.

  • ПРИКЛАДНЫЕ НАПРАВЛЕНИЯ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ, а именно:
    машинный перевод;
    распознавание и синтез речи;
    разработка и использование искусственных языков, в том числе языков программирования, языков информационных систем;
    компьютерная лексикография и терминография;
    лингвистические основы информационного поиска;
    автоматическое индексирование, реферирование и классификация текстов;
    автоматический контент-анализ и авторизация текстов;
    гипертекстовые технологии представления текста;
    корпусная лингвистика;
    компьютерная лингводидактика.

См: Е.П.Соснина О проблеме определения границ предметной области компьютерной лингвистики

 

 

 

Центры изучения и образовательные ресурсы по КЛ

Association for Computational Linguistics (ACL) проводит международные конференции по Corpus Linguistics: Investigating language strucютерной лингвистике COLING, выпускает  ежеквартальный журнал "Computational Linguistics".

ACL есть европеец (EACL) и североамериканец (NAACL) глава.

Журнал ACL, Компьютерная лингвистика, является основным форумом для исследования в области компьютерной лингвистики и обработки естественного языка. С 1988 журнал был издан для ACL MIT Press.

Книжная серия ACL, Исследования в Обработке естественного языка, издана издательством Кембриджского университета.

Учебно-научный центр компьютерной лингвистики Института лингвистики РГГУ

Кафедра компьютерной лингвистики была открыта в Институте лингвистики РГГУ в 2011 году при участии компании ABBYY и поддержке российского отделения IBM. Кафедра готовит профессиональных лингвистов, способных эффективно работать в области разработки инновационных языковых компьютерных технологий. С 2012 года кафедра будет осуществлять подготовку магистрантов по программе «Компьютерная лингвистика» направления «Фундаментальная и прикладная лингвистика».

NLPub — каталог ресурсов для обработки естественного языка.

Школа лингвистики Высшей школы экономики

ШЛ ВШЭ участвует в образовательных программах по компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которую преподают и исследуют в школе, — это прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области корпусной лингвистики и лексикографии. В школе разрабатываются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия. Важная особенность образовательных и научно-исследовательских программ школы состоит в использовании современных компьютерных методов сбора и обработки языковых данных. Одной из ключевых задач школы является лингвистическая поддержка и развитие Национального корпуса русского языка.

 

 

kmp