Термин
«компьютерная лингвистика» в различных терминологических системах.
Подходы
к определению компьютерной лингвистики через объект исследования,
предмет, методы, инструментарий.Компьютерная
лингвистика как наука и область исследовательских и конструкторских
разработок.
Компьютерная лингвистика в ряду других лингвистических дисциплин, ее
цели и задачи.
Предмет
и объект компьютерной лингвистики.
Компьютерная лингвистика как учебный предмет для филологических и
математических специальностей.
Основные центры изучения компьютерной лингвистики.
Образовательные ресурсы по компьютерной лингвистике.
Зачем лингвисту компьютер
Светлана
Тимошенко из Лаборатории компьютерной лингвистики ИППИ РАН.
Термин «компьютерная
лингвистика»
Компьютерная лингвистика (КЛ)
имеет множество различных дефиниций и определений.
научное направление в области математического и компьютерного моделирования
...
направление в лингвистике, связанное с получением новой информации о тексте,речи и языке в целом с использованием компьютеров, математических методов и методов информационного моделирования
область знаний, решающая проблемы общениячеловека и компьютера на естественном языке
вся сфера
применения компьютерных моделей языка в лингвистике и смежных
дисциплинах...
набор задач, которые мы можем решить,
обрабатывая языки, тексты, созданные на определенном языке, при
помощи компьютера
область Искусственного Интеллекта, занимающаясякомпьютерным моделированием владения языком
и решением прикладных задачавтоматической обработки текстов и звучащей речи
деятельность по формализации знаний оестественном языке на разных его уровнях с цельюиспользования в компьютерных технологиях...
Для эффективной
ориентации в этом множестве: необходимо различать термины
«определение» и «дефиниция» и знать научное значение лексемы
"термин". См.
Понятие термина
Многообразие дефиниций и
определений концепта "компьютерная лингвистика" объясняется тем, что он
рассматривается с позиции разных терминосистем.
Можно
выделить три уровня понимания компьютерной лингвистики, как области
человеческой деятельности (со своими терминологическими системами):
научно-математический,
инженерный,
прикладной.
На научно-математическом
уровне компьютерная лингвистика рассматривается как область формализации
и математического моделирования феноменов как естественного, так и
искусственных (формальных) языков.
На
инженерном уровне компьютерная лингвистика рассматривается как
область алгоритмизации и автоматизации обработки
формально-математических моделей языковых феноменов, воплощения их в
информационно-технологические комплексы (программные и аппаратные).
На
прикладном уровне компьютерная лингвистика рассматривается как область
применения современных информационных сервисов, средств и систем к
языковым феноменам (порождение, анализ, обработка устных и письменных
текстов).
Теория и практика в
компьютерной лингвистике
Владимир
Селегей, директор по лингвистическим исследованиям компании ABBYY,
заведующий кафедрами компьютерной лингвистики в РГГУ и МФТИ,
председатель Оргкомитета ведущей российской конференции по компьютерной
лингвистике «Диалог».
Подходы к определению
компьютерной лингвистики
Определить компьютерную лингвистику можно попробовать
определить на основе различных видов определений:
Реальных (раскрывающих существенные
признаки самого предмета, отвечающих на вопрос, что представляет
собой тот или иной предмет),
Номинальных (раскрывающих
значение термина, вводимого для обозначения предмета; отвечающих на
вопрос, что обозначает то или иное слово или выражение),
Явных (в которых выражаются
существенные признаки определяемого предмета и имеющие вид Dfd = Dfn:
родовидовых (подводящих
определяемое понятие
под более широкое по объему родовое понятие (род)
и указывающее на видовое
отличие, т.е. специфический
признак, отличающий определяемый предмет
от других предметов.).
Генетических (указывают на
происхождение предмета, на способ его образования. Неявные
определения
Неявных (в котором содержание понятия
выводится из отношения к другим понятиям):
Контекстуальных (определяющих через контекст
(пространство имен, языковое окружение)).
Остенсивных (путём указания на
определяемый предмет).
Аксиоматических
(в которых содержание понятий
задается системой аксиом, в которых это понятие встречается).
Компьютерная лингвистика,
как область деятельности, включает в себя основные структурные компоненты
деятельности и может быть определена относительно любого их них:
цели (задач)
деятельности
предмета деятельности
средств
содержания
субъекта деятельности
Это отражается в различных
дефинициях компьютерной лингвистики:
направление
в прикладной лингвистике, ориентированное на использование компьютерных
инструментов для моделирования функционирования языка
деятельность по формализации знаний оестественном языке на разных его уровнях с цельюиспользования в компьютерных технологиях
набор задач, которые мы можем решить,
обрабатывая языки, тексты, созданные на определенном языке, при
помощи компьютера
междисциплинарная ветвь лингвистики, занимающаяся моделированием языка с
использованием компьютеров
направление в лингвистике, связанное с получением новой информации о тексте,речи и языке в целом с использованием компьютеров, математических методов и методов информационного моделирования.
Компьютерная лингвистика как
дисциплина
Борис
Орехов, Центр цифровых гуманитарных исследований НИУ ВШЭ
КЛ в ряду лингвистических
дисциплин
Связь компьютерной
лингвистики с другими областями проблематична:
Татевосов Сергей
Георгиевич (доктор фил. наук, профессор кафедры теоретической
и прикладной лингвистики МГУ имени М.В. Ломоносова):
Одна
из самых болезненных проблем современной лингвистики
состоит в том, что статус лингвистики как единой науки в
настоящее время весьма проблематичен.
В
действительности существует три разных лингвистики –
теоретическая, описательная, прикладная.
Большинство тех, кто называет себя лингвистами, трудится
в рамках одного из этих направлений и недоуменно взирает
на происходящее внутри других.
Три лингвистики устроены как три
различные науки, с собственной терминологией и даже с
собственной теорией. Лингвистика, кажется, единственная
наука, устроенная подобным образом.
Разрыв между теорией и практикой не преодолен; напротив,
возникновение компьютерной
лингвистики разделило лингвистов на тех, кто
остался в русле теоретической лингвистики и тех, кто
ушел в новую науку.
Вместе с тем,
компьютерная лингвистика использует результаты и достижения
других лингвистических направлений и сама оказывает влияние как
наприкладную
лингвистику, так и на теоретическую лингвистику(и нормативную (предписательную, прескриптивную),
и дескриптивную, описывающую).
Предмет и объект КЛ
Объектом
компьютерной лингвистики является язык.
Однако,
развитие компьютерной лингвистики проблематизировало сам
концепт "естественный язык" и включило в проблемное поле
все множество искусственных языков (в том числе
компьютерных).
Определение границ предметной области такого научного
направления как "Компьютерная лингвистика"
проблематично в связи с отсутствием
стабильного объективного предмета этого определения.
Название "Computational Linguistics"
(вычислительная лингвистика)
утвердилось в 60-70 гг. за
областью использования статических методов
в языкознании.
В
СССР
в 70-х годахполучил распространениеродственный
термин "Математическая лингвистика". В связи с развитием компьютерных технологий и
их активным приложениям в лингвистических задачах, этот
термин как название области
исследовательской деятельности трансформировался, и
она
получила более четкое определение "Компьютерная лингвистика".
На официальном
сайте
Association for Computational Linguistics (ACL)дается общее определение:
computational linguistics is the scientific study of
language from a computational perspective. Computational
linguists are interested in providing computational models
of various kinds of linguistic phenomena.
ACL
проводит международные конференции по Corpus
Linguistics: Investigating language strucютерной лингвистике
COLING, выпускает ежеквартальный журнал "Computational
Linguistics".
С точки зрения западного подхода основным направлением
компьютерной лингвистики является Natural Language
Processing (Автоматическая обработка естественного языка и
речи).
При анализе документов (архивов конференций,
содержания базовых сайтов) Ассоциации Компьютерной
лингвистики COLING было отмечено, что западные лингвисты
включают следующие прикладные направления в область
компьютерной лингвистики:
Computational Morphology and Syntax (Компьютерная морфология
и синтаксис).
NLP (Автоматическая обработка языка и речи).
Digital Libraries (Электронные библиотеки).
Information Extraction (Извлечение информации).
Information Retrieval (Информационный поиск).
Knowledge Representation and Semantics (Представление знаний
и семантика).
Machine Translation (Машинный перевод).
Speech Processing (Распознавание и синтез речи).
Statistical Language Processing (Статистическая обработка
языка).
Summarization (Реферирование и аннотирование).
Ю.Н.Марчук определяет компьютерную лингвистику как "лингвистические
основы информатики", что собственно предполагает решение
задач, связанных с разработкой и использованием
искусственных языков, обеспечивающих общение человека с
компьютером.
Компьютерная лингвистика первоначально вводилась
как учебный предмет для математических специальностей
и рассматривалась с точки зрения инструментария математического
моделирвоания и алгоритмизации полученных моделей.
Проблема определения границ предметной области
актуализировалась перед разработчиками программ учебных дисциплин в
области прикладной и компьютерной лингвистики
для гуманитарных специальностей.
Разработчики программы курса МГЛУ
(Московского го. лингвистического университета)
основное внимание
уделяют компьютерному моделированию естественного языка в
решении задач искусственного интеллекта, фундаментальным
принципам моделирования языка, т.е. направлениям, которые
связаны с моделированием общения человека и компьютера.
Разработчики программы курса в МГУ выделяют такие задачи
и направления, как проблемы лингвистического обеспечения
современных автоматизированных информационных систем,
автоматическую обработку естественного языка, создание
словарных и текстовых процессоров.
Основными направлениями, рассматриваемыми в курсе
компьютерной лингвистики в РГГУ являются: информационный
поиск, машинный перевод, терминология, терминоведение,
терминография, компьютерная лексикография, распознавание и
синтез речи, проблемы обучения языку с помощью компьютера.
Программа этого университета наиболее близка программе
Ульяновского государственного технического университета.
На практике часто к
компьютерной лингвистике относят практически все, что
связано с использованием компьютеров в языкознании, в связи
с чем и происходит путаница задач с практическими решениями.
Таким образом, при определении границ предметной области
компьютерной лингвистики необходимо более четко
разграничивать 2 точки зрения:
АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЯЗЫКА (Language
Processing), что будет включать задачи анализа и
моделирования языковой структуры, а именно: графематический/фонематический анализ языка; морфологический анализ; лексико-грамматический анализ языка; синтаксический анализ, или парсинг; анализ и моделирование семантической структуры; задача синтеза языковых элементов, в т.ч. генерация текстов; автоматическая лингвостатистика.
ПРИКЛАДНЫЕ НАПРАВЛЕНИЯ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ, а именно: машинный перевод; распознавание и синтез речи; разработка и использование искусственных языков, в том числе
языков программирования, языков информационных систем; компьютерная лексикография и терминография; лингвистические основы информационного поиска; автоматическое индексирование, реферирование и классификация
текстов; автоматический контент-анализ и авторизация текстов; гипертекстовые технологии представления текста; корпусная лингвистика; компьютерная лингводидактика.
Association for Computational Linguistics (ACL)
проводит международные конференции по Corpus
Linguistics: Investigating language strucютерной лингвистике
COLING, выпускает ежеквартальный журнал "Computational
Linguistics".
Журнал
ACL, Компьютерная
лингвистика, является основным форумом для
исследования в области компьютерной лингвистики и
обработки естественного языка. С 1988 журнал был издан
для ACL MIT
Press.
Кафедра
компьютерной лингвистики была открыта в Институте
лингвистики РГГУ в 2011 году при участии компании ABBYY
и поддержке российского отделения IBM. Кафедра готовит
профессиональных лингвистов, способных эффективно
работать в области разработки инновационных языковых
компьютерных технологий. С 2012 года кафедра будет
осуществлять подготовку магистрантов по программе
«Компьютерная лингвистика» направления «Фундаментальная
и прикладная лингвистика».
NLPub — каталог ресурсов для обработки естественного языка.
ШЛ ВШЭучаствует в
образовательных программах по компьютерной лингвистике
в бакалавриате и магистратуре.
Лингвистика, которую преподают и исследуют в школе, —
это прежде всего наука о языке и о способах его
моделирования. Научные группы школы занимаются
исследованиями в области корпусной лингвистики и
лексикографии. В школе
разрабатываются лингвистические технологии и ресурсы:
корпуса, обучающие тренажеры, словари и тезаурусы,
технологии для электронного представления текстов
культурного наследия.Важная особенность
образовательных и научно-исследовательских программ
школы состоит в использовании современных компьютерных
методов сбора и обработки языковых данных. Одной из
ключевых задач школы является лингвистическая поддержка
и развитие Национального
корпуса русского языка.