Термин «компьютерная
лингвистика»
Компьютерная лингвистика (КЛ)
имеет множество различных дефиниций и определений.
О проблеме
определения границ предметной области компьютерной
лингвистики
http://ling.ulstu.ru/linguistics/resourses/literature/articles/delimitation_computer_linguistics/
Е.П.Соснина
Проблема определения границ предметной области
какого-либо научного направления в первую очередь актуальна
при решении терминологических и терминографических задач, в
том числе в задачах инвентаризации терминов [1], а также при
преподавании соответствующих дисциплин.
Определение границ предметной области такого научного
направления как "Компьютерная лингвистика" является одной из
самых сложных, на наш взгляд, задач. Обычно границы
предметной области устанавливаются путем составления перечня
образующих ее рубрик и подрубрик (направлений) [2].
Основная сложность в данном случае заключается в том, что
компьютерная лингвистика сравнительно молодая наука,
зародившаяся в конце 20 века. Данное направление стало
активно разрабатываться за рубежом в 60-70 гг., и под ним в
первую очередь понималось использование статических методов
в языкознании, отсюда и название "Computational Linguistics"
(т.е. "Вычислительная лингвистика"). В России родственный
термин "Математическая лингвистика" получил распространение
в 70-х годах. В связи с развитием компьютерных технологий и
их активным приложениям в лингвистических задачах, этот
термин как название науки трансформировался, и наука
получила более четкое определение "Компьютерная лингвистика".
Таким образом, можно сказать, что существует два подхода в
определении направлений, рассматриваемых под этим термином -
это наш российский подход и зарубежный.
Что касается взгляда зарубежных языковедов на предметную
область компьютерной лингвистики, можно отметить, что
большую организационную и научную работу проводит Ассоциация
компьютерной лингвистики, которая имеет региональные
структуры в нескольких странах мира [6]. На официальном
сайте этой организации дается общее определение -
"computational linguistics is the scientific study of
language from a computational perspective. Computational
linguists are interested in providing computational models
of various kinds of linguistic phenomena". Эта организация
проводит международные конференции по компь Corpus
Linguistics: Investigating language strucютерной лингвистике
COLING. В США ежеквартально выходит журнал "Computational
Linguistics". Соответствующая проблематика обычно бывает
также широко представлена также на различных конференциях по
искусственному интеллекту.
С точки зрения западного подхода основным направлением
компьютерной лингвистики является Natural Language
Processing (Автоматическая обработка естественного языка и
речи). При анализе документов (архивов конференций,
содержания базовых сайтов) Ассоциации Компьютерной
лингвистики COLING было отмечено, что западные лингвисты
включают следующие прикладные направления в область
компьютерной лингвистики:
Computational Morphology and Syntax (Компьютерная морфология
и синтаксис).
NLP (Автоматическая обработка языка и речи).
Digital Libraries (Электронные библиотеки).
Information Extraction (Извлечение информации).
Information Retrieval (Информационный поиск).
Knowledge Representation and Semantics (Представление знаний
и семантика).
Machine Translation (Машинный перевод).
Speech Processing (Распознавание и синтез речи).
Statistical Language Processing (Статистическая обработка
языка).
Summarization (Реферирование и аннотирование).
С точки зрения российского восприятия рассматриваемой
проблемной области, то основную работу в этом направлении
проводит российская ассоциация компьютерной лингвистики
КОЛИНТ [7], на сайте которой можно ознакомиться со всеми
научными докладами, представленными на конференции по
проблемам компьютерной лингвистики. Хотя на этом сайте не
представлено рубрикации проблемных задач, можно заметить,
что российские лингвисты приоритетно выделяют такие
направления как:
Машинный перевод;
Системы поиска и классификации;
Компьютерная лексикография;
Лингвистическая компьютерная семантика;
Корпусная лингвистика;
Формальные модели анализа и распознавания языковых структур.
Анализ существующих учебных пособий и справочников [1,3,
5] пока не дает полной и четкой картины об этом практическом
направлении языкознания.
Большой энциклопедический словарь: Языкознание [5] под
редакцией Ярцевой В.Н. вообще не включает этот термин в
словник.
Известный российский лингвист Марчук Ю.Н. в первую
очередь определяет компьютерную лингвистику как "лингвистические
основы информатики", что собственно предполагает решение
задач, связанных с разработкой и использованием
искусственных языков, обеспечивающих общение человека с
компьютером. Но одновременно в своей работе "Основы
компьютерной лингвистики" [3] Марчук Ю.Н. последовательно
рассматривает компьютерное моделирование естественного языка,
а именно, морфологии, синтаксиса, представление семантики и
прагматики в компьютерных средах. Кроме того, в работе
упоминаются такие прикладные задачи как организация машинных
словарей, банков терминологических данных, и даже
рассматриваются основы терминологии.
По мнению российского языковеда, профессора МГУ Баранова
А.Н. под термином "Компьютерная лингвистика" понимается
широкая область использования компьютерных инструментов -
программ, компьютерных технологий организации и обработки
данных - для моделирования функционирования языка в тех или
иных условиях, ситуациях, проблемных сферах и т.д., а также
сфера применения компьютерных моделей языка в не только
лингвистике, но и в смежных с ней дисциплинах". В своей
работе [1] Баранов А.Н. выделяет некоторые направления
компьютерной лингвистики как базовые - это моделирование
общения, моделирование структуры сюжета, гипертекстовые
технологии представления текста, компьютерную лексикографию,
машинный перевод, системы обработки естественного языка.
Проблема определения границ предметной области также
стоит перед разработчиками программ учебных дисциплин в
области прикладной и компьютерной лингвистики. Для этих
целей были проанализированы учебные программы по
компьютерной лингвистике таких российских университетов, как
Московский Государственный Университет, Московский
Государственный Лингвистический Университет, Российский
Государственный Университет.
Разработчики программы курса МГЛУ основное внимание
уделяют компьютерному моделированию естественного языка в
решении задач искусственного интеллекта, фундаментальным
принципам моделирования языка, т.е. направлениям, которые
связаны с моделированием общения человека и компьютера.
Разработчики программы курса в МГУ выделяют такие задачи
и направления, как проблемы лингвистического обеспечения
современных автоматизированных информационных систем,
автоматическую обработку естественного языка, создание
словарных и текстовых процессоров.
Основными направлениями, рассматриваемыми в курсе
компьютерной лингвистики в РГУ являются: информационный
поиск, машинный перевод, терминология, терминоведение,
терминография, компьютерная лексикография, распознавание и
синтез речи, проблемы обучения языку с помощью компьютера.
Программа этого университета наиболее близка программе
Ульяновского государственного технического университета.
Приведенный анализ показывает, что на практике часто к
компьютерной лингвистике относят практически все, что
связано с использованием компьютеров в языкознании, в связи
с чем и происходит путаница задач с практическими решениями.
Таким образом, при определении границ предметной области
компьютерной лингвистики необходимо более четко
разграничивать 2 точки зрения:
1. АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЯЗЫКА (Language
Processing), что будет включать задачи анализа и
моделирования языковой структуры, а именно:
графематический/фонематический анализ языка;
морфологический анализ;
лексико-грамматический анализ языка;
синтаксический анализ, или парсинг;
анализ и моделирование семантической структуры;
задача синтеза языковых элементов, в т.ч. генерация текстов;
автоматическая лингвостатистика.
2. ПРИКЛАДНЫЕ НАПРАВЛЕНИЯ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ, а именно:
машинный перевод;
распознавание и синтез речи;
разработка и использование искусственных языков, в том числе
языков программирования, языков информационных систем;
компьютерная лексикография и терминография;
лингвистические основы информационного поиска;
автоматическое индексирование, реферирование и классификация
текстов;
автоматический контент-анализ и авторизация текстов;
гипертекстовые технологии представления текста;
корпусная лингвистика;
компьютерная лингводидактика.
Данное разграничение не претендует на полноту, но дает
более определенную картину о предметной области этой
комплексной науки, и может использоваться как база для
разработки терминологического словаря или рабочей программы
курса "Компьютерная лингвистика".
|
Для эффективной
ориентации в этом множестве: необходимо различать термины
«определение» и «дефиниция» и знать научное значение лексемы
"термин". См.
Понятие термина
Многообразие дефиниций и
определений концепта "компьютерная лингвистика" объясняется тем, что он
рассматривается с позиции разных терминосистем.
Можно
выделить три уровня понимания компьютерной лингвистики, как области
человеческой деятельности (со своими терминологическими системами):
-
научно-математический(
-
инженерный
-
прикладной
На научно-математическом
уровне компьютерная лингвистика рассматривается как область формализации
и математического моделирования феноменов как естественного, так и
искусственных (формальных) языков.
На
инженерном уровне компьютерная лингвистика рассматривается как
область алгоритмизации и автоматизации обработки
формально-математических моделей языковых феноменов, воплощения их в
информационно-технологические комплексы (программные и аппаратные).
На
прикладном уровне компьютерная лингвистика рассматривается как область
применения современных информационных сервисов, средств и систем к
языковым феноменам (порождение, анализ, обработка устных и письменных
текстов). |
Подходы к определению
компьютерной лингвистики
Компьютерная лингвистик а
может быть определена
Номинальное - определение,
посредством которого раскрывается значение вводимого термина.
Явное - определение, в
котором выражаются существенные признаки определяемого предмета и
имеющие вид Dfd = Dfn.
Наиболее распространенным видом является явное определение через род и
видовое отличие и его разновидность - генетическое опре-деление.
Определение
через род и видовое отличие состоит из двух понятий - определяемого и
определяющего, а сама операция включает в себя два приема:
подведение определяемого понятия под более широкое по объему родовое
понятие (род);
указание видового отличия, т.е. специфического признака, отличающего
определяемый предмет от других предметов. Например, в определении
«барометр - это метеорологический прибор для измерения величины
атмосферного давления» определяемое понятие «барометр» подводится под
более общее родовое понятие «метеорологический прибор» и указывается
существенный специфический признак «измерять величину атмосферного
давления», посредством которого барометр отделяется от других
метеорологических приборов.
Генетическое определение - указывает на происхождение предмета, на
способ его образования. Например, «круг - это фигура, образованная
вращением отрезка прямой вокруг неподвижного центра». Как разновидность
определения через ближайший род и видовое отличие, оно имеет ту же
логическую структуру и подчиняется тем же правилам.
Неявное -
определение, в котором содержание понятия выводится из отношения к
другим понятиям. К неявным определениям относятся определения через
отношение предмета к своей противоположности, контекстуальные,
остенсивные и др.
Аксиоматическими называются определения, в которых содержание понятий
задается системой аксиом, в которых это понятие встречается.
Контекстуальное определение
позволяет понять незнакомое слово через контекст (уравнение). Контекст
(от лат. contextus — «соединение» , «связь» ) — это законченный отрывок
письменной или устной речи (текста) , общий смысл которого позволяет
уточнить значение отдельных входящих в него слов, предложений, и т. п.
Это условия конкретного употребления языковой единицы в речи (письменной
или устной) , её языковое окружение, ситуация речевого общения.
Говорить, опираясь на контекст — значит, не повторять в своей речи то,
что было сказано только что, использовать понятия текущего в разговоре
уровня абстракции и семантического поля. Потерять контекст в разговоре —
это перестать понимать, на что опирается собеседник, или
интерпретировать его в ином смысле, нежели то, что должно было следовать
из подразумевавшегося контекста.
В более широком значении контекст — среда, в которой существует объект
(например, «в контексте эстетических представлений XIX века творчество
Тернера было новаторским») .
С формальной точки зрения контекст представляет собой определенную
систему отсчета, пространство имен.
Любое событие происходящие в жизни субъекта интерпретируется исходя из
контекста ситуации отраженной в памяти субъекта.
Остенсивное определение
определение предмета путём указания на него, или демонстрации самого
предмета.
Контекстуальным называется определение, в котором некоторый контекст
использования определяемого понятия приравнивается к другому контексту,
в который определяемое понятие н е входит.
Пример. Операция возведения в квадрат в арифметике определ яется
контекстуально:
a2 = аха.
Кроме определений, часто рассматривают ся операции, сходные с
определением. Из числа этих операций рассмотрим так называемые
остенсивные определения.
Остенсивным называется определение путем прямого указания на предмет,
входящий в объем данного понятия.
Название этих определений происходит от латинского слова ostensio —
указываю. Остенсивные определения очень важны в нашей жизни. Мы овл
адеваем языком при помощи остенсивных определений. Значения наших первых
слов мы усваиваем из действий старших, показывающих нам вещь и
называющих нам ее имя.
Недостаток остенсивных определений состоит в том, что они не фиксируют
значения термина отчетливо. Если ребенок как-нибудь спросит нас, что
такое лошадь, и мы в ответ покажем на улице лошадь, то вполне возможно,
что встретив как-нибудь на улице или в зоопарке осла, ребенок скажет:
«Это — лошадь!»
Среди явных определений мы специально рассмотрим родовидовые
определения.
Читать полностью:
http://www.km.ru/referats/0273F0076B084B1D8B44742F87983D9D
Компьютерная лингвистика,
как область деятельности включает в себя основные структурные компоненты
деятельности и может быть определена относительно любого их них:
Это отражается в различных
дефинициях компьютерной лингвистики:
-
научное направление в области математического и компьютерного моделирования
...
-
направление
в прикладной лингвистике, ориентированное на использование компьютерных
инструментов для моделирования функционирования языка
-
вся сфера
применения компьютерных моделей языка в лингвистике и смежных
дисциплинах
-
раздел науки, образовавшийся на стыке лингвистики и
вычислительной техники и на практике включающий практически всё, что
связано с использованием программ и компьютерных технологий в
языкознании
-
наука, с одной стороне, о
языке, а с другой стороны – о том, как работать с языком (не
всегда естественным) с помощью компьютерных методов
-
набор задач, которые мы можем решить,
обрабатывая языки, тексты, созданные на определенном языке, при
помощи компьютера
-
междисциплинарная ветвь лингвистики, занимающаяся моделированием языка с
использованием компьютеров
-
область Искусственного Интеллекта, занимающаяся
компьютерным моделированием владения языком
и решением прикладных задач
автоматической обработки текстов и звучащей речи
-
направление в лингвистике, связанное с получением новой информации о тексте,
речи и языке в целом с использованием компьютеров, математических методов и методов информационного моделирования.
д
-
деятельность по формализации знаний о
естественном языке на разных его уровнях с целью
использования в компьютерных технологиях
-
область знаний, решающая проблемы общения
человека и компьютера на естественном языке
|
КЛ в ряду лингвистических
дисциплин
Лингвистика в широком смысле слова
(познание языка и передача результатов этого познания другим
людям) подразделяется:
теоретическая лингвистика: научная, предполагающая построение
лингвистических теорий;
прикладная лингвистика: специализируется на решении практических
задач, связанных с изучением языка, а также на практическом
использовании лингвистической теории в других областях;
практическая лингвистика: представляет собой ту сферу, где
реально проводятся лингвистические эксперименты, имеющие целью
верификацию положений теоретической лингвистики и проверку
эффективности продуктов, создаваемых прикладной лингвистикой.
эмпирическая лингвистика, получающая материал посредством
экспериментального анализа текстов и речевых конструкций.
Теоретическая лингвистика[править | править вики-текст]
Теоретическая лингвистика исследует языковые законы и
формулирует их как теории. Она бывает:
нормативной: указывающей, как «надо» говорить и писать (прескриптивная,
предписательная).
Можно говорить не только о «языках», но и о «Языке» вообще,
поскольку языки мира имеют много общего. Поэтому выделяют:
общую лингвистику: изучает общие (статистически преобладающие)
черты всех языков как эмпирически (индуктивно), так и дедуктивно,
исследуя общие тенденции функционирования языка, разрабатывая
методы его анализа и давая определение лингвистических понятий.
Частью общей лингвистики является лингвистическая типология,
сопоставляющая разные языки безотносительно к степени их родства
и делающая выводы о Языке вообще. Она выявляет и формулирует
языковые универсалии, то есть гипотезы, выполняющиеся для
большинства описанных языков мира;
частную лингвистику: изучает отдельный язык, группу родственных
языков или пару контактирующих языков. В ней выделяются разделы
либо по отдельному языку (например, русистика, японистика), либо
по группе родственных языков (например, славистика, романистика,
тюркология), либо по культурному ареалу, в который входят
географически и/или типологически близкие языки (например,
балканистика, кавказоведение).
Прикладная лингвистика[править | править вики-текст]
Прикладные сферы языкознания издавна отличались широким
разнообразием. Наиболее древние из них — письмо (графика),
методика обучения родному и неродному языкам, лексикография. В
дальнейшем появились перевод, дешифровка, орфография,
транслитерация, разработка терминологии. Одно из традиционных
направлений прикладной лингвистики — участие в языковой политике
государства.
Практическая лингвистика[править | править вики-текст]
Кибернетические модели языка проверяются тем, насколько похоже
они имитируют человеческую речь; адекватность описаний мёртвых
языков проверяется в ходе раскопок, когда археологи обнаруживают
новые тексты на древних языках.
Эмпирическая лингвистика[править | править вики-текст]
Эмпирическая лингвистика добывает языковые данные тремя путями:
Методом интроспекции, на котором основана интроспективная
лингвистика.
Методом эксперимента (см.: лингвистический эксперимент) —
наблюдая над поведением носителей живых говоров, чем занимается
экспериментальная лингвистика. В неё включаются в частности:
полевая лингвистика, работающая с носителями говоров, которыми
лингвист не владеет;
инструментальная лингвистика, использующая приборы, в том числе
звукозаписывающую технику;
нейролингвистика, ставящая эксперименты непосредственно с
человеческим мозгом.
Филологическими методами, собирая материал мёртвых письменных
языков и взаимодействуя с филологией, изучающей письменные
памятники в их культурно-исторических связях.
|
Предмет и объект КЛ
Компьютерная лингвистика
как учебный предмет
Компьютерная лингвистика как учебный предмет для филологических и
математических специальностей |
Центры изучения
КЛ
Образовательные ресурсы по
КЛ |