МОДЕЛЬНАЯ ЛИНГВИСТИКА

 

 

Модели лингвистики

Татевосов Сергей Георгиевич:

Одна из самых болезненных проблем современной лингвистики состоит в том, что статус лингвистики как единой науки в настоящее время весьма проблематичен.

В действительности существует три разных (модели) лингвистики:

  1. Теоретическая,

  2. Описательная (дескриптивная)

  3. Прикладная

Большинство тех, кто называет себя лингвистами, трудится в рамках одного из этих направлений и недоуменно взирает на происходящее внутри других.

Три лингвистики устроены как три различные науки, с собственной терминологией и даже с собственной теорией.

Лингвистика, кажется, единственная наука, устроенная подобным образом.

Разрыв между теорией и практикой не преодолен; напротив, возникновение компьютерной лингвистики разделило лингвистов на тех, кто остался в русле теоретической лингвистики и тех, кто ушел в новую науку.

Добавим еще две (модели) лингвистики:

  1. Прескриптивная (нормативная) - "наука об ошибках" (школьная, учебная, административная, лингвистика ПРАВИЛ).
    Не является наукой о языке. Является системой норм и стандартов использования языка в отдельных сферах.

  2. Проективная (конструктивная)

 

 

 

Модельная лингвистика и языковая реальность

Белоусов К.И.
МОДЕЛЬНАЯ ЛИНГВИСТИКА И ПРОБЛЕМЫ МОДЕЛИРОВАНИЯ ЯЗЫКОВОЙ РЕАЛЬНОСТИ

Языковая деятельность позволяет выделить в объективной действительности языковую реальность.

 

Языковая деятельность осуществляемая в компьютерной реальности (фундированной вычисляемой информационной средой) необходимо выделяет языковая реальность являющуюся компьютерной (непосредственно или опосредованно)

 

Модельная лингвистика - лингвистика моделирования языковой реальности.

В современной лингвистике  происходит смена вектора с «описательности» на «моделируемость» языковых явлений и процессов.

В языковом моделировании актуализируется  проблема границ языковой реальности в качестве теоретического конструкта  (модели) в рамках двух независимых контекстов:

  • языковая реальность как наименование кластера объектов: язык, языковая картина мира, языковая игра, языковая политика, языковая личность, языковая способность, языковая ситу- ация, языковая компетентность и мн. др.;

  • языковая реальность как реализация категории предметности деятельности, примененной к действительности.

Сама исследовательская деятельность представляет собой определенную деятельностную модель, для которой характерны:

  • постановка цели,

  • использование определенного набора методов, приемов и принципов,

  • видения объекта исследования,

  • существование некоторого исследовательского идеала.

Эта сторона моделирования объекта является первичной, она определяет общие принципы (выработанные в рамках той или иной парадигмы, к которой относит себя исследователь) собственно моделирования объекта.

Некоторые звенья деятельностной модели могут и не осознаваться в полной мере. Но именно деятельностная исследовательская модель детерминирует собственно моделирование изучаемого объекта.

В подавляющем количестве языковедческих работ модель и моделирование понимаются не так, как принято в модельных исследованиях.

В лингвистике модель понимается как наглядная репрезентация изучаемой предметной области.

Таковы многочисленные модели порождения речи, модели понимания, модели коммуникации, которые представляют собой формальную наглядность, гипотетические схемы, удобно представляющие результаты исследований.

В этом случае мы имеем дело не с онтологическими моделями (моделями второго уровня), а с моделями деятельностными (парадигмальными), т.е. моделями первого (начального) уровня, направляющими деятельность исследователя по определенным за данным заранее схемам. Например, от того, какие компоненты будут включены в модель коммуникации, будет зависеть, как будет изучаться сам коммуникативный акт.

Модель, воспроизводя какой-либо онтологический языковой объект, должна не столько схематизировать его, сколько с необходимостью генерировать новые знания об объекте.

Моделирование в таком понимании до сих пор остается одним из наиболее «нечастотных» методов.

 

Особенность моделирования состоит в том, чтобы не удваивать реальность, а создавать реальность.

Модель создает иную реальность объекта, что и позволяет получать новые знания о нем.

 

Моделирование лингвистического объекта - целостная деятельностная программа, включающая последовательно примененный набор методов и приемов, направленных на системное представление предметной области объекта для получения информации о нем, которую нельзя выявить в случае описательного подхода.

Модельная лингвистика может охватить весь спектр имеющихся проблемных областей языкознания и наметить новые предметные области на пересечении с гуманитарными, социальными, естественнонаучными и техническими дисциплинами.

Моделирование ЯР немыслимо без специальной рефлексии над методами моделирования.

В модельной лингвистике актуален системодеятельностный подход - система положений, позволяющих описывать, нормировать саму исследовательскую деятельность лингвиста.

Структура модельной лингвистики должна включать:

  • методы вероятностно-статистической обработки данных,

  • экспериментальную лингвистику

  • компьютерную лингвистику.

Современное состояние лингвистической науки немыслимо без обращения к возможностям компьютерного моделирования.

Компьютерное моделирование не нужно понимать упрощенно, только как «способ», облегчающий работу лингвиста.

Применение компьютерного моделирования имеет ряд других не менее важных следствий:

  • возможности оперирования данными, которые нельзя получить «вручную» (в результате обработки текстовых массивов),

  • осуществление вероятностно-статистической обработки имеющихся данных и построение математических моделей.

К сожалению, компьютерное моделирование ЯР пока не имеет широкого распространения в силу слабой корреляции между традиционной филологической подготовкой и компьютерными компетенциями. Решение этой проблемы требует мировоззренческих сдвигов.

Таким образом, модельная лингвистика представляет собой не просто систему квантитативных методов и приемов, а систему взглядов на организацию исследования ЯР, включающих в себя способы получения, хранения данных и обмена данными, методы статистического анализа и компьютерного моделирования, интерпретацию результатов и возможность их воспроизведения.

Белоусов К.И.
МОДЕЛЬНАЯ ЛИНГВИСТИКА И ПРОБЛЕМЫ МОДЕЛИРОВАНИЯ ЯЗЫКОВОЙ РЕАЛЬНОСТИ

 

 

 

Моделирование языков

Исскуственные языки — языки, сознательно разработаные для воплощения определённых целей (тысячи).

Лингвопроектирование - создание новых языковых систем плановым путем.

Первым проектом такого языка считается проект греческого филолога Алексарха (IV-III вв. до РХ), который он пытался использовать как средство общения в основанном им городе Уранополисе.

Причины лингвопроектирования:

  • обеспечение коммуникации (международной, человеко-машинной, межмашинной, в вымышленных мирах),

  • научные эксперименты (лингвистические и логические),

  • языковое творчество (научное, художественное, игровое, ....).

Николай Лобачевский:

Чему одолжены своими блестящими успехами науки, слава нынешних времен, торжество ума человеческого? Без сомнения, искусственному языку своему!

Научное лингвопроектироваие заложено работами Рене Декарта (1629 г.) и Готфрида Вильгельма Лейбница.

  • Априорный язык — искусственный язык, элементы которого (лексика, словообразование, грамматика и т. п.) задаются логически и не основываются непосредственно на существующих ранее языках (ифкуиль).

  • Апостериорный — искусственный язык, элементы которого основывается непосредственно на существующих языках.

Плановый язык (planned language) — искусственный язык для практического международного общения.

Конланг (conlang, сконструированный язык, constructed language) — искусственный язык для практического общения.

Термины "плановый язык" и "конланг" призваны избежать неточного эпитета «искусственный» (искусственность присуща и национальным языкам).

 

 

Артланги

Артланги (вымышленные языки, фикциональные языки) — языки, являющиеся частью вымышленных миров, играя в них мирообразующую или сюжетообразующую роль, либо служа дополнительной характеристикой персонажей.

Глоссопейя (Glossopoeia, термин изобретёный Д.Р.Р. Толкином) - конструирование артлангов.

Глоссопейя была хобби Толкина в течение большей части его жизни: Вымышленные_языки_Толкина

Языки Толкиена (квенья, синдарин и др.) являются предметом научного и учебного изучения во многих университетах мира.

Джон Толкин:

  • Никто не верит мне, когда я говорю, что моя длинная книга — это попытка создать мир, в котором язык, соответствующий моей личной эстетике, мог бы оказаться естественным. Тем не менее, это правда.

  • Хоббиты — скромный, но очень малый народ …они не понимают и не любят машины, более сложные, чем кузнечные меха, водяная мельница или ручной ткацкий станок, хотя они искусны в обращении с инструментами
    О своих лингвистических Толкин рассказал в лекции «Тайный порок», прочитанной им в Оксфорде в 1931 году.

J. R. R. Tolkien A Secret Vice

Джон Рональд Руэл Толкин Тайный порок (пер. Денис Афиногенов)

Толкин питал ненависть к машинам, презирал автомобили, предпочитая ездить на велосипеде.

 

Пиперски Александр Чедович (российский лингвист):

Араха́у (Arahau) - априорный искусственный язык, разработанный в 2006 году российским писателем Иваном Карасёвым:

Итхкуильско-славянский разговорник
https://www.svoboda.org/a/24806813.html

 

 

Три модели языка: объективная, нормативная и проективная

Михаил Эпштейн Русский язык: проективный подход

 

В своей известной статье "Объективная и нормативная точка зрения на язык" выдающийся языковед А.М. Пешковский предлагает различать две точки зрения на язык.

Объективная модель – чисто познавательная, при полном отсутствии эмоционально-волевого отношения и оценки. Каждый язык совершенен в своем роде, в нем нет правильного и неправильного, красивого и некрасивого, удачного и неудачного. Даже кажущиеся просторечные искажения литературной речи оказываются лингвистически объяснимыми и оправданными.

Нормативная модель делит все языковые явления на правильные и неправильные и полагает, что для каждого случая есть свое правило, если не в школьной, то в научной грамматике. Отличительная черта этой модели – ее поразительный консерватизм, равного которому мы не встречаем ни в какой другой области духа. "Правильной" всегда представляется речь старших поколений, предшествовавших литературных школ.  Здесь норма есть идеал, раз навсегда уже достигнутый, как бы отлитый на века вечные.

Далее Пешковский показывает, что обе точки зрения на язык по-своему оправданны и дополняют друг друга.

Но есть и третья - проективная модель языка.

Проективная модель языка рассматривает язык с точки зрения наиболее полного выявления его системных возможностей. Мы не просто изучаем язык объективно и не просто подчиняем его заранее установленной норме, но участвуем в сотворении языка, в том, что Н. В. Крушевский вслед за В. Гумбольдтом назвал "вечным творчеством языка". Проективность, в отличие от нормативности, направлена именно к будущему, причем не идеальному, а открытому будущему, - открытому всем возможностям языка, которые будут реализовываться при участии нашем и наших потомков.

Именно проективная модель, исходящая не из нормы и не из данности, а из потребностей системного развития самого языка, наименее представлена в спектре современных взглядов на язык. Именно поэтому язык как динамическая система более всего в ней нуждается.

Вильгельм фон Гумбольдт: язык есть не продукт деятельности (Ergon), a деятельность (Energeia).

Критерием успешности данной словообразовательной модели служит ее способность производить новые слова, которые были бы понятны говорящим, поскольку исходят из регулярной, всем знакомой, многократно опробованной модели.

Потому так важна проективная деятельность в языке: это работа по наладке языковой системы, усилению системных начал в языке. Работа и теоретическая, и практическая: каждый акт описания системы становится перформативным , т.е. осуществляет то, что описывает, демонстрирует новую возможность самой этой системы, раньше еще не реализованную.

Проективный подход к языку - это ни в коем случае не плановый и не директивный подход, заведомо знающий, каким должен быть язык совершенный, язык будущего, и диктующий, какие новообразования ему следует усвоить. Это не "единственно верный", а веерный подход - множественность отпочкований, расходящихся во все стороны от ствола языка.

Задача творческой филологии - растолкать, расшевелить, развязать язык, взять его "за живое", вывести из оцепенения "нормы" и способствовать саморазвитию его системы. Чем системнее язык, тем свободнее он в своих творческих воплощениях.

Дар слова (сетевой проект создания новых слов и понятий, пути обновления лексики и грамматики русского языка, развитие корневой системы, расширение моделей словообразования)

Михаил Эпштейн О роли лингвистики в развитии языка

Михаил Эпштейн (Проективный словарь гуманитарных наук):

  • Дескриптивные словари фиксируют и описывают (кодифицируют) известные термины. K традиционному словарю обращаются за пояснением ранее встреченных слов, и там действует система отсылок «существующий текст – словарь».

  • Проективный словарь, не регистрирует, а предвосхищает терминологические возможности использования языка. В проективном словаре действует противоположная связь: «словарь – потенциальный текст» – то есть текст, который может быть создан на основе словаря, с учетом того нового понятия, которое вводится в язык.

Марек Маршалек Протологизмы Михаила Эпштейна с корнем «врем»: структурно-семантический анализ

Книги М.Н. Эпштейна на Флибусте, в т.ч. Проективный словарь гуманитарных наук, где:

Роль ошибки и опечатки в словотворчестве
Читатели издания The Daily Telegraph назвали словом 2017 года "covfefe" - опечатку в Twitter президента США Дональда Трампа.

 

 

Проективная лингвистика

ПРОЕКТИВНАЯ ЛИНГВИСТИКА (projective linguistics, linguistic planning, transformative linguistics) - деятельность по выявлению структурных и смысловых возможностей языка, расширению его используемой лексической, грамматической, концептуальной системы.

Синонимичное гнездо:

  • лингводизайн

  • лингвоконструирование

  • лингвопроектирование

  • лингвоинженерия

  • плановая лингвистика

  • творческая филология

  • лингвистическое творчество

  • лингво-арт

  • языкотворчество...

Проективность, в отличие от нормативности, направлена в будущее, открытое всем возможностям языка, которые будут реализовываться при участии нашем и наших потомков.

Области проективной лингвистики:

  • интерлингвистика, моделирование плановых языков искусственных международных языков;

  • моделирование компьютерных (программных) языков

  • семиургия (моделирование новых слов, идиом, грамматических конструкций в национальных языках)

В Urban Dictionary новый термин: Covidiot (ковидиот) - образован из названия вируса COVID-19 и слова "идиот".

 

Проективная лингвистика:

  • на уровне языка - развитие языка (лексика + грамматика... )

  • на метаязыковом уровне - проектирование новых языков

 

 

 

 

Александр Васильевич Колегов

 

 

This Word Does Not Exist

15.05.2020

This Word Does Not Exist - нейросеть, которая придумывает несуществующие слова и даёт им определения.

Томас Димсон, программист, создавший приложение Hyperlapse для Instagram и проекта This Word Does Not Exist.

Демо-версия проекта: на одноимённом сайте.
Существует также твиттер-бот проекта.
На GitHub можно скачать предварительно обученную модель. Чтобы натренировать свою нейросеть на основе загруженных файлов, Димсон рекомендует воспользоваться контентом Apple Dictionary или Urban Dictionary.

This Word Does Not Exist 

  • является вариацией нейросети GPT-2,

  • составляет слова с нуля

  • даёт им пояснения и примеры употребления.

Например, придуманное нейросетью существительное incromulentness образовано от неологизма cromulent, которое впервые появилось в серии мультсериала «Симпсоны» в 1996 году и переводится как «адекватный, приемлемый, правильный». Слово incromulentness, по мнению нейросети, означает «отсутствие искренности или прямоты». В качестве примера нейросеть приводит фразу Incromulentness in the manner of speech — «неискренность в манере речи».

Пользователи заметили, что This Word Does Not Exist иногда предлагает уже существующие слова — например, refactoring.

Некоторые слова являются немного изменёнными существующими словами — например, intermodulate — или словами, написанными с ошибкой (disaproval).

С другой стороны, нейросеть даёт своё собственное пояснение к каждому слову.

Например, слово disaproval она объясняет как the action of expending money for a period of time («процесс траты денег за определённый период времени»). Второе значение, которое предлагает нейросеть, одинаково для каждого слова и поясняет его происхождение — a word that does not exist; it was invented, defined and used by a machine learning algorithm («слово, которого не существует; его изобрёл и использовал алгоритм машинного обучения»).

 

 

Машинное творчество

Нейросеть-переводчик открывает новые слова

При обучении нейросети не только разбивают предложения по фразам и словам, но делят даже сами слова на части (пытаясь решить одну из главных проблем NMT — они беспомощны, когда слова нет в их словарном запасе. В этом случае GMNT пытается собрать его и склеить как раз по этим частям).

Антон Дворкович (разработчик «Яндекс.Переводчика»):

  • Замена статистической модели перевода на нейросетевой привела к новой категории ошибок переводчика, когда нейросеть, «придумывает» во время перевода новые слова, вместо того чтобы использовать реально существующие. Вот и получается «обонять» вместо «нюхать», «дзюдоки» вместо «дзюдоистов»...

  • Причина таких ошибок в том, что для нейросетей слова не являются единым неприкосновенным целым, как для статистической модели. Вместо этого каждое слово разбивается на несколько составных частей: нейросеть получает таким образом возможность составлять из кусочков такие слова, которых во время обучения она могла и не видеть. В большинстве случаев это как раз очень хорошо и полезно, ведь позволяет ей учитывать морфологические связи и правильно склонять даже редкие слова, с чем у статистического перевода большие проблемы. Но изредка именно это и приводит к сочинению бессмыслицы».

  • Мы «поймали» в выдаче «Яндекс.Переводчика» еще на этапе тестирования новой технологии: нейросеть решила перевести слово croatians как «хорватаны» вместо «хорватов». Если нейросеть может разбить слово на более-менее логичные части, она применяет транслитерацию — отсюда большое количество ошибок в нейросетевом переводе, когда незнакомые системе слова превращаются в итоге в своеобразные англицизмы (например, «консалтанты» вместо «консультантов»).

  • Отдельная тема — когда нейросеть начинает писать полную чушь. Это может произойти, когда сеть получает на вход что-то необычное: слово, написанное с опечатками, или слово, полностью написанное заглавными буквами. Подобные искажения могут помешать нейросети «узнать» знакомое слово и правильно его обработать».

  • Мы в «Яндекс.Переводчике» не бросились сразу применять нейросети для всего перевода, а сделали гибрид из статистической модели и нейросетей, когда перевод выполняют обе модели, а лучший вариант выбирает наш алгоритм CatBoost. Этот подход помогает отсеять такие выдуманные слова еще до того, как мы покажем перевод пользователю. Кроме того, работает проверка перевода по языковой модели — это такая большая память из слов и примеров их использования, которая собрана по большому корпусу текстов из всего интернета и которая тоже снижает вероятность таких вот нейросетевых ошибок.

  • В нашей первой версии новой технологии такие ошибки, которые мы называем стьюпидами, встречались в 7% запросов, сейчас нам удалось уменьшить их количество в восемь раз, то есть осталось около процента. Борьба продолжается, но уже в основном благодаря фидбэку от пользователей. Недавно, например, нейросеть почему-то решила всегда писать «(Алексей Алексеевич)» (именно в скобках!) перед фамилией определенного человека, нам пришла жалоба, мы все быстро исправили».

Примеры забавных ошибок нейросетей-переводчиков

  • Блотировать (глаг., от англ. blot out) Закрывать что-либо
    Как можно применять «Она блотировала нападающую, отняла мяч и перехватила инициативу»

  • Дзюдок (сущ., от англ. judokas) Дзюдоист
    Как можно применять «Он сильный дзюдок, недавно получил кандидата в мастера спорта»

  • Дискордировать (глаг., от англ. discord) Разойтись во взглядах
    Как можно применять «Мы с ним вчера так сильно подискордировали»

  • Задушка (сущ., от англ. stranglehold) Мертвая хватка
    Как можно применять «Новый бригадир держит нас в задушке»

  • Зигзагировать (глаг., от англ. zigzags) Двигаться зигзагами
    Как можно применять «Клиент что-то начал зигзагировать»

  • Ламбастировать (глаг., от англ. lambasted) Критиковать, ругать
    Как можно применять «Она разламбастировала новую игру Ubisoft»

  • Ломбардист (сущ., от англ. pawnbroker) Ломбард, сотрудник ломбарда
    Как можно применять «Мой друг-ломбардист говорит, что это серебро стоит дороже»

  • Морники (фраз., от англ. good morning) Доброе утро
    Как можно применять «Всем морники!»

  • Обонять (глаг., от англ. to sniff) Нюхать
    Как можно применять «Пообоняй, пожалуйста, это еще не прокисло?»

  • Обскурить (фраз., от англ. skimmed the cream) Снять сливки
    Как можно применять «Обскурила это интервью — вот лучшие моменты»

  • Постерный (прил. от англ. poster) То, что было опубликовано в социальной сети

  • Как можно применять «А эти видео уже постерные? Или еще нет?»

  • Ретортировать (глаг., от англ. retort) Парировать, возражать
    Как можно применять «Ретортирую, нельзя так делать, иначе мы не уложимся в срок»

  • Сахариться (глаг., от англ. sugarcoat) Приукрашать
    Как можно применять «Хватит сахариться, мы же не укладываемся в дедлайн!»

  • Сторонировать (глаг. от англ. reversal) Развернуть
    Как можно применять «Сторонируйся — едем обратно»

  • Тайма (сущ. от англ time) Время
    Как можно применять «Давай быстрее, у нас уже совсем нет таймы»

  • Ушибистость (сущ., от англ. brutishness) Грубость, брутальность
    Как можно применять «Этот парень какой-то слишком ушибистый»

  • Травянин (сущ., от англ. herbalist) Травник
    Как можно применять «В следующей передаче — интервью с сибирским травянином Олегом Шишкой»

  • Хокке (прил. от англ. hokey) Фальшивый
    Как можно применять «Мне не нравится этот актер, он — хокке

 

kmp