Корпусные технологии в онтолингвистике

 

 

Онтолингвистика

 

Онтолингвистика (лингвистика детской речи) является научным фундаментом cистемы языкового образования в современной школе Онтолингвистические исследования направлены на особенности детской языковой системы как таковой и сам процесс овладения языком в детском возрасте

Цейтлин, С. Н. Язык и ребенок: Лингвистика детской речи : учеб. пособие – М. : ВЛАДОС, 2000. – 240 с.

Конструктивистская парадигма онтолингвистических исследований предполагает, что ребенок сам конструирует свой язык, опираясь на речевую продукцию взрослых, которую подвергает бессознательному анализу.

Постепенно он овладевает языком, каждодневно совершая очень сложную работу, состоящую в категоризации языковых фактов, установлении разного рода аналогий и ассоциаций.

Такой подход к научному осмыслению развития речевых способностей ребенка выдвигает на первый план корпусные технологии как в самих онтолингвистических исследованиях, так и в педагогической практике языкового образования детей.

 

 

Лингвистический корпус – репрезентативная (представительная – соответствующая той области функционирования языка, которую будет отражать) совокупность речевых данных (письменных, устных, мультимодальных текстов), собранных в соответствии с определенными принципами (соответствующими конкретной исследовательской задаче), размеченных (снабженных аннотациями) по определенному стандарту и обеспеченных специализированной поисковой системой. Корпус звучащей речи (речевая база данных) – структурированная совокупность речевых фрагментов, которая обеспечена программными средствами поиска и доступа к самим фрагментам и метаданным об этих фрагментах. Речевой фрагмент – оцифрованный фрагмент речевого сигнала с дополнительной ассоциированной метаинформацией. Использование представительных речевых корпусов открывает недоступную ранее возможность для проведения крупномасштабных и статистически достоверных исследований детской речи на аутентичном и репрезентативном материале. Лингвистика детской речи первоначально фундировалась лонгитюдными наблюдениями (case-study – одна и та же группа детей наблюдается на протяжении длительного времени). Фундаментальную роль имели дневниковые записи Н. Гвоздева, в которых он фиксировал речь своего сына, сопровождая их лингвистическими комментариями. Важную роль в исследовании детской речи и развитии корпусных методов сыграла книга В. К. Харченко c публикацией корпуса детских высказываний в хронологической последовательности прозвучавших реплик на протяжении семи лет наблюдения [2].

Современные информационно-технические системы и средства позволили существенно повысить уровень репрезентативности таких данных на основе расшифровки стенограмм в компьютерные файлы, которые можно было легко скопировать, отредактировать и обработать с помощью стандартных методов обработки данных. В 1981 г. был задуман проект CHILDES (Children Language Database Exchange System, http://childes.psy.cmu.edu) – международная система обмена данными по детской речи, разработанная американскими учеными К. Сноу и Б. Мак-Винни в Питтсбургском университете и применяемая для анализа разговорной речи, спонтанной речи детей, а также для исследования усвоения второго языка. На сегодняшний день база данных CHILDES представляет собой лингвистический корпус, включающий языки различного типологического строя, объемную библиографию по психолингвистике, лингвистике, теории усвоения первого и второго языков, а также правила ввода материала и пакет программ для его анализа. Каждый исследователь может воспользоваться необходимыми ему данными, а также разместить в CHILDES свои материалы. Данный корпус позволяет не только исследовать детскую речь, но и составить представление об информанте, установить автора записи, реализуя несомненные преимущества корпусных технологий в исследовании детской речи: доступность, полиаспектность, единство формата записей, разнообразие материалов и их достоверность [3].

Создание качественного репрезентативного речевого корпуса представляет собой сложную технологическую задачу, требующую значительных финансовых и кадровых вложений. Анализировать устную речь, когда она существует только в форме звука, практически невозможно – звук слишком многоаспектен, чтобы человеческий взгляд и сознание могли одновременно удержать какой-то его значимый фрагмент [4]. Для объективной фиксации устной речи используется переложение ее в графический вид, т. е. создание транскрипции. Таким образом, база данных корпуса устной речи должна состоять по меньшей мере из двух компонентов – аудиозаписей речи и соответствующих этим записям транскриптов. Представление устной речи в письменном виде является сложной научной задачей. Разрабатывая транскрипцию для конкретной задачи, исследователь может выбирать, какие фонетические и просодические признаки в нее включать, а какие нет. При транскрибировании устной речи следует основываться на верности реальной аудиозаписи, как бы она ни противоречила нашим априорным представлениям о том, «как надо говорить по-русски», какой должен быть порядок слов, какие допустимы синтаксические конструкции и т. д. Необходимо избегать искушения подгонки под привычные шаблоны письменного языка. То, чего не может быть в письменном языке (или мы думаем, что его там не может быть), вполне может встречаться в устном. В особенности это касается детской речи [5].

Для стандартизации сбора, хранения, распространения корпусных баз (в том числе речевых) созданы специальные координационные центры:

– Linguistic Data Consorcium (http://www.ldc.upenn.edu);

– Center for Spoken Language Understanding (http://www. CSLU.ogi.edu);

– European Language Resources Association (http://www.elra.info).

Для расшифровки полученных аудиозаписей детской речи разработан стандартный формат CHAT CHILDES. Морфологическое аннотирование транскрипций записей может быть реализовано с помощью специализированного программного обеспечени, например MORCOMM и CHILDES CLAN [5]. Вместе с тем актуальные речевые корпусы имеют свои ограничения, прежде всего в плане речевой мультимодальности. Например, в CHILDES некоторые записи содержат аудио и видеофайлы, однако они никак не аннотированы и не проанализированы с точки зрения невербальных компонентов общения.

Первый представительный речевой корпус для русского языка с разметкой речевых фрагментов на звуковые единицы ISABASE создан еще в конце 90-х гг. в Институте системного анализа РАН при участии специалистов речевой группы филологического факультета МГУ, а представительный речевой корпус RuSpeech разработан в 2000–2001 гг. в ИСА РАН для разработки систем распознавания русской речи. Помимо самих речевых баз, важным результатом данных проектов явились отлаженная технология создания речевых корпусов и комплекс программных средств для обеспечения этой технологии, отладка автоматического транскриптора русской речи, создание программы для подготовки текстового материала с нужными фонетическими и статистическими характеристиками и др.

Активно используются в исследованиях такие современные корпусные проекты для русской звучащей речи, как МУРКО (http://ruscorpor a.ru/search-murco.html), Русскоязычный эмоциональный корпус (http://www.harpia.ru/rec/), «Один речевой день» (http://model.org.spbu.ru/), «Рассказы о сновидениях» (http://spokencorpora.ru/).

Разрабатываются и применяются в онтолингвистических исследованиях и корпусные проекты русской детской звучащей речи. CHILDES Project (https://www.hse.ru/neuroling/cla_project_childes/) направлен на изучение процесса усвоения уровней языка детьми от 1 года до 3 лет (на материале видеозаписей общения русскоговорящих детей в семейном кругу). Семьи, которые участвуют в проекте, раз в две недели записывают на видео обычное взаимодействие ребенка со взрослым. CHILDES Project имеет стандартизиронный процесс аннотации материалов для их последующей интеграции в корпус детской речи The Child Language Data Exchange System (CHILDES) и адаптированные правила транскрибирования и аннотирования русскоязычных материалов для этого корпуса (опираясь на англоязычное транскрибирование в CLAN).

Корпус INFANT.RU содержит вокализации и речь 187 детей от 0 до 3 лет жизни, корпус CHILD.RU – образцы спонтанной и читаемой речи детей 4–7 лет, а корпусная база данных Emo.Child.Ru – записи спонтанной эмоциональной речи детей 4–7 лет [6]. Собранный в данных корпусах речевой материал уже используется при проведении междисциплинарных исследований по изучению различных аспектов становления речи и их связи с когнитивным и эмоциональным развитием ребенка. Однако данные корпуса не являются общедоступными, что обусловлено необходимостью защиты персональных данных и вытекающими отсюда правовыми и этическими ограничениями в публичном использовании фрагментов детской речи: при проведении исследований с участием детей ни аудио, ни видеофайлы, содержащие запись голоса или представляющие лицо ребенка, не могут быть представлены в сети Интернет в открытом доступе.

Особое значение имеет «Кондуит» (Корпус Неподготовленных Детских Устных Извлеченных Текстов, http://konduitcorpus.ru/accounts/login/?next=/), содержащий сотни устных текстов русскоязычных детей в возрасте от 2 лет 7 месяцев до 6 лет 7 месяцев, представленных в виде аннотированных орфографических записей, а также в виде аннотированных аудио и видеофайлов полученных рассказов. Корпус «Кондуит» на данный момент является единственным русскоязычным корпусом устных детских текстов, содержащим мультимодальные данные в открытом доступе. В «Кондуит» на основе субтитрирования демонстрировавшегося детям фрагмента мультфильма все полученные тексты были покадрово соотнесены с описываемой ребенком в данный момент времени ситуацией, а при помощи программы аудио- и видеообработки ELAN проведена аннотация речевого сигнала, его просодики и жестикуляции. Полученные форматы (исходный мультфильм с наложенным в виде субтитров рассказом ребенка и сам рассказ в аннотированном виде) синхронизированы, что позволяет одновременно наблюдать как процесс восприятия (как быстро ребенок реагирует на различные действия героев, какие из действий персонажей оказываются достаточно важными, чтобы найти свое отражение в устном рассказе и т. д.), так и процесс порождения (какие вербальные и невербальные средства использует для описания данного действия ребенок) [7].

Развитие корпусных технологий и реализация конкретный проектов в системной совокупности c решением правовых и этических вопросов использования баз данных детской речи позволит на качественно более высоком уровне научной репрезентативности осмыслить процесс формирования речевой личности, что, в свою очередь, откроет новые возможности для языкового развития, обучения и воспитания.

 

Список использованной литературы

1. 

2. Харченко, В. К. Корпус детских высказываний / В. К. Харченко. – М. : Лит. ин-т им. А. М. Горького, 2012. – 520 с.

3. Зырянова, Е. В. Система CHILDES как метод сбора материалов и изучения детской речи [Электронный ресурс] / Е. В. Зырянова. – Режим доступа: https://lib.herzen.spb.ru/text/zyryanova_35_76_2_113_118.pdf. – Дата доступа: 29.10.2019.

4. Кривнова О. Ф. Речевые корпусы (опыт разработки и использование) [Электронный ресурс] / О. Ф. Кривнова, Л. М. Захаров, Г. С. Строкин // Диалог: Компьютерная лингвистика и интеллектуальные технологии : сб. ст. – Режим доступа: http://www.dialog-21.ru/digest/2001/articles/krivnova/. – Дата доступа: 29.10.2019.

5. Кибрик А. А. К созданию корпусов устной русской речи: принципы транскрибирования [Электронный ресурс] / А. А. Кибрик, В. И. Подлес-ская. – Режим доступа: https://iling-ran.ru/kibrik/Corpora_speech_
transcription@S&I_2003.pdf. – Дата доступа: 29.10.2019.

6. Риехакайнен, Е. И. Методика создания корпуса для изучения редуцированных реализаций в детской речи / Е. И. Риехакайнен // Корпусная лингвистика–2019 : тр. междунар. конф., 24–28 июня 2019 г., Санкт-Петербург. – СПб. : С.-Пб. ун-т, 2019. – С. 349–355.

7. Эйсмонт, П.  М.  Мультимодальность в корпусе устных детских текстов «КОНДУИТ» / П. М.  Эйсмонт // Корпусная лингвистика–2019: тр. междунар. конф., 24–28 июня 2019 г., Санкт-Петербург. – СПб. : С.-Пб. ун-т, 2019. –  С. 373–379.

 

1. 

Cказки (образы культурных реалий глубокой древности) полны различными устройствами, управляемыми речью:

  • скатерти-самобранки

  • печки-самоходы,

  • ковры-самолеты,

  • дудочки, горшки и прочая утварь.

Многие из таких "устройств" вещи неодушевленные.

 

2. 

Терафим — (лат. therafin) — говорящие антропоморфные идолы (в Древнем Израиле).

Этимология слова терафим спорна:

  • от арабского слова со значением «дарить благо и изобилие»;

  • от арабского слова со значением «мерзость»;

  • от арабского слова  со значением «маска»;

  • основу составляет хеттского слова со значением «злой дух», «демон».

В Библии впервые терафимы появляются в связи с Рахилью.

Рахиль забирает их из дома отца своего Лавана Арамеянина в Месопотамии (Быт.31:19). Рахиль прячет терафимов под седлом верблюда (Быт.31:34), что указывает на их компактные размеры, напоминающие куклу.

После прибытия в Ханаан Иаков приказал домашним своим оставить все предметы суеверия, в том числе и похищенных Рахилью терафимов («богов чужих»): они были закопаны под дубом близ Сихема (Быт.35:4).

Практика создания терафимов в израильской среде возвращается во времена судей (Суд.17:5). Боролся с терафимами самарийский пророк Осия (Ос.3:4) и иудейский царь Иосия (4 Цар.23:24), но культ терафимов как предсказателей будущего сохранялся у евреев вплоть до времени пророка Захарии (Зах.10:2) - времени возвращения из Вавилонского плена.

В XIX в. считалось, что терафимы изготавливались из засушенных голов младенцев, убитых во время тайных церемоний. Голова бальзамировалась и ей под язык клалась золотая пластинка с магическим именем. Существуют версии, согласно которым загадочный Бафомет, культовый предмет тамплиеров, представлял собой колдовской терафим — заимствованный от евреев или арабов деревянный кумир, обтянутый кожей младенцев и обмазанный их жиром.

3.

В Х веке Герберту Аврилакскому (он же Сильвестр II) приписывали владение искусством изготовления терафима — говорящей мёртвой головы. Сделанная из бронзы, эта голова словами «да» и «нет» отвечала на вопросы любого к ней обращавшегося.

Сильвестр II (лат. Silvester PP. II), Ге́рберт Орилья́кский (Аврила́кский), также Герберт Реймский (946-1003) — средневековый учёный и церковный деятель, папа римский с 999. Популяризировал  в Европе арабские научные достижения. Его имя окутано легендами. Ввел в Европе арабские цифры и распространял часы.

Герберт отроком ушел в монастырь,  связался с суккубом (в виде Меридианы), изучал магию, общался с дьяволом. С помощью дочери арабского философа, у которого учился в Кордове и Севилье, завладел книгой заклинаний, и скрылся от учителя, сделавшись невидимым. Создал медную говорящую голову — терафим. Выиграл папство, играя в кости с дьяволом. Умирая, он просил своих кардиналов разрубить его тело, чтобы оно не досталось дьяволу.

Превозносил Оттона III как "нового Константина", взял себе имя Сильвестр II в память о папе Сильвестре I, занимавшем Святой Престол при Константине Великом. Боролся за очищение морального облика священнослужителей. В 1001 г. изгнан из Рима и бежал в Равенну. Вернулся, год спустя скончался и был захоронен в часовне Святого Иоанна. Личность папы Сильвестра II в некоторой степени послужила прообразом легендарного доктора Фауста.

Легендарный образ Герберта использован Михаилом Булгаковым в его «Мастере и Маргарите».
Необходимостью разобрать бумаги Герберта объясняет Воланд свое пребывание в Москве.

– Вы – немец? – осведомился Бездомный.

– Я-то?.. – Переспросил профессор и вдруг задумался. – Да, пожалуй, немец... – сказал он.

– Вы по-русски здорово говорите, – заметил Бездомный.

– О, я вообще полиглот и знаю очень большое количество языков, – ответил профессор.

– А у вас какая специальность? – осведомился Берлиоз.

– Я – специалист по черной магии.

«На тебе!» – стукнуло в голове у Михаила Александровича.

– И... и вас по этой специальности пригласили к нам? – заикнувшись спросил он.

– Да, по этой пригласили, – подтвердил профессор и пояснил: – Тут в государственной библиотеке обнаружены подлинные рукописи чернокнижника Герберта Аврилакского, десятого века, так вот требуется, чтобы я их разобрал. Я единственный в мире специалист.

– А-а! Вы историк? – с большим облегчением и уважением спросил Берлиоз.

– Я – историк, – подтвердил ученый и добавил ни к селу ни к городу: – Сегодня вечером на Патриарших прудах будет интересная история!

4.

В середине XIII века пытались создавать «говорящие головы»  Альберт фон Больштедт и  Роджер Бэкон.

В конце XVIII века датский учёный Христиан Кратценштейн (нем. Christian Gottlieb Kratzenstein; 1723—1795) , действительный член Российской Академии Наук, создал модель речевого тракта человека, способную произносить пять долгих гласных звуков (а, э, и, о, у). Модель представляла собой систему акустических резонаторов различной формы, издававших гласные звуки при помощи вибрирующих язычков, возбуждаемых воздушным потоком.

 

24.11.2023

Новая программа ИИ создает реалистичные ‘говорящие головы’ только из изображения и аудио
https://www.zmescience.com/science/news-science/ai-talking-head-generator/

 

В 1778 австрийский учёный Вольфганг фон Кампелен (нем. Johann Wolfgang Ritter von Kempelen de Pázmánd, 1734-1804), автор трактата «Механизм человеческой речи», создал говорящую машину, которая состояла из четырёхугольного деревянного ящика, длиной около 1 м и шириной в 0,5 м, снабженного мехами и сложной системой клапанов, штифтиков и т. п.; машина эта воспроизводила голос ребенка 3-4 лет. Около 1828 года эту машину усовершенствовал механик Пош в Берлине.

Шахматная машина Кемпелена в конце XVIII века победила Фридриха II, а в 1808 году Наполеона. Она имела вид комода у которого автомат, одетый турком, искусно играл в шахматы. В ящике его, под шахматной доской, постоянно скрывался хороший шахматный игрок. Автомат сгорел 5 июля 1854 года в Филадельфии.

В 1837 учёный Чарльз Уитстоун (Charles Wheatstone, 1802-1875) представил улучшенный вариант машины, способный воспроизводить гласные и большинство согласных звуков. Он же создал музыкальный инструмент концертину, создал первую действующую телеграфную линию в Англии, изобрел биграммный шифр, предложил мостовой метод электрических измерений, изоброел стереоскоп — аппарат для просмотра трёхмерных изображений.

А в 1846 году Джезеф Фабер (Joseph Faber) продемонстрировал свой говорящий орга́н Euphonia, в котором была реализована попытка синтезирования не только речи, но и пения.

5.

В конце XIX века Александр Белл (Alexander Bell, 1847-1922, американский учёный, изобретатель телефона и бизнесмен, основатель Bell Labs) создал собственную «говорящую» механическую модель, очень схожую по конструкции с машиной Уитстоуна.

 

 

 

История синтеза речи

В XX века началась эра электрических машин

Учёные получили возможность использовать генераторы звуковых волн и на их базе строить алгоритмические модели.

 

 

1937 год - говорящее устройство Риша:

  • механическая модель речевого тракта, в котором были воспроизведены артикуляторные органы человека: губы, зубы, твердое небо, мягкое небо, язык и глотка.

Для управления конфигурацией голосового тракта применялись похожие на трубы духового оркестра клавиши. Опытный оператор мог извлекать вполне разборчивую речь.

В 1930-х годах

  • работник Bell Labs Хомер Дадли (Homer W. Dudley) разработал VOCODER (от англ. voice — голос, англ. coder — кодировщик) — управляемый с помощью клавиатуры электронный анализатор и синтезатор речи. Самый первый вокодер Хомера Дадли уже позволял полностью воссоздавать речь с качеством уровня передачи речи по телефону. Водер управлялся от ручной клавиатуры и синтезировал сигналы с заданным спектром. Десять параллельно соединенных полосовых фильтров составляли блок управления резонансами. Переключение источника возбуждения - шумового или импульсного генератора - осуществлялось браслетом на запястье оператора, а управление частотой импульсов - ножной педалью. На выходе фильтров стояли потенциометры, управлявшиеся десятью пальцами и изменявшие напряжение сигнала каждого фильтра. Для имитации взрывных согласных использовались еще три дополнительные клавиши. Обучение операторов "игре" на водере требовало значительного времени, но зато в итоге получалась связная речь с хорошей разборчивостью.

С развитием электротехники и телефонной связи интерес к синтезу речи возрос. Стало окончательно ясно, что для синтеза звуков речи не обязательно копировать голосовой механизм человека, моделируя звукоизвлечение. Задачей стало получение электрического сигнала, аналогичного речевому по форме и воспринимаемого человеком как речь.

С появлением компьютеров вокодерные синтезаторы стали подключать к выходу ЭВМ, так как управляющие сигналы можно было теперь вычислять математически.

1953 год - первые формантные синтезаторы:

  • PAT (Parametric Artificial Talker), формантный синтезатор речевых сигналов от Вальтера Лоуренса (Walter Lawrence). PAT consisted of three electronic formant resonators connected in parallel. The input signal was either a buzz or noise. A moving glass slide was used to convert painted patterns into six time functions to control the three formant frequencies, voicing amplitude, fundamental frequency, and noise amplitude. 

  • OVE  (Orator Verbis Electris), формантный каскадный синтезатор от Гуннара Фанта, который состоял из формантных резонаторов соединенных в каскад

1953 год - DAVO

  • Dynamic аналогового речевого тракта - артикуляторный синтезатор от Джорджа Розена из MIT...

1961 год - Джон Ларри Келли (John Larry Kelly) и Луи Герстман (Louis Gerstman) из Bell Labs использовали компьютер IBM 704 для синтеза речи. 

  • Голосом Келли с помощью синтезатора была воссоздана песня "Daisy Bell ". Артур Кларк гостил у своего друга и коллеги Джона Пирса на объекте Bell Labs Мюррей-Хилл и был настолько впечатлен демонстрацией того, что он использовал его в кульминационной сцене его сценарий для его роман 2001: Космическая одиссея , , где HAL 9000 компьютер поет ту же песню, как это усыпления космонавтом Dave Bowman.  Несмотря на успех чисто электронного синтеза речи, исследования еще проводятся в механическую синтезаторов речи.

1962 год - Фант и Мартони ввели улучшенную OVE II синтезатор, который состоял из отдельных частей для моделирования передаточной функции голосового тракта для гласных, носовых и шипящих согласных. 

OVE проекты лежат в основе современной системы синтеза речи Infovox.

https://www.acapela-group.com/infovox-ivox/

1965 год - первые эксперименты c методом линейного предсказания (LPC)

  • результаты использованы в  в недорогих системах, таких как TI Speak'n'Spell (1980 год).

1968 год -  первый полнонотекстовый речевой синтезатор  для английского языка  разработан в лаборатории Норико Умеды (Noriko Umeda)  (Electrotehnical, Япония). 

  • Основан на модели артикуляционного синтеза и включал модуль синтаксического анализа со сложной эвристикой. Речь  полностью понятна, но однообразна и далека от качества уже существующих систем.

1972 год -  создан  «Фонемафон 1»

  • синтезатор русской речи по тексту  на основе аппаратной реализации формантного синтеза речевых сигналов, которые основаны на моделировании свойств источников возбуждения (голосового и шумового) и резонансных (формантных) характеристик речевого аппарата человека.

1973 год -  разработан и стандартизован для использования в сетях министерства обороны DCS

  • Defence Communication System) и правительственной связи США вокодер LPC10 c удовлетворительным качеством синтезированной речи и разборчивостью односложных слов на уровне 94 % создан на основе интегральных схем, которые реализовывали сложные алгоритмы параметрической обработки речевого сигнала на основе методов линейного предсказания и гомоморфной фильтрации.

1974 год -  улучшенная версия синтезатора — «Фонемафон 2»

  • с дополнительным блоком преобразования «фонема — аллофон».

1976 год -  «Фонемафон 3»

  • демонстрировался на Всемирной выставке «Телеком 79» в Женеве, где известный фантаст Артур Кларк, посетив павильон СССР и ознакомившись с синтезатором речи, записал в книгу отзывов: «Вы предвосхитили мои фантазии из фильма «Космическая Одиссея — 2001», а швейцарская газета «Обозреватель» опубликовала статью: «Теперь русские изучают иностранные языки с помощью компьютера, который говорит».

В 1978 году Texas Instruments представила «Speak & Spell» (Говори и произноси по буквам))

  • первый синтезатор речи на однокристальной микросхеме и выпустила на её основе игровой продукт, состоявшей из речевого синтезатора и клавиатуры, которая иногда использовалась некоторыми группами в качестве музыкального инструмента.

 

1983 год - система распознавания речи «Сезам» и речевой интерфейс «Марс»

  • впервые были интегрированы функции распознавания и синтеза речи. Их серийный впуск впервые в СССР.

1995 год - первая версия Microsoft Speech API  для Windows 95 и Windows NT 3.51 .

  • Включала низкоуровневое прямое распознавание речи и прямой Text To Speech API, которые  могли использоваться непосредственно приложениями  и  "более "голосами" на более высоком уровне для построения API-интерфейсов голосового разговора.


 

В ХХ веке:

  • созданы синтезаторы, обеспечивающие качество и разборчивость речи

  • пригодные для широкого спектра практических приложений.

Однако,

  • синтезированная речь оставалась ещё далёкой по качеству от натуральной

  • обладала узнаваемым машинным акцентом по причине недостаточных вычислительных ресурсов компьютеров.

 

 

Сегодня и завтра

 

Возвращение в сказку с умными говорящими машинами на основе
Больших языковых моделей = глубокого обучения генеративных нейросетей

 

Актуальное здесь )

 

 

 26.11.2023

kmp