Искусственная речь без искусственного интеллекта

автор: Михаил Ваннах  28 октября 2014

В позднесоветском инженерном жаргоне была привычка, обзывать работы по «искусственному интеллекту» работами по «протезному интеллекту». Основания для такого подхода были – тем, кто решал абсолютно практические задачи, вроде фильтрации шумов в канале сопровождения цели, или управления движением сугубо механического объекта, но с блоком бешено вращающихся цилиндрических деталей, да еще расположенного на качающемся основании, было ясно, что с доступными в 80-е годы прошлого века технологиями ЭЦВМ ни о каком «интеллекте» речи быть не может.

Но вот сейчас на свет вылезает забавная, сугубо инженерная и сугубо предпринимательская задача – наделить речью, хотя бы «протезного» уровня, массово выпускаемые цифровые устройства. В принципе сейчас такая возможность есть и широко доступна – для поклонников «яблочной» продукции давным-давно есть Siri. Языковой поиск существует – широко и с юмором рекламируясь по телеканалам – и в продукции Google.

Но это – гиганты бизнеса. И не только информационного, но и вообще… Способные инвестировать в свои собственные технологии распознавания голоса гигантские средства. А что делать мелким компаниям – а то и вообще, не побоюсь этого слова, стартапам – которым понадобится наделить свои мелкие и недорогие изделия, на выпуске которых эти компании и могут существовать, голосовым интерфейсом?

Ну, прежде всего, посмотрим, зачем этот самый голосовой интерфейс нужен? А нужен он для того, чтобы человек мог общаться со все более и более разумными устройствами, входящими в нашу жизнь. С микропроцессорами кондиционеров и термостатов, телевизоров и аудиоцентров, печей и плит… Совсем недавно такими устройствами управляли механические или электромеханические устройства, «программа» которым задавалась поворотом ручек управления – подача газа в горелку, температура в холодильнике, режим стиральной машины…

Потом на смену электромеханике пришла электроника, а на смену ручкам – кнопки. Механические, сенсорные… Все более многочисленная информация о работе все более и более разумных домашних помощников отображалась на дисплеях все большего и большего размера. Которые в какой-то момент стали сенсорными. Удобными и наглядными…

Но так ли они удобны? Вот, к примеру, возьмем дисплеи кухонных устройств. И возьмем обычный процесс приготовления ужина. Если делать это без изысков, но и без угрозы своему здоровью, связанной с потреблением полуфабрикатов в пластиковых корытцах, то по завершении двадцатиминутного или получасового процесса готовки в корзину для грязного белья отправляются два-три кухонных полотенца. Которыми постоянно приходится вытирать руки. В том числе и перед каждым нажатием на кнопки или прочие сенсоры…

Пренебречь этим – значит долго и нудно отчищать органы управления от рисовой панировки, частиц зеленого салата или прочих живописных наслоений… Хотя порой приходится и это делать – когда понимаешь, что запрограммированное время готовки было излишним, а ополоснуть и вытереть руки не успеваешь. Мелочи? Да, мелочи… Но мелочи, съедающие время и способные испортить настроение. И сталкиваются с этими мелочами сотни миллионов людей (я цинично говорю лишь про платежеспособное население планеты). Которые вполне способны заплатить за свое удобство!

А есть же еще устройства мелкие, но разумные. Вроде становящихся все более и более разумными часов. Это «круговой» логарифмической линейкой в старом механическом хронографе можно было полноценно управлять с помощью отдельной головки. Крохотный дисплейчик «умных» часов – соседствующий с мощным процессором – заставляет вспомнить притчу о верблюде и иголочном ушке.

И это вполне распространяется на смартфоны. Устройство с большим дисплеем не лезет в нагрудный карман летней рубашки. Устройством с дисплеем мелким неудобно управлять… И таких изделий неизбежно будет становится все больше и больше. По мере того, как все более мощные процессоры станут проникать во все более и более широкий круг устройств.

И вот на решении данной проблемы решил подзаработать Алекс Лебрен (Alex Lebrun), соучредитель и главный исполнительный директор стартапа Wit.ai, базирующегосяся в Пало-Альто, штат Калифорния. Лебрен в бизнесе распознавания речи не новичок – ранее он основал и возглавил компанию VirtuOz, занимавшуюся разработкой систем голосового управления для таких гигантов, как eBay и AT&T. После продажи предыдущего бизнеса компании Nuance (выводящей его на рынок под именем Nina Web) он вернулся к самостоятельной работе.

Для решения задач голосового управления Wit.ai намерена воспользоваться своеобразной формой краудсорсинга. Компания предлагает бесплатный доступ к своим средствам создания систем общения на естественном языке тем разработчикам, кто согласится поделиться своими наработками в этой области с сообществом Wit.ai.

Таким образом новый стартап намерен, в кратчайшие сроки и с минимальными затратами, добиться расширения словарного запаса и точности распознавания (первоначально для английского языка) голосовых команд. Задача эта отнюдь не тривиальна. Даже элементарная – одномерная в фазовом пространстве, что легко можно увидеть, крутя головку механического будильника – задача установки времени сигнала может быть выражена на естественном языке очень многими способами.

Которые необходимо собрать, проанализировать с точки зрения языка, ввести в общую базу Wit.ai. С которой ныне работает более 4600 разработчиков. Скажем, студент из Университета Ватерлоо в канадском Онтарио Ник Мостович (Nick Mostowich), использовал технологии Wit.ai для того, чтобы снабдить голосовым управлением микроволновую печь и тостер. (Тостер это действительно, одно из тех устройств к которому приходится судорожно прыгать через кухню – угадать влажность закладываемого в него хлеба достаточно трудно, приходится руководствоваться запахом…)

Теперь Мостович работает над тем, чтобы собрать достаточное количество рецептов приготовления бекона (пищи вкусной, особенно холодным осенним утром) и разместить их на сервере Wit.ai. С которым устройства голосового управления и будут общаться, для того, чтобы интерпретировать голосовой приказ хозяина в команды для установки уровня мощности магнетрона и времени приготовления для печки.

Лебрен говорит, что такая схема будет использоваться лишь на первых порах. Ведь возможность работы кухонной техники, зависящая от доступа к интернету, несколько настораживает. Впрочем, интернет – если роутеры, и кабельный, и аварийный 4G, запитаны через достаточно объемистые «бесперебойники» – ныне штука, работающая даже при аварийном отключении района от электроэнергии, когда СВЧ-печь заведомо не нужна.

Но, тем не менее, по мере накопления данных в базе Wit.ai и глубины их анализа, будет все больше и больше повышаться способность устройств голосового управления к автономной работе. Что важно в связи с предстоящим ростом численности робототехники, и на производствах, и в быту; с массовым приходом технологий «интернета вещей». Так что в ближайшее время следует ожидать появления большого числа устройств с речевым управлением. Правда, говорящих преимущественно на английском…