Генератор текста
Smart Repl
05.04.2016
Smart Repl
- сервис автоматического ответа на входящие письма (в
Google Inbox
почтового сервиса Gmail) при помощи
сгенерированного искусственным интеллектом текста в
Google Inbox
почтового сервиса Gmail.
Smart Reply работает на
нейросетях прошедших глубокое обучение, предлагает пользователю три варианта
ответа, которые можно использовать как исходные для редактирования…
Ответы на письма сводятся к нескольким щелчкам
мышью.
Smart Reply безошибочно
отличает машинно-сгенерированный спам, и отвечать на него не предлагает вовсе.
Грег Коррадо (Greg
Corrado, старший исследователь из Google Brain Team):
работы, приведшие к
появлению Smart Reply изначально велись для совершенствования качества машинного
перевода. Отсюда некоторая ограниченность письмоответчика в знаниях. Но в
будущем компетенции Smart Reply пополнятся из других приложений.
Подробнее:
How Google’s
AI Auto-Magically Answers Your Emails.
All
Prior Art: автогенерация изобретений
В сфере
патентного правоприменения есть известная проблема
патентных
троллей,
которые мешают работе нормальных компаний, предъявляя абсурдные
иски за «незаконное» использование технологий, таких как «интернет-реклама»,
«сетевые
игры»
и другие. Тролли также пытаются получить новые патенты на
технологии, явно находящиеся в общественном достоянии. К
сожалению, часто им удаётся обмануть патентное ведомство США,
которое не справляется с тщательным анализом огромного
количества заявок.
Проект All
Prior Art —
оригинальная попытка противостоять этому безумию.
Автор Александр
Ребен
разработал программу, которая генерирует
описания технологий — и публикует их в онлайне, что
автоматически делает технологии непатентуемыми.
Описания
технологий вытягиваются со всей базы выданных и неодобренных
патентов, и обратываются. Фразы и предложения на «патентном
языке» случайным образом стыкуются между собой. Автор признаёт,
что большинство таких изобретений будут бессмысленными, но высока
вероятность, что хоть какая-то ценная вещь автоматически попадёт
в общественное достояние.
12.04.2016
Доступно
1 660 000 описаний изобретений (актуальный
торрент).
Для текстов выбрана лицензия
Creative Commons, чтобы предотвратить коммерческое использование
текстов и производных работ.
Автогенерация хайку
Cyber-Pushkin
Одним из самых известных проектов автоматической генерации стихов
является программа "Кибер-Пушкин 1.0 beta" от Сергея Тетерина.
Сергей Тетерин – пермский медиахудожник, член Ассоциации искусствоведов АИС,
творческого союза историков искусства и художественных критиков
стран СНГ, организатор и участник медиа-арт-фестивалей в
Великобритании, России, Германии, Австрии, Дании и др.
В настоящее время С. Тетерин реализует мастер-классе «Кино
из мясорубки», в ходе которого фильм «Сердце мира» Гая Меддина будет
просмотрен через киномясорубку.
Сергей Тетерин:
Я назвал свою версию программы для автоматического производства
стихов "Кибер-Пушкин 1.0 beta". Я за два года научил её всему:
поэтическому ритму, правилам рифмования, специфике поэтического
лексикона, а также поэтическому взгляду на мир.
Однако Кибер-Пушкин 1.0 beta" пишет полную белиберду. Да, это
провал :-( Компьютерную программу для автоматического
стихосложения так и не удалось научить писать стихи лучше
великих русских поэтов.
PC Writer 1,0
Издательство «Астрель-СПб»
в январе 2008 года выпустило написанный компьютером роман
[Настоящая любовь] *.wrt,
.
Издательство
Астрель-СПб, СПб
Серия
Внесерийное издание
Жанр
Русская проза
Тираж
7000
Год
2008
Страниц
288
Формат
84х108/32
Обложка
Твердый переплет
Цена
234.00 руб
Действие происходит на неизвестном острове во времена, очень похожие на наши
дни.
Книга выдержана в манере Харуки Мураками, в основе стиля — лексика, языковые
средства и приемы 13 отечественных и зарубежных авторов XIX-XXI веков. Первая версия романа издательству не понравилась, в исходные данные внесли
изменения, за 72 часа программа сгенерировала второй вариант и «рукопись»,
которая, как и любой издаваемый роман, была подвергнута редакторской правке.
Если
опыт будет признан удачным, то, в дальнейшем будут изданы и другие
«компьютерные романы».
Суммарные затраты на создание романа составили «вдвое меньше, чем гонорар
любого из российских авторов, входящих в топ-10.
Здесь фрагмент
романа
Настоящая любовь.wrt.
День, когда компьютер напишет роман
23.03.2016
Программа японских разработчиков роман
«День, когда компьютер напишет роман» (The Day A Computer Writes A
Novel)
получив набор входных данных: примерная сюжетная линия, пол
персонажей, ряд фраз и предложений, которые нужно использовать в
ходе работы.
Роман вышел в финал литературного конкурса имени Хоси
Синъити.
Жюри, оценивающее работы, знало, что этот роман написан компьютером.
Доступ к участию в конкурсе имени Хоси Синъити открыт для ИИ в
течение нескольких лет и из 1450 работ 11 были написаны
компьютерами.
Но только однин роман, который не был создан человеком, добрался до
финала конкурса.
Подробнее:
http://the-japan-news.com/news/article/0002826970
Зинаида Фолс
04.01.2017
Нейронной сети «Яндекс» по имени Зинаида Фолс поручили написать
стихотворение со словами «будущее», «будет», «время». Для примера ей
показали все стихи, которые существуют на русском языке – около 130
мегабайт текста. Для образца подражания Зинаида выбрала произведения
Анны Ахматовой, Владимира Маяковского, Бориса Пастернака, Велимира
Хлебникова и Самуила Маршака, а потом сочинила пять стихотворений,
на которые у нее ушло несколько часов:
Это
Так будет завтра длиться
Так скоро будет быть и поздно
День над городом
"Алгоритм"
Нейронная сеть Сбербанка России
С улыбкой нежной и всеми наравне,
Сбербанк предполагает использовать нейронную сеть
Алгоритм Филипа
Паркера
Запатентованный алгоритм Филипа
Паркера (профессора бизнес-школы INSEAD) на написание каждой книги
тратит 20 минут
В
Книги продаются по довольно высокой цене,
а при поступлении заказа автор использует услуги сервиса по печати и
переплёту для быстрого изготовления бумажного экземпляра.
П
Кроме
упомянутых 100 000+ книг, на Amazon можно найти более 700 000
(!) других работ, которые продаёт компания Паркера ICON
Group International, Inc.
Э
Вот список некоторых книг, которые создала
программа, чтобы примерно оценить её возможности:
Словацко-английский словарь-тезаурус
Вебстера, стоимость $28,95
Обзор мирового рынка сидений для
унитазов за 2007-2012 годы, $795
Обзор мирового рынка резиновых
контрацеептивов (презервативов): перспективы мировой торговли на
2007 год, $325
Синдром Эллиса-ван-Кревельда.
Библиография и словарь для врачей, пациентов и исследователей
генома, $28,95
Английско-гаитянские кроссворды
Вебстера, первый уровень, $14,95
Филип Паркер объясняет суть работы своего
алгоритма в этом 10-минутном видео:
https://youtu.be/SkS5PkHQphY
Эксперты считают,
что автоматическая генерация книг и журналистских статей — это только
начало. В будущем к генерации текстов добавится синтез речи,
автоматическое создание аудиокниг, рендеринг сюжета в 3D из набора
аватаров, автоматическое генерация мультфильмов и кинофильмов.
Narrative Science: автогнерация журналистских текстов
Автогенерация журналистских текстов
Через три минуты после
землетрясения в Калифорнии заметка об
этом появилась на сайте газеты «Лос-Анджелес таймс».
Текст
содержит все основные сведения: когда произошло
землетрясение, какой силы, где ощущалось. Последняя
фраза: «Сообщение создано алгоритмом».
Earthquake aftershock: 2.7 quake
strikes near Westwood
У газеты
проект
Mapping
LA, в котором боты сравнивают статистику по
районам Лос-Анджелеса,
проект
автоматического создания сообщений по мотивам
криминальной хроники на сайте The
Homicide Report
За 2013 год боты этого производителя создали
300 000 000
заметок.
Директор
Automated Insights
Робби
Аллен:
журналисты хотят писать тексты,
которые прочтёт очень много людей. А заметки для
маленькой аудитории пусть достаются роботам, тем
более что количество датчиков в мире постоянно
растёт (лайфлогинг, считывание параметров окружающей
среды и мн. др.), и сажать за анализ, который в
лучшем случае понадобится двум-трём узким спецам,
человека - дело неблагодарное.
А если не видно разницы?
25.03.2014
Эксперты торговой
группы Interactive Advertising Bureau выяснили, что
примерно 36% всего рекламного web-трафика в мире
является подделкой.
В 2014 году совокупные затраты
американских компаний
на рекламу в
Сети должны вырасти на 17%, до $50 млрд. У маркетологов нет единого мнения о путях
выхода из сложившейся ситуации. Консерваторы рынка
предлагают сократить долю интернет-рекламы. Более
прогрессивные специалисты предлагают разрабатывать
инструменты для отслеживания мошеннического трафика
и эффективной борьбы с ним.
Если живому журналисту за
работу в американском средней руки издании
выплачивают $200-500, то
себестоимость компьютерного «труда»
Narrative Science: $10
за заметку в 500 слов! На заметку уходит в среднем
15 секунд. В издании Journalism
Practice опубликованы
результаты
исследования, которое показало, что небольшая группа
читателей не смогла с уверенностью разобраться, кто
написал спортивную заметку - человек или бот. Роботексты сочтёны заслуживающим доверия,
информативными и немного скучными, как и положено
рапортам об очередном состязании.
The future of journalism just got a
little more robotic
By Aaron Sankin on March 05, 2014
Научная мистификация
Мистификация Сокала
— шутка, разыгранная специалистом по математической физике
Аланом Сокалом
(Alan
David Sokal).
Профессор физики Алан Сокал
из Нью-Йоркского университета в конце 1994 года написал сатирическую статью под
названием «Преступая границы: К вопросу о трансформативной герменевтике
квантовой гравитации» («Transgressing the Boundaries: Towards a Transformative
Hermeneutics of Quantum Gravity»). Статья представляла собой пародию на
современные философские междисциплинарные исследования и была лишена какого-либо
физического смысла. Сокал послал статью в журнал «Social Text», который
опубликовал её в специальном выпуске, посвящённом научным войнам.
Мистификация была раскрыта самим Сокалом в статье в майском номере другого
журнала, «Lingua Franca», в которой он объяснил, что его статья в «Social Text»
была «обильно приправлена полной чепухой» и, по его мнению, была опубликована
только потому, что хорошо выглядела и льстила «идеологическим предубеждениям»
редакторов.
Исследование Пенникука
Гордон
Пенникук
(Gordon Pennycook, аспирант из канадского Университета Ватерлоо предложил
студентам (300 человек), оценить «глубину» высказываний по шкале от 1 (нет
глубокого смысла) до 5 (очень глубокий смысл).
Среди высказываний были
созданные генераторами бессмыслицы:
Wisdomofchopra.com
(конструирует бессмысленные, но грамматически правильные фразы используя
слова из афоризмов Дипака Чопры (Deepak Chopra, ам. автора а книг по
нетрадиционной медицине).
Sebpearce.com/bullshit
- оперирует иным набором ключевых слов....
Результаты эксперимента
Гордона
Пенникука:
Автобессмыслица
(например:
«Воображение лежит в рамках экспоненциального пространства-времени
событий»)
получила среднюю оценку в 2,6 балла (студенты сочли ее достаточно глубокой,
а 25% участников очень глубокой).
Настоящие афоризмы с сайта Чопры (например: «Природа — это
саморегулирующаяся система сознания») получили такую же оценку, как фразы,
созданные генератором.
Разумные положения, которые были сформулированы простым понятным языком
(«вода точит камень не силой, а частотой падения») студенты признали менее
глубокими по смыслу, чем мутные лишенные смысла фразы!
Участники
эксперимента Пенникука были протестированы на познавательные способности:
Самыми
доверчивыми (назвавшими бессмысленные высказывания глубокими) были люди с
менее высоким уровнем интеллекта, не обладающие развитым аналитическим
мышлением и умением различать онтологические категории.
Менее
доверчивыми оказались скептические и рациональные люди с более высоким
интеллектуальным уровнем.
Работа Пенникука не лишена упрощений:
Само использование интернет-генератора совершенно не гарантирует, что
полученные фразы лишены смысла. «Наука говорит нам сегодня, что суть природы —
радость». Это полученная при помощи генератора фраза понятна, осмыслена и
ошибочна.
живой язык требует контекста, его невозможно свести к фразам, построенным
по принципу формальной логики. Что является бессмыслицей, а что нет, нельзя
оценить по вырванным из контекста примерам.
Работ
Гордона Пенникука и др.:
On the reception and detection of pseudo-profound bullshit
Гарри Франкфурт (Harry Gordon Frankfurt, проф.
фил. Принстонского университета):
bullshit — это
высказывание, созданное без малейшей цели сделать его правдивым. Его главная
задача — не передать информацию, а произвести на адресата впечатление.
kmp
рекомендует:
Гарри Гордон Франкфурт
О брехне. Логико-философское исследование
SCIgen:
автогнерация псевдонаучных текстов
SCIgen (http://pdos.csail.mit.edu/scigen/) —
созданная (в 2005 году) в MIT компьютерная программа «автоматического генерирования тезисов
для научных конференций, подозреваемых в низком цензе приёма».
Созданные с помощью
SCIgen
«статьи» были приняты к публикации:
на
конференцию WMSCI (первая статья «Rooter: A Methodology for the
Typical Unification of Access Points and Redundancy»). Авторы рассказали о
мистификации на своём сайте и WMSCI лишилась финансирования IEEE.
на конференцию IPSI-BG.
на конференцию International Symposium
of Interactive Media Design.
журналом Applied Mathematics and Computation
(студент из Ирана под псевдонимом Мосалла Нежад подал такую статью, где её
приняли, но успели изъять до печати после объяснения, что это была
мистификация.
16.06.2009
Научный
журнал
Open Information Science Journal принял к
публикации бессмысленную статью, написанную компьютерной
программой SCIgen и присланную студентом Корнеллского
университета
Филипом Дэвисом (Philip
Davis) и исполнительным директором издания The New England Journal of Medicine
Кентом Андерсоном (Kent Anderson).
Из статьи:
Компьютерная статья
"Деконструкция точек доступа" (Deconstructing
Access Points) была подписана псевдонимами, а название
мнимого места работы авторов содержало в себе подсказку для
редактора - Center for Research in Applied Phrenology (Центр
исследований в прикладной френологии), сокращенно CRAP
("чепуха"). Статья
послана в журнал в
январе 2009, а 3.06.2009 года Дэвис и Андерсон
получили уведомление, что она принята к публикации –
авторам предлагалось уплатить $800. Статью отозвали и сделали эту
историю достоянием общественности.
Главный редактор журнала The Open Information Science Journal
Бамбан Параманто (Bambang Parmanto)
в результате инцидента с псевдонаучной статьей намерен подать в
отставку.
25.02.2014
Сирил Лаббе (Cyril Labbé) из
университета Гренобля (Франция) в апреле 2010 года он с
помощью SCIgen сгенерировал 102
фальшивые статьи и
опубликовал их от имени вымышленного автора Айка Анткаре
(Ike Antkare). Публикации попали в базу Google Scholar,
а индекс цитирования h-index для Анткаре вскоре вырос до
94 баллов, что сделало виртуального персонажа на тот
момент 21-м по цитируемости учёным в мире.
Немецкий Springer и американская
IEEE
удалили
более 120 псевдонаучных статей от
SCIgen за
2008-2013 годы.
Mathgen
03.08.2012
Вымышленный профессор
Marcie Rathke из несуществующего
Университета Южной Северной Дакоты отправил в научный журнал Advances
in Pure Mathematics, один из многих
журналов издательства
Scientific Research Publishing
статью
«Независимые,
отрицательные, канонические стрелы Тьюринга в уравнениях и задачах прикладной
формальной PDE» (pdf).
Статья сопровождалась
интригующей аннотацией: «Пусть ρ = A.
Возможно ли расширить область изоморфизма? Мы показываем, что D′ является
стохастически ортогональным и тривиально-аффинным соответствием. В [10],
основным результатом стала конструкция множества Кардано, функции Эрдёша, Вейля,
что может пролить важный свет на гипотезу Конвея-Д’Аламбера».
История
Кристофа Бартнека 23 Бессмысленная академическая публикация по ядерной
физике написанная только с помощью клавиатурных
подсказок iOS была принята на научно-практической
конференции Кристоф Бартнек
Я получил письмо с
приглашением представить его доклад в Международной
конференции по атомной и ядерной физике в США в
ноябре. Так как у меня практически нет знаний по ядерной
физике я обратился к клавиатурным подсказкам на iOS,
чтобы помочь мне написать статью. Я начинал
предложения с „Атомный“ или „Ядерный“, а затем
случайным образом нажимал на автозаполнение
предложения
Текст действительно не имеет никакого смысла
Пример из абстрактного
предложения
(перевод):
Атом лучшей вселенной будет иметь право на такой же, как
вы, как мы должны будем быть прекрасным местом для
большого времени, чтобы наслаждаться днем вы
замечательный человек к вашему прекрасному времени,
чтобы весело и принять большое время и наслаждаться
великим днем вы будете приятно проводить время для ваших
родителей и детей Подробнее в
блоге
Кристофа Бартнека. С точки зрения банальной эрудиции классический пример авто-псевдо-зауми
О честности, по отношению к себе
Рецензия рукописи научной статьи: "Корчеватель: Алгоритм типичной унификации точек доступа и избыточности", Жуков Михаил Сергеевич
Корчеватель (фрагменты статьи)
Предварительный итог....
17.10.2008
решением президиума Высшей аттестационной комиссии Министерства образования и науки Российской Федерации журнал «Журнал научных публикаций аспирантов и докторантов» был исключён из Перечня ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание учёных степеней доктора и кандидата наук..
Журнал закрыт, проблема осталась...
О подтасовках в научных результатах
Кто Вы, д октор Шепиль?
Информациологические определения
Разоблачить Шекспира
12.10.2009
С помощью антиплагиаторской
компьютерной программы
Pl@giarism
удалось решить проблему авторства пьесы
Эдуард_III,
которую приписывали Уильяму Шекспиру.
Сэр Брайан Викерс
(главный шекспировед Института английской филологии
Лондонского университета):
Сравнение фраз из драмы, полное название которой — The Reign of King Edward III («Правление короля Эдуарда III»),
и ранних шекспировских работ позволяет с уверенностью
констатировать, что Шекспир создал пьесу в соавторстве с Томасом Кидом, популярным драматургом того времени.
Проф.
Брайан Викерс
пользовался программой
Pl@giarism,
разработанной в Университете Маастрихта (Нидерланды) для определения скрытых цитат в студенческих сочинениях.
Драма «Эдуард III» опубликована в 1596 году, когда Уильяму Шекспиру было 32 года.
Авторство Шекспира оспаривалось на протяжении полутора веков, пока в 1997 году пьеса не была включена в оксфордское полное собрание сочинений.
Как известно, у любого писателя есть характерные (не обязательно уникальные) выражения, которые формируют его стиль. В каждом тексте, авторство которого доподлинно известно, всегда найдется до 20 совпадений с текстами других писателей, что естественно, поскольку многие выражения являются общеупотребительными. В «Эдуарде III» обнаружено 200 совпадений с ранними работами Шекспира и столько же — с драмами Кида. Брайан Викерс подсчитал, что 40% драмы принадлежат Шекспиру, остальное — Томасу Киду.
Скачать
Pl@giarism
можно здесь:
http://people.few.eur.nl/span/Plagiarism/PlagiarismSetup.zip
Сможет ли нейронная сеть писать как Лев Толстой?
22.11.2017
см.
здесь
Sverker Johansson
09.02.2016
Сверкер Юханссон
Сверкер Юханссон
- самый плодовитый автор Википедии - с помощью бота «Lsjbot»
написал более
2 700 000
статей о биологических видах и населённых пунктах стран мира. Tреть его
статей загружено на шведском языке, а остальные — на двух филиппинских (себуанский
и варайский языки).
09.02.2016 Лидеры
языковых разделов (по числу статей) Википедии:
Английский
Шведский
Себуанск
Нидерландский
Французский
Русский
Варайский
В создании Википедии
принимает участие несколько сотен ботов управляемых несколькими
десятками ботовладельцев.
См. подробнее о ботах Википедии:
https://ru.wikipedia.org/wiki/Служебная:Список_участников/bot
Бот-юрист
В
Великобритании власти собирают автомобильных штрафов примерно на
миллиард долларов в год, в эквиваленте.
18-летний британский IT-студент
Джошуа Броудер
(Joshua Browder) в августе 2015 года открыл сайт donotpay.co.uk,
который помогает автовладельцам автоматически составить и отправить
апелляцию на полученную квитанцию о штрафе.
Самостоятельно люди не могут этим заниматься, потому что
процедура для многих сложная, а услуги юристов превышают размер штрафа.
На сайте люди указывают некоторую
информацию о себе и выбирают одну из 12 причин, по которой они
оспаривают штраф. Вся процедура занимает 30 секунд.
За полгода сайтом воспользовались
86 000
человек, и почти 40% апелляций были успешными. Бот-юрист помог
вернуть штрафов более
чем на 2 миллиона фунтов ($3 млн).
29.06.2016
За 21 месяц сервис DoNotPay помог
составить 250 000 апелляций и успешно оспорил 160 000 штрафов за парковку в Лондоне и
Нью-Йорке, добившись отмены штрафов на сумму в
$4 000 000.
Он работает абсолютно бесплатно, демонстрируя пользу чат-ботов.
29.12.2016
Сбербанк России разработал и запустил
подобного DoNotPay робота-юриста.
Порядка 3-х тысяч рабочих мест мы
будем только по этой специальности высвобождать в 2017
году. Сотрудники пройдут программу переобучения для
работы в других подразделениях банка. В том же случае,
если переобучится у сотрудника не получится, он будет
уволен.
JSDuck
JSDuck —
генератор документации кода.
Документирование
является неотъемлемой частью хорошего кода и проекта в целом.
Хорошие разработчики
тратят много времени на поддержку документации, но в дальнейшем это
окупается с лихвой: экономит время на поддержке кода, его расширении и
исправлении багов, позволяет сократить время на погружение в проект
новых разработчиков и т.д.
Генератор
JSDuck
изначально создавался для Sencha и
позволяет распознавать синтаксис ExtJS.
Приложения,
созданные на ExtJS, по
умолчанию поддерживаютавтоматическое создание
документации.
Генератор может
JSDuck
быть использован для любого кода.
Подробная
документация находится на сайте проекта
JSDuck (https://github.com/senchalabs/jsduck/wiki).
Сгенерированная
документация выглядит точно так же как официальная документация ExtJS.
*****
ExtJS
(Sencha ExtJS) —
фреймворк
JavaScript для
разработки веб-приложений и пользовательских интерфейсов. Поддерживает
технологию AJAX, анимацию, работу с DOM, реализацию таблиц, вкладок,
обработку событий и все остальные новшества Web 2.0.
Фреймворк
(англ. framework — каркас, структура) — структура программной системы;
программное обеспечение, облегчающее разработку и объединение разных
компонентов большого программного проекта.
kmp |