kmp Auto-Text

Генератор текста

Генератор текста — программа, способная создать последовательность слов, внешне похожую на осмысленный текст.

Тексты, созданные с помощью генераторов, являются правильными с точки зрения языковых норм.

У читающего сгенерированный такой программой текст может сложиться впечатление, что он является осмысленным.

Василий Щепетнев: Мы давно принимаем синтетические витамины, сидим на пластиковых стульях, играем в шахматы с программой, отчего ж и не почитать цифрового автора, учитывая, что разницу способен почувствовать только ценитель?

Тексты машинной генерации:

ориентированы на различные целевые группы (как среди людей, так и среди и машин)

предназначены для решения различных задач (информирования, развлечения, поисковой оптимизации, коммуникации, обслуживания, диагностики, манипуляции, фальсификации и прочее).

Smart Repl

05.04.2016

Smart Repl - сервис автоматического ответа на входящие письма (в Google Inbox почтового сервиса Gmail) при помощи сгенерированного искусственным интеллектом текста в Google Inbox почтового сервиса Gmail.

Smart Reply работает на нейросетях прошедших глубокое обучение, предлагает пользователю три варианта ответа, которые можно использовать как исходные для редактирования… Ответы на письма сводятся к нескольким щелчкам мышью.

Smart Reply безошибочно отличает машинно-сгенерированный спам, и отвечать на него не предлагает вовсе.

Грег Коррадо (Greg Corrado, старший исследователь из Google Brain Team):

работы, приведшие к появлению Smart Reply изначально велись для совершенствования качества машинного перевода. Отсюда некоторая ограниченность письмоответчика в знаниях. Но в будущем компетенции Smart Reply пополнятся из других приложений.

Подробнее: How Google’s AI Auto-Magically Answers Your Emails.

All Prior Art: автогенерация изобретений

В сфере патентного правоприменения есть известная проблема патентных троллей, которые мешают работе нормальных компаний, предъявляя абсурдные иски за «незаконное» использование технологий, таких как «интернет-реклама», «сетевые игры» и другие. Тролли также пытаются получить новые патенты на технологии, явно находящиеся в общественном достоянии. К сожалению, часто им удаётся обмануть патентное ведомство США, которое не справляется с тщательным анализом огромного количества заявок.

Проект All Prior Art — оригинальная попытка противостоять этому безумию.

Автор Александр Ребен разработал программу, которая генерирует описания технологий — и публикует их в онлайне, что автоматически делает технологии непатентуемыми.

Описания технологий вытягиваются со всей базы выданных и неодобренных патентов, и обратываются. Фразы и предложения на «патентном языке» случайным образом стыкуются между собой. Автор признаёт, что большинство таких изобретений будут бессмысленными, но высока вероятность, что хоть какая-то ценная вещь автоматически попадёт в общественное достояние.

12.04.2016

Доступно 1 660 000 описаний изобретений (актуальный торрент).
Описания также дублируются на Archive.org, томами по 10 000 штук.

Для текстов выбрана лицензия Creative Commons, чтобы предотвратить коммерческое использование текстов и производных работ.

Автогенерация хайку

Японские программисты из университета Киото разработали программу Hitch Haiku, способную самостоятельно писать хайку (хокку).

Хайку - жанр традиционной японской лирической поэзии, уникальный по своей образной силе и краткости: стихотворение хайку состоит из 17 слогов, (в первой строке - 5 слогов, во второй - 7 и в третьей снова 5).

Hitch Haiku на основе заданных одного-двух слов, выискивает соответствующие им фразы в литературных и грамматических базах данных, словарях с тем, чтобы в итоге выдать хайку.

Классический пример мастера Мицуо Басё (1644-1694):

На черной ветке

Ворон расположился.

Осенний вечер.

Cyber-Pushkin

Одним из самых известных проектов автоматической генерации стихов является программа "Кибер-Пушкин 1.0 beta" от Сергея Тетерина.

Сергей Тетерин – пермский медиахудожник, член Ассоциации искусствоведов АИС, творческого союза историков искусства и художественных критиков стран СНГ, организатор и участник медиа-арт-фестивалей в Великобритании, России, Германии, Австрии, Дании и др.
В настоящее время С. Тетерин реализует мастер-классе «Кино из мясорубки», в ходе которого фильм «Сердце мира» Гая Меддина будет просмотрен через киномясорубку.

Сергей Тетерин: Я назвал свою версию программы для автоматического производства стихов "Кибер-Пушкин 1.0 beta". Я за два года научил её всему: поэтическому ритму, правилам рифмования, специфике поэтического лексикона, а также поэтическому взгляду на мир. Однако Кибер-Пушкин 1.0 beta" пишет полную белиберду. Да, это провал :-( Компьютерную программу для автоматического стихосложения так и не удалось научить писать стихи лучше великих русских поэтов.

Судите сами, что она пишет

PC Writer 1,0

Издательство «Астрель-СПб» в январе 2008 года выпустило написанный компьютером роман [Настоящая любовь] *.wrt, .

Издательство
Астрель-СПб, СПб
Серия
Внесерийное издание
Жанр
Русская проза
Тираж
7000
Год
2008
Страниц
288
Формат
84х108/32
Обложка
Твердый переплет
Цена
234.00 руб

Действие происходит на неизвестном острове во времена, очень похожие на наши дни.
Книга выдержана в манере Харуки Мураками, в основе стиля — лексика, языковые средства и приемы 13 отечественных и зарубежных авторов XIX-XXI веков.

Для создания текста романа разработчиками и филологами за 8 месяцев создана программа PC Writer 2008 и собрано досье на героев романа (описание внешности, лексики, психологический портрет и др.). Была описана начальная ситуация, на основе которой программа за 72 часа сгенерировала текст романа.
Первая версия романа издательству не понравилась, в исходные данные внесли изменения, за 72 часа программа сгенерировала второй вариант и «рукопись», которая, как и любой издаваемый роман, была подвергнута редакторской правке.
Если опыт будет признан удачным, то, в дальнейшем будут изданы и другие «компьютерные романы».
Суммарные затраты на создание романа составили «вдвое меньше, чем гонорар любого из российских авторов, входящих в топ-10.

Здесь фрагмент романа Настоящая любовь.wrt.

День, когда компьютер напишет роман

23.03.2016

Программа японских разработчиков роман «День, когда компьютер напишет роман» (The Day A Computer Writes A Novel) получив набор входных данных: примерная сюжетная линия, пол персонажей, ряд фраз и предложений, которые нужно использовать в ходе работы.

Роман вышел в финал литературного конкурса имени Хоси Синъити.

Жюри, оценивающее работы, знало, что этот роман написан компьютером.

Доступ к участию в конкурсе имени Хоси Синъити открыт для ИИ в течение нескольких лет и из 1450 работ 11 были написаны компьютерами.

Но только однин роман, который не был создан человеком, добрался до финала конкурса.

Подробнее: http://the-japan-news.com/news/article/0002826970

Зинаида Фолс

04.01.2017

Нейронной сети «Яндекс» по имени Зинаида Фолс поручили написать стихотворение со словами «будущее», «будет», «время». Для примера ей показали все стихи, которые существуют на русском языке – около 130 мегабайт текста. Для образца подражания Зинаида выбрала произведения Анны Ахматовой, Владимира Маяковского, Бориса Пастернака, Велимира Хлебникова и Самуила Маршака, а потом сочинила пять стихотворений, на которые у нее ушло несколько часов:

Это
Всего-навсего
что-то
В будущем
И мощь
У того человека
Есть на свете все или нет
Это кровь вокруг
По рукам
Жиреет
Слава у
Земли
С треском в клюве.

Так будет завтра длиться
В темном сумраке сада
Там, где пляшет колесница
От радости бога награда
Мы поняли что время от руки
Не осилить, не выйду, не встану
Не любя ни разу ни строки
Кто кого из нас не выйдет замуж.
Кто же вы те дни и те ночи
Да слабые мысли и вздохи о них
Мой город прекрасен и скучен
Покуда был первый жених.

Я искал свой интерес
Повезут их в ресторан
И храпит последний кран
На работу или в лес
Эта ночь была в бутылке
А на скамейке у крыльца
Как у самого конца
Я люблю твои прогулки
Что же ты меня привез
А глядишь на косогоре
О своей судьбе о горе
Словно выстрелы из слез
Я не умею говорить
Сколько в будущем
Там над желтым кладбищем

Так скоро будет быть и поздно
Про ваши голоса во сне
В тихом домике в зале над бездной
Ты только вспомни обо мне.
Ты и я знаем лишь о чуде
О том что время с перепою
И каждому столетью будет
Луна над вечерней невою.
И я скажу, а завтра все сначала
Что опять его станут умней
Был день как семь лет без скандала
И минут до скончания дней
Спит человек как цветок.

День над городом
В небе летит
В белой сирени
В роще в заре
Он видит лунные пятна
Черные очи
В каменных клетках.

"Алгоритм" Сбербанка

Нейронная сеть Сбербанка России Алгоритм написала первое стихотворение по названием «Ода Сберу»:

С улыбкой нежной и всеми наравне,
Когда во мне счастья ликованье,
Скажу, преодолев страх признанья:
Сбербанк — светило на века в стране!
Могучим, полным воздух стал без слов,
Мои воспоминания молчаливы,
В объятиях мирных облаков
Желаем только в проме вечной славы!
Наш протокол в столь светлый вечер страстный,
О, слышишь, вечный, ты великий и прекрасный,
И чтобы наша жизнь была страстью полна,
Приди за нами слава! Все еще она!

Сбербанк предполагает использовать нейронную сеть Алгоритм для «роботизированного анализа неструктурированных данных», автоматизации кол-центров, чат-ботов, мессенджеров, систем дополненной реальности для голосовых ассистентов, генерации исковых заявлений.

Алгоритм Филипа Паркера

Запатентованный алгоритм Филипа Паркера (профессора бизнес-школы INSEAD) на написание каждой книги тратит 20 минут

В продаже на Amazon более 100 000 книг за авторством Паркера (три из них он написал лично!).

Книги продаются по довольно высокой цене, а при поступлении заказа автор использует услуги сервиса по печати и переплёту для быстрого изготовления бумажного экземпляра.

Программа Паркера не умеет строить сюжет или составлять предложения, а занимается компиляцией текстов из открытых источников. Например, из открытого словаря Вебстера, содержимое которого можно свободно использовать в сторонних произведениях. Поэтому «продукт» этой программы — не художественная литература, а справочники, экономические отчёты, сборники кроссвордов, словари и тому подобные произведения.

Кроме упомянутых 100 000+ книг, на Amazon можно найти более 700 000 (!) других работ, которые продаёт компания Паркера ICON Group International, Inc.

Эти товары покупают редко, но учитывая ничтожную стоимость их создания, бизнес очень прибыльный.

Вот список некоторых книг, которые создала программа, чтобы примерно оценить её возможности:

Словацко-английский словарь-тезаурус Вебстера, стоимость $28,95

Обзор мирового рынка сидений для унитазов за 2007-2012 годы, $795

Обзор мирового рынка резиновых контрацеептивов (презервативов): перспективы мировой торговли на 2007 год, $325

Синдром Эллиса-ван-Кревельда. Библиография и словарь для врачей, пациентов и исследователей генома, $28,95

Английско-гаитянские кроссворды Вебстера, первый уровень, $14,95

Филип Паркер объясняет суть работы своего алгоритма в этом 10-минутном видео: https://youtu.be/SkS5PkHQphY

Эксперты считают, что автоматическая генерация книг и журналистских статей — это только начало. В будущем к генерации текстов добавится синтез речи, автоматическое создание аудиокниг, рендеринг сюжета в 3D из набора аватаров, автоматическое генерация мультфильмов и кинофильмов.

Narrative Science: автогнерация журналистских текстов

Narrative Science - компьютерная программа для автогенерации текстов

Narrative Science возник в 2010 году из проекта StatsMonkey, который разрабатывался на протяжении 10 лет в Чикагском Северо-Западном университете (Northwestern University). Компьютерный алгоритм в StatsMonkey генерировал (в том числе автоматически через судейские системы) отчетов о бейсбольных матчах на основе анализа их статистики с помощью универсального AI Quill

17.04.2011

Narrative Science подготовила отчет о бейсбольном матче между Университетом Вирджинии и Университетом Джорджа Вашингтона.лучшего качества, чем текст, написанный спортивным репортером.

В матче, который независимо друг от друга освещали журналист и Narrative Science, питчер (игрок, бросающий мяч) одной из команд добился результата, который предыдущий раз был показан на матчах Национальной ассоциации студенческого спорта США (NCAA) в 2002 году. Репортер упомянул этот факт в предпоследнем абзаце своей заметки, тогда как программа сообщила о достижении питчера в первом же абзаце - что по канонам репортерского мастерства считается лучшим решением.

Narrative Science обслуживал десятки постоянных СМИ, в том числе:

для CreditSuisse поставляет финансовые отчёты,

для Forbes анализирует квартальную отчётность биржевых корпорации и, опираясь на этот анализ, выдаёт полноценные прогнозы (см. здесь)..

Narrative Science составляет заметки о финансовых отчётах корпораций для журнала «Forbes»

В январе 2014 компания Narrative Science стала партнёром некоммерческой организации ProPublica, поддерживающей независимые журналистские расследования, с целью создания новостного приложения.
Ларри Бёрнбаум (соучредитель Narrative Science):

в скором времени появятся боты, которые будут самостоятельно решать, как писать статьи и какой аудитории их предлагать.

вполне возможны алгоритмы, способные найти компромисс между краткостью и содержательностью, оперативностью и аналитичностью.

Автогенерация журналистских текстов

Los Angeles Times использует программу QuakeBot для написания заметок о землетрясениях.
Через три минуты после землетрясения в Калифорнии заметка об этом появилась на сайте газеты «Лос-Анджелес таймс». Текст содержит все основные сведения: когда произошло землетрясение, какой силы, где ощущалось. Последняя фраза: «Сообщение создано алгоритмом».

Earthquake aftershock: 2.7 quake strikes near Westwood

March 17, 2014, 7:53 a.m.
A shallow magnitude 2.7 earthquake aftershock was reported Monday morning four miles from Westwood, according to the U.S. Geological Survey. The temblor occurred at 7:23 a.m. Pacific time at a depth of 4.3 miles.
A magnitude 4.4 earthquake was reported at 6.25 a.m. and was felt over a large swath of Southern California.
According to the USGS, the epicenter of the aftershock was five miles from Beverly Hills, six miles from Santa Monica and six miles from West Hollywood.
FULL COVERAGE: Southern California earthquakes
In the last 10 days, there has been one earthquake of magnitude 3.0 or greater centered nearby.
This information comes from the USGS Earthquake Notification Service and this post was created by an algorithm written by the author.

У газеты Los Angeles Times есть и другие проекты использования автогенерации новостных текстов :

проект Mapping LA, в котором боты сравнивают статистику по районам Лос-Анджелеса,

проект автоматического создания сообщений по мотивам криминальной хроники на сайте The Homicide Report

Роботы-журналисты: где и как их используют?

Automated Insights (http://automatedinsights.com/) из Северной Каролины создаёт роборепортёров, изучающих данные в поисках любопытных тенденций. Компания специализируется на новостях, которые могут быть интересны очень маленькой аудитории - любителям фэнтези-футбола или специалистам, нуждающимся в оперативной веб-статистике.

За 2013 год боты этого производителя создали 300 000 000 заметок.

Директор Automated Insights Робби Аллен:

журналисты хотят писать тексты, которые прочтёт очень много людей. А заметки для маленькой аудитории пусть достаются роботам, тем более что количество датчиков в мире постоянно растёт (лайфлогинг, считывание параметров окружающей среды и мн. др.), и сажать за анализ, который в лучшем случае понадобится двум-трём узким спецам, человека - дело неблагодарное.

А если не видно разницы?

25.03.2014

Эксперты торговой группы Interactive Advertising Bureau выяснили, что примерно 36% всего рекламного web-трафика в мире является подделкой. В 2014 году совокупные затраты американских компаний на рекламу в Сети должны вырасти на 17%, до $50 млрд. У маркетологов нет единого мнения о путях выхода из сложившейся ситуации. Консерваторы рынка предлагают сократить долю интернет-рекламы. Более прогрессивные специалисты предлагают разрабатывать инструменты для отслеживания мошеннического трафика и эффективной борьбы с ним.

Если живому журналисту за работу в американском средней руки издании выплачивают $200-500, то себестоимость компьютерного «труда» Narrative Science: $10 за заметку в 500 слов! На заметку уходит в среднем 15 секунд.

В издании Journalism Practice опубликованы результаты исследования, которое показало, что небольшая группа читателей не смогла с уверенностью разобраться, кто написал спортивную заметку - человек или бот. Роботексты сочтёны заслуживающим доверия, информативными и немного скучными, как и положено рапортам об очередном состязании.

The future of journalism just got a little more robotic

By Aaron Sankin on March 05, 2014

A recent study by a pair of Oxford professors estimated that nearly half of all workers in the United States could eventually lose their jobs due to automation. While journalists have been faced with round after round of layoffs in recent years as a result of the Internet’s decimation of newspapers’ traditional business models, the fear that robots might take their jobs probably isn’t even on most reporters’ radar.

But maybe it should be.

According to a study published late last month in Journalism Practice, journalists might want to start looking over their shoulders for the algorithmic cub reporters that are eventually going to take their beats.

The goal of the study, titled ‟Enter the Robot Journalist,” was to determine whether readers are able to differentiate between news content created by a software program and content written by a flesh-and-blood journalist. Study author Dr. Christer Clerwall of Sweden's Karlstad University gave a group of students in an undergraduate web production course two articles recapping the same NFL football game.

The first article was produced by a piece of software called Automated Insights:

robot journalism study

The second was written by a human working for the Los Angeles Times (although this article was shortened in order to match the length of the one written by the computer program):

robot journalism study

Clerwall writes of test subjects' feedback: ‟[T]he software-generated content … [was] perceived as, for example, descriptive, boring and objective, but not necessarily discernible from content written by journalists.”

The students said that they found the article written by the computer significantly more informative and trustworthy than the one written the journalist; however, they noted that it was far less pleasant to read.

‟Perhaps the most interesting result in the study is that there are [almost] no … significant differences in how the two texts are perceived by the respondents,” Clerwall wrote. ‟The lack of difference may be seen as an indicator that the software is doing a good job, or it may indicate that the journalist is doing a poor job – or perhaps both are doing a good (or poor) job?”

The scope of this study was relatively small—only a single article and, at that, the type of article that can be assembled relatively easily by combining pieces of data produced in all football games. Automating the creation of a New Yorker think piece or an in-depth profile of an up-and-coming political figure is likely a far more difficult task for a computer program to do convincingly.

While Clerwall explains that switching out real, live journalists for automated ones could allow news organizations to save money (by employing fewer journalists), he insists the prevalence of automated articles could actually help reporters do better work in the long run. ‟How automated content may influence journalism and the practice of journalism is a quite open question,” Clerwall writes. ‟An optimistic view would be that automated content will free resources that will allow reporters to focus on more qualified assignments, leaving the descriptive ‛recaps’ to the software.”

A number of companies looking to automate journalism have popped up in recent years. The most high-profile is the Chicago-based Narrative Science, which functions as a platform that media outlets can use to automate reporting. According to an article about Narrative Science in the Atlantic, some of the company’s biggest clients are Forbes, which uses the platform to automatically create profiles of well-performing companies based on earnings and stock market data, and the Big Ten Network, which does post-game wrap-ups drawn from scores and player statistics.

The real question, however, should be rest in the mind of the consumer. In the next article you read, you may have a creeping suspicion that it was written by a robot. What about the one you’re reading right now? Was it written by a human being?

Научная мистификация

Мистификация Сокала — шутка, разыгранная специалистом по математической физике Аланом Сокалом (Alan David Sokal).
Профессор физики Алан Сокал из Нью-Йоркского университета в конце 1994 года написал сатирическую статью под названием «Преступая границы: К вопросу о трансформативной герменевтике квантовой гравитации» («Transgressing the Boundaries: Towards a Transformative Hermeneutics of Quantum Gravity»). Статья представляла собой пародию на современные философские междисциплинарные исследования и была лишена какого-либо физического смысла. Сокал послал статью в журнал «Social Text», который опубликовал её в специальном выпуске, посвящённом научным войнам.
Мистификация была раскрыта самим Сокалом в статье в майском номере другого журнала, «Lingua Franca», в которой он объяснил, что его статья в «Social Text» была «обильно приправлена полной чепухой» и, по его мнению, была опубликована только потому, что хорошо выглядела и льстила «идеологическим предубеждениям» редакторов.
http://ru.wikipedia.org/wiki/Мистификация_Сокала

Исследование Пенникука

Гордон Пенникук (Gordon Pennycook, аспирант из канадского Университета Ватерлоо предложил студентам (300 человек), оценить «глубину» высказываний по шкале от 1 (нет глубокого смысла) до 5 (очень глубокий смысл).

Среди высказываний были созданные генераторами бессмыслицы:

Wisdomofchopra.com (конструирует бессмысленные, но грамматически правильные фразы используя слова из афоризмов Дипака Чопры (Deepak Chopra, ам. автора а книг по нетрадиционной медицине).

Sebpearce.com/bullshit - оперирует иным набором ключевых слов....

Результаты эксперимента Гордона Пенникука:

Автобессмыслица (например: «Воображение лежит в рамках экспоненциального пространства-времени событий») получила среднюю оценку в 2,6 балла (студенты сочли ее достаточно глубокой, а 25% участников очень глубокой).

Настоящие афоризмы с сайта Чопры (например: «Природа — это саморегулирующаяся система сознания») получили такую же оценку, как фразы, созданные генератором.

Разумные положения, которые были сформулированы простым понятным языком («вода точит камень не силой, а частотой падения») студенты признали менее глубокими по смыслу, чем мутные лишенные смысла фразы!

Участники эксперимента Пенникука были протестированы на познавательные способности:

Самыми доверчивыми (назвавшими бессмысленные высказывания глубокими) были люди с менее высоким уровнем интеллекта, не обладающие развитым аналитическим мышлением и умением различать онтологические категории.

Менее доверчивыми оказались скептические и рациональные люди с более высоким интеллектуальным уровнем.

Работа Пенникука не лишена упрощений:

Само использование интернет-генератора совершенно не гарантирует, что полученные фразы лишены смысла. «Наука говорит нам сегодня, что суть природы — радость». Это полученная при помощи генератора фраза понятна, осмыслена и ошибочна.

живой язык требует контекста, его невозможно свести к фразам, построенным по принципу формальной логики. Что является бессмыслицей, а что нет, нельзя оценить по вырванным из контекста примерам.

Работ Гордона Пенникука и др.: On the reception and detection of pseudo-profound bullshit

Гарри Франкфурт (Harry Gordon Frankfurt, проф. фил. Принстонского университета):

bullshit — это высказывание, созданное без малейшей цели сделать его правдивым. Его главная задача — не передать информацию, а произвести на адресата впечатление.

kmp рекомендует:

Гарри Гордон Франкфурт О брехне. Логико-философское исследование
http://flibusta.is/b/353096/read

SCIgen: автогнерация псевдонаучных текстов

SCIgen (http://pdos.csail.mit.edu/scigen/) — созданная (в 2005 году) в MIT компьютерная программа «автоматического генерирования тезисов для научных конференций, подозреваемых в низком цензе приёма».

Созданные с помощью SCIgen «статьи» были приняты к публикации:

на конференцию WMSCI (первая статья «Rooter: A Methodology for the Typical Unification of Access Points and Redundancy»). Авторы рассказали о мистификации на своём сайте и WMSCI лишилась финансирования IEEE.

на конференцию IPSI-BG.

на конференцию International Symposium of Interactive Media Design.

журналом Applied Mathematics and Computation (студент из Ирана под псевдонимом Мосалла Нежад подал такую статью, где её приняли, но успели изъять до печати после объяснения, что это была мистификация.

16.06.2009 Научный журнал Open Information Science Journal принял к публикации бессмысленную статью, написанную компьютерной программой SCIgen и присланную студентом Корнеллского университета Филипом Дэвисом (Philip Davis) и исполнительным директором издания The New England Journal of Medicine Кентом Андерсоном (Kent Anderson).

Из статьи:
В этой главе мы обсуждаем существующие исследования в красно-черных деревьях, вакуумных трубах, учебном программном обеспечении. В аналогичном записи, последняя работа Такагаши предполагает методологии для обеспечения укрепления модальностей, но не предлагает, как это осуществить.

Компьютерная статья "Деконструкция точек доступа" (Deconstructing Access Points) была подписана псевдонимами, а название мнимого места работы авторов содержало в себе подсказку для редактора - Center for Research in Applied Phrenology (Центр исследований в прикладной френологии), сокращенно CRAP ("чепуха"). Статья послана в журнал в январе 2009, а 3.06.2009 года Дэвис и Андерсон получили уведомление, что она принята к публикации – авторам предлагалось уплатить $800. Статью отозвали и сделали эту историю достоянием общественности.

Главный редактор журнала The Open Information Science Journal Бамбан Параманто (Bambang Parmanto) в результате инцидента с псевдонаучной статьей намерен подать в отставку.

25.02.2014

Сирил Лаббе (Cyril Labbé) из университета Гренобля (Франция) в апреле 2010 года он с помощью SCIgen сгенерировал 102 фальшивые статьи и опубликовал их от имени вымышленного автора Айка Анткаре (Ike Antkare). Публикации попали в базу Google Scholar, а индекс цитирования h-index для Анткаре вскоре вырос до 94 баллов, что сделало виртуального персонажа на тот момент 21-м по цитируемости учёным в мире.
После этого Лаббе разработал автоматический сканер документов и профессионально исследует сборники публикаций крупнейших научных издательств на предмет «фальшивых» научных статей, составленных при помощи SCIgen.

Немецкий Springer и американская IEEE удалили более 120 псевдонаучных статей от SCIgen за 2008-2013 годы.

Mathgen

03.08.2012

Вымышленный профессор Marcie Rathke из несуществующего Университета Южной Северной Дакоты отправил в научный журнал Advances in Pure Mathematics, один из многих журналов издательства Scientific Research Publishing статью «Независимые, отрицательные, канонические стрелы Тьюринга в уравнениях и задачах прикладной формальной PDE» (pdf).

Статья сопровождалась интригующей аннотацией: «Пусть ρ = A. Возможно ли расширить область изоморфизма? Мы показываем, что D′ является стохастически ортогональным и тривиально-аффинным соответствием. В [10], основным результатом стала конструкция множества Кардано, функции Эрдёша, Вейля, что может пролить важный свет на гипотезу Конвея-Д’Аламбера».
И аннотация, и весь текст, и список литературы в этой «научной статье» были сгенерированы программой Mathgen, которую написал математик Натан Элдридж (Nate Eldredge). Статью в итоге приняли для публикации.

История Кристофа Бартнека

23.10.2016

Бессмысленная академическая публикация по ядерной физике написанная только с помощью клавиатурных подсказок iOS была принята на научно-практической конференции

Кристоф Бартнек (доцент HITLab в Кентерберийском университете в Новой Зеландии):

Я получил письмо с приглашением представить его доклад в Международной конференции по атомной и ядерной физике в США в ноябре.

Так как у меня практически нет знаний по ядерной физике я обратился к клавиатурным подсказкам на iOS, чтобы помочь мне написать статью.

Я начинал предложения с „Атомный“ или „Ядерный“, а затем случайным образом нажимал на автозаполнение предложения

Текст действительно не имеет никакого смысла

Пример из абстрактного предложения (перевод):

Атом лучшей вселенной будет иметь право на такой же, как вы, как мы должны будем быть прекрасным местом для большого времени, чтобы наслаждаться днем вы замечательный человек к вашему прекрасному времени, чтобы весело и принять большое время и наслаждаться великим днем вы будете приятно проводить время для ваших родителей и детей

Подробнее в блоге Кристофа Бартнека.

С точки зрения банальной эрудиции

классический пример авто-псевдо-зауми

С точки зрения банальной эрyдиции каждый индивидyyм, критически мотивирyющий абстракцию, не может игнорировать критерии yтопического сyбьективизма, концептyально интерпретирyя общепринятые дефанизирyющие поляризаторы, поэтомy консенсyс, достигнyтый диалектической материальной классификацией всеобщих мотиваций в парадогматических связях предикатов, решает проблемy yсовершенствования формирyющих геотрансплантационных квазипyзлистатов всех кинетически кореллирyющих аспектов. Исходя из этого, мы пришли к выводy, что каждый произвольно выбранный предикативно абсорбирyющий обьект рациональной мистической индyкции можно дискретно детерминировать с аппликацией ситyационной парадигмы коммyникативно-фyнкционального типа при наличии детекторно-архаического дистрибyтивного образа в Гилбертовом конвергенционном пространстве, однако при параллельном колаборационном анализе спектрографичеких множеств, изоморфно релятивных к мyльтиполосным гиперболическим параболоидам, интерпретирyющим антропоцентрический многочлен Нео-Лагранжа, возникает позиционный сигнификатизм гентильной теории психоанализа, в резyльтате чего надо принять во внимание следyющее: посколькy не только эзотерический, но и экзистенциальный апперцепционированный энтрополог антецедентно пассивизированный высокоматериальной сyбстанцией, обладает призматической идиосинхрацией, но так как валентностный фактор отрицателен, то и, соответственно, антагонистический дискредитизм деградирyет в эксгибиционном направлении, посколькy, находясь в препyбертатном состоянии, практически каждый сyбьект, меланхолически осознавая эмбриональнyю клаyсторофобию, может экстраполировать любой процесс интеграции и дифференциации в обоих направлениях, отсюда следyет, что в резyльтате синхронизации, ограниченной минимально допyстимой интерполяцией образа, все методы конвергенционной концепции требyют практически традиционных трансформаций неоколониализма. Неоколонии, размножающиеся почкованием, имеют вегетационный период от трех до восьми фенотипических гомозигот, но все они являются лишь фyндаментальным базисом социогенетической надстройки криогенно-креативного процесса геронтологизации. Увеличить этот базис можно с помощью гектаплазменного yскорителя биоинертных коллоидных клеток контагиозной конкретизации, однако введение конкретизации влечет за собой применение методов теории множеств и дистрибyтивного анализа, что обyсловлено тем, что трансцендентальная поликонденсация нероноспоры в перплексном хаосе может инбабyлировать комплексный морфоз только тогда, когда конститyент доминанты квазитенденциально yниверсален, и происходит довольно внезапно. Очевидно, что все вышесказанное проливает свет на теорию предикативных ощyщений сyбьекта, абсолютно нефyнкциональных в yсловиях абстрактного хаоса.

О честности, по отношению к себе

Российский рецензируемый "Журнал научных публикаций аспирантов и докторантов", рекомендованный Высшей аттестационной комиссией (ВАК) для публикации материалов к защите научных диссертаций, опубликовал статью, написанную компьютерной программой и содержащую бессмысленный текст.

Статью послал Михаил Гельфанд (доктор биологических наук, замдиректора по научным вопросам Института проблем передачи информации РАН) для проверки качества работы редакций научных журналов.

Он взял текст, созданный на английском языке компьютерной программой-генератором псевдонаучных текстов SCIgen.

Затем этот текст был переведен на русский язык с помощью компьютерной программы-переводчика и отослан в "Журнал научных публикаций аспирантов и докторантов".

После некоторых правок литературного характера журнал опубликовал статью несуществующего ученого Михаила Жукова под названием "Корчеватель: алгоритм типичной унификации точек доступа и избыточности".

Рецензия рукописи научной статьи:

"Корчеватель: Алгоритм типичной унификации точек доступа и избыточности", Жуков Михаил Сергеевич

Актуальность работы: высокая
Выбор объекта исследования: правильный
Определение задач и целей работы: логичное
Новизна научного материала: отличная
Степень разработанности темы: достаточная
Структурированность работы: хорошая
Методическая ценность: отличная
Стиль изложения: неудовлетворительный
Практическая эффективность: отличная
Источниковедческая база работы: отличная
Замечания рецензента: Рукопись статьи произвела на меня двоякое впечатление, с одной стороны, следует признать, что материал собран методически грамотно, в работе присутствует новаторство и новизна. С другой стороны, автор статьи, видимо, недостаточно хорошо знаком с правилами по подготовке научных статей в печать. По тексту рукописи я могу отметить множество стилистических и редакционных недочетов, а то и погрешностей, которые создали у меня впечатление какой-то незавершенности работы.
Заключение рецензента: Статья может быть напечатана в журнале после ее редактирования

Корчеватель (фрагменты статьи)

Полный текст статьи «Корчеватель: алгоритм типичной унификации точек доступа и избыточности» опубликован на сайте «Журнала научных публикаций аспирантов и докторантов» (www.jurnal.org/articles/2008/art.php?art=radio14.htm *).

IV. РЕЗУЛЬТАТЫ

Описанный в этом разделе метод оценки может быть полезен сам по себе. Суммарная оценка позволяет доказать три гипотезы: (1) что можно регулировать время поиска конструкции; (2) что фон-неймановские машины больше не влияют на производительность; и, наконец, (3), что персональный компьютер IBM-Junior прошлого (2007) года фактически проявляет лучшую энергию, чем аппаратные средства этого (2008) года. Тем самым, этот раздел проливает свет на развитие компьютера UNIVAC в работах Хартманиса [Hartmanis, 1997, Ullman et al., 1998].

A. Конфигурация аппаратного оборудования и программного oбеспечения

Для понимания происхождения приводимых результатов следует знать использованную конфигурацию сетей. Было проведено развертывание на сети перекрытия NSA планетарного масштаба для изучения взаимно широкомасштабного поведения исчерпывающих прототипов. Во-первых, эффективное пространство оптического диска мобильных телефонов было разделено пополам для лучшей оценки средней латентности использованных компьютеров типа desktop. Это противоречит общепринятым подходам, но оказалось полезным в данном исследовании. В результате удалось сократить вдвое отношение "сигнал–шум" для мобильных телефонов. Во-вторых, скорость кассетного лентопротяжного устройства испытательного полигона с 1000 узлами DARPA была утроена. В-третьих, пространство ОЗУ вставленного испытательного полигона для доказательства коллективно надежного поведения слабо насыщенных топологически шумных модальностей было утроено, а скорость оптического диска масштабируемого кластера – удвоена. Наконец, была уменьшена вдвое производительность эффективного жесткого диска мобильных телефонов Intel.

Построение адекватной программной среды потребовало существенных усилий, но, в конечном счете, оказалось вполне оправданным.

Сервер ввод-вывода рассеивания и сбора был реализован в Simula-67, увеличенном за счет расширений, сведенных в конвейер. Вычислительные эксперименты показали, что автоматизация параллельных 5.25" гибких дисковых накопителей более эффективна, чем их автопорождение, в противоречие с результатами ряда предшествующих исследований [Фейгенбаум и др., 1929; Streiter et al., 1999; Lamport et al., 2002]. Одной из причин этого может быть то, что другие исследователи не смогли обеспечить эту функциональность.

B. Экспериментальные результаты

Были ли оправданы большие усилия, которые потребовавшиеся в данной реализации? По-видимому, да. Было проведено четыре новых опыта: (1) метод был протестирован на настольных компьютерах, причем особое внимание обращалось на ключевую производительность USB; (2) проведено сравнение производительности в операционных системах Микрософт Windows Longhorn, Ultrix и Микрософт Windows 2000; (3) 64 PDF 11 были развернуты по всей сети Интернета и проверена чувствительность к эффекту «византийского дефекта» (4) выполнено 18 попыток с имитируемой рабочей нагрузкой WHOIS и результаты сравнены с имитацией обучающего программного обеспечения.

Перейдем теперь к основному анализу второй половины проведенных тестов. Кривая на рисунке 4 должна выглядеть знакомой; она лучше известна как gij(n) = n. Следует обратить внимание, на то, что развертывание 16-разрядной архитектуры, скорее, чем эмуляция ее в программном обеспечении, приводит к менее зубчатым и более воспроизводимым результатам. Следует иметь в виду, что рисунок 6 показывает среднюю ожидаемую сложность, а не среднюю исчерпывающую сложность. Рассмотрим теперь тесты (3) и (4), описанные выше и показанные на рисунке 4. Точность результатов в этой фазе исследования оказалась приятной неожиданностью. Далее, кривая на рисунке 3 также уже известна как Н'(n) = n. В этом аспекте многие разрывы в графах указывают на размер заглушенного блока, введенного при нашем усовершенствовании аппаратных средств. Наконец, рассмотрим опыты (1) и (3). Многие разрывы в графах указывают на продублированную среднюю ширину полосы частот, введенную при усовершенствовании аппаратных средств. В соответствии с этим кривая на рисунке 3 приближается функцией F*(n) = log 1.32т. Наконец, данные на рисунке 6, показывают, что на этот проект были израсходованы четыре года тяжелой работы.

БЛАГОДАРНОСТИ

Я благодарен профессору М.С.Гельфанду, привлекшему мое внимание к проблеме публикации случайных текстов, д.ф.-м.н. Б.Е.Штерну за внимание к работе, Дж.Стриблингу за использование текста, порожденного SciGen, и к.филол.н. Л.Л.Иомдину за использование системы «Этап-3». Эта работа была частично поддержана ООО «Тровант».

ЛИТЕРАТУРА

2. Жуков М.С., Петухов В.В., Гельфанд М.С. Некоторые вопросы проблемы генерации случайных текстов. Препринт ИИП РАН № 137 (2007).
3. Фейгенбаум Е.Е., Финкельштейн А.С., Файнциммер И.А. Некоторые подходы к решению алгорифмических задач. Доклады АН СССР 12 (1929), 121–117.
4. Сато М., Судзуки К., Оно Х. Нитиэй кикай хонъяку сисутэму Thalia-3. Мицубиси дэнки гихо 60 (1986) No. 3, с. 37-40.
7. Bose T. Deconstructing public-private key pair with DewyProser. In Proceedings of the Workshop on Atomic and Permutable Methodologies (Sept. 1999).
10. Gayson M. The impact of distributed symmetries on machine learning. Journal of Extensible Methodologies 6 (Aug. 2000), 1–13.
13. Hoare C. Moore’s Law considered harmful. Journal of Lossless Models 17 (Jan. 1999), 1–14.
27. Zhukov M.S., Stribling J., Softporn K., Li Y. A study of 32 bit architectures that made developing and possibly evaluating object-oriented languages a reality with Eburin. Journal of Introspective Archetypes 1 (May 2005), 75–89.

Предварительный итог....

17.10.2008 решением президиума Высшей аттестационной комиссии Министерства образования и науки Российской Федерации журнал «Журнал научных публикаций аспирантов и докторантов» был исключён из Перечня ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание учёных степеней доктора и кандидата наук..
Журнал закрыт, проблема осталась...

О подтасовках в научных результатах

26.06.2008
Студенты и аспиранты Бирмингемского университета заказывают выполнение своих заданий по программированию, в том числе и диссертаций, аутсорсерам из Индии. Бирмингемские студенты находили индийских программистов при помощи Google, либо размещали объявление с заданием на одном из популярных ресурсов. После выбирался разработчик, запросивший наименьшую сумму за выполнение задания. По данным университетского руководства, выполнение рядового задания аутсорсерами обходится студентам в сумму от $10. За выполнение диссертации индийские программисты просят $200. C 2004 года обнаружено более 1000 человек, воспользовавшихся услугами аутсорсеров.
02.06.2009
Социологи выяснили, что почти 72% исследователей хотя раз видели, как коллеги используют некорректные методы исследований. 1,75% ученых признавались, что хотя бы раз фальсифицировали данные в рамках своей научной работы, а более 30% призналось в прочих нарушениях. 14% участников опроса замечали случаи фальсификации данных у коллег, а 72% видели прочие нарушения. Авторы работы отмечают, что большее доверие вызывает именно вторая часть статистики, поскольку они полагают, что на вопросы о себе многие исследователи отвечали зачастую не совсем честно.
http://www.plosone.org/article/info:doi/10.1371/journal.pone.0005738

kmp рекомендует: Бен Голдакр Обман в науке, Эксмо, Москва, 2010

На многих примерах показывается, каким образом нелепые измышления проникают в общественное сознание в виде «достоверных научных фактов»; как бизнес, спонсирующий исследования, манипулирует результатами и контролирует общество, навязывая ему через СМИ страхи и нелепые пред рассудки; как работает психология толпы, как люди теряют природный здравый смысл — и становятся одержимыми чушью: диетами, пищевыми добавками, детоксом и гомеопатией. Наука — которой поклонялись в XIX, да и в XX веке — превратилась в пародию на саму себя.

07.02.2016

Ученые предупреждают: научных исследований публикуется так много, что невозможно за ними следить. Качество научных работ падает: только 50% социологических и психологических исследований можно воспроизвести, а в десятках статей в научных журналов экспертная оценка сфабрикована.

Кто Вы, доктор Шепиль?

05.12.2008 В Самаре осудили доктора наук Олега Шепиля, который, как оказалось, совсем не доктор.
Олег Шепиль, используя поддельные дипломы кандидата и доктора юридических наук, в течение 5 лет успешно работал на кафедрах самарских ВУЗов. Его работой были полностью довольны:

студенты;

коллегги;

администрация ВУЗов.

Олегу Шепелю инкриминировано хищение бюджетных средств в особо крупном размере. В виде зарплаты он получил больше 2 000 000 рублей. Суд приговорил мошенника к пяти с половиной годам условно. И исправительным работам по месту жительства (уж не профессором ли?).

Александр Нижегородцев (сотрудник подразделения общественных связей УФСБ России по Самарской области): Учитывая то, что ряд ВУЗов является государственными учреждениями, задействованными в реализации нацпроекта образование, а также осуществляющими подготовку специалистов для предприятий оборонного комплекса России и будущих сотрудников правоохранительных органов, то данная деятельность Шепиля Олега Михайловича нанесла ущерб интересам Российской Федерации.

08.12.2009 Согласно La Croix: 500 000 поддельных дипломов продается (от 240 до 675 евро) в России ежегодно. около 100 000 поддельных дипломов ежегодно выпускается самими работниками вузов с официальными печатями и внесением в университетский реестр (стоит от 13 500 до 33 800 евро).

Информациологические определения

Информация - это генерализационно-единые самоотношения, конформные самоотображения и соотношения всех вакуумных, материзованных и дематеризованных точек, микрочастиц, атомов, организмов, состояний и объектов всего пространства Вселенной.
Информациология - наука об отношениях и корреляции в микро- и макроструктурах информациогенно-вакуумного и материзованного пространства Вселенной, является генерализационным и наиболее крупным естественно-научным и чрезвычайно многогранным глобально-космическим обобщением XX века.

Разоблачить Шекспира

12.10.2009 С помощью антиплагиаторской компьютерной программы Pl@giarism удалось решить проблему авторства пьесы Эдуард_III, которую приписывали Уильяму Шекспиру.
Сэр Брайан Викерс (главный шекспировед Института английской филологии Лондонского университета): Сравнение фраз из драмы, полное название которой — The Reign of King Edward III («Правление короля Эдуарда III»), и ранних шекспировских работ позволяет с уверенностью констатировать, что Шекспир создал пьесу в соавторстве с Томасом Кидом, популярным драматургом того времени.
Проф. Брайан Викерс пользовался программой Pl@giarism, разработанной в Университете Маастрихта (Нидерланды) для определения скрытых цитат в студенческих сочинениях.
Драма «Эдуард III» опубликована в 1596 году, когда Уильяму Шекспиру было 32 года. Авторство Шекспира оспаривалось на протяжении полутора веков, пока в 1997 году пьеса не была включена в оксфордское полное собрание сочинений.

Как известно, у любого писателя есть характерные (не обязательно уникальные) выражения, которые формируют его стиль. В каждом тексте, авторство которого доподлинно известно, всегда найдется до 20 совпадений с текстами других писателей, что естественно, поскольку многие выражения являются общеупотребительными. В «Эдуарде III» обнаружено 200 совпадений с ранними работами Шекспира и столько же — с драмами Кида. Брайан Викерс подсчитал, что 40% драмы принадлежат Шекспиру, остальное — Томасу Киду.

Скачать Pl@giarism можно здесь: http://people.few.eur.nl/span/Plagiarism/PlagiarismSetup.zip

Сможет ли нейронная сеть писать как Лев Толстой?

22.11.2017
см. здесь

Sverker Johansson

09.02.2016

Сверкер Юханссон - физик, писатель, языковед, программист, википедист, профессор университета Йёнчёпинга. Исследует происхождение языков, биолингвистику и «третий фактор» Ноама Хомского. В 2005 году опубликовал книгу «Constraints on hypotheses. Converging evidence in language and communication research» (рецензирована в лингвистических журналах и в «American Scientist»)

Сверкер Юханссон - самый плодовитый автор Википедии - с помощью бота «Lsjbot» написал более 2 700 000 статей о биологических видах и населённых пунктах стран мира. Tреть его статей загружено на шведском языке, а остальные — на двух филиппинских (себуанский и варайский языки).

09.02.2016 Лидеры языковых разделов (по числу статей) Википедии:

Английский

Шведский

Себуанск

Нидерландский

Французский

Русский

Варайский

В создании Википедии принимает участие несколько сотен ботов управляемых несколькими десятками ботовладельцев.

См. подробнее о ботах Википедии:

https://ru.wikipedia.org/wiki/Википедия:Бот

https://ru.wikipedia.org/wiki/Категория:Википедия:Боты

https://ru.wikipedia.org/wiki/Служебная:Список_участников/bot

Бот-юрист

В Великобритании власти собирают автомобильных штрафов примерно на миллиард долларов в год, в эквиваленте.

18-летний британский IT-студент Джошуа Броудер (Joshua Browder) в августе 2015 года открыл сайт donotpay.co.uk, который помогает автовладельцам автоматически составить и отправить апелляцию на полученную квитанцию о штрафе.

Самостоятельно люди не могут этим заниматься, потому что процедура для многих сложная, а услуги юристов превышают размер штрафа.

На сайте люди указывают некоторую информацию о себе и выбирают одну из 12 причин, по которой они оспаривают штраф. Вся процедура занимает 30 секунд.

За полгода сайтом воспользовались 86 000 человек, и почти 40% апелляций были успешными. Бот-юрист помог вернуть штрафов более чем на 2 миллиона фунтов ($3 млн).

29.06.2016

За 21 месяц сервис DoNotPay помог составить 250 000 апелляций и успешно оспорил 160 000 штрафов за парковку в Лондоне и Нью-Йорке, добившись отмены штрафов на сумму в $4 000 000. Он работает абсолютно бесплатно, демонстрируя пользу чат-ботов.

29.12.2016

Сбербанк России разработал и запустил подобного DoNotPay робота-юриста.
Зампред Сбербанка Вадим Кулик:

Порядка 3-х тысяч рабочих мест мы будем только по этой специальности высвобождать в 2017 году. Сотрудники пройдут программу переобучения для работы в других подразделениях банка. В том же случае, если переобучится у сотрудника не получится, он будет уволен.

JSDuck

JSDuck — генератор документации кода.
Документирование является неотъемлемой частью хорошего кода и проекта в целом.
Хорошие разработчики тратят много времени на поддержку документации, но в дальнейшем это окупается с лихвой: экономит время на поддержке кода, его расширении и исправлении багов, позволяет сократить время на погружение в проект новых разработчиков и т.д.
Генератор JSDuck изначально создавался для Sencha и позволяет распознавать синтаксис ExtJS.
Приложения, созданные на ExtJS, по умолчанию поддерживаютавтоматическое создание документации.
Генератор может JSDuck быть использован для любого кода.
Подробная документация находится на сайте проекта JSDuck (https://github.com/senchalabs/jsduck/wiki).
Сгенерированная документация выглядит точно так же как официальная документация ExtJS.
*****
ExtJS (Sencha ExtJS) — фреймворк JavaScript для разработки веб-приложений и пользовательских интерфейсов. Поддерживает технологию AJAX, анимацию, работу с DOM, реализацию таблиц, вкладок, обработку событий и все остальные новшества Web 2.0.
Фреймворк (англ. framework — каркас, структура) — структура программной системы; программное обеспечение, облегчающее разработку и объединение разных компонентов большого программного проекта.

kmp