IA-kmp

Internet Archive

Основанный в качестве некоммерческой организации в 1996 году Internet Archive (http://archive.org/index.php) собирает информационный контент (копии веб-страниц, графические материалы, видео-, аудиозаписи, программное обеспечение), обеспечивает архивирование и долгосрочное хранение собранного материала и свободный (бесплатный и открытый) доступ к своим базам данных для пользователей Интернета.

Декларируемой целью Internet Archive является сохранение культурно-исторических ценностей цивилизации в эпоху интернет-технологий.

Аккумулируемые Internet Archive собрания фильмов, аудио, текстов и программного обеспечения, являются общественным достоянием или защищены лицензией Creative Commons.

С 2007 г. Internet Archive имеет юридический статус библиотеки.

Сервера Internet Archive расположены в Сан-Франциско, зеркала серверов дублируют их в Новой Александрийской библиотеке и Амстердаме.

Практически все отдельные проекты в структуре Internet Archive могут быть востребованы в журналистском источниковедении, но в первую очередь:

Open Library
WayBack Machine.

Общественный проект Open Library (http://openlibrary.org/) по сканированию всего мирового книжного фонда (one web page for every book ever published. It's a lofty but achievable goal.) осуществляется в рамках Internet Archive c октября 2005 г. На февраль 2013 года библиотека содержит в открытом доступе около 2 миллионов книг, в каталог библиотеки занесено больше 22 миллионов изданий (включая изображения и документы в формате PDF). В 13 центрах оцифровки крупнейших библиотек мира сканируется около 1000 книг в день.

Проект WayBack Machine (http://archive.org/web/web.php) предназначен для того, чтобы запечатлеть и сохранить с возможной полнотой историю становления и развития Интернета посредством архивирования его информационных ресурсов.

WayBack Machine запушен в конце 1996 года, и с тех пор пользователи Интернета получили возможность просматривать не только его актуальные ресурсы, но и те, которые уже давно прекратили свое существование на всех иных сетевых площадках.

Например, по данным на 14 февраля 2013 года WayBack Machine были заархивированы и находились в свободном доступе следующие сетевые ресурсы:

газета «Звязда» (http://www.zvyazda.minsk.by/ru/main/) 79 раз (с 23 декабря 2010 года по 16 января 2013 года);
газета «Беларусь сегодня» (http://www.sb.by) 396 раз (с 2 марта 2001 года по 3 февраля 2013 года);
учебная интернет-газета студентов специальности «Журналистика (веб-журналистика)» Института журналистики Белорусского государственного университета (http://www.websmi.by/) 28 раз (с 25 марта 2009 года по 11 января 2013 года);
региональная газета «Вечерний Брест» (http://www.vb.by/) 278 раз (с 9 октября 2002 года по 26 января 2013 года);
официальный сайт Института журналистики Белорусского государственного университета (http://www.journ.bsu.by) 49 раз (с 30 апреля 2007 года по 21 января 2013 года).

Доступ к статистике, календарной и графической визуализациям выборки и непосредственно к самим ресурсам осуществляется с помощью собственной поисковой системы WayBack Machine.

Необходимость в ней обусловлена тем, что WayBack Machine является самым масштабным хранилищем общедоступных ресурсов в Интернете и на февраль 2013 года его программные роботы регулярно архивируют веб-ресурсы с более чем 240 000 000 000 URL-адресов.

Общий объем архива составляет более 5 петабайт данных.

Эта база данных запрашивается более 1000 раз в секунду более чем 500.000 человеками в день, что позволило archive.org стать двести пятидесятым по популярности веб-сайтом.

Для безопасного хранения и обработки информации объемом более 1 петабайта сотрудниками IA специально разработана программно-техническая платформа PetaBox.

Сейчас используется уже четвертая версия PetaBox, спецификации транспортного контейнера которой таковы, что позволят сохранить всю библиотеку конгресса США 55 раз.

Для научного исследования в области истории журналистики особое значение имеет аналитический инструментарий IA, который создавался в парадигме Big Data (Больших данных) – серии подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов (volume) и значительного многообразия (variety) для быстрого (velocity) получения человеко-читаемых результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети.

Так, с его помощью можно установить, что:

в 1996 году средняя страница интернет-СМИ имела вес 15 КB и представляла собой статический текст с небольшим числом гиперссылок и одним графическим изображением.
в феврале 2013 года, для выборки популярных 300 000 сайтов, средняя страница имела вес 1280 КB, состояла из 88 ресурсов (графика, css, js), использовала данные более чем из 30 сторонних сайтов.

Каждый из этих показателей неуклонно растет в течение нескольких последних лет.

В образовательном контексте работа с Internet Archive является фактором формирования журналистской ответственности в условиях, когда все сделанное тобою становится легкодоступным для всех и навсегда.