Количество информации

 

 

 

Норберт Винер: Как количество информации в системе есть мера организованности системы, точно также энтропия системы есть мера дезорганизованности системы.

Бил Гейтс: Измерять продуктивность программирования подсчетом строк кода — это так же,  как оценивать постройку самолета по его весу (Bill Gates)

Thomas Stearns Eliot (1888-1965)

Where is the knowledge, which is lost in information?
Where is the wisdom, that is lost in knowledge?

Томас Стернз Элиот (Нобелевская премия по литературе, 1948).

Где знания, которые мы растеряли в информации.
Где мудрость, которую мы утратили в знаниях
?

 

 

 

Информационный объем

 

Техническое количество информации определяется различно в различных областях:

  • в количествах книг, страниц, знаков,

  • метрах кинопленки,

  • тоннах архивных материалов,

  • мегабайтах оперативной памяти компьютера и т.д.

Проще всего оценить техническое количество информации по тому, сколько необходимо места для ее хранения, выбрав какой-нибудь единый способ представления и хранения информации.

С развитием компьютеров таким единым способом стало кодирование информации с помощью цифр 1 и 0.

Количество позиций (называемых двоичными), в которых находятся только цифры 1 или 0, необходимое для прямой записи сообщения, является одним из критериев количества информации и называется информационным объемом, измеряемым  в битах.

Бит - основная единица измерения информации.

В технике возможны два исхода, которые кодируются следующим образом: цифрой один "1" - "да", "включено", "ток идет" ... цифрой ноль "0" - "нет", "выключено", "ток не идет". Цифры 1 и 0 являются символами простейшей знаковой системы исчисления.

 

В каждом знаке или символе двоичной системы исчисления содержится один бит информации.

Особое значение для измерения объемов символьной информации имеет специальная единица - байт. 1 байт = 8 битов, что соответствует восьми разрядам двоичного числа. понятием количества информации, как важности полученных сведений, но оно с успехом используется в вычислительной технике и связи.

 

Один двоичный разряд определяет единицу количества информации (в технике) - бит.

Восемь бит составляют байт (В).

Килобайт (КВ) это 100 байт или 1024 байта (приблизительно 1000 байт).

Мегабайт (МВ) - 210 килобайт. Гигабайт - 210МВ.

  • Страница неформатированного текста ~ 2 КВ (2000 знаков, каждый из которых кодируется одним байтом - восьмиразрядным двоичным числом);

  • Секунда несжатой звукозаписи ~ 700 КВ

  • Полноэкранное статическое изображение ~ 1 МВ.

  • Секунда несжатого видео ~ 75 МВ.

 

 

 

 

Интернет-время

 

Интернет-время (Swatch Internet Time) — альтернативная система измерения времени, предложенная швейцарской часовой компанией Swatch.

Концепция интернет-времени базируется на том, что сутки поделены на 1000 «.бито́в» (англ. .beat, .удар; не путать с битом, англ. bit, в информатике), каждый из которых длится 1 минуту и 26,4 секунды.

Символ интернет-времени — @. Таким образом, начало суток — 00:00:00 — обозначается @000, а конец суток — 23:59:59 — @999.

По всей планете интернет-сутки будут начинаться в одно и то же время.

За точку отсчёта принят меридиан швейцарского города Биль, в котором находится штаб-квартира компании Swatch. По словам создателей концепции, интернет-время не заменяет, а дополняет обычное время, которое меняется по часовым поясам, а отсчитывается по Гринвичу.

Таким образом будет стандартизовано время работы в Интернете и возможно будет, например, проводить интернет-конференции или организовывать встречи друзей в Сети с меньшими сложностями.

В большинстве операционных систем GNU/Linux изначально присутствует поддержка показа интернет-времени на рабочем столе.

 

 

 

 

Ужасное заблуждение

 

Ошибочно считается, что "бит" - наименьшее количество информации.

Это не так!

 

 

 

Собственная информация

 

Собственная информация — статистическая функция дискретной случайной величины (сама является случайной величиной, которую следует отличать от её среднего значения —информационной энтропии).

Для случайной величины X, имеющей конечное число значений:

        

собственная информация определяется как:

Единицы измерения информации зависят от основания логарифма. В случае логарифма с основанием 2 единицей измерения является бит, если используется натуральный логарифм — то нат, если десятичный — то хартли.

 

Основание
логарифма

Единица
измерения

Количество информации
о падении монеты «орлом» вверх

2

бит

− log2(1 / 2) = log22 = 1 бит

e

нат

   ната

10

хартли

  хартли

 

 

 

 

 

Информационная энтропия

 

онятие энтропии, как меры случайности, введено Клодом Шенноном в его статье «A Mathematical Theory of Communication»в 1948 году, когда исследуя проблему рациональной передачи информации через зашумленный коммуникационный канал он предложил революционный вероятностный подход к пониманию коммуникаций и заложил основы теории информации и теории кодирования.

Шеннон предположил, что прирост информации равен утраченной неопределенности, и задал требования к ее измерению:

  • мера должна быть непрерывной (изменение значения величины вероятности на малую величину должно вызывать малое результирующее изменение функции);

  • в случае, когда все варианты равновероятны, увеличение количества вариантов должно всегда увеличивать значение функции;

  • должна быть возможность сделать выбор в два шага, в которых значение функции конечного результата должно являться суммой функций промежуточных результатов.

Шеннон показал, что единственная функция, удовлетворяющая этим требованиям - энтропия, имеет вид:

  

где K — константа (и в действительности нужна только для выбора единиц измерения).

Шеннон определил, что измерение энтропии (H = − p1 log2 p1 − … − pn log2 pn), применяемое к источнику информации, может определить требования к минимальной пропускной способности канала, требуемой для надежной передачи информации в виде закодированных двоичных чисел.

Мера энтропии Шеннона выражает неуверенность реализации случайной переменной.

Энтропия является разницей между информацией, содержащейся в сообщении, и той частью информации, которая точно известна (предсказуема) в сообщении.

 

 

 

 

Другие заблуждения

 

Ошибочно считается, что:

  • обычные правила для получения кратных единиц измерения величин не действуют в информационных технологиях;

  • при использовании приставок надо всегда умножать основную величину не на степень числа 10, а на степень числа 2. Обозначения «килобит» и «Кбит» означают одну и ту же величину, которая составляет 1024 бит (2 в 10-й степени).

Это не так!

 

 

 

 

Кратные единицы измерения информации

 

Международная система единиц измерения величин СИ (Systeme International) устанавливает специальные приставки для получения кратных и дольных единиц измерения в науке и технике.

Эти приставки имеют полные наименования и сокращенные обозначения и позволяют умножать значение основной единицы на определенную степень числа 10.

 

Название

Сокращение

Значение

кило

К

103 - 1000

мега

М

106 = 1 000 000

гига

Г

109 = 1 000 000 000

тера

Т

1012 = 1 000 000 000 000

пета

П

1015 - 1 000 000 000 000 000

 

Ни в одной области науки и техники эти приставки не могут иметь другие значения.

В соответствии с международным стандартом единицы «бит» и «байт» применяют с приставками СИ!.

Двоичные приставки получили свои собственные названия и обозначения.

От приставки СИ берутся две первые буквы и к ним добавляется слог «би» (от  «binary» («двоичный»):

 

Название

Сокращение

Значение

киби

Ки

210 = 1024

меби

Ми

220 = 1 048 576

гиги

Ги

230 = 1 073 741 824

тери

Ти

240 = 1 099 511 627 776

пети

Пи

260 = 1 152 921 504 606 846 976

 

 

 

 

Кратные единицы измерения информации

 

 

 

 

Объемы цифровой информации

 

2 Кбайт

машинописная страница текста без форматирования

100 Кбайт

фотография с низким разрешением

1 Мбайт

небольшой роман или один флоппи-диск

2 Мбайт

фотография с высоким разрешением

5 Мбайт

собрание работ Шекспира

10 Мбайт

минута аудиозаписи высокого качества

1 Гбайт

грузовик книг

20 Гбайт

запись всех сочинений Бетховена

100 Гбайт

библиотечное собрание всех академических  журналов

1 Тбайт

объем жесткого диска персонального компьютера

10 Тбайт

печатные материалы библиотеки Конгресса США

400 Тбайт

база данных Национального климатического центра США

2 Пбайт

печатные материалы всех библиотек США

200 Пбайт

все когда-либо напечатанные материалы

2 Эбайт

общее количество данных, произведенное в 1999 году

5 Эбайт

количество слов, высказанное человечеством за все время его существования

 

 

 

 

Объем информации в жизни человекак

 

12.04.2021  Сколько информации за жизнь воспринимает человек

  • 4,4 Пбайт по версии трехтомника «Физиология человека»;

  • 394,2 Пбайт по версии книги «Наглядная физиология».

1 Пбайт = 1 000 000 000 000 000 (миллиард миллионов) байт

 

 

 

Информационный потоп

 

Информационная емкость цивилизаций (по Д.Робертсону):

  • переход от предъязыка к языку (109 бит);

  • возникновение письменности (1011 бит);

  • изобретение книгопечатания (1017 бит);

  • компьютеры и компьютерные сети (1025 бит).

15.12.2008 По данным IDC, в 2006 году человечеством создано 161 000 000 000 ГБ (161 экзабайт) цифровой информации. Это эквивалентно 12 стопкам книг высотой от Земли до Солнца и в 3 млн. раз больше объема информации, содержащейся в книгах, написанных за весь период существования человечества.

03.12.2017 По данным IBM, человечество генерирует 2,5 квинтиллиона байт в день. Порядка 90% всей информации было сгенерировано за прошедшие 2-3 года

 

 

 

Генерация данных в M2M

 

09.03.2013

Следующий рубеж «больших данных»

обеспечат уже не люди, а машины:

  • интернет вещей, следящих за реальным миром при помощи датчиков

    , встроенных в промышленное оборудование, транспорт, бытовую технику и мобильные устройства
  • M2M (межмашинное взаимодействие)

По оценке Oracle, количество «умных машин» к 2020 году достигнет 50 миллиардов.

По оценке  ABI Research к 2018 году рынок аналитических средств для работы с технологиями M2M, вырастет в семь с половиной раз и достигнет $14,3 млрд. Такую оценку даёт фирмав исследовании, опубликованном около месяца назад. 

Каждая деталь современного самолёта содержит датчики. За час набегает 20 терабайт телеметрии только с одного двигателя, а их обычно не меньше двух. Сокращение расхода топлива гражданскими самолётами США на 1% за год экономит $2 млрд.

Алгоритмы машинного обучения при достаточном объёме доступных данных начинают отличать особенности нормальной работы техники и немедленно выделяют в них аномалии, которые могут сигнализировать о дефектах и неисправностях, — и делать это задолго до того, как их обнаружат (или НЕ обнаружат) традиционными методами.

Крупнейшая американская железнодорожная компания Union Pacific Railroad оснастила датчиками каждый вагон, стрелки и даже сами пути. Телеметрическую информацию собирают термометры, акустические и визуальные датчики, установленные под вагонами, а также в тормозах, подшипниках и электромоторах.

То же самое начинают делать на заводах.

В статье о том, как анализ данных изменяет города, упоминались датчики, которые следят за состоянием водопроводных труб, — ещё одно приложение той же идеи.

Компания Sensity Systems представила «умные» фонарные столбы со встроенными датчиками влажности, освещённости, радиации, качества воздуха, ветра, температуры, сейсмической активности, а также микрофонами и камерами. Например, «умные» фонари могут мгновенно докладывать в правоохранительные органы о шуме, напоминающем звук выстрелов. Сопоставление информации, поступающей с разных столбов, позволит аппроксимировать координаты источника звука, а камеры — проверить, что там произошло. Это небывало плотная сеть метеостанций.

Самообучающиеся термостаты Nest от создателя плеера iPod Тони Фэделла мониторят всё, что происходит в доме, при помощи датчиков температуры и движения, размещённых в разных комнатах, и сверяют их показания с прогнозом погоды, загруженным из интернета, и журналом изменения настроек. Они обучаются понимать, когда и что нужно делать, не дожидаясь подсказок от своих пользователей. Например, термостат сам снижает энергопотребление, когда в доме никого не остаётся, но автоматически включается перед тем, когда, по его расчётам, вернутся хозяева, чтобы заранее довести температуру до уровня, который они обычно предпочитают в это время.

То, что устройства становятся «умными», радует далеко не всех. Термостат, который изучает привычки своих пользователей, — это удобно, но в то же время немного пугает. Не слишком ли много он знает? Подобные опасения считаются одним из важных факторов, сдерживающих рост популярности «интернета вещей». 

Мартин Поллок (представитель Siemens Energy):

  • Мы обладаем технологией, которая позволяет записывать энергопотребление дома каждую минуту, секунду или микросекунду более или менее в реальном времени. На основании этого мы можем определить, сколько в доме человек, чем они заняты, в какой части строения находятся, есть ли у них собака, узнать время, когда они просыпаются и когда принимают душ: это огромное количество информации, которая считается частной. 

 

 

 

Статистически...

 

05.12.2009 По данным University of Southern California:

  • средний американец потребляет около 34 гигабайт информационного контента в день.

  • все домохозяйства США вместе потребили в 2008 году 3,6 зеттабайт.

  • на потребление информации разного рода у американцев в среднем уходит 11,8 часов в день.

  • на просмотр ТВ – в среднем, каждый американец тратит 4,5 часов в день. На компьютер –  2 часа в день.

12.02.2011 По данным University of Southern California

  • Объем всей информации, накопленной человечеством к 2007 году на всех цифровых и аналоговых носителях, составил 295 экзабайт

  • В 2002 году объем информации на цифровых носителях превысил ее объем на аналоговых 2000 году 75% информации содержались на аналоговых носителях, к 2007 году почти 94% - «в цифре»).

  • В 2007 году 1,9 зеттабайт (число с 21 нулем), или же 1,9 квадрильонов мегабайт информации было разослано посредством телевидения и GPS. Посредством сотовых телефонов - 65 экзабайт информации.

  • В 2007 году все компьютеры мира рассчитывали 6,4 х 1018 операций в секунду (порядок числа нервных импульсов в мозге одного человека).

  • Скорость информационного роста экспотенциальна и намного превышает все другие величины.

Мартин Гильберт (руководитель исследования): Сто лет назад большинству людей приходилось прочитать всего лишь 50 книг за всю жизнь ... Сейчас это кажется смешным, но человеческий мозг очень пластичен и он хорошо усваивает и обрабатывает информацию, даже если ее очень много. В 1986 году мы ежедневно получали столько информации, сколько бы поместилось в 40 газетах, к 2007 году этот объем значительно увеличился. Теперь каждый день человек получает информацию, которая бы поместилась в 174 многостраничных печатных изданиях. Сегодня у каждого человека дома хранится количество данных, эквивалентное примерно 600 тыс. книг

 

 

 

 

Вместе с тем

 

21.10.2009 Всего 15 минут пребывания в сенсорной депривации (при полном отсутствии внешних раздражителей) достаточно для того, чтобы у людей начались галлюцинации из-за отсутствия поступления привычного уровня информации в человеческий мозг.

Отчет в Journal of Nervous and Mental Disease.

 

 

 

 

Семантическое количество информации

 

Добрушин Л.Н.: Столь общий многообразный объект как информация, не может допускать единого метода численного измерения, а идеи Шеннона обоснованы лишь в применении к той важной, но все же ограниченной ситуации, когда рассматриваются оптимальные методы кодирования и декодирования информации в целях ее передачи по каналам связи или ее хранения

 

Семантическое количество информации определяется содержательностью и смысловой глубиной информационного сообщения для адресата.

 

Семантическое количество информации информационному объему.

Всего несколько слов могут нести огромное семантическое количество информации.

Тысячи страниц текста могут быть семантически пустыми (бессодержательными).

Повсеместное непонимание таких простых вещей - является кошмаром наших дней!

Семантическое количество информации - показатель взаимодействия ее носителя с "читателем".

Пример:

Kmp уже привык, что ежегодные научные результаты формально оцениваются  количеством страниц печатных работ и количеством знаков (с пробелами!) электронных публикаций.

Но нет предела совершенству!

В 2008 году электронные публикации оценивались уже в килобайтах.

Ирония в том, что одна и та же статья  занимала:

  • 23 KB - в формате HTML (Web-страница);

  • 62 KB - в формате OOXML (MS Word 2007) ;

  • 80 KB  - в формате .doc (MS Word 2003).

Таким образом, конвертируя статью из HTML в .doc, Концевой мог бы более чем "утроить свои научные достижения".

Одно обидно: такой подход ведет к измерению научных результатов в килограммах (как макулатуры)