kmp-NLP

Big Data (BD)

Big data: термин

Термин Big data (Большие данные) в 2008 году ввёл Клиффорд Линч (редактор Nature) в 2008 году в спецвыпуске журнала, посвящённом взрывному росту объёмов данных. К Big data тогда (в 2008, Карл!) был отнесен любой массив неоднородных данных растущий свыше 150 Гб в сутки.

Уже тогда Большие данные рассматривались не только в отношении их объёма, но также скорости роста этого объема и неоднородности (разнообразия)

Предмет Big Data – методы выживания в ситуации быстрого роста и изменения огромных объемов разнообразных данных

Задача Big Data – справиться с огромной скоростью, с которой данные создаются, и анализировать их в режиме реального времени.

Данные: оценки объема и скорости роста

По оценкам:

в 2005 году мир оперировал 5 эксабайт данных (5 миллиардов гигабайт),

в 2020 – 50 000 эксабайт...

глобальные данные удваиваются за 2 года?

Data Age 2025 (к 2025 году объем данных составит 163 зеттабайт)

https://ru.wikipedia.org/wiki/Системы_наименования_чисел

Что значит много?

https://ru.wikipedia.org/wiki/Большие_числа

https://googology.fandom.com/wiki/Googology_Wiki

Формулы Big data

Гиганский объем данных только малая часть проблемы Big Data.

Последовательно разработаны формулы определения Big Data на основе их базовых (определяющих) характеристик.

3V (три V):

Volume — объём данных (и методы обработки данных больших объемов)

Velocity — скорость прироста (и методы скоростной обработки данных для получения результатов).

Variety — разнообразие (и методы одновременной обработки различных типов данных).

5V (пять V):

Volume — объём данных (и методы обработки данных больших объемов)

Velocity — скорость прироста (и методы скоростной обработки данных для получения результатов).

Variety — разнообразие (и методы одновременной обработки различных типов данных).

Veracity — достоверность (методы фильтрации значимых данных, отсеивания мусорных данных и «шума»)

Value — ценность (методы оценки полезности собранных и обработанных данных, их способности дать ответы на поставленные вопросы)

7V (семь V):

Volume — объём данных (и методы обработки данных больших объемов)

Velocity — скорость прироста (и методы скоростной обработки данных для получения результатов).

Variety — разнообразие (и методы одновременной обработки различных типов данных).

Veracity — достоверность (методы фильтрации значимых данных, отсеивания мусорных данных и «шума»)

Value — ценность (методы оценки полезности собранных и обработанных данных, их способности дать ответы на поставленные вопросы)

Variability — изменчивость (методы обработки непрерывно обновляемых данных)

Visualization — визуализация (методы представления данных в удобных для восприятия и понимания форматах)

Все характеристики Big Data тесной взаимосвязаны, системно меняются и переосмысливаются.

Что такое Big data пока не очень понятно (тем, кто понимает!)...
Понятие Big data в стадии активного формирования и основные открытия впереди

Big data едва-едва (плохо) справляются со своими задачами, но справляются (хоть как)

7V в повседневных практиках

И создаем и изменяем вещи,—
А эти вещи изменяют нас
Михаил Дудин

24.11.2021 Треть работников российских компаний проверяют соцсети на работе каждую свободную минуту

Большие данные среди нас: тест на проверку знаний 11 вопросов

..........................

ETL и ELT

ETL (Extract, Transform, Load — извлечение, преобразование, загрузка) — процесс управления хранилищами данных.

ETL включает :

извлечение данных из внешних источников;

трансформация и очистка данных;

загрузка данных в хранилище данных.

Структура ETL:

источник данных (структурированные данные (табличные или разделенные символами-разделителями);

промежуточная область (временные вспомогательные таблицы для организации процесса выгрузки);

получатель данных (хранилище извлечённых иорганизованных данных).

Поток данных — перемещение данных от источника к получателю.

ETL — инструмент (и процесс) переноса данных и подготовки данных к анализу.

ETL работает с хранилищами данных.

ETL + DWH = система обработки корпоративной информации и ее хранения.

ELT (Extract, Load, Transform) — инструмент (и процесс) это процесс извлечения, загрузки и преобразования данных.

В ELT нет промежуточного размещения данных (используется хранилище данных).

ELT работает с озерами данных.

ETL + Data Lake = система обработки корпоративной информации и ее хранения.

ЗаETLье или Особенности рыбалки в Озере данных
https://habr.com/ru/company/X5Group/blog/595387/

Разбираемся, что такое ETL, на примере парсера текстового файла
https://issoft.by/blog/razbiraemsya-chto-takoe-etl-na-primere-par/

Data warehouse

Data warehouse (DWH ) — хранилище всех нужных и важных для принятия решений данных компании, отдельная от оперативной системы обработки данных.

DWH хранит:

разнообразные разноаспектные данные разных подразделений и разнородных источников.

не только актуальные, но архивные данные и агрегированные значения.

DWH пополняется данными из рабочих баз данных.

Данные для DWH редварительно обрабатываются и загружаются в хранилище в ходе процессов извлечения, преобразования и загрузки, называемых ETL.

DWH необходима для BI — business intelligence (бизнес-аналитики) — это процесса анализа данных для принятия решений.

В DWH все нужное для BI в готовом виде и легкодоступно.

DWH + ETL = система хранения и обработки корпоративной информации.

Big data: источники

Основные источники Big data:

показания считывающих устройств – измерительные устройства, метеорологические приборы, датчики сотовой связи и другие.

например, самолеты ежегодно генерируют с датчиков двигателей 2,5 млрд ТБ непрерывно обновляемых данных
Большие данные в мире гражданской авиации

интернет вещей

интернет – блоги, соцсети, сайты, СМИ и различные форумы;

например, ежеминутно в мире выполняется почти 2,5 миллиона запросов к поисковой системе Google.

корпоративную информация – архивы, транзакции, базы данных предприятий и организаций, медицины

научные проекты (эксперименты и наблюдения)

Объем данных на БАК (Большом адронном коллайдере), так огромно, что с ним не справляется даже огромный дата-центр CERN и вынуждено используются память и вычислительные ресурсы в странах — участницах СERN (в т.ч. России).

Synthetic data

Синтетические данные — программно сгенерированные данные.

Синтетические данные используются преимущественно в машинном обучении.

Синтетические данные дают возможность обучать модели для проектов в тех областях, где

еще нет достаточного объема необходимых данных

доступ к данным затруднен (чувствительные персональные данные, финансовая информация...).

По оценкам Gartner, к 2022 году 40% моделей МО будут натренированы на синтетических наборах данных.

Основные методы генерации синтетических наборов данных:

генерация случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных (без учета всего спектра возможных случаев полученная с помощью такого набора модель может давать непредсказуемые результаты).

аугментация (augmentation) — генерация наборов на основе имеющихся данных к которым применяются различные способы искажения (геометрические преобразования, искажения цвета, кадрирование, повороты, добавление шума, добавление объектов с усреднёнными значениями, смешивание с объектами из другого распределения и др.).

генерация искусственным интеллектом (AI).Модель ИИ обучается на исходных данных, чтобы узнать все характеристики, взаимосвязи и статистические закономерности. После этого этот алгоритм ИИ может генерировать совершенно новые точки данных и моделировать эти новые точки данных таким образом, чтобы воспроизводить характеристики, взаимосвязи и статистические закономерности из исходного набора данных. Вместо того, чтобы изучать и определять соответствующие правила (как в случае сгенерированных на основе правил синтетических данных), алгоритм ИИ делает это автоматически. Здесь будут охвачены не только характеристики, взаимосвязи и статистические закономерности, о которых вы знаете, но также характеристики, отношения и статистические закономерности, о которых вы даже не подозреваете.

Типы синтетических данных.

Фиктивные данные - это данные, сгенерированные случайным образом (например, генератором случайного шума). Эти данные не являются репрезентативными ни в какой форме по сравнению с исходными данными.

Созданные на основе правил синтетические данные - это синтетические данные, созданные с помощью заранее определенного набора правил. Здесь необходимо заранее определить любые характеристики, отношения и статистические шаблоны, которые вы хотели бы воспроизвести в сгенерированных на основе правил синтетических данных.

Синтетические данные, генерируемые искусственным интеллектом (ИИ).

Преимущества использования синтетических данных:

повышение доступности больших объёмов данных.

возможность генерации наборов данных практически любого размера.

известность параметров генерации (а значит, и генеральной совокупности), что позволяет сравнить оценки модели и истинные параметры, и исходя из этого судить о качестве полученных выборочных оценок параметров.

ускорение и удешевление процесса разработки: не нужно ждать, пока будет собран и размечен достаточный объём реальных данных.

Ограничения:

отсутствие универсального способа генерации, применимого для любых задач: в каждом конкретном случае необходимо дополнительное исследование требований, накладываемых на генерируемые данные.

отсутствие универсальных метрик качества и применимости генерируемых данных.

ибыточная «стерильность» получаемых данных: в общем случае неизвестно, какими могут быть выбросы в реальных данных.

Распространённым подходом является обучение на большом наборе синтетических данных, а затем дообучение на небольшом наборе имеющихся реальных данных.

Иногда при обучении реальные данные не используются вовсе.

Примеры использования синтетических данных::

при обучении алгоритмов управления автономным транспортом. Эти алгоритмы решают две задачи: сначала выявляют окружающие объекты — машины, дорожные знаки, пешеходов, а затем принимают решение о направлении и скорости дальнейшего движения. При реализации таких алгоритмов наиболее важно поведение транспортного средства в критических ситуациях, таких как помехи на дороге или некорректные показания сенсоров — от этого могут зависеть жизни людей. В реальных данных же, наоборот, в основном присутствуют штатные ситуации.

в алгоритмах восстановления изображений. Для работы таких алгоритмов исходный набор изображений расширяется их копиями, к которым применяются некие преобразования из фиксированного набора. На основе полученных изображений генерируется набор, в котором входными данными считаются полученные изображения, а целевыми — исходные. Получить реальные данные для такой задачи — фотографию и её же искажённую копию — довольно затруднительно, а применение таких преобразований довольно легко автоматизируется.

для создания алгоритмов реидентификации — определения, действительно ли на двух изображениях один и тот же человек. В этом случае реальные данные собрать довольно сложно, потому что требуется найти много фотографий одних и тех же людей в разных позах, с разных ракурсов и в разной одежде.

Data Lake

Data Lake (озеро данных) — хранилище огромного объема данных в их оригинальном формате (сырых данных), пока они не понадобятся.

Озеро хранит данные в сложных для распознавания или вообще не читаемых подавляющим большинством сотрудников форматах (неструктурированном, полуструктурированном).

Для запросов к озеру требуется подход schema-on-read (мы принимаем и храним все данные, и рассуждаем об их структуре только в момент чтения для конкретной задачи).

Хранилище данных подразумевает нечто более обработанное, упакованное и готовое к применению.

Хранилище данных состоит из структурированных в виде баз данных, которые доступны приложениям и сотрудникам.

Источники данных в озере данных включают все данные организации. К ним относятся:

структурированные данные реляционных баз, п

олуструктурированные данные (CSV, файлы журналов и др.),

данные в форматах XML и JSON, неструктурированные данные (э-письма, документы, PDF-файлы и др.),

двоичные данные (изображения, аудио и видео).

С точки зрения протокола хранения это означает, что озеру нужно хранить данные, которые возникли в файловом, блочном и объектном хранилищах.

Объектное хранилище — общепринятый протокол для озера данных и открывает доступ не к самим данным, а к заголовкам метаданных. Последние описывают данные, их можно прикрепить к чему угодно, от базы данных до фотографии.

Объектное хранилище очень хорошо подходит для хранения больших объемов данных в неструктурированном виде. С ним нельзя работать, как с базой данных в блочном хранилище, но оно позволяет хранить несколько типов объектов в большой плоской структуре и знать, что там находится.

Data Swamp

Data Swamp (болото данных) — бесполезное (и поглощающее ресурсы) хранилище данных неясного происхождения, релевантности, пригодности для аналитики.

Наполняемое огромными объемами неконтролируемых данных data lake может заболачиваться (превращаться в болото данных).

Data Swamp (болото данных) — разрушенное и неуправляемое озеро данных, труднодоступных для предполагаемых пользователей.

Все, что с ним можно сделать, — полностью стереть и начать собирать данные заново.

Без четкой модели данных (типов структур данных и методов их обработки)

Предотвращает заболачивание управления данными — data governance.

Data governance — определение достоверности и качества данных до загрузки в data lake:

фильтрацией источников с заведомо недостоверными данными;

ограничением прав доступа на загрузку;

фильтрацией загружаемых данных по избранным метрикам (например, не пропускать в озеро картинки в десятки гигабайт).

Data Fabric

Текст (от лат. textus — ткань; сплетение, сочетание) - связная и полная последовательность символов.

Data Fabric (иногда? обычно?) неправильно переводят как «фабрику данных»

Data Fabric — ткань данных (цельная архитектура управления данными с полным и гибким доступом для работы с ними).

Data Fabric — автономная экосистема максимально эффективного доступа к (корпоративным) данным, которая позволяет эффективно искать, обрабатывать, структурировать и интегрировать данные.

Список Gartner: 12 стратегических технологических тенденций в 2022 году

1 место: Data Fabric

Хранение и управление данными стало сложнейшими инженерными задачами на фоне:

увеличение объёма данных

стремительного роста числа разрозненных хранилищ данных и приложений данных

несовместимости источников

сильных различий форматов данных

проблем масштабирования

Масштабируемость (scalability):

способность (системы, сети, службы) справляться с растущей нагрузкой при добавлении ресурсов (программных и аппаратных).

отношение прироста производительности системы к приросту используемых ресурсов.

Data Fabric — метод решения указанных проблем BD на основе:

использования машинного обучения на каждом шаге обработки данных

связь всех источников данных и потребителей сквозной интеграцией через API.

микро-сервисной архитектуры.

облачных решений,

оркестрирации и виртуализизации информационных потоков.

Data Fabric — службы и сервисы, которые облегчают обмен данными между платформами, обеспечивая безопасность легкого доступа к данным для каждой из групп пользователей:

данные становятся доступны независимо от места их хранения,

встроенная аналитика расширяет возможности использования данных,

масштабируемость архитектур (средств, систем и сервисов работы с данными).

Data Fabric реализуется в концепции DataOps.

DataOps

Data Fabric реализуется в концепции DataOps.

DataOps (DATA Operations) — концепция и набор практик непрерывной интеграции данных между процессами, командами и системами для повышения эффективности управления и взаимодействия за счет распределенного сбора, централизованной аналитики и гибкой политики доступа к данным с учетом их конфиденциальности, ограничений на использование и соблюдения целостности.

DataOps введена по аналогии с DevOps — DEVelopment Operations

Цель DevOps — быстрая и непрерывная поставка работающего программного обеспечения

Цель DataOps — оперативное и безбарьерное предоставление актуальных и рабочих данных каждому участнику процессов.

Это означает устранение когнитивных, временных и организационных разрывов между исследователями данных (data scientists), предметными аналитиками, разработчиками, руководителями и пользователями Big Data.

Big Data динамичны, поэтому нужны не только надежные и быстрые технологии их обработки, необходима гибкость прикладных и управляющих процессов, изменение корпоративной культуры, когда информация становится главной ценностью и основным средством осуществления деятельности.

Data Fabric, Data Lake, Data Mesh

Data Fabric - ĸонцепция распределенной работы с данными.

Data Lake - ĸонцепция централизации данных

Обе ĸонцепции могут споĸойно существовать вместе в одной организации.

Data Fabric - подход отказа от централизации данных и упорядочения доступа к ним пользователей на основе слоя виртуализации.
Data Fabric добавляет дополнительный технологичесĸий уровень поверх существующей инфраструĸтуры, ĸоторый занимается управлением метаданными и доступом ĸ данным.

Не надо сĸладывать данные в единое хранилище, надо просто ĸаждый источниĸ представить в виде унифицированного интерфейса ĸ данным, источниĸи ĸоторые можно использовать в совоĸупности. Именно наличие слоя визуализации данных, ĸоторые представляют данные в виде единой виртуальной витрины, является ĸлючевым в данной ĸонцепции.

Data Fabric борется с вариативностью данных, когда их централизация уже не эффеĸтивна (требуют много ресурсов).

Data Mesh похожа на Data Fabric, но не предполагает единого слоя “визуализации” витрины данных.
Data Fabric больше про технологии

Data Mesh больше про организационные подходы и ĸультуру работы с данными.

В Data Fabric в организации остается централизованная ĸоманда, ĸоторая отвечает за данные
В Data Mesh подразумевается распределенное владение данными.

Data Fabric — основы концепций и ключевые различия с Data Mesh и Data Lake

Big Data в образовании +

Оперирование большими данными (Big Data) в образовании - это технология аналитики образовательной системы, включающей измерение, сбор, анализ и представление структурированных и неструктурированных данных огромных объемов об обучающихся и образовательной среде с целью понимания особенностей функционирования и развития образовательной системы.

Исторически система образования накопила значительный объем данных. Вопрос о том, как доступно начать обрабатывать большой объем данных, снимется благодаря появлению и расширенному использованию информационно-коммуникационных технологий.

В сфере образования выделяются пять основных типов данных:

- персональные данные;

- данные о взаимодействии студентов с электронными системами обучения (электронными учебниками, онлайн-курсами);

- данные об эффективности учебных материалов;

- административные (общесистемные) данные;

- прогнозные данные.

Сегодня Big Data становится языком общения для образовательных организаций, которые стремятся улучшить свои стратегические и тактические технологии принятия решений.

в настоящее время развитие технологии Big Data в образовании описывается через множество подходов и моделей, что мешает систематическому накоплению данных о Big Data для развития системы образования.

Требование к Big Data по формуле 3V: большой объем, скорость обработки и разнообразие параметров.

Отдельными аспектами являются вопросы, связанные с достижением образовательных результатов. EDM (Educational Data Mining) описывается как средство повышения эффективности электронного обучения.

Все на «удаленку»: как улучшить качество обучения в цифровой среде
Как устроено цифровое образование, в чем его преимущества и как применять его с умом
https://postnauka.ru/longreads/156713

Ученик, директор, ученый: как используют данные из цифровой образовательной среды
Персональные образовательные траектории и глобальные исследования
https://postnauka.ru/longreads/156714

Алекс Пентленд Социальная физика [Как Большие данные помогают следить за нами и отбирают у нас частную жизнь]
http://flibusta.is/b/641177

Новые миры и большая наука: как используют игровые данные
Аналитика данных позволила сделать игры интересными для пользователей и прибыльными для разработчиков
https://postnauka.ru/longreads/156716

Большой игровой брат: big data в компьютерных играх
Терабайты данных игроков собираются, хранятся, используются — и меняют индустрию
https://postnauka.ru/longreads/156715

Big data: социальный заказ

Социальный заказ на АОТ - масштабы текста... Большие данные! Иначе не справиться!
АОТ не для того, чтобы заменить человека в традиционных сферах и областях...

Для новых областей и сфер... новых масштабов!
а уже потом.. они теснят его в старых.. системно меняя (и отменяя) старые ... в том числе по роли и значению в социуме...
Социальный заказ - общественная потребность (осознаваемая и нет).
Потребность — внутреннее состояние, характеризующее функциональную недостаточность чего-либо.
Фабрика данных? ложные друзья переводчика! Ткань данных!
.... текст ткань связанность + полнота (но полнота чего?)
не в тексте полнота, а в языке?
в тексте полнота! в любом! Но понимаемом нами иначе - не как фрагмент плоский и пустой, а как фрактал (в любой части текста (языка) содержится весьтекст (язык) ... в любом тексте весь язык... пусть и непроявленный для многих)
язык есть полнота полнота в языке в контексте перевод одной ткани в другую структура остается той же
Автоматическая обработка текста востребовано как решение много работы большого объёма текста
Сделать дорого, затраты окупаются тиражом
И тогда уже можно играться (делая все, что только можно сделать... паразитируя на труде накопленном)

Список Gartner: 12

Список Gartner: 12 стратегических технологических тенденций в 2022 году

Фабрика данных (Data Fabric)

Сеть кибербезопасности (Cybersecurity Mesh)

Вычисления, усиливающие защиту конфиденциальности данных (Privacy-Enhancing Computation, PEC)

Облачные платформы (Cloud-Native Platforms)

Составные приложения (Composable Applications)

Интеллект для принятия решений (Decision Intelligence)

Гиперавтоматизация (Hyperautomation)
Компании необходимо поддерживать целый слой процессов: наём, удержание людей, административные вопросы. Когда компании удаётся заменить человека автоматикой, весь этот слой процессов исчезает. Освобождаются ресурсы компании, ускоряется масштабирование.

Разработка искусственного интеллекта (AI Engineering)

Распределённые предприятия (Distributed Enterprises)

Совокупный опыт (Total Experience, TX)

Автономные системы (Autonomic Systems)
Автономные системы — это самоуправляемые физические или программные системы, которые учатся на своём окружении и динамически изменяют собственные алгоритмы в режиме реального времени. Они умеют оптимизировать производительность и защищаться от атак без вмешательства человека. В долгосрочной перспективе они станут обычным явлением в роботах, беспилотниках, производственных машинах и умных пространствах. Эти системы очень похожи биологическую среду. Системам будет достаточно увидеть данные, и они сами смогут извлекать оттуда паттерны.

Генеративный искусственный интеллект (Generative AI) — метод машинного обучения, при котором нейросети изучают контент или объекты, собирают данные и используют их для создания новых артефактов. Генеративный ИИ может создавать новые формы контента и ускорять циклы исследований и разработок. К 2025 году на генеративный ИИ будет приходиться 10% всех производимых данных. Сегодня менее 1%. Сейчас значительный интерес представляют задачи условной генерации в разных модальностях: например, сгенерировать картинку или видео по описанию. Если получится хорошо выучить это отображение, такая технология может стать источником вдохновения и полезным инструментом для производителей контента и дизайнеров в будущем. На данный момент одним из самых успешных подходов text-to-image является нейросеть DALL-E от OpenAI. Близость к тексту и разнообразие генерации уже поражают, с нетерпением жду новых работ в этой

Рекомендуемая литература

Big Data. Вся технология в одной книге - Андреас Вайгенд

Все лгут. Поисковики, Big Data и Интернет знают о вас всё [Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are] - Cет Cтивенс-Давидовиц

Big data простым языком [litres] - Алексей Благирев, Наталья Хапаева

Big Data. Вся технология в одной книге - Андреас Вайгенд

Индустрия счастья. Как Big Data и новые технологии помогают добавить эмоцию в товары и услуги - Уильям Дэвис

Индустрия счастья. Как Big Data и новые технологии помогают добавить эмоцию в товары и услуги - Уильям Дэвис

Искусство быть невидимым [Как сохранить приватность в эпоху Big Data] - Кевин Митник

Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики - Билл Фрэнкс

Теоретический минимум по Big Data [Всё что нужно знать о больших данных] - Анналин Ын, Кеннет Су

5 «самых-самых» СХД для ИИ
https://habr.com/ru/company/hpe/blog/586422/
Автор оригинала: Uli Plechschmidt

Быстрое проникновение ИИ в повседневную жизнь несет значительные изменения требований к системам хранения данных. Те хранилища, которых было достаточно для проверки концепций ИИ, не подходят для «боевых» инсталляций.

Данные — это фундамент для решений, в которых применяется искусственный интеллект (ИИ) и глубокое обучение (deep learning, DL). Чем больше объем обучающего набора данных (training dataset), тем лучше работают найденные с помощью графических ускорителей связи и тем выше точность получаемых предсказаний.