Big data:
термин
Термин
Big data
(Большие данные) в 2008 году
ввёл Клиффорд Линч
(редактор
Nature) в 2008 году
в спецвыпуске
журнала,
посвящённом взрывному росту объёмов данных.
К
Big data
тогда (в 2008, Карл!)
был отнесен любой массив неоднородных данных растущий свыше 150 Гб в
сутки.
Уже тогда
Большие данные рассматривались не только в отношении их объёма, но
также скорости роста этого объема и неоднородности (разнообразия)
Предмет
Big Data
– методы
выживания в ситуации быстрого роста и изменения огромных объемов
разнообразных данных
Задача Big Data
–
справиться с огромной скоростью, с
которой данные создаются, и анализировать их в режиме
реального времени.
|
Данные:
оценки объема и скорости роста
Формулы
Big data
Гиганский объем данных
только малая
часть проблемы Big Data.
Последовательно разработаны формулы
определения Big Data
на основе их базовых (определяющих) характеристик.
3V (три V):
-
Volume — объём
данных
(и методы обработки данных больших объемов)
-
Velocity —
скорость прироста (и методы скоростной обработки данных для
получения результатов).
-
Variety —
разнообразие (и методы одновременной обработки различных типов данных).
5V
(пять V):
-
Volume — объём
данных
(и методы обработки данных больших объемов)
-
Velocity —
скорость прироста (и методы скоростной обработки данных для
получения результатов).
-
Variety —
разнообразие (и методы одновременной обработки различных типов данных).
-
Veracity
—
достоверность
(методы фильтрации значимых данных, отсеивания мусорных
данных и «шума»)
-
Value
—
ценность
(методы
оценки полезности собранных и обработанных
данных,
их способности дать ответы на поставленные вопросы)
7V
(семь V):
-
Volume — объём
данных
(и методы обработки данных больших объемов)
-
Velocity —
скорость прироста (и методы скоростной обработки данных для
получения результатов).
-
Variety —
разнообразие (и методы одновременной обработки различных типов данных).
-
Veracity
—
достоверность
(методы фильтрации значимых данных, отсеивания мусорных
данных и «шума»)
-
Value
—
ценность
(методы
оценки полезности собранных и обработанных
данных,
их способности дать ответы на поставленные вопросы)
-
Variability
—
изменчивость (методы
обработки непрерывно обновляемых данных)
-
Visualization
—
визуализация
(методы
представления данных в удобных для восприятия и понимания
форматах)
Все характеристики
Big Data тесной
взаимосвязаны, системно меняются и переосмысливаются.
Что
такое
Big data пока не очень
понятно (тем, кто понимает!)...
Понятие Big data в стадии активного формирования и основные
открытия впереди
Big data
едва-едва (плохо) справляются со своими задачами, но справляются
(хоть как)
|
7V в
повседневных практиках
ETL и ELT
ETL
(Extract, Transform,
Load — извлечение, преобразование, загрузка) — процесс управления хранилищами данных.
ETL
включает :
-
извлечение данных из внешних источников;
-
трансформация и очистка
данных;
-
загрузка
данных в хранилище данных.
Структура ETL:
-
источник данных
(структурированные данные (табличные или разделенные
символами-разделителями);
-
промежуточная область
(временные вспомогательные таблицы для организации процесса выгрузки);
-
получатель данных
(хранилище извлечённых иорганизованных данных).
Поток данных
—
перемещение данных от источника к получателю.
ETL
—
инструмент
(и процесс) переноса данных и подготовки данных к анализу.
ETL работает с
хранилищами данных.
ETL + DWH
= система обработки корпоративной информации и ее хранения.
ELT
(Extract, Load,
Transform)
—
инструмент
(и процесс)
это процесс
извлечения, загрузки и преобразования данных.
В ELT нет промежуточного размещения данных (используется
хранилище данных).
ELT работает с озерами данных.
ETL +
Data Lake
= система обработки корпоративной информации и ее хранения.
|
Data
warehouse
Data warehouse (DWH )
— хранилище всех нужных и важных для принятия решений данных
компании, отдельная от оперативной системы обработки данных.
DWH хранит:
-
разнообразные
разноаспектные данные разных подразделений и разнородных
источников.
-
не только
актуальные, но архивные данные и агрегированные значения.
DWH пополняется
данными из рабочих баз данных.
Данные для DWH
редварительно обрабатываются и загружаются в хранилище в ходе
процессов извлечения, преобразования и загрузки, называемых ETL.
DWH необходима для
BI — business intelligence
(бизнес-аналитики) — это процесса анализа данных для принятия
решений.
В DWH все нужное для
BI в готовом виде и легкодоступно.
DWH
+
ETL
= система
хранения и обработки корпоративной информации.
|
Big data:
источники
Основные источники Big data:
-
показания считывающих устройств – измерительные устройства, метеорологические приборы,
датчики сотовой связи и другие.
-
интернет
вещей
-
интернет – блоги, соцсети, сайты, СМИ и различные форумы;
-
корпоративную информация – архивы, транзакции, базы данных
предприятий и организаций, медицины
-
научные проекты (эксперименты и наблюдения)
-
Объем данных на БАК (Большом
адронном коллайдере), так огромно, что с ним не
справляется даже огромный дата-центр CERN и вынуждено
используются память и вычислительные ресурсы в странах —
участницах СERN (в т.ч. России).
|
Synthetic data
Синтетические
данные — программно сгенерированные
данные.
Синтетические
данные
используются преимущественно в машинном
обучении.
Синтетические
данные
дают возможность обучать
модели для проектов в тех областях, где
-
еще нет
достаточного объема необходимых данных
-
доступ к
данным затруднен (чувствительные
персональные данные, финансовая информация...).
По оценкам Gartner, к 2022 году 40% моделей МО будут натренированы
на синтетических наборах данных.
Основные
методы генерации синтетических наборов данных:
-
генерация случайным образом на основе некой
статистической модели, которая учитывает законы распределения
реальных данных (без учета всего спектра
возможных случаев полученная с помощью такого набора модель может
давать непредсказуемые результаты).
-
аугментация (augmentation) — генерация
наборов на основе имеющихся данных к которым
применяются различные способы искажения (геометрические преобразования,
искажения цвета, кадрирование, повороты, добавление шума, добавление
объектов с усреднёнными значениями, смешивание с объектами
из другого распределения и др.).
-
генерация
искусственным интеллектом (AI).Модель
ИИ обучается на исходных данных, чтобы узнать все
характеристики, взаимосвязи и статистические закономерности.
После этого этот алгоритм ИИ может генерировать совершенно
новые точки данных и моделировать эти новые точки данных
таким образом, чтобы воспроизводить характеристики,
взаимосвязи и статистические закономерности из исходного
набора данных. Вместо того, чтобы изучать и определять
соответствующие правила (как в случае сгенерированных на
основе правил синтетических данных), алгоритм ИИ делает это
автоматически. Здесь будут охвачены не только
характеристики, взаимосвязи и статистические закономерности,
о которых вы знаете, но также характеристики, отношения и
статистические закономерности, о которых вы даже не
подозреваете.
Типы
синтетических данных.
-
Фиктивные данные - это данные,
сгенерированные случайным образом (например, генератором
случайного шума). Эти данные не
являются репрезентативными ни в какой форме по сравнению с
исходными данными.
-
Созданные на основе правил
синтетические данные - это синтетические данные, созданные с
помощью заранее определенного набора правил. Здесь необходимо
заранее определить любые характеристики, отношения и
статистические шаблоны, которые вы хотели бы воспроизвести в
сгенерированных на основе правил синтетических данных.
-
Синтетические данные, генерируемые
искусственным интеллектом (ИИ).
Преимущества использования синтетических данных:
-
повышение доступности больших объёмов данных.
-
возможность генерации наборов данных практически любого размера.
-
известность параметров генерации
(а значит, и генеральной
совокупности), что позволяет сравнить оценки модели и истинные параметры, и
исходя из этого судить о качестве полученных выборочных оценок
параметров.
-
ускорение и удешевление процесса разработки: не нужно ждать, пока
будет собран и размечен достаточный объём реальных данных.
Ограничения:
-
отсутствие универсального способа генерации, применимого для любых
задач: в каждом конкретном случае необходимо дополнительное
исследование требований, накладываемых на генерируемые данные.
-
отсутствие универсальных метрик качества и применимости генерируемых
данных.
-
ибыточная «стерильность» получаемых данных: в общем случае
неизвестно, какими могут быть выбросы в реальных данных.
Распространённым
подходом является обучение на большом наборе синтетических
данных, а затем дообучение на небольшом наборе имеющихся реальных
данных.
Иногда при
обучении реальные данные не используются вовсе.
Примеры
использования синтетических данных::
-
при обучении алгоритмов
управления автономным транспортом. Эти алгоритмы решают две
задачи: сначала выявляют окружающие объекты — машины,
дорожные знаки, пешеходов, а затем принимают решение о
направлении и скорости дальнейшего движения. При реализации
таких алгоритмов наиболее важно поведение транспортного
средства в критических ситуациях, таких как помехи на дороге
или некорректные показания сенсоров — от этого могут
зависеть жизни людей. В реальных данных же, наоборот, в
основном присутствуют штатные ситуации.
-
в алгоритмах
восстановления изображений. Для работы таких алгоритмов исходный
набор изображений расширяется их копиями, к которым применяются
некие преобразования из фиксированного набора. На основе полученных
изображений генерируется набор, в котором входными данными считаются
полученные изображения, а целевыми — исходные. Получить реальные
данные для такой задачи — фотографию и её же искажённую
копию — довольно затруднительно, а применение таких
преобразований довольно легко автоматизируется.
-
для создания алгоритмов реидентификации — определения, действительно
ли на двух изображениях один и тот же человек. В этом случае реальные данные
собрать довольно сложно, потому что требуется найти много фотографий
одних и тех же людей в разных позах, с разных ракурсов и в разной
одежде.
|
Data Lake
Data Lake (озеро
данных)
— хранилище огромного объема
данных в их оригинальном формате
(сырых
данных),
пока они не понадобятся.
Озеро хранит данные в сложных для распознавания
или вообще не читаемых подавляющим большинством сотрудников форматах
(неструктурированном, полуструктурированном).
Для запросов к озеру требуется подход
schema-on-read (мы принимаем и
храним все данные, и рассуждаем об их структуре только в момент
чтения для конкретной задачи).
Хранилище данных
подразумевает нечто более обработанное, упакованное и готовое к
применению.
Хранилище
данных состоит из структурированных в виде баз данных, которые
доступны приложениям и сотрудникам.
Источники данных в озере данных включают все данные организации. К ним относятся:
-
структурированные данные
реляционных баз, п
-
олуструктурированные данные (CSV, файлы журналов и
др.),
-
данные в форматах XML и JSON, неструктурированные данные (э-письма,
документы, PDF-файлы и др.),
-
двоичные данные (изображения,
аудио и видео).
С точки зрения протокола хранения это означает, что
озеру нужно хранить данные, которые возникли в файловом, блочном и
объектном хранилищах.
Объектное хранилище
— общепринятый протокол для озера
данных и открывает доступ не к самим данным, а к заголовкам
метаданных. Последние описывают данные, их можно прикрепить к чему
угодно, от базы данных до фотографии.
Объектное хранилище очень хорошо подходит для хранения больших
объемов данных в неструктурированном виде. С ним нельзя
работать, как с базой данных в блочном хранилище, но оно позволяет
хранить несколько типов объектов в большой плоской структуре и
знать, что там находится.
|
Data
Swamp
Data Swamp
(болото данных) —
бесполезное (и поглощающее ресурсы) хранилище данных неясного
происхождения, релевантности, пригодности для аналитики.
Наполняемое
огромными
объемами неконтролируемых данных data lake
может
заболачиваться (превращаться в болото данных).
Data Swamp
(болото данных) —
разрушенное и
неуправляемое озеро данных, труднодоступных для предполагаемых
пользователей.
Все, что с ним
можно сделать, — полностью стереть и начать собирать данные заново.
Без четкой
модели данных (типов структур данных и методов их
обработки)
Предотвращает
заболачивание управления данными — data governance.
Data governance
—
определение достоверности и качества данных до
загрузки в data lake:
-
фильтрацией источников с заведомо недостоверными данными;
-
ограничением прав доступа на
загрузку;
-
фильтрацией
загружаемых данных по избранным
метрикам (например, не пропускать в озеро
картинки в десятки гигабайт).
|
Data
Fabric
Текст (от лат. textus — ткань;
сплетение, сочетание) - связная и полная
последовательность символов.
Data Fabric (иногда?
обычно?) неправильно переводят как «фабрику данных»
Data Fabric
—
ткань данных
(цельная архитектура управления данными с полным и гибким доступом
для работы с ними).
Data Fabric
—
автономная экосистема максимально эффективного доступа к
(корпоративным) данным,
которая позволяет эффективно искать, обрабатывать,
структурировать и интегрировать данные.
Хранение и
управление данными стало сложнейшими
инженерными задачами на фоне:
-
увеличение объёма данных
-
стремительного
роста числа разрозненных хранилищ
данных и приложений данных
-
несовместимости источников
-
сильных различий форматов
данных
-
проблем
масштабирования
Масштабируемость (scalability):
-
способность
(системы, сети, службы) справляться с растущей нагрузкой при
добавлении ресурсов (программных и аппаратных).
-
отношение
прироста производительности системы к приросту используемых
ресурсов.
Data Fabric
— метод решения указанных
проблем BD
на основе:
-
использования машинного
обучения на каждом шаге обработки
данных
-
связь всех
источников данных и
потребителей сквозной интеграцией через API.
-
микро-сервисной архитектуры.
-
облачных
решений,
-
оркестрирации
и виртуализизации информационных
потоков.
Data Fabric
— службы и сервисы, которые облегчают обмен
данными между платформами,
обеспечивая
безопасность легкого доступа к данным для каждой из групп
пользователей:
-
данные
становятся доступны независимо от места их хранения,
-
встроенная
аналитика расширяет возможности использования данных,
-
масштабируемость архитектур (средств, систем и сервисов работы с
данными).
Data Fabric реализуется в концепции
DataOps.
|
DataOps
Data Fabric реализуется в концепции
DataOps.
DataOps (DATA Operations) — концепция и набор практик непрерывной
интеграции данных между процессами, командами и системами для
повышения эффективности управления и
взаимодействия за счет распределенного сбора, централизованной
аналитики и гибкой политики доступа к данным с учетом их
конфиденциальности, ограничений на использование и соблюдения
целостности.
DataOps
введена по аналогии с DevOps — DEVelopment
Operations
Цель DevOps
—
быстрая и непрерывная поставка
работающего программного обеспечения
|
Цель DataOps
—
оперативное и безбарьерное предоставление актуальных и
рабочих данных каждому участнику процессов.
Это
означает устранение когнитивных, временных и организационных
разрывов между исследователями данных (data scientists),
предметными аналитиками, разработчиками, руководителями и пользователями
Big Data.
Big Data
динамичны, поэтому
нужны не только надежные и быстрые технологии их обработки,
необходима гибкость прикладных и управляющих процессов, изменение
корпоративной культуры, когда информация становится главной
ценностью и основным средством осуществления деятельности.
|
Data
Fabric,
Data Lake, Data Mesh
Data Fabric -
ĸонцепция распределенной работы с данными.
Data Lake -
ĸонцепция централизации данных
Обе ĸонцепции могут споĸойно существовать
вместе в одной организации.
Data Fabric
- подход отказа от централизации данных и упорядочения доступа к ним
пользователей на основе слоя виртуализации.
Data Fabric добавляет дополнительный технологичесĸий уровень
поверх существующей инфраструĸтуры, ĸоторый занимается управлением
метаданными и доступом ĸ данным.
Не надо сĸладывать данные в
единое хранилище, надо просто ĸаждый источниĸ
представить в виде унифицированного интерфейса ĸ
данным, источниĸи ĸоторые можно использовать в
совоĸупности. Именно наличие слоя визуализации
данных, ĸоторые представляют данные в виде единой
виртуальной витрины, является ĸлючевым в данной
ĸонцепции.
|
Data Fabric борется с вариативностью данных,
когда их централизация уже не эффеĸтивна (требуют много ресурсов).
Data Mesh
похожа на Data Fabric, но не предполагает единого слоя
“визуализации” витрины данных.
Data Fabric
больше про технологии
Data Mesh
больше про организационные подходы и ĸультуру работы с данными.
В
Data Fabric
в организации остается централизованная ĸоманда, ĸоторая отвечает за
данные
В
Data Mesh
подразумевается распределенное владение данными.
Data
Fabric — основы концепций и ключевые различия с Data Mesh и Data
Lake
|
Big
Data
в образовании +
Оперирование большими данными (Big Data) в образовании - это
технология аналитики образовательной системы, включающей измерение,
сбор, анализ и представление структурированных и неструктурированных
данных огромных объемов об обучающихся и образовательной среде с
целью понимания особенностей функционирования и развития
образовательной системы.
Исторически система образования накопила значительный объем
данных. Вопрос о том, как доступно начать обрабатывать большой объем
данных, снимется благодаря появлению и расширенному использованию
информационно-коммуникационных технологий.
В сфере образования выделяются пять основных типов данных:
- персональные данные;
- данные о взаимодействии студентов с электронными системами
обучения (электронными учебниками, онлайн-курсами);
- данные об эффективности учебных материалов;
- административные (общесистемные) данные;
- прогнозные данные.
Сегодня Big Data становится языком
общения для образовательных организаций, которые стремятся улучшить
свои стратегические и тактические технологии принятия решений.
в настоящее
время развитие технологии Big Data в образовании описывается через
множество подходов и моделей, что мешает систематическому накоплению
данных о Big Data для развития системы образования.
Требование к Big Data по формуле 3V:
большой объем, скорость обработки и разнообразие параметров.
Отдельными аспектами являются вопросы,
связанные с достижением образовательных результатов. EDM (Educational
Data Mining) описывается как средство повышения эффективности
электронного обучения.
-
Все на «удаленку»: как улучшить качество обучения в цифровой среде Как устроено цифровое образование, в чем его преимущества и как
применять его с умом
https://postnauka.ru/longreads/156713
-
Ученик, директор, ученый: как используют данные из цифровой
образовательной среды Персональные образовательные траектории и глобальные исследования
https://postnauka.ru/longreads/156714
-
Алекс Пентленд Социальная физика [Как Большие данные
помогают следить за нами и отбирают у нас частную жизнь]
http://flibusta.is/b/641177
-
Новые миры и большая наука: как используют игровые данные Аналитика данных позволила сделать игры интересными для
пользователей и прибыльными для разработчиков
https://postnauka.ru/longreads/156716
-
Большой игровой брат: big data в компьютерных играх Терабайты данных игроков собираются, хранятся, используются — и
меняют индустрию https://postnauka.ru/longreads/156715
|
Big data:
социальный заказ
Социальный заказ на
АОТ - масштабы текста... Большие данные! Иначе не справиться!
АОТ не для того, чтобы заменить человека в традиционных сферах и
областях...
Для новых областей и сфер... новых масштабов!
а уже потом.. они теснят его в старых.. системно меняя (и отменяя)
старые ... в том числе по роли и значению в социуме...
Социальный заказ - общественная потребность (осознаваемая и нет).
Потребность — внутреннее состояние, характеризующее функциональную
недостаточность чего-либо.
Фабрика данных? ложные друзья переводчика! Ткань данных!
.... текст ткань связанность + полнота (но полнота чего?)
не в тексте полнота, а в языке?
в тексте полнота! в любом! Но понимаемом нами иначе - не как
фрагмент плоский и пустой, а как фрактал (в любой части текста (языка)
содержится весьтекст (язык) ... в любом тексте весь язык... пусть и
непроявленный для многих)
язык есть полнота полнота в языке в контексте перевод одной ткани в
другую структура остается той же
Автоматическая обработка текста востребовано как решение много
работы большого объёма текста
Сделать дорого, затраты окупаются тиражом
И тогда уже можно играться (делая все, что только можно сделать...
паразитируя на труде накопленном)
|
Список Gartner: 12
Список Gartner: 12 стратегических
технологических тенденций в 2022 году
-
Фабрика данных (Data Fabric)
-
Сеть кибербезопасности (Cybersecurity Mesh)
-
Вычисления, усиливающие защиту конфиденциальности данных
(Privacy-Enhancing Computation, PEC)
-
Облачные платформы (Cloud-Native Platforms)
-
Составные приложения (Composable Applications)
-
Интеллект для принятия решений (Decision Intelligence)
-
Гиперавтоматизация (Hyperautomation)
Компании необходимо поддерживать целый слой процессов: наём,
удержание людей, административные вопросы. Когда компании
удаётся заменить человека автоматикой, весь этот слой
процессов исчезает. Освобождаются ресурсы компании,
ускоряется масштабирование.
-
Разработка искусственного интеллекта (AI Engineering)
-
Распределённые предприятия (Distributed Enterprises)
-
Совокупный опыт (Total Experience, TX)
-
Автономные системы (Autonomic Systems)
Автономные системы — это самоуправляемые физические или
программные системы, которые учатся на своём окружении и
динамически изменяют собственные алгоритмы в режиме
реального времени. Они умеют оптимизировать
производительность и защищаться от атак без вмешательства
человека. В долгосрочной перспективе они станут обычным
явлением в роботах, беспилотниках, производственных машинах
и умных пространствах. Эти системы очень похожи
биологическую среду. Системам будет достаточно увидеть
данные, и они сами смогут извлекать оттуда паттерны.
-
Генеративный искусственный интеллект (Generative AI)
—
метод
машинного обучения, при котором нейросети изучают контент или объекты,
собирают данные и используют их для создания новых артефактов.
Генеративный ИИ может создавать новые формы контента и ускорять
циклы исследований и разработок.
К 2025 году на генеративный ИИ будет приходиться 10% всех
производимых данных. Сегодня менее 1%.
Сейчас значительный интерес представляют задачи условной генерации в
разных модальностях: например, сгенерировать картинку или видео по
описанию. Если получится хорошо выучить это отображение, такая
технология может стать источником вдохновения и полезным
инструментом для производителей контента и дизайнеров в будущем. На
данный момент одним из самых успешных подходов text-to-image
является нейросеть DALL-E от OpenAI. Близость к тексту и
разнообразие генерации уже поражают, с нетерпением жду новых работ в
этой
|
Рекомендуемая литература
5 «самых-самых» СХД для ИИ
https://habr.com/ru/company/hpe/blog/586422/
Автор оригинала: Uli Plechschmidt
-
Быстрое проникновение ИИ в
повседневную жизнь несет
значительные изменения требований к
системам хранения данных. Те
хранилища, которых было достаточно
для проверки концепций ИИ, не
подходят для «боевых» инсталляций.
-
Данные — это фундамент для решений, в которых
применяется искусственный интеллект (ИИ) и
глубокое обучение (deep learning, DL). Чем
больше объем обучающего набора данных (training
dataset), тем лучше работают найденные с помощью
графических ускорителей связи и тем выше
точность получаемых предсказаний.
|
|