Big Stream (BS)

 

 

Big Stream: термин

 

 

 

  • нет никаких образовательных услуг.. нет царских путей в науке
    „Ответ Евклида египетскому царю Птолемею I, просившему указать ему более легкий путь изучения геометрии: — Нет царского пути в геометрии.“
    „В науке нет широкой столбовой дороги, и только тот может достигнуть её сияющих вершин, кто, не страшась усталости, карабкается по её каменистым тропам. Предисловие к французскому изданию ["Капитала"] (18 марта 1872 г.).“

  • мир настолько сложен.... что без вдохновения (не в потоке) не достигнуть никаких вершин...
    пусть делают только те, кто не может не делать!
    „Вдохновение нужно в поэзии, как в геометрии.“ — Александр Сергеевич Пушкин

 

 

 

Поток — постоянное перемещение масс жидкости или газа в определённом направлении.
Поток (геометрическая теория меры) — обобщение понятия подмногообразия.
Поток (интуиционизм) — понятие интуиционистской математики.
Поток (психология), потоковое состояние — психическое состояние, в котором человек полностью включён в то, чем он занимается.
Транспортный поток — это упорядоченное транспортной сетью движение транспортных средств.
Пассажиропоток — движение пассажиров в одном направлении маршрута.
Учебный поток — несколько учебных групп общего направления в высших учебных заведениях.
Поток сознания — приём в литературе.
Поток выполнения, нить (англ. thread) — в программировании наименьшая единица обработки, исполнение которой может быть назначено операционной системой процессору. В большинстве случаев поток находится внутри процесса.
Поток данных, поток ввода-вывода (англ. stream) — в программировании абстракция, используемая для чтения или записи файлов, сокетов и т. п. в единой манере.
Поток векторного поля — математическое понятие.

Поток сознания (англ. Stream of consciousness) — художественный приём и тип повествования в литературе XX века, преимущественно модернистского направления, непосредственно воспроизводящий душевную жизнь персонажа посредством словесной регистрации разнородных проявлений психики (переживания, ассоциации, воспоминания и т. п.), которые чаще всего передаются вне всякой логической и причинно-следственной связи — по принципу звуковых, зрительных и прочих ассоциаций. Использование потока сознания часто сопровождается всевозможными нарушениями синтаксиса (используются эллипсисы, парцелляция) и даже полным отказом от пунктуации, например, в потоке сознания Молли Блум, героини романа Джеймса Джойса «Улисс» (1922 год).
Термин «поток сознания» принадлежит американскому философу-идеалисту Уильяму Джеймсу: сознание — это поток, река, в которой мысли, ощущения, воспоминания, внезапные ассоциации постоянно перебивают друг друга и причудливо, «нелогично» переплетаются («Научные основы психологии», 1890).

 

Первые образцы потока сознания в художественной литературе содержатся в произведениях Льва Толстого: в «Войне и мире» (Т. 1, ч. 3, гл. 13), при описании полусонного состояния Николая Ростова накануне Аустерлицкого сражения



Потоковая обработка - Stream processing - парадигма мышления и разработки потока событий и реактивное программирование , что позволяет некоторым приложениям более легко использовать ограниченную форму параллельной обработки . Такие приложения могут использовать несколько вычислительных блоков, таких как блок с плавающей запятой на блоке обработки графики или программируемые пользователем вентильные матрицы (FPGA), без явного управления распределение, синхронизация или обмен данными между этими устройствами.Википедия site:360wiki.ru


Поток данных (Data stream) — абстракция, используемая для чтения или записи файлов, сокетов и т. п. в единой манере. Потоки являются удобным унифицированным программным интерфейсом для чтения или записи файлов (в том числе специальных и, в частности, связанных с устройствами), сокетов и передачи данных между процессами.
Поддержка потоков включена в большинство языков программирования и во все современные ОС. При запуске процесса ему предоставляются предопределённые стандартные потоки. Возможность перенаправления потоков позволяет связывать различные программы, и придаёт системе гибкость.
Битовый поток (bit stream) — временная последовательность битов. Коммуникационный протокол TCP представлен битовыми потоками. Когда битовый поток захватывается и сохраняется на носителе информации, то создаётся компьютерный файл.

 

Задача Big Data  –  справиться с огромной скоростью, с которой данные создаются, и анализировать их в режиме реального времени.

 

 

Потоковая обработка данных (потоковая аналитика)
https://www.tadviser.ru/index.php/Статья:Потоковая_обработка_данных_(потоковая_аналитика)
2020: Исследование IDC: 89% российских компаний внедрят технологию потоковой обработки данных из-за возросшей конкуренции

 

ПОТОК и прокастинация.....

 

Поток -

 

Big Data. Вся технология в одной книге - Андреас Вайгенд
http://flibusta.is/b/529624

Не очень понятно, что такое Big data
Открытия ещё впереди!
Они справляются едва-едва... плоховато...

 

 

Формулы Big data

  • ПРОЕКТИРОВАНИЕ СОБЫТИЙНО-ОРИЕНТИРОВАННЫХ СИСТЕМ. Концепции и шаблоны проектирования сервисов потоковой обработки данных с использованием Apache Kafka 17691K (скачать pdf) - Бен Стопфорд

тут главное - потоковая обработка!

  • Поток данных — это фундаментальное изменение в мышлении, которое включает переосмысление бизнеса как развивающихся потоков данных, а сервисов — как функций, которые трансформируют эти потоки в нечто новое.
    Это может показаться странным. Многие из нас обучены программированию как процессу задавания вопросов или выдачи
    команд, и ожидания ответа. Так работает процедурное или объектноориентированное программирование, но главной причиной сложившегося восприятия, пожалуй, стоит считать базы данных. Более полувека базы данных играли центральную роль в архитектуре систем, формируя стиль написания (и осмысления) программ больше, чем какой-либо другой инструмент.

  •  В сфере больших данных пакетная обработка на наборах данных во многие терабайты крайне непрактична. И это приводит к мысли о потоковой обработке.

  • В потоковой модели нет общей базы данных. Поток событий это и есть база данных, и приложения лишь формируют поток в нечто новое. Приложения реагируют, смешивают потоки, создают представления, изменяют состояния и двигаются дальше.

  • Михай Чиксентмихайи (перевод: Елена А. Перова) Поток: Психология оптимального переживания
    http://flibusta.is/b/387927

    • «Поток» был впервые опубликован в США в 1990 году, и с тех пор его перевели на 30 языков

    • Поток – радости, творчеству, полная поглощенность жизнью в творчестве, радости позитивных аспектов человеческого опыта

      • Состояние потока возникает, когда мы делаем что-то, в чем выражается наша сущность.
        Именно это Толстой описывает на страницах «Анны Карениной», когда Константин Левин с завистью наблюдает за своими крестьянами, ритмично и слаженно машущими косами между рядами пшеницы. Именно это чувствуют музыканты, с головой погружающиеся в исполняемое ими произведение; спортсмены, приближающиеся к пределу своих возможностей; любой работник, если он сознает, что отлично справляется со своим делом.

    • Состояние потока – одна из самых прекрасных вещей в нашей жизни.
      В отличие от других похожих состояний (пиковые переживания, счастье) – поток не снисходит на нас как благодать, а порождается нашими осмысленными усилиями, он в наших руках.
      В нем удовольствие сливается с усилиями и смыслом, порождая питающее энергией активное состояние радости.
      Поэтому поток напрямую связан с характеристиками личности, уровнем ее развития и зрелости.

    • Радость потока – это высшая награда, которой может одарить нас природа за стремление к решению все более и более сложных осмысленных задач, и которую другим способом получить невозможно.

Я отвлекаюсь, уберу букеты (елочный и можжевеловый.. смету иголки, и, конечно же... думаю....

Думаю про моделирование:

  • 5 стадий приятия неизбежного....

  • 3 стадии: этого не может быть... что-то в этом есть... кто же этого не знает...

  • метамоделирование - попытка обсуждения...
    не важно (случайно, касательно, поверхностно, акцидентно) что ты видишь в окно
    важно видеть само окно... то, что невидимо, но дает возможность видеть...

  • увы, учеников интересуют быстро меняющиеся мультяшные красочные сюжеты за окном...
    про окно они и думать не хотят...

  • смотреть на мир сквозь РАЗОВЫЕ ОЧКИ...

Господи, милостив буди нам, грешным. Слава Тебе, Боже наш, слава Тебе!

Я записываю... ищу, нахожу... иду в душ и размышляю:

  • текст как Поток... Большая Вода... ТЫ ТРУБА....

  • не ручейки (даже стремительные, в которых плещется форель...

  • 100500 ручьев стекается в Поток... Океан!

  • не оградить забором, нужно научиться плавать....

  • утлые лодочки не годятся... нужны лайнеры.... и команды.

  • с Потоком можно сравиться только в состоянии Потока
    (это с БД полезны расписания, алгоритмы, шаг-за-шагом...)

  • Поток меняет время.... внешнее... и нужно изменить внутреннее...

  • школа продуцирует БД в УМсК (свинокомлексах)

    • игры вводят в Поток! игры учат!

    • соц сети вводят в Поток.... сети учат!

    • ВОЙНА...

    • РЕВОЛЮЦИЯ... жители БД - пародия на революционеров ))

      • Вацлав Гавел: «Никогда нельзя знать, какая снежинка вызовет лавину».
        АГЛ - былинка, которая останавливает Лавину

      • Лавина — значительный объём снежной массы, падающей с крутых горных склонов со скоростью 20—30 м/с. Сход лавины сопровождается воздушной предлавинной волной, которая производит наибольшие разрушения.
        Лавина - события... наибольшие разрушения производит предлавинная ИНФОРМАЦИОННАЯ волна...

      • Первая снежинка в лавине никогда не чувствует свою ответственность
        Снежинка в лавине никогда не чувствует свою ответственность
        Большинство из нас — это не мы.
        Наши мысли — это чужие суждения;
        Наша жизнь — мимикрия; наши страсти — цитата!

    • У меня большой прекрасный дом и прекрасная машина; разве жизнь не прекрасна?
      Дом и машина прекрасны, а жизнь?

      Как хорошо мы плохо жили (Борис Рыжий)

      • Как хорошо мы плохо жили
        Как плохо, жить нам хорошо
        Мы сало ножичком крошили
        Теперь мы сами под ножом

    • хакатоны!

  • BD  - потоковые данные!

  • Потоковые данные – данные, непрерывно генерируемые тысячами источников данных, которые обычно отправляют записи данных одновременно и небольшими объемами (по несколько килобайтов). В состав потоковых данных входят различные виды данных, например файлы журналов, сформированных клиентами при использовании мобильных или интернет-приложений, покупки в интернет-магазинах, действия игроков в играх, информация из социальных сетей, финансовые торговые площадки и геопространственные сервисы, телеметрические данные, полученные от подключенных устройств или оборудования в ЦОД.
    Эти данные должны быть обработаны последовательно и инкрементно либо по каждой из записей, либо с использованием скользящего временного окна, после чего их можно использовать в различных аналитических задачах, включая корреляцию, агрегацию, фильтрацию и шаблонизацию. Информация, полученная в результате подобного анализа, позволяет компаниям разобраться во многих аспектах своей деятельности, например в использовании сервисов (для задач учета/выставления счетов), активности серверов, навигации по веб-сайтам, геолокации устройств, людей или товаров, и в результате быстро реагировать на изменяющиеся условия. К примеру, компании могут отслеживать изменения общественного настроя в отношении своих торговых марок и продуктов за счет постоянного анализа потоков данных из социальных сетей, а в случае необходимости принимать своевременные меры.
    https://aws.amazon.com/ru/streaming-data/

 

ОПИШИТЕ СВОЙ ПОТОК ДАННЫХ.....

 

Все характеристики Big Data тесной взаимосвязаны, системно меняются и переосмысливаются.
 

 

7V в повседневных практиках


И создаем и изменяем вещи,—
А эти вещи изменяют нас
Михаил Дудин

 

24.11.2021 Треть работников российских компаний проверяют соцсети на работе каждую свободную минуту
 

 

 

Big data: источники

 

К основным источникам big data относят:

  • показания считывающих устройств – метеорологические приборы, датчики сотовой связи и другие.

  •  интернет вещей

  • интернет – блоги, соцсети, сайты, СМИ и различные форумы;
    К
    аждую минуту в мире выполняется почти 2,5 миллиона запросов к поисковой системе Google.

  • корпоративную информация – архивы, транзакции, базы данных  предприятий и организаций, медицины

  • научные проекты (эксперименты и наблюдения)

    • Количество данных, которые получаются на БАК (Большом адронном коллайдере), так огромно, что с ним не справляется даже огромный дата-центр CERN и вынуждено используются память и вычислительные ресурсы в странах — участницах СERN (в т.ч. России). Каждый владелец мощного компьютера может помочь вычислениям.наблюдений...

      В качестве примеров источников возникновения больших данных приводятся[30][31] непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов, потоки сообщений из социальных сетей, метеорологические данные, данные дистанционного зондирования Земли, потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.

 

 

 Synthetic data

 

Синтетические данные — это программно сгенерированные данные, используемые в бизнес-приложениях (в том числе в машинном обучении).

 

Синтетические данные дают возможность дата-сайентистам и разработчикам обучать модели для проектов в тех областях, где пока еще нет big data.
Они дают возможность дата-сайентистам и разработчикам обучать модели для проектов в тех областях, где пока еще нет big data. По словам Алекса Уотсона (Alex Watson),
По оценкам Gartner, к 2022 году 40% моделей МО будут натренированы на синтетических наборах данных.


Нередко возникают ситуации, когда получение реальных бизнес-процессов сложно или дорого, но при этом известны требования к таким бизнес-процессам, правила создания и законы распределения. Как правило, это происходит, когда речь идёт о чувствительных персональных данных — например, информации о банковских счетах или медицинской информации. В таких случаях необходимые наборы данных можно программно сгенерировать.


Существует два основных подхода к генерации синтетических наборов данных.
В случае, когда реальные данные отсутствуют или их сбор невозможен (из-за большой длительности или дороговизны процесса), наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако, такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр возможных случаев, и полученная с помощью такого набора модель может давать непредсказуемые результаты в крайних случаях.

Также применяется аугментация (англ. augmentation) — генерация наборов на основе имеющихся бизнес-процессов. К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные. Для числовых данных могут использоваться такие искажения, как добавление объектов с усреднёнными значениями, смешивание с объектами из другого распределения, добавление случайных выбросов.

Преимущества использования синтетических данных:
Возможность генерации наборов данных практически любого размера.
Известность параметров генерации, а значит, и генеральной совокупности: можно сравнить оценки модели и истинные параметры, и исходя из этого судить о качестве полученных выборочных оценок параметров.
Ускорение и удешевление процесса разработки: не нужно ждать, пока будет собран и размечен достаточный объём реальных данных.
Повышение доступности больших объёмов данных.

В то же время, у синтетических данных есть и недостатки:
Отсутствие универсального способа генерации, применимого для любых задач: в каждом конкретном случае необходимо дополнительное исследование требований, накладываемых на генерируемые данные.
Отсутствие универсальных метрик качества и применимости генерируемых данных.
Излишняя «стерильность» получаемых данных: в общем случае неизвестно, какими могут быть выбросы в реальных данных[1].

Применение
Сгенерированные объекты можно использовать в задаче обучения с учителем для расширения обучающего множества, сведя её к задачам частичного обучения и самообучения. Довольно распространённым подходом является обучение сначала на большом наборе синтетических данных, а затем дообучение на небольшом наборе имеющихся реальных данных. Иногда при обучении реальные данные не используются вовсе. При этом в тестовых множествах использовать синтетические наборы данных нельзя: в них должны быть только реальные объекты.

Синтетические данные используют не только при недоступности реальных, но и для того, чтобы изменить распределение классов в уже имеющихся данных, дополнив их по определённому алгоритму[2].

Синтетические данные активно используются при обучении алгоритмов управления автономным транспортом. Эти алгоритмы решают две задачи: сначала выявляют окружающие объекты — машины, дорожные знаки, пешеходов, а затем принимают решение о направлении и скорости дальнейшего движения. При реализации таких алгоритмов наиболее важно поведение транспортного средства в критических ситуациях, таких как помехи на дороге или некорректные показания сенсоров — от этого могут зависеть жизни людей. В реальных данных же, наоборот, в основном присутствуют штатные ситуации.

Одно из самых наглядных применений аугментации данных — алгоритмы восстановления изображений. Для работы таких алгоритмов исходный набор изображений расширяется их копиями, к которым применяются некие преобразования из фиксированного набора. На основе полученных изображений генерируется набор, в котором входными данными считаются полученные изображения, а целевыми — исходные. В самом деле, получить реальные данные для такой задачи — фотографию и её же искажённую копию — довольно затруднительно, а применение таких преобразований довольно легко автоматизируется. Таким образом, если исходные изображения достаточно хорошо описывали источник данных, то полученный набор данных можно применять для обучения алгоритма восстановления изображений, устраняющего применённые преобразования.

Также с помощью синтетических наборов данных можно упростить обучение алгоритмов компьютерного зрения, решающих задачи семантической сегментации, поиска и локализации объектов. В данном случае подходят наборы, в которых искомые объекты определённым образом наносятся на фоновое изображение. В частности, таким объектом может быть текст — тогда с помощью полученного набора может быть решена задача распознавания текста на изображении.

Синтетические данные используются и для создания алгоритмов реидентификации[на 25.01.21 не создан] — определения, действительно ли на двух изображениях один и тот же человек. Эти алгоритмы могут использоваться для нахождения людей на записях с камер, на пограничных пунктах и так далее. В этом случае реальные данные собрать довольно сложно, потому что требуется найти много фотографий одних и тех же людей в разных позах, с разных ракурсов и в разной одежде.

При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего алгоритма, подходящего для всех случаев не существует. Как правило, общие алгоритмы наподобие добавления средних значений оказываются нерепрезентативными.
 

 

3 различных типа синтетических данных.

  • Фиктивные данные - это данные, сгенерированные случайным образом (например, генератором случайного шума). Следовательно, характеристики, отношения и статистические шаблоны, которые есть в исходных данных, не сохраняются, не фиксируются и не воспроизводятся в сгенерированных фиктивных данных. Следовательно, эти данные не являются репрезентативными ни в какой форме по сравнению с исходными данными.

  • Созданные на основе правил синтетические данные - это синтетические данные, созданные с помощью заранее определенного набора правил. Примерами этих заранее определенных правил может быть то, что вы хотели бы иметь синтетические данные с определенным минимальным значением, максимальным значением или средним значением. Здесь необходимо заранее определить любые характеристики, отношения и статистические шаблоны, которые вы хотели бы воспроизвести в сгенерированных на основе правил синтетических данных.
    Следовательно, качество данных будет таким же хорошим, как и заранее определенный набор правил. Однако это приводит к проблемам, когда важно высокое качество данных. Во-первых, можно определить только ограниченный набор правил, которые нужно зафиксировать в синтетических данных. Кроме того, установка нескольких правил обычно приводит к перекрытию и конфликту правил. Более того, вы никогда не сможете полностью охватить все соответствующие правила. Кроме того, могут существовать соответствующие правила, о которых вы даже не знаете. И, наконец (не забывайте), это займет у вас много времени и энергии, что приведет к неэффективному решению. Таким образом, с созданными на основе правил синтетическими данными вы окажетесь в немасштабируемой ситуации с качеством синтетических данных, которое не уступает качеству заранее определенного набора правил.

  • Синтетические данные, генерируемые искусственным интеллектом (ИИ)
    Как и следовало ожидать из названия, синтетические данные, генерируемые искусственным интеллектом (AI), представляют собой синтетические данные, генерируемые алгоритмом искусственного интеллекта (AI). Модель ИИ обучается на исходных данных, чтобы узнать все характеристики, взаимосвязи и статистические закономерности. После этого этот алгоритм ИИ может генерировать совершенно новые точки данных и моделировать эти новые точки данных таким образом, чтобы воспроизводить характеристики, взаимосвязи и статистические закономерности из исходного набора данных. Вместо того, чтобы изучать и определять соответствующие правила (как в случае сгенерированных на основе правил синтетических данных), алгоритм ИИ делает это автоматически. Здесь будут охвачены не только характеристики, взаимосвязи и статистические закономерности, о которых вы знаете, но также характеристики, отношения и статистические закономерности, о которых вы даже не подозреваете.

Dummy data
https://generatedata.com/

 

 

DataLake.  +

 

DataLake (озеро данных) — репозитарий, в котором хранится огромный объем «сырых» данных в их первоначальном формате до тех пор, пока они не будут использованы.

Идея озера данных  —   хранить необработанные данные в их оригинальном формате до тех пор, пока они не понадобятся.

При доступе к озерам данных пользователи должны знать:

Конкретные типы данных и источники, в которых они нуждаются.
Сколько данных им нужно.
Когда им это нужно.
Методы аналитики, которые будут применяться к этим данным.



Есть хранилище данных – инструмент, который стал синонимом процесса извлечения, преобразования и загрузки (ETL). На высоком уровне хранилище данных содержит огромные объемы данных, структурированных строго регламентированными способами. Они требуют, чтобы перед загрузкой данных была проведена строгая схема. (Это почти всегда схема «звезда» или «снежинка».) Схема в хранилище данных определяется «по записи». Процессы ETL должным образом выводят отчеты об ошибках, создают файлы регистрации и отправляют ошибочные записи в файлы исключений и таблицы, в которые можно заглянуть с течением времени.

В связи с таким четким подходом хранилища данных поддерживают частичный или инкрементный ETL. Другими словами, в зависимости от серьезности проблемы, организация может загружать или перезагружать части своего хранилища данных, когда что-то идет не так.

Организации периодически заполняют хранилища данных. Данные обновляются с помощью регулярных циклов. Например, в 3 часа утра каждый день, когда сотрудникам вряд ли понадобится доступ к данным и связанным системам. А когда они приходят на работу, все свежие данные уже загружены.
 

 


Из озера данные по нисходящей попадают в хранилище данных, которое подразумевает нечто более обработанное, упакованное и готовое к применению. И если озеро хранит данные в сложных для распознавания или вообще не читаемых подавляющим большинством сотрудников форматах (неструктурированном, полуструктурированном), то хранилище данных состоит из структурированных в виде баз данных, которые доступны приложениям и сотрудникам. Данные, предоставляемые в форме витрин или хабов, еще более удобны для применения внутренними подразделениями компании.

Таким образом, озеро данных содержит большие объемы данных в исходном виде. В отличие от запросов к хранилищу или витрине данных, для запросов к озеру требуется подход schema-on-read (мы принимаем и храним все данные, и рассуждаем об их структуре только в момент чтения для конкретной задачи).

Озеро данных: типы данных и методы доступа

Источники данных в озере данных включают все данные организации или одного из ее подразделений. К ним относятся структурированные данные реляционных баз, полуструктурированные данные (CSV, файлы журналов и др.), данные в форматах XML и JSON, неструктурированные данные (э-письма, документы, PDF-файлы и др.), а также двоичные данные (изображения, аудио и видео). С точки зрения протокола хранения это означает, что озеру нужно хранить данные, которые возникли в файловом, блочном и объектном хранилищах.

Объектное хранилище — это общепринятый протокол для самого озера данных. Не забывайте, что оно открывает доступ не к самим данным, а к заголовкам метаданных. Последние описывают данные, их можно прикрепить к чему угодно, от базы данных до фотографии. Подробные запросы к данным могут происходить где угодно, но не в озере данных.

Объектное хранилище очень хорошо подходит для хранения больших объемов данных в неструктурированном виде. То есть с ним нельзя работать, как с базой данных в блочном хранилище, но оно позволяет хранить несколько типов объектов в большой плоской структуре и знать, что там находится.

Объектное хранилище обычно не гарантирует высокую производительности, но применительно к озеру данных это нормально: запросы для него создавать и обрабатывать сложнее, чем для реляционной базы в хранилище данных. Но это не страшно, потому что бóльшая часть запросов на этапе озера данных будет касаться формирования более пригодных для детальных запросов нижестоящих хранилищ данных.



 

 

Чем опасны data lake
У озер данных есть одна серьезная проблема. Любые данные, попадающие в data lake, попадают туда практически бесконтрольно. Это значит, что определить их качество невозможно. Если у компании нет четкой модели данных, то есть понимания типов структур данных и методов их обработки, плохо организовано управление озером, в нем быстро накапливаются огромные объемы неконтролируемых данных, чаще всего бесполезных. Уже непонятно, откуда и когда они пришли, насколько релевантны, можно ли их использовать для аналитики.

В итоге наше озеро превращается в болото данных — бесполезное, пожирающее ресурсы компании и не приносящее пользы. Все, что с ним можно сделать, — полностью стереть и начать собирать данные заново.

Чтобы озеро не стало болотом, нужно наладить в компании процесс управления данными — data governance. Главная составляющая этого процесса — определение достоверности и качества данных еще до загрузки в data lake. Есть несколько способов это сделать:

отсекать источников с заведомо недостоверными данными;
ограничить доступ на загрузку для сотрудников, у которых нет на это прав;
проверять некоторые параметры файлов, например не пропускать в озеро картинки, которые весят десятки гигабайт.
Настроить такую фильтрацию проще, чем каждый раз структурировать данные для загрузки в базу данных. Если процесс налажен, в data lake попадут только актуальные данные, а значит, и сама база будет достоверной.

Управление данными — это не факультативная, а приоритетная задача. В компании должен быть отдельный сотрудник, ответственный за data governance. Обычно это Chief Data Officer, CDO.

 

 

Data Fabric DataOps

Текст (от лат. textus — ткань; сплетение, сочетание) - связная и полная последовательность символов.

Data Fabric (иногда? обычно?) неправильно переводят как «фабрику данных»

Data Fabric   ткань данных (цельная архитектура управления данными с полным и гибким доступом для работы с ними).

Data Fabric  — автономная экосистема максимально эффективного доступа к (корпоративным) данным, которая позволяет эффективно искать, обрабатывать, структурировать и интегрировать данные.

 

 

Хранение и управление данными стало сложнейшими инженерными задачами на фоне:

  • увеличение объёма данных

  • стремительного роста числа разрозненных хранилищ данных и приложений данных

  • несовместимости источников

  • сильных различий форматов данных

  • проблем масштабирования

Масштабируемость (scalability):

  • способность (системы, сети, службы) справляться с растущей нагрузкой при добавлении ресурсов (программных и аппаратных).

  • отношение прироста производительности системы к приросту используемых ресурсов.

Data Fabric   метод решения указанных проблем BD на основе:

  • использования машинного обучения на каждом шаге обработки данных

  • связь всех источников данных и потребителей сквозной интеграцией через API.

  • микро-сервисной архитектуры.

  • облачных решений,

  • оркестрирации и виртуализизации информационных потоков.


 

Data Fabricслужбы и сервисы, которые облегчают обмен данными между платформами, обеспечивая безопасность легкого доступа к данным для каждой из групп пользователей:

  • данные становятся доступны независимо от места их хранения,

  • встроенная аналитика расширяет возможности использования данных,

  • масштабируемость архитектур (средств, систем и сервисов работы с данными).

Data Fabric реализуется в концепции DataOps.

 

 

DataOps

 

Data Fabric реализуется в концепции DataOps.

DataOps (DATA Operations) — концепция и набор практик непрерывной интеграции данных между процессами, командами и системами для повышения эффективности управления и взаимодействия за счет распределенного сбора, централизованной аналитики и гибкой политики доступа к данным с учетом их конфиденциальности, ограничений на использование и соблюдения целостности.

DataOps введена по аналогии с DevOps  —  DEVelopment Operations

Цель DevOps  быстрая и непрерывная поставка работающего программного обеспечения

 

Цель DataOps  — оперативное и безбарьерное предоставление актуальных и рабочих данных каждому участнику процессов.

Это означает устранение когнитивных, временных и организационных разрывов между исследователями данных (data scientists), предметными аналитиками, разработчиками, руководителями и пользователями Big Data.


Big Data динамичны, поэтому нужны не только надежные и быстрые технологии их обработки, необходима гибкость прикладных и управляющих процессов, изменение корпоративной культуры, когда информация становится главной ценностью и основным средством осуществления деятельности.

 

 

Разметка данных

 данные) в 2008 году ввёл

 

 

BD в образовании +

 

  • Все на «удаленку»: как улучшить качество обучения в цифровой среде
    Как устроено цифровое образование, в чем его преимущества и как применять его с умом
    https://postnauka.ru/longreads/156713

  • Ученик, директор, ученый: как используют данные из цифровой образовательной среды
    Персональные образовательные траектории и глобальные исследования
    https://postnauka.ru/longreads/156714

  • Алекс Пентленд Социальная физика [Как Большие данные помогают следить за нами и отбирают у нас частную жизнь]
    http://flibusta.is/b/641177

  • Новые миры и большая наука: как используют игровые данные
    Аналитика данных позволила сделать игры интересными для пользователей и прибыльными для разработчиков
    https://postnauka.ru/longreads/156716

  • Большой игровой брат: big data в компьютерных играх
    Терабайты данных игроков собираются, хранятся, используются — и меняют индустрию
    https://postnauka.ru/longreads/156715

 

 

 

Big data: социальный заказ

 

 

Социальный заказ на АОТ - масштабы текста... Большие данные! Иначе не справиться!
АОТ не для того, чтобы заменить человека в традиционных сферах и областях...
Для новых областей и сфер... новых масштабов!
а уже потом.. они теснят его в старых.. системно меняя (и отменяя) старые ... в том числе по роли и значению в социуме...
Социальный заказ - общественная потребность (осознаваемая и нет).
Потребность — внутреннее состояние, характеризующее функциональную недостаточность чего-либо.
Фабрика данных? ложные друзья переводчика! Ткань данных!
.... текст ткань связанность + полнота (но полнота чего?)
не в тексте полнота, а в языке?
в тексте полнота! в любом! Но понимаемом нами иначе - не как фрагмент плоский и пустой, а как фрактал (в любой части текста (языка) содержится весьтекст (язык) ... в любом тексте весь язык... пусть и непроявленный для многих)
язык есть полнота полнота в языке в контексте перевод одной ткани в другую структура остается той же
Автоматическая обработка текста востребовано как решение много работы большого объёма текста
Сделать дорого, затраты окупаются тиражом
И тогда уже можно играться (делая все, что только можно сделать... паразитируя на труде накопленном)
 

 

Все данные - текст!

Термин Big dataольшие данные) в 2008 году ввёл Клиффорд Линч (редактор журнала Nature) в 2008 году в спецвыпуске журнала, посвящённом взрывному росту мировых объёмов информации.

Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

 

Список Gartner: 12

Список Gartner: 12 стратегических технологических тенденций в 2022 году
https://www.gartner.com/en/information-technology/insights/top-technology-trends
1. Фабрика данных (Data Fabric)
2. Сеть кибербезопасности (Cybersecurity Mesh)
Сотрудники компаний могут находиться где угодно, а не только в офисе или на производстве — традиционный периметр безопасности исчез. Для безопасности нужна гибкая, компонуемая архитектура, которая объединяет распределённые службы. Сеть кибербезопасности помогает создать интегрированную структуру безопасности и защитить все активы независимо от их местонахождения.
Понятие Cybersecurity Mesh введено Gartner. Точного описания или определения этой технологической тенденции нет. Как нет и готовых фреймворков.
Cybersecurity Mesh является частью концепции Zero Trust, когда отсутствует полное доверие кому-либо, даже внутренним пользователям. Это набор децентрализованных решений, помогающих организовать защиту конечных пользователей, их компьютеров, а также всех активов во внутренней сети.
Разделение доступов, внедрение дополнительных способов аутентификации, контроль устройства, анализ поведения и другие технологии помогут повысить общий уровень безопасности, предотвратить большую часть взломов и утечек информации. Также стоит отметить акцент на децентрализацию — создание решений, помогающих избежать точек отказа, проверять подлинность данных без необходимости постоянной связи. Сюда же относятся комплексные решения с использованием блокчейна.
3. Вычисления, усиливающие защиту конфиденциальности данных (Privacy-Enhancing Computation, PEC)
Эта тенденция в контексте законов о конфиденциальности и защите данных, растущих опасений потребителей.
Хранение личных данных пользователей — необходимая мера, несущая риски. Утечки персональных данных грозят компаниям как репутационными, так и финансовыми потерями. Скорость изменения законов связана и с низкой цифровой грамотностью населения.
4. Облачные платформы (Cloud-Native Platforms)
Приложения, которые изначально создают для работы в облачных инфраструктурах, позволяют разрабатывать новые отказоустойчивые, эластичные и гибкие архитектуры. В последний год активно используют термины: Cloud First, Cloud Only. Для многих компаний это уже стандарт построения инфраструктуры. Использование облачной инфраструктуры снижает стоимость сопровождения и time-to-market.
Топ-2 провайдеров из года в год:
Amazon Web Services (30% рынка)
Microsoft Azure (20% рынка)
5. Составные приложения (Composable Applications)
Составные приложения строятся из модульных компонентов
К ключевым принципам построения такой платформы можно отнести следующее:
независимо развивающийся модуль, поставляющий конечную ценность потребителю,
гарантия единого пользовательского опыта на всех устройствах,
расширяемость и модульность решения.
развития собственного API.
6. Интеллект для принятия решений (Decision Intelligence)
Каждое решение рассматривается как набор процессов, при которых используются данные для анализа, получения обратной связи и корректировки действий. При таком подходе процесс принятия решений может даже автоматизироваться за счёт искусственного интеллекта.
Это сокращает время на принятие управленческих решений и улучшает их качество. Особенно это полезно в таких областях, где время имеет высокую значимость: медицина, вооружённые силы, службы спасения.
Подход к интеллектуальному принятию решений на основе данных стал массовым недавно, 5–10 лет назад, когда компании получили возможность относительно дёшево хранить. Рынку понадобилось время, чтобы принять тот факт, что машина в некотором классе задач принимает решение значительно эффективнее человека. И этот класс постоянно расширяется, что приводит к изменению и даже исчезновению конкретных ролей в бизнесе.
7. Гиперавтоматизация (Hyperautomation)
Это подход, который позволяет быстро определить, проверить и автоматизировать как можно больше процессов.
Гиперавтоматизация стоит на трёх китах:
повышение качества работы,
ускорение процессов,
гибкость принятия решений.
Компании необходимо поддерживать целый слой процессов: наём, удержание людей, административные вопросы. Когда компании удаётся заменить человека автоматикой, весь этот слой процессов исчезает. Освобождаются ресурсы компании, ускоряется масштабирование.
Автоматизация растёт во всём мире, но российские компании всё ещё отстают в части административных и операционных процессов вроде документооборота. Обратная ситуация с цифровыми процессами, такими как управление маркетингом или создание IT-продуктов.
8. Разработка искусственного интеллекта (AI Engineering)
К 2025 году 10% предприятий, которые внедрят передовые методы проектирования ИИ, получат как минимум в 3 раза больше прибыли, чем конкуренты.
До построения модели ИИ необходимо собрать качественные данные. Это трудно реализовать без правильного подхода к проектированию хранилищ и аналитических слоёв данных.
После построения модели необходимо внедрить её в текущие процессы, то есть вписать модель в техническую инфраструктуру компании. При неправильном подходе модель может негативно повлиять на конечный результат или даже сломать продукт.
Любые модели устаревают. Без налаженного мониторинга качества в определённый момент результаты такой автоматизации могут стать негативными.
Понимание ИИ всё ещё недостаточно.
Многие компании смотрят на это со скепсисом, или, наоборот, как на панацею, которая решит все их проблемы.
Но ситуация стремительно меняется, и в ближайшие 5–10 лет компании без ИИ-технологий будут сильно проигрывать конкурентам.
AI based companies — компании, которые ставят в основу интеллектуальные алгоритмы анализа данных как ядро бизнеса. Часто это компании с доменом *.ai.
Есть базовое утверждение — с ИИ будет лучше, чем без него. При этом множество бизнес-задач решается классическими алгоритмами, которые не требовательны к инфраструктурным изменениям и потоковой обработке данных. Поэтому существует много неудачных кейсов внедрения ИИ в бизнесе. Есть конкретные рекомендации для запуска ИИ в компаниях:
всегда в начале использовать baseline без ИИ для сравнения эффективности прироста в показателях,
изучить методологии работы с анализом данных в предприятиях Lean DS и CRISPR.

ИИ-решения будут представлены в виде блоков реализаций небольших задач.
Каждый блок связан с другой задачей в виде графа решений, где ответ модели на одном блоке будет составляющей для принятия решения на следующем.
Это напоминает то, как люди мыслят.
Совершенствуясь в чём-то одном, не нужно будет переучиваться полностью.
9. Распределённые предприятия (Distributed Enterprises)
С развитием удалённых и гибридных схем работы офисы уступают место распределённым предприятиям, сотрудники которых территориально рассредоточены.
Удалённый формат работы стал нормой. Сейчас практически не встретишь IT-компанию с обязательным требованием работы из офиса.
Вторая популярная модель работы — гибридная. Сотрудники договариваются 1–2 дня в неделю приходить в офис для брейншторма, ретро, планирования спринтов. В теории это повышает командный дух и уменьшает вероятность того, что сотрудник уйдёт в другую компанию. Крупные компании, которые могут позволить себе международный формат работы, открывают офисы по всему миру для привлечения новых специалистов.
10. Совокупный опыт (Total Experience, TX)
Это бизнес-стратегия, которая объединяет опыт сотрудников, клиентский и пользовательский опыт.
Всё вместе помогает повысить уровень доверия, удовлетворённости и лояльности клиентов и сотрудников.
11. Автономные системы (Autonomic Systems)
Автономные системы — это самоуправляемые физические или программные системы, которые учатся на своём окружении и динамически изменяют собственные алгоритмы в режиме реального времени. Они умеют оптимизировать производительность и защищаться от атак без вмешательства человека. В долгосрочной перспективе они станут обычным явлением в роботах, беспилотниках, производственных машинах и умных пространствах.
Автономные системы — это то, что приближает нас к настоящему ИИ. Эти системы очень похожи биологическую среду, уверен, что за ними будущее. Многие задачи решатся даже без «учителя». Системам будет достаточно увидеть данные, и они сами смогут извлекать оттуда паттерны.
12. Генеративный искусственный интеллект (Generative AI)
Это метод машинного обучения — нейросети изучают контент или объекты, собирают данные и используют их для создания новых артефактов.
Генеративный ИИ может создавать новые формы контента и ускорять циклы исследований и разработок.
К 2025 году на генеративный ИИ будет приходиться 10% всех производимых данных. Сегодня менее 1%.
Сейчас значительный интерес представляют задачи условной генерации в разных модальностях: например, сгенерировать картинку или видео по описанию. Если получится хорошо выучить это отображение, такая технология может стать источником вдохновения и полезным инструментом для производителей контента и дизайнеров в будущем. На данный момент одним из самых успешных подходов text-to-image является нейросеть DALL-E от OpenAI. Близость к тексту и разнообразие генерации уже поражают, с нетерпением жду новых работ в этой

области.




 

Все лгут. Поисковики, Big Data и Интернет знают о вас всё [Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are] - Cет Cтивенс-Давидовиц

Big data простым языком [litres] - Алексей БлагиревНаталья Хапаева

Big Data. Вся технология в одной книге - Андреас Вайгенд

Индустрия счастья. Как Big Data и новые технологии помогают добавить эмоцию в товары и услуги - Уильям Дэвис

Индустрия счастья. Как Big Data и новые технологии помогают добавить эмоцию в товары и услуги - Уильям Дэвис

Искусство быть невидимым [Как сохранить приватность в эпоху Big Data] - Кевин Митник

Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики - Билл Фрэнкс

Теоретический минимум по Big Data [Всё что нужно знать о больших данных] - Анналин ЫнКеннет Су
 



Про Поток (книга с Флибусты):
Татьяна Мужицкая Теория невероятности. Как мечтать, чтобы сбывалось, как планировать, чтобы достигалось
http://flibusta.is/b/553675

  • Каждый из нас – не просто «человек думающий», каждый – «человек желающий».
    Желания – это дорога в одном направлении, они существуют только в будущем времени.
    Энергия исполнения желания способна свернуть горы и открыть дорогу в космос.
    А в масштабах человеческой жизни – круто изменить окружение, занятия, тело человека.
    Свои желания мы частично понимаем. Но такой же большой частью они лежат в сфере интуитивного, связанного с той великой силой, в потоке которой происходит наша жизнь.
    Наши желания – на грани реального и сказочного миров, и поэтому лучше всего желать умеют дети, у которых еще не стерлась разница между этими мирами, они верят в сказки. И потому они совсем не удивляются, когда их желания сбываются.

  • В современном мире человек существует в огромном информационном потоке. При этом его способности к восприятию ограниченны, и, не имея фильтров внимания, ему трудно сориентироваться. Например, есть такие психические заболевания, когда человек не способен выбирать главный признак. Ему кажется важным все. Это называется «лабильность психики». Он легко переключается с темы на тему, его мысль течет «без руля и без ветрил» по свободной волне ассоциаций... Поток сознания!

  • Нас окружает огромное количество информационных потоков. Например, откуда ты знаешь, что кофе бодрящий? Реклама нам все время говорит, что кофе бодрящий, но лично на меня растворимый кофе действует усыпляюще. И я долго не понимала бодрящих свойств этого напитка, пока друзья не привезли кофе с Ямайки. Как обычно, я сыпанула в турку две ложечки, сварила, выпила, и тут ка-ак сердце и заколотилось! Вот этот кофе был действительно бодрящим. А то, о чем говорится в рекламе, – это след, сформированный теми, кто однажды попробовал и всем рассказал. И люди, сами не испытывая подлинного вкуса, начинают находить что-то бодрящее даже в растворимом кофе. Потому что им так сказали, а они верят на слово!
     

 

kmp