Digital twin (DT)

 

 

Digital twin: термин

Термин Big dataольшие данные) в 2008 году ввёл Клиффорд Линч (редактор журнала Nature) в 2008 году в спецвыпуске журнала, посвящённом взрывному росту объёмов данных. К Big data был отнесен любой массив неоднородных данных растущий свыше 150 Гб в сутки.

По оценкам:

  • в 2005 году мир оперировал 5 эксабайт информации (4-5 миллиардов гигабайтов),

  • в 2020  – 50 000  эксабайт...

Задача Big Data  –  справиться с огромной скоростью, с которой данные создаются, и анализировать их в режиме реального времени.

 

Digital twin

Цифровой двойник (Digital Twin) – это виртуальная интерактивная копия реального физического объекта или процесса, которая помогает эффективно управлять им, оптимизируя бизнес-операции. Например, цифровой двойник завода позволяет моделировать расположение оборудования, перемещение сотрудников, рабочие процессы и внештатные ситуации. Именно интерактивность отличает понятие цифрового двойника от термина «информационная модель изделия» (ИМИ) по ГОСТ 2.053-2006. Напомним, ГОСТ 2.053-2006 характеризует ИМИ как совокупность данных и отношений между ними, описывающую различные свойства реального изделия, интересующие разработчика модели и потенциального или реального пользователя [1]. В отличие от ИМИ, цифровой двойник не ограничивается сбором данных, полученных во время разработки и изготовления продукта, а продолжает собирать и анализировать информацию в течение всего жизненного цикла реального объекта, например, с помощью устройств Internet Of Things (IoT) [2].

Множество цифровых двойников можно разделить на 3 категории [2]:

прототип (Digital Twin Prototype, DTP) – виртуальный аналог реального физического объекта. Он содержит все данные по этому продукту, включая информацию со стадий проектирования и производства, например, требования к изделию, трехмерную модель объекта, описание технологических процессов, условия утилизации и т.д.
экземпляр (Digital Twin Instance, DTI) – данные, описывающие физический объект. Например, аннотированная трехмерная модель, сведения о материалах и компонентах изделия, информацию о рабочих процессах, итоги тестов, записи о проведенных ремонтах, операционные данные от датчиков, параметры мониторинга и пр.
агрегированный двойник (Digital Twin Aggregate, DTA) – система, которая объединяет все цифровые двойники и их реальные прототипы, позволяя собирать данные и обмениваться ими в реальном времени.
Таким образом, цифровой двойник можно рассматривать в качестве виртуального прототипа реального объекта или процесса, который содержит все данные о нем, включая историю и информацию о текущем состоянии. Интерактивный анализ этих данных с помощью технологий Big Data позволяет эффективно выполнять следующие важные управленческие функции:

получение точной информации о производительности системы;
прогнозирование будущих состояний с помощью ML-моделей предиктивной аналитики;
удаленное управление объектом в режиме реального времени.

 

Digital twin, модель и тень

Цифровой двойник (англ. digital twin) – виртуальный аналог реального объекта либо процесса. Это компьютерная модель, которая в своих ключевых характеристиках дублирует его и способна воспроизводить его состояния при разных условиях. Фактически, это «мостик» между цифровой реальностью физическим миром.

Стоит отличать цифрового двойника от цифровой модели. Первые применяются, в основном, на производстве и служат для «описания» конкретного узла или агрегата. Их задача более конкретна. В то время как вторым можно поручить более общие задачи. Например, анализ поведения покупателей, моделирование ситуаций, проработка процессов в сфере гостеприимства или создание VR-сервисов. Есть также цифровая тень – она способна предсказать поведение реального объекта – но только в тех условиях, в которых осуществлялся сбор данных. Не позволяет моделировать ситуации, в которых реальный объект не эксплуатировался, однако она и несколько проще полноценного двойника.

 

Как появились Digital twin

КАК ПОЯВИЛИСЬ ЦИФРОВЫЕ ДВОЙНИКИ: СИНЕРГИЯ BIG DATA, IOT, CALS- И PLM-ТЕХНОЛОГИЙ
При том, что концепцию цифровых двойников принято относить к Industry 4.0 и цифровизации производства, истоки этого понятия зародились гораздо раньше 2010-х годов. Это понятие продолжает методологии CALS и PLM, которые появились в начале 21 века. Информационная поддержка жизненного цикла изделия или CALS (Continuous Acquisition and Life Cycle Support) предполагает непрерывную интеграцию CAD-, CAE-, CAM-, MRP-, ERP-, SCM- и CRM-систем, использующихся при проектировании, производстве и эксплуатации высокотехнологичной продукции. За интеграцию данных отвечают системы управления данными об изделии (PDM, Product Data Management). Сама технология управления жизненным циклом изделий укладывается в понятие PLM (Product Lifecycle Management) – организационно-техническую систему, поддерживает всю информацию о продукте и связанных с ним процессах от проектирования и производства до снятия с эксплуатации. Одна из целей CALS/PLM-технологий – это создание виртуальных производств, где разработка спецификаций для программно-управляемого технологического оборудования распределена во времени и пространстве между несколькими автономными организациями, чтобы ускорить и оптимизировать процессы разработки и производства изделий. В России для развития CALS/PLM-технологий разрабатываются стандарты электронного обмена данными, электронной технической документации и руководств для усовершенствования процессов под эгидой ФСТЭК РФ. В частности, создан Технический Комитет ТК431 «CALS-технологии», который разработал ряд стандартов серии ГОСТ Р ИСО 10303, соответствующих международным регламентам [3].

Однако, начиная с 2010 года, как раз, когда появился термин Big Data, популярность CALS/PLM стремительно снижается. Концепция виртуального производства воплощается в виде цифрового двойника, т.к. именно со второй половины 2010-х вычислительные мощности позволили создавать практически идентичные копии реальных физических объектов и процессов в реальном времени [4]. Благодаря этому, а также развитию больших данных и интернета вещей (Internet Of Things, IoT) идеи CALS/PLM получили продолжение в Industry 4.0. Интерактивный сбор данных с IoT-устройств позволяет в режиме онлайн наблюдать за объектом или процессом и даже управлять ими. Например, Apache Kafka вместе со Spark, Storm, Flink или NiFi обеспечивают непрерывную агрегацию и онлайн-обработку эксплуатационных данных. А за надежное хранение этой информации и данных из CAD, CAE, CAM, MRP, ERP, SCM, CRM, и даже SCADA-систем отвечает экосистема Apache Hadoop.

Кроме того, цифровые двойники активно используют еще одну трендовую технологию I4.0 – дополненную и виртуальную реальность (AR/VR). Это позволяет моделировать практически любые ситуации и наглядно представлять внутреннее устройство сложных систем, от живых организмов до космических спутников. Таким образом, цифровизация промышленных предприятий, в рамках которой разрабатываются цифровые двойники индустриальных объектов и процессов, стала современным воплощением CALS/PLM-идей, значительно расширяя их первоначальную область действия [5].

 

 

Big data для Digital twin

Интуитивное понимание  B системно меняются и переосмысливаются.
 

 

 

Приложения Digital twin

Интуитивное понимание  B системно меняются и переосмысливаются.

 




Что такое цифровые двойники и где их используют

Фото: Unsplash
В 2018 году компания Gartner в своем ежегодном исследовании технологических циклов впервые назвала цифровые двойники в числе лидеров. С тех пор технология только набирает обороты. Разбираемся, как она устроена
1
Что такое цифровой двойник
Цифровой двойник — это цифровая (виртуальная) модель любых объектов, систем, процессов или людей. Она точно воспроизводит форму и действия оригинала и синхронизирована с ним.

Цифровой двойник нужен, чтобы смоделировать, что будет происходить с оригиналом в тех или иных условиях. Это помогает, во-первых, сэкономить время и средства (например, если речь идет о сложном и дорогостоящем оборудовании), а во-вторых — избежать вреда для людей и окружающей среды.

Впервые концепцию цифрового двойника описал в 2002 году Майкл Гривс, профессор Мичиганского университета. В своей книге «Происхождение цифровых двойников» он разложил их на три основные части:

Физический продукт в реальном пространстве.
Виртуальный продукт в виртуальном пространстве.
Данные и информация, которые объединяют виртуальный и физический продукт.
По мнению Гривса, «в идеальных условиях вся информация, которую можно получить от изделия, может быть получена от его цифрового двойника».

Официально термин «Цифровой двойник» впервые упоминается в отчете NASA о моделировании и симуляции за 2010 год. В нем говорится о сверхреалистичной виртуальной копии космического корабля, которая воспроизводила бы этапы строительства, испытаний и полетов.


Так выглядел центр по созданию цифровых двойников в NASA
Мощный толчок в развитии цифровых двойников произошел благодаря развитию искусственного интеллекта и интернета вещей. Согласно исследованию Gartner Hype Cycle, описывающему циклы зрелости технологий, это произошло в 2015 году. В 2016-м цифровые двойники и сами вошли в Gartner Hype Cycle, а к 2018 году оказались на пике.


Gartner Hype Cycle-2018
2
Какими бывают цифровые двойники
прототип (DTP) — представляет собой виртуальный аналог реального объекта, который содержит все данные для производства оригинала;
экземпляр (DTI) — содержит данные обо всех характеристиках и эксплуатации физического объекта, включая трехмерную модель, и действует параллельно с оригиналом;
агрегированный двойник (DTA) — вычислительная система из цифровых двойников и реальных объектов, которыми можно управлять из единого центра и обмениваться данными внутри.
К примеру, на Ближнем Востоке технология цифрового двойника позволила «собрать» 20 нефтеперерабатывающих и нефтедобывающих предприятий компании ADNOC в единый диспетчерский пункт и унифицировать все процессы.

Оптимальной погрешностью между работой цифрового двойника и его физического прототипа считают 5%.

3
Какие задачи решают цифровые двойники
Провести тестовый запуск процесса или производственной цепочки быстро и без существенных вложений.
Обнаружить проблему или уязвимость до того, как будет запущено производство или объект поступит в эксплуатацию.
Повысить эффективность процессов или систем, отследив все сбои еще до старта.
Снизить риски — в том числе финансовые, а также связанные с безопасностью для жизни и здоровья персонала.
Повысить конкурентоспособность и прибыльность бизнеса.
Строить долгосрочные прогнозы и планировать развитие компании или продукта на годы вперед.
Повысить лояльность клиентов за счет точного прогнозирования спроса и потребительских качеств продукта.

Цифровые двойники для разработки и кастомизации роботов
Анастасия Пердеро, менеджер проекта Internet of Energy Центра энергетики Московской школы управления Сколково:

«Цифровые двойники позволяют реалистично моделировать не только сами объекты, но и процессы их строительства, эксплуатации в различных условиях. Сейчас они активно применяются для критической инфраструктуры компаний — подключенных промышленных активов, активно генерирующих данные — и могут использоваться на разных этапах жизненного цикла объекта».

4
Где применяют цифровых двойников
Добыча и переработка полезных ископаемых
Цифровые двойники помогают снизить риски при добыче и переработке нефти и газа. Это позволяет сохранить жизни сотрудников и избежать ущерба для окружающей среды, а также сэкономить огромные суммы.

На одном из европейских нефтеперерабатывающих предприятий система предикативной (прогнозной) аналитики Schneider Electric позволила предсказать сбой большого компрессора за 25 дней до того, как он случился. Это сэкономило компании несколько миллионов долларов.

Крупное производство
Технология цифровых двойников позволяет создавать отдельные детали и воспроизводить целые производственные цепочки, проводя виртуальные испытания и предупреждая сбои в работе оборудования.


Корпорация Siemens использует цифровых двойников для разработки двигателей, систем коммуникаций и даже скоростных поездов
Энергетика
Цифровые двойники применяют, чтобы оптимизировать работу электростанций, избежать сбоев в подаче электричества и рационально подойти к энергопотреблению.

Благодаря цифровым двойникам компания GE сэкономила более $1,5 млрд для своих потребителей.

ИТ-инфраструктура
Можно смоделировать как отдельное устройство или сервис, так и целую сеть, рассчитав предельные нагрузки и продумав защиту от киберугроз.


Сервис по созданию цифровых двойников на платформе Azure от Microsoft
Строительство
С помощью цифровых двойников можно построить модель будущего здания или целого квартала и спрогнозировать, как оно впишется в среду, выдержит климатические условия и нагрузки на несущие конструкции.


При восстановлении Нотр-Дама использовали цифровой двойник собора
Дизайн
Виртуальные 3D-модели предметов интерьера или декора помогают представить, как будет выглядеть объект, нужно ли что-то изменить в его форме, цвете и деталях.

Ретейл
Цифровые двойники позволяют спрогнозировать загрузку торговых залов, перемещение клиентов и сотрудников, оптимальный уровень освещенности и температуру.

Транспорт и логистика
С помощью цифровых двойников можно оптимизировать маршруты транспорта, работу технических служб и пассажиропотоки.

Виртуальная система обработки багажа для крупного аэропорта позволила заранее просчитать, что понадобится дополнительная линия транспортировки для перераспределения потоков при внештатных ситуациях.

Образование
Цифровые модели помогают изучить физические объекты и процессы в виртуальной среде, часто — с использованием виртуальной, дополненной и смешанной реальности.

Космическая отрасль
С помощью цифровых двойников разрабатывают, тестируют и запускают космические корабли и целые программы.

Цифровой двойник «Аполлона-13» в 1970 году позволил инженерам и астронавтам на Земле спасти миссию во время аварии.

Медицина
Цифровые двойники пациентов помогают сканировать жизненные показатели в режиме онлайн, подбирать наиболее эффективное лечение и проводить операции.


Как работают цифровые двойники от Philips
Спорт
Можно отработать тактику командной игры или провести индивидуальную тренировку на цифровом двойнике.

Цифровые симуляции используют для усовершенствования болидов «Формулы-1», рассчитывая идеальные показатели и технические характеристики для гоночных трасс.

Урбанистика
Существуют цифровые двойники целых городов — например, Сингапура или российского Кронштадта. На них отслеживают транспортные потоки, работу коммуникаций, застройку, экологическую обстановку и энергопотребление, чтобы вовремя вносить важные изменения.

Сельское хозяйство
Благодаря цифровым двойникам можно просчитать климатические условия и урожай, сделав земледелие более эффективным.

5
Как выглядит процесс создания цифрового двойника
Двойники можно создавать разными способами:

графическая 3D-модель;
модель на базе интернета вещей;
интегрированные математические модели — такие как CAE-системы (Computer-aided engineering, решения для инженерного анализа, расчетов и симуляций) для инженерных расчетов;
различные технологии визуализации — включая голограммы, AR и VR.
Этапы создания двойника выглядят следующим образом.

Исследование объекта
Этот этап предшествует разработке только в том случае, если у цифрового двойника есть реальный прототип — например, работающее предприятие или система коммуникаций. Тогда разработчики составляют детальную карту прототипа, воспроизводят все процессы и характеристики. При этом важно изучить объект в разных условиях.

Моделирование цифровой копии объекта
Этот этап может быть первым, если реального прототипа еще нет и создание цифрового двойника ему предшествует. Например, в строительстве или дизайне, когда вначале создается цифровая 3D-модель, а уже потом — оригинал здания или другого объекта.

Для построения комплексной модели используются математические методы вычисления и анализа:

Метод конечных элементов (FEA — Finite Element Analysis), позволяющий рассчитать эксплуатационную нагрузку. Его применяют, допустим, для расчета механики деформируемого твердого тела, теплообмена, гидродинамики и электродинамики.
FMEA-модели (Failure Mode and Effects Analysis, анализ видов и последствий отказов) необходимы для анализа надежности систем и выявления наиболее критических шагов производственных процессов.
CAD-модели (computer-aided design/drafting, средства автоматизированного проектирования) используются, чтобы рассчитать внешние характеристики и структуру объектов, материалов и процессов.
Воплощение модели
Затем рассчитанную ранее архитектуру цифрового двойника переносят на специальные платформы — такие как Siemens или Dassault Systemes. Они объединяют математические модели, данные и интерфейс для управления цифровым двойником, превращая его в динамическую систему. Этот этап можно сравнить с трансформацией программного кода в программу или приложение с визуальным интерфейсом, который понятен любому пользователю.

Тестирование основных процессов работы на цифровом двойнике
Главная цель этого этапа — спрогнозировать, как будет вести себя объект или система в обычном режиме и при внештатных ситуациях, чтобы избежать поломок и перегрузки после запуска. Для этого к процессу подключают технических аналитиков, которые собирают большой массив данных в ходе испытаний, чтобы просчитать алгоритмы для любых возможных условий и ситуаций.

Запуск и наладка
Если предыдущий этап провели корректно, в процессе работы реального прототипа можно избежать до 90% сбоев и поломок. Однако часть ситуаций все же не удается спрогнозировать, и тогда их отслеживают уже на этапе запуска и наладки цифрового двойника.

Корректировка и развитие оригинального объекта или системы
Далее инженеры продолжают работать с цифровым двойником как с реальным физическим объектом до тех пор, пока не будут отлажены все системы и процессы. По результатам этой работы в оригинальный объект вносят изменения, чтобы добиться его максимальной эффективности.

6
Перспективы цифровых двойников
По данным Gartner, 12% компаний, которые используют интернет вещей, также применяют и цифровые двойники, а 62% планируют это сделать. GE Digital в 2019 году называла цифру в 1,2 млн цифровых двойников в мире. По другим прогнозам, в ближайшие пару лет рынок цифровых двойников достигнет $16 млрд.

В промышленности технология уже сегодня помогает повысить эффективность минимум на 10%, а в нефтяной отрасли — сэкономить от 5% до 20% капитальных вложений. В ближайшие годы крупные компании перейдут к дистанционному мониторингу и управлению целыми производствами и всеми подразделениями через виртуальные системы.

То же самое произойдет и с городами: они обзаведутся цифровыми двойниками, объединяющими все важнейшие системы, районы и объекты городской инфраструктуры. Онлайн-мониторинг будет осуществляться при помощи IoT-датчиков, сканеров и дронов с машинным обучением, а сами виртуальные системы будут размещены в облаке. При этом доступ к двойникам будет и у федеральных властей. Это позволит, в частности, экстренно реагировать на чрезвычайные ситуации и предотвращать их даже в самых отдаленных регионах.

Цифровых двойников можно будет использовать и в повседневной жизни: например, чтобы следить за жизненными показателями или улучшить работу какого-либо устройства. С помощью интернета вещей мы сможем объединить все коммуникации и технику в доме в единую систему и управлять ими с помощью цифрового двойника дома.

Подробнее на РБК:
https://trends.rbc.ru/trends/industry/6107e5339a79478125166eeb
 

 

Digital twin в образовании


И создаем и изменяем вещи,—
А эти вещи изменяют нас
Михаил Дудин

Образование
Цифровые модели помогают изучить физические объекты и процессы в виртуальной среде, часто — с использованием виртуальной, дополненной и смешанной реальности.

 

 

«Цифровые двойники» в образовании:
перспективы и реальность
Научная статья
DOI: 10.31992/0869-3617-2021-30-2-22-32
Вихман Виктория Викторовна – канд. пед. наук, канд. техн. наук, доцент, vvv@smc.nstu.ru
Ромм Марк Валериевич – д-р. филос. наук, профессор, mark.romm@gmail.com
Новосибирский государственный технический университет, Новосибирск, Россия
Адрес: 630073, Новосибирск, проспект Карла Маркса, 20
Аннотация. Данная статья нацелена на осмысление революционных по значению и
«цифровых» по сути метаморфоз в образовании и перспектив возникновения на их основе
новой образовательной сетевой реальности. В центре обсуждения не столько сами цифровые новеллы и трансформации в образовании как таковые, сколько необходимость осмысления возможных перспектив и результатов этих социально-сетевых изменений и модификаций, вызванных к жизни очередным этапом цифровой революции в образовании. Акцент
сделан на осмыслении процесса / результата воплощения в жизнь методологии «цифровых
двойников» в образовании. В работе ставится вопрос о социальных последствиях воплощения методологии конструирования новейшей сетевой реальности «цифровых двойников
в образовании», которая в перспективе имеет все шансы стать уникальной сетью сетей
«цифровых двойников» различных социальных акторов в образовании. Обсуждается управленческий потенциал разработки и сложности практического воплощения методологии
цифровых двойников, ожидаемые эффекты от имплементации последней в образование и
социально-технологические последствия конверсии данной технологии в новую сетевую образовательную реальность Российской Федерации.
https://vovr.elpub.ru/jour/article/view/2630/1619


15:06 23.07.2019
Новая передовая методика преподавания в школах и вузах - "цифровой двойник образования", основанная на учете психофизиологических качествах учеников и позволяющая им лучше воспринимать материал, разрабатывается в России, сообщил журналистам президент Российской академии наук Александр Сергеев.
"Мы начали обсуждать, у нас идет целая серия совещаний и с министерством просвещения, и с крупными IT-компаниями, по разработке подходов к индивидуализации обучения в школах и университетах, когда на основе визуализации психофизиологических реакций обучаемого формируется его цифровая модель. И с помощью IT-технологий эта модель оптимизируется на наиболее эффективное восприятие материала по тем или иным тематикам", - сказал Сергеев.
"И после того, как на модели выясняется, как наиболее эффективно она учится, та же самая программа предъявляется живому обучаемому, и по ней ведется обучение", - отметил он. "Это в некотором смысле революционный подход к системе индивидуального образования", - добавил глава РАН.
"Это индивидуальный подход к каждому. В конце концов, все строится на эмоциях. Вы хорошо обучаетесь тогда, когда приятно это делать. Можно ли это каким-то образом объективизировать? Есть современные подходы к тому, чтобы разложить реакцию обучаемого, как говорят психологи, по базовым эмоциям. И обучение должно выстраиваться таким образом, чтобы оно воспринималось максимально позитивно, без отторжения", - пояснил Сергеев.
По его словам, РАН с министерством просвещения будет предлагать этот проект как комплексный научно-технический проект в рамках стратегии научно-технологического развития России.

Как сообщил президент РАН Александр Сергеев, новая методика преподавания материала для школ и вузов будет учитывать психофизиологические особенности учеников. В настоящее время, по словам Сергеева, уделяется мало внимания предрасположенности людей к тем или иным методам восприятия и запоминания информации. Каждому надо подбирать их индивидуально.
Для этого ученые сначала создадут «цифрового двойника» каждого учащегося на основе его индивидуальных качеств. В нее войдет, например, такой параметр, как скорость восприятия зрительных образов и звуков. Кроме того, будут учитываться эмоции, возникающие у человека при обучении (за лицом станет «следить» видеокамера). Когда состояние, в котором находится обучающийся, оцифруют (то есть, будет создан его цифровой двойник), при помощи компьютерной программы для него подберут самую оптимальную методику преподавания. В дальнейшем ее начнут применять в отношении реального учащегося.

– Методика должна выстраиваться таким образом, чтобы предмет воспринимался позитивно, без отторжения, - пояснил Сергеев. - Все это важно для максимального использования человеческого потенциала.

РАН уже начала обсуждение проекта с Минпросвещения и IT-компаниями по разработке передовых подходов к обучению в школах и университетах. Последние заверили, что программное обеспечение для такой работы у них имеется.

По словам президента академии, проект «Цифровые двойники образования» РАН и Минпросвещения РФ будут предлагать как комплексный научно-технический проект в рамках Стратегии научно-технологического развития России. Предполагается, что пилотным регионом для внедрения новых методик обучения станет Сахалин.

24.11.2021 Треть работников российских компаний проверяют соцсети на работе каждую свободную минуту
 

 

https://s.eduherald.ru/pdf/2019/5-1/19731.pdf
https://kafedroziz.ru/library/sbornik2017/3.pdf

 

 

Big data: источники

 

К основным источникам big data относят:

  • показания считывающих устройств – метеорологические приборы, датчики сотовой связи и другие.

  •  интернет вещей

  • интернет – блоги, соцсети, сайты, СМИ и различные форумы;
    К
    аждую минуту в мире выполняется почти 2,5 миллиона запросов к поисковой системе Google.

  • корпоративную информация – архивы, транзакции, базы данных  предприятий и организаций, медицины

  • научные проекты (эксперименты и наблюдения)

    • Количество данных, которые получаются на БАК (Большом адронном коллайдере), так огромно, что с ним не справляется даже огромный дата-центр CERN и вынуждено используются память и вычислительные ресурсы в странах — участницах СERN (в т.ч. России). Каждый владелец мощного компьютера может помочь вычислениям.наблюдений...

      В качестве примеров источников возникновения больших данных приводятся[30][31] непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов, потоки сообщений из социальных сетей, метеорологические данные, данные дистанционного зондирования Земли, потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.

 

 

 Synthetic data

 

Синтетические данные — это программно сгенерированные данные, используемые в бизнес-приложениях (в том числе в машинном обучении).

 

Синтетические данные дают возможность дата-сайентистам и разработчикам обучать модели для проектов в тех областях, где пока еще нет big data.
Они дают возможность дата-сайентистам и разработчикам обучать модели для проектов в тех областях, где пока еще нет big data. По словам Алекса Уотсона (Alex Watson),
По оценкам Gartner, к 2022 году 40% моделей МО будут натренированы на синтетических наборах данных.


Нередко возникают ситуации, когда получение реальных бизнес-процессов сложно или дорого, но при этом известны требования к таким бизнес-процессам, правила создания и законы распределения. Как правило, это происходит, когда речь идёт о чувствительных персональных данных — например, информации о банковских счетах или медицинской информации. В таких случаях необходимые наборы данных можно программно сгенерировать.


Существует два основных подхода к генерации синтетических наборов данных.
В случае, когда реальные данные отсутствуют или их сбор невозможен (из-за большой длительности или дороговизны процесса), наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако, такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр возможных случаев, и полученная с помощью такого набора модель может давать непредсказуемые результаты в крайних случаях.

Также применяется аугментация (англ. augmentation) — генерация наборов на основе имеющихся бизнес-процессов. К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные. Для числовых данных могут использоваться такие искажения, как добавление объектов с усреднёнными значениями, смешивание с объектами из другого распределения, добавление случайных выбросов.

Преимущества использования синтетических данных:
Возможность генерации наборов данных практически любого размера.
Известность параметров генерации, а значит, и генеральной совокупности: можно сравнить оценки модели и истинные параметры, и исходя из этого судить о качестве полученных выборочных оценок параметров.
Ускорение и удешевление процесса разработки: не нужно ждать, пока будет собран и размечен достаточный объём реальных данных.
Повышение доступности больших объёмов данных.

В то же время, у синтетических данных есть и недостатки:
Отсутствие универсального способа генерации, применимого для любых задач: в каждом конкретном случае необходимо дополнительное исследование требований, накладываемых на генерируемые данные.
Отсутствие универсальных метрик качества и применимости генерируемых данных.
Излишняя «стерильность» получаемых данных: в общем случае неизвестно, какими могут быть выбросы в реальных данных[1].

Применение
Сгенерированные объекты можно использовать в задаче обучения с учителем для расширения обучающего множества, сведя её к задачам частичного обучения и самообучения. Довольно распространённым подходом является обучение сначала на большом наборе синтетических данных, а затем дообучение на небольшом наборе имеющихся реальных данных. Иногда при обучении реальные данные не используются вовсе. При этом в тестовых множествах использовать синтетические наборы данных нельзя: в них должны быть только реальные объекты.

Синтетические данные используют не только при недоступности реальных, но и для того, чтобы изменить распределение классов в уже имеющихся данных, дополнив их по определённому алгоритму[2].

Синтетические данные активно используются при обучении алгоритмов управления автономным транспортом. Эти алгоритмы решают две задачи: сначала выявляют окружающие объекты — машины, дорожные знаки, пешеходов, а затем принимают решение о направлении и скорости дальнейшего движения. При реализации таких алгоритмов наиболее важно поведение транспортного средства в критических ситуациях, таких как помехи на дороге или некорректные показания сенсоров — от этого могут зависеть жизни людей. В реальных данных же, наоборот, в основном присутствуют штатные ситуации.

Одно из самых наглядных применений аугментации данных — алгоритмы восстановления изображений. Для работы таких алгоритмов исходный набор изображений расширяется их копиями, к которым применяются некие преобразования из фиксированного набора. На основе полученных изображений генерируется набор, в котором входными данными считаются полученные изображения, а целевыми — исходные. В самом деле, получить реальные данные для такой задачи — фотографию и её же искажённую копию — довольно затруднительно, а применение таких преобразований довольно легко автоматизируется. Таким образом, если исходные изображения достаточно хорошо описывали источник данных, то полученный набор данных можно применять для обучения алгоритма восстановления изображений, устраняющего применённые преобразования.

Также с помощью синтетических наборов данных можно упростить обучение алгоритмов компьютерного зрения, решающих задачи семантической сегментации, поиска и локализации объектов. В данном случае подходят наборы, в которых искомые объекты определённым образом наносятся на фоновое изображение. В частности, таким объектом может быть текст — тогда с помощью полученного набора может быть решена задача распознавания текста на изображении.

Синтетические данные используются и для создания алгоритмов реидентификации[на 25.01.21 не создан] — определения, действительно ли на двух изображениях один и тот же человек. Эти алгоритмы могут использоваться для нахождения людей на записях с камер, на пограничных пунктах и так далее. В этом случае реальные данные собрать довольно сложно, потому что требуется найти много фотографий одних и тех же людей в разных позах, с разных ракурсов и в разной одежде.

При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего алгоритма, подходящего для всех случаев не существует. Как правило, общие алгоритмы наподобие добавления средних значений оказываются нерепрезентативными.
 

 

3 различных типа синтетических данных.

  • Фиктивные данные - это данные, сгенерированные случайным образом (например, генератором случайного шума). Следовательно, характеристики, отношения и статистические шаблоны, которые есть в исходных данных, не сохраняются, не фиксируются и не воспроизводятся в сгенерированных фиктивных данных. Следовательно, эти данные не являются репрезентативными ни в какой форме по сравнению с исходными данными.

  • Созданные на основе правил синтетические данные - это синтетические данные, созданные с помощью заранее определенного набора правил. Примерами этих заранее определенных правил может быть то, что вы хотели бы иметь синтетические данные с определенным минимальным значением, максимальным значением или средним значением. Здесь необходимо заранее определить любые характеристики, отношения и статистические шаблоны, которые вы хотели бы воспроизвести в сгенерированных на основе правил синтетических данных.
    Следовательно, качество данных будет таким же хорошим, как и заранее определенный набор правил. Однако это приводит к проблемам, когда важно высокое качество данных. Во-первых, можно определить только ограниченный набор правил, которые нужно зафиксировать в синтетических данных. Кроме того, установка нескольких правил обычно приводит к перекрытию и конфликту правил. Более того, вы никогда не сможете полностью охватить все соответствующие правила. Кроме того, могут существовать соответствующие правила, о которых вы даже не знаете. И, наконец (не забывайте), это займет у вас много времени и энергии, что приведет к неэффективному решению. Таким образом, с созданными на основе правил синтетическими данными вы окажетесь в немасштабируемой ситуации с качеством синтетических данных, которое не уступает качеству заранее определенного набора правил.

  • Синтетические данные, генерируемые искусственным интеллектом (ИИ)
    Как и следовало ожидать из названия, синтетические данные, генерируемые искусственным интеллектом (AI), представляют собой синтетические данные, генерируемые алгоритмом искусственного интеллекта (AI). Модель ИИ обучается на исходных данных, чтобы узнать все характеристики, взаимосвязи и статистические закономерности. После этого этот алгоритм ИИ может генерировать совершенно новые точки данных и моделировать эти новые точки данных таким образом, чтобы воспроизводить характеристики, взаимосвязи и статистические закономерности из исходного набора данных. Вместо того, чтобы изучать и определять соответствующие правила (как в случае сгенерированных на основе правил синтетических данных), алгоритм ИИ делает это автоматически. Здесь будут охвачены не только характеристики, взаимосвязи и статистические закономерности, о которых вы знаете, но также характеристики, отношения и статистические закономерности, о которых вы даже не подозреваете.

Dummy data
https://generatedata.com/

 

 

DataLake.  +

 

DataLake (озеро данных) — репозитарий, в котором хранится огромный объем «сырых» данных в их первоначальном формате до тех пор, пока они не будут использованы.

Идея озера данных  —   хранить необработанные данные в их оригинальном формате до тех пор, пока они не понадобятся.

При доступе к озерам данных пользователи должны знать:

Конкретные типы данных и источники, в которых они нуждаются.
Сколько данных им нужно.
Когда им это нужно.
Методы аналитики, которые будут применяться к этим данным.



Есть хранилище данных – инструмент, который стал синонимом процесса извлечения, преобразования и загрузки (ETL). На высоком уровне хранилище данных содержит огромные объемы данных, структурированных строго регламентированными способами. Они требуют, чтобы перед загрузкой данных была проведена строгая схема. (Это почти всегда схема «звезда» или «снежинка».) Схема в хранилище данных определяется «по записи». Процессы ETL должным образом выводят отчеты об ошибках, создают файлы регистрации и отправляют ошибочные записи в файлы исключений и таблицы, в которые можно заглянуть с течением времени.

В связи с таким четким подходом хранилища данных поддерживают частичный или инкрементный ETL. Другими словами, в зависимости от серьезности проблемы, организация может загружать или перезагружать части своего хранилища данных, когда что-то идет не так.

Организации периодически заполняют хранилища данных. Данные обновляются с помощью регулярных циклов. Например, в 3 часа утра каждый день, когда сотрудникам вряд ли понадобится доступ к данным и связанным системам. А когда они приходят на работу, все свежие данные уже загружены.
 

 


Из озера данные по нисходящей попадают в хранилище данных, которое подразумевает нечто более обработанное, упакованное и готовое к применению. И если озеро хранит данные в сложных для распознавания или вообще не читаемых подавляющим большинством сотрудников форматах (неструктурированном, полуструктурированном), то хранилище данных состоит из структурированных в виде баз данных, которые доступны приложениям и сотрудникам. Данные, предоставляемые в форме витрин или хабов, еще более удобны для применения внутренними подразделениями компании.

Таким образом, озеро данных содержит большие объемы данных в исходном виде. В отличие от запросов к хранилищу или витрине данных, для запросов к озеру требуется подход schema-on-read (мы принимаем и храним все данные, и рассуждаем об их структуре только в момент чтения для конкретной задачи).

Озеро данных: типы данных и методы доступа

Источники данных в озере данных включают все данные организации или одного из ее подразделений. К ним относятся структурированные данные реляционных баз, полуструктурированные данные (CSV, файлы журналов и др.), данные в форматах XML и JSON, неструктурированные данные (э-письма, документы, PDF-файлы и др.), а также двоичные данные (изображения, аудио и видео). С точки зрения протокола хранения это означает, что озеру нужно хранить данные, которые возникли в файловом, блочном и объектном хранилищах.

Объектное хранилище — это общепринятый протокол для самого озера данных. Не забывайте, что оно открывает доступ не к самим данным, а к заголовкам метаданных. Последние описывают данные, их можно прикрепить к чему угодно, от базы данных до фотографии. Подробные запросы к данным могут происходить где угодно, но не в озере данных.

Объектное хранилище очень хорошо подходит для хранения больших объемов данных в неструктурированном виде. То есть с ним нельзя работать, как с базой данных в блочном хранилище, но оно позволяет хранить несколько типов объектов в большой плоской структуре и знать, что там находится.

Объектное хранилище обычно не гарантирует высокую производительности, но применительно к озеру данных это нормально: запросы для него создавать и обрабатывать сложнее, чем для реляционной базы в хранилище данных. Но это не страшно, потому что бóльшая часть запросов на этапе озера данных будет касаться формирования более пригодных для детальных запросов нижестоящих хранилищ данных.



 

 

Чем опасны data lake
У озер данных есть одна серьезная проблема. Любые данные, попадающие в data lake, попадают туда практически бесконтрольно. Это значит, что определить их качество невозможно. Если у компании нет четкой модели данных, то есть понимания типов структур данных и методов их обработки, плохо организовано управление озером, в нем быстро накапливаются огромные объемы неконтролируемых данных, чаще всего бесполезных. Уже непонятно, откуда и когда они пришли, насколько релевантны, можно ли их использовать для аналитики.

В итоге наше озеро превращается в болото данных — бесполезное, пожирающее ресурсы компании и не приносящее пользы. Все, что с ним можно сделать, — полностью стереть и начать собирать данные заново.

Чтобы озеро не стало болотом, нужно наладить в компании процесс управления данными — data governance. Главная составляющая этого процесса — определение достоверности и качества данных еще до загрузки в data lake. Есть несколько способов это сделать:

отсекать источников с заведомо недостоверными данными;
ограничить доступ на загрузку для сотрудников, у которых нет на это прав;
проверять некоторые параметры файлов, например не пропускать в озеро картинки, которые весят десятки гигабайт.
Настроить такую фильтрацию проще, чем каждый раз структурировать данные для загрузки в базу данных. Если процесс налажен, в data lake попадут только актуальные данные, а значит, и сама база будет достоверной.

Управление данными — это не факультативная, а приоритетная задача. В компании должен быть отдельный сотрудник, ответственный за data governance. Обычно это Chief Data Officer, CDO.

 

 

Data Fabric DataOps

Текст (от лат. textus — ткань; сплетение, сочетание) - связная и полная последовательность символов.

Data Fabric (иногда? обычно?) неправильно переводят как «фабрику данных»

Data Fabric   ткань данных (цельная архитектура управления данными с полным и гибким доступом для работы с ними).

Data Fabric  — автономная экосистема максимально эффективного доступа к (корпоративным) данным, которая позволяет эффективно искать, обрабатывать, структурировать и интегрировать данные.

 

 

Хранение и управление данными стало сложнейшими инженерными задачами на фоне:

  • увеличение объёма данных

  • стремительного роста числа разрозненных хранилищ данных и приложений данных

  • несовместимости источников

  • сильных различий форматов данных

  • проблем масштабирования

Масштабируемость (scalability):

  • способность (системы, сети, службы) справляться с растущей нагрузкой при добавлении ресурсов (программных и аппаратных).

  • отношение прироста производительности системы к приросту используемых ресурсов.

Data Fabric   метод решения указанных проблем BD на основе:

  • использования машинного обучения на каждом шаге обработки данных

  • связь всех источников данных и потребителей сквозной интеграцией через API.

  • микро-сервисной архитектуры.

  • облачных решений,

  • оркестрирации и виртуализизации информационных потоков.


 

Data Fabricслужбы и сервисы, которые облегчают обмен данными между платформами, обеспечивая безопасность легкого доступа к данным для каждой из групп пользователей:

  • данные становятся доступны независимо от места их хранения,

  • встроенная аналитика расширяет возможности использования данных,

  • масштабируемость архитектур (средств, систем и сервисов работы с данными).

Data Fabric реализуется в концепции DataOps.

 

 

DataOps

 

Data Fabric реализуется в концепции DataOps.

DataOps (DATA Operations) — концепция и набор практик непрерывной интеграции данных между процессами, командами и системами для повышения эффективности управления и взаимодействия за счет распределенного сбора, централизованной аналитики и гибкой политики доступа к данным с учетом их конфиденциальности, ограничений на использование и соблюдения целостности.

DataOps введена по аналогии с DevOps  —  DEVelopment Operations

Цель DevOps  быстрая и непрерывная поставка работающего программного обеспечения

 

Цель DataOps  — оперативное и безбарьерное предоставление актуальных и рабочих данных каждому участнику процессов.

Это означает устранение когнитивных, временных и организационных разрывов между исследователями данных (data scientists), предметными аналитиками, разработчиками, руководителями и пользователями Big Data.


Big Data динамичны, поэтому нужны не только надежные и быстрые технологии их обработки, необходима гибкость прикладных и управляющих процессов, изменение корпоративной культуры, когда информация становится главной ценностью и основным средством осуществления деятельности.

 

 

Разметка данных

 данные) в 2008 году ввёл

 

 

BD в образовании +

 

  • Все на «удаленку»: как улучшить качество обучения в цифровой среде
    Как устроено цифровое образование, в чем его преимущества и как применять его с умом
    https://postnauka.ru/longreads/156713

  • Ученик, директор, ученый: как используют данные из цифровой образовательной среды
    Персональные образовательные траектории и глобальные исследования
    https://postnauka.ru/longreads/156714

  • Алекс Пентленд Социальная физика [Как Большие данные помогают следить за нами и отбирают у нас частную жизнь]
    http://flibusta.is/b/641177

  • Новые миры и большая наука: как используют игровые данные
    Аналитика данных позволила сделать игры интересными для пользователей и прибыльными для разработчиков
    https://postnauka.ru/longreads/156716

  • Большой игровой брат: big data в компьютерных играх
    Терабайты данных игроков собираются, хранятся, используются — и меняют индустрию
    https://postnauka.ru/longreads/156715

 

 

 

Big data: социальный заказ

 

 

Социальный заказ на АОТ - масштабы текста... Большие данные! Иначе не справиться!
АОТ не для того, чтобы заменить человека в традиционных сферах и областях...
Для новых областей и сфер... новых масштабов!
а уже потом.. они теснят его в старых.. системно меняя (и отменяя) старые ... в том числе по роли и значению в социуме...
Социальный заказ - общественная потребность (осознаваемая и нет).
Потребность — внутреннее состояние, характеризующее функциональную недостаточность чего-либо.
Фабрика данных? ложные друзья переводчика! Ткань данных!
.... текст ткань связанность + полнота (но полнота чего?)
не в тексте полнота, а в языке?
в тексте полнота! в любом! Но понимаемом нами иначе - не как фрагмент плоский и пустой, а как фрактал (в любой части текста (языка) содержится весьтекст (язык) ... в любом тексте весь язык... пусть и непроявленный для многих)
язык есть полнота полнота в языке в контексте перевод одной ткани в другую структура остается той же
Автоматическая обработка текста востребовано как решение много работы большого объёма текста
Сделать дорого, затраты окупаются тиражом
И тогда уже можно играться (делая все, что только можно сделать... паразитируя на труде накопленном)
 

 

Все данные - текст!

Термин Big dataольшие данные) в 2008 году ввёл Клиффорд Линч (редактор журнала Nature) в 2008 году в спецвыпуске журнала, посвящённом взрывному росту мировых объёмов информации.

Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

 

Список Gartner: 12

Список Gartner: 12 стратегических технологических тенденций в 2022 году
https://www.gartner.com/en/information-technology/insights/top-technology-trends
1. Фабрика данных (Data Fabric)
2. Сеть кибербезопасности (Cybersecurity Mesh)
Сотрудники компаний могут находиться где угодно, а не только в офисе или на производстве — традиционный периметр безопасности исчез. Для безопасности нужна гибкая, компонуемая архитектура, которая объединяет распределённые службы. Сеть кибербезопасности помогает создать интегрированную структуру безопасности и защитить все активы независимо от их местонахождения.
Понятие Cybersecurity Mesh введено Gartner. Точного описания или определения этой технологической тенденции нет. Как нет и готовых фреймворков.
Cybersecurity Mesh является частью концепции Zero Trust, когда отсутствует полное доверие кому-либо, даже внутренним пользователям. Это набор децентрализованных решений, помогающих организовать защиту конечных пользователей, их компьютеров, а также всех активов во внутренней сети.
Разделение доступов, внедрение дополнительных способов аутентификации, контроль устройства, анализ поведения и другие технологии помогут повысить общий уровень безопасности, предотвратить большую часть взломов и утечек информации. Также стоит отметить акцент на децентрализацию — создание решений, помогающих избежать точек отказа, проверять подлинность данных без необходимости постоянной связи. Сюда же относятся комплексные решения с использованием блокчейна.
3. Вычисления, усиливающие защиту конфиденциальности данных (Privacy-Enhancing Computation, PEC)
Эта тенденция в контексте законов о конфиденциальности и защите данных, растущих опасений потребителей.
Хранение личных данных пользователей — необходимая мера, несущая риски. Утечки персональных данных грозят компаниям как репутационными, так и финансовыми потерями. Скорость изменения законов связана и с низкой цифровой грамотностью населения.
4. Облачные платформы (Cloud-Native Platforms)
Приложения, которые изначально создают для работы в облачных инфраструктурах, позволяют разрабатывать новые отказоустойчивые, эластичные и гибкие архитектуры. В последний год активно используют термины: Cloud First, Cloud Only. Для многих компаний это уже стандарт построения инфраструктуры. Использование облачной инфраструктуры снижает стоимость сопровождения и time-to-market.
Топ-2 провайдеров из года в год:
Amazon Web Services (30% рынка)
Microsoft Azure (20% рынка)
5. Составные приложения (Composable Applications)
Составные приложения строятся из модульных компонентов
К ключевым принципам построения такой платформы можно отнести следующее:
независимо развивающийся модуль, поставляющий конечную ценность потребителю,
гарантия единого пользовательского опыта на всех устройствах,
расширяемость и модульность решения.
развития собственного API.
6. Интеллект для принятия решений (Decision Intelligence)
Каждое решение рассматривается как набор процессов, при которых используются данные для анализа, получения обратной связи и корректировки действий. При таком подходе процесс принятия решений может даже автоматизироваться за счёт искусственного интеллекта.
Это сокращает время на принятие управленческих решений и улучшает их качество. Особенно это полезно в таких областях, где время имеет высокую значимость: медицина, вооружённые силы, службы спасения.
Подход к интеллектуальному принятию решений на основе данных стал массовым недавно, 5–10 лет назад, когда компании получили возможность относительно дёшево хранить. Рынку понадобилось время, чтобы принять тот факт, что машина в некотором классе задач принимает решение значительно эффективнее человека. И этот класс постоянно расширяется, что приводит к изменению и даже исчезновению конкретных ролей в бизнесе.
7. Гиперавтоматизация (Hyperautomation)
Это подход, который позволяет быстро определить, проверить и автоматизировать как можно больше процессов.
Гиперавтоматизация стоит на трёх китах:
повышение качества работы,
ускорение процессов,
гибкость принятия решений.
Компании необходимо поддерживать целый слой процессов: наём, удержание людей, административные вопросы. Когда компании удаётся заменить человека автоматикой, весь этот слой процессов исчезает. Освобождаются ресурсы компании, ускоряется масштабирование.
Автоматизация растёт во всём мире, но российские компании всё ещё отстают в части административных и операционных процессов вроде документооборота. Обратная ситуация с цифровыми процессами, такими как управление маркетингом или создание IT-продуктов.
8. Разработка искусственного интеллекта (AI Engineering)
К 2025 году 10% предприятий, которые внедрят передовые методы проектирования ИИ, получат как минимум в 3 раза больше прибыли, чем конкуренты.
До построения модели ИИ необходимо собрать качественные данные. Это трудно реализовать без правильного подхода к проектированию хранилищ и аналитических слоёв данных.
После построения модели необходимо внедрить её в текущие процессы, то есть вписать модель в техническую инфраструктуру компании. При неправильном подходе модель может негативно повлиять на конечный результат или даже сломать продукт.
Любые модели устаревают. Без налаженного мониторинга качества в определённый момент результаты такой автоматизации могут стать негативными.
Понимание ИИ всё ещё недостаточно.
Многие компании смотрят на это со скепсисом, или, наоборот, как на панацею, которая решит все их проблемы.
Но ситуация стремительно меняется, и в ближайшие 5–10 лет компании без ИИ-технологий будут сильно проигрывать конкурентам.
AI based companies — компании, которые ставят в основу интеллектуальные алгоритмы анализа данных как ядро бизнеса. Часто это компании с доменом *.ai.
Есть базовое утверждение — с ИИ будет лучше, чем без него. При этом множество бизнес-задач решается классическими алгоритмами, которые не требовательны к инфраструктурным изменениям и потоковой обработке данных. Поэтому существует много неудачных кейсов внедрения ИИ в бизнесе. Есть конкретные рекомендации для запуска ИИ в компаниях:
всегда в начале использовать baseline без ИИ для сравнения эффективности прироста в показателях,
изучить методологии работы с анализом данных в предприятиях Lean DS и CRISPR.

ИИ-решения будут представлены в виде блоков реализаций небольших задач.
Каждый блок связан с другой задачей в виде графа решений, где ответ модели на одном блоке будет составляющей для принятия решения на следующем.
Это напоминает то, как люди мыслят.
Совершенствуясь в чём-то одном, не нужно будет переучиваться полностью.
9. Распределённые предприятия (Distributed Enterprises)
С развитием удалённых и гибридных схем работы офисы уступают место распределённым предприятиям, сотрудники которых территориально рассредоточены.
Удалённый формат работы стал нормой. Сейчас практически не встретишь IT-компанию с обязательным требованием работы из офиса.
Вторая популярная модель работы — гибридная. Сотрудники договариваются 1–2 дня в неделю приходить в офис для брейншторма, ретро, планирования спринтов. В теории это повышает командный дух и уменьшает вероятность того, что сотрудник уйдёт в другую компанию. Крупные компании, которые могут позволить себе международный формат работы, открывают офисы по всему миру для привлечения новых специалистов.
10. Совокупный опыт (Total Experience, TX)
Это бизнес-стратегия, которая объединяет опыт сотрудников, клиентский и пользовательский опыт.
Всё вместе помогает повысить уровень доверия, удовлетворённости и лояльности клиентов и сотрудников.
11. Автономные системы (Autonomic Systems)
Автономные системы — это самоуправляемые физические или программные системы, которые учатся на своём окружении и динамически изменяют собственные алгоритмы в режиме реального времени. Они умеют оптимизировать производительность и защищаться от атак без вмешательства человека. В долгосрочной перспективе они станут обычным явлением в роботах, беспилотниках, производственных машинах и умных пространствах.
Автономные системы — это то, что приближает нас к настоящему ИИ. Эти системы очень похожи биологическую среду, уверен, что за ними будущее. Многие задачи решатся даже без «учителя». Системам будет достаточно увидеть данные, и они сами смогут извлекать оттуда паттерны.
12. Генеративный искусственный интеллект (Generative AI)
Это метод машинного обучения — нейросети изучают контент или объекты, собирают данные и используют их для создания новых артефактов.
Генеративный ИИ может создавать новые формы контента и ускорять циклы исследований и разработок.
К 2025 году на генеративный ИИ будет приходиться 10% всех производимых данных. Сегодня менее 1%.
Сейчас значительный интерес представляют задачи условной генерации в разных модальностях: например, сгенерировать картинку или видео по описанию. Если получится хорошо выучить это отображение, такая технология может стать источником вдохновения и полезным инструментом для производителей контента и дизайнеров в будущем. На данный момент одним из самых успешных подходов text-to-image является нейросеть DALL-E от OpenAI. Близость к тексту и разнообразие генерации уже поражают, с нетерпением жду новых работ в этой области.



 

 

kmp