ФОРМАТЫ МЕДИАФАЙЛОВ

 

 

Алекс Экслер "Записки невесты программиста"

И главное, никак не можем найти общий язык. Вот, к примеру, спрашиваю:

- Сергей! А какие фильмы тебе больше всего нравятся?

- Дивиди, - отвечает. – Мпег – фигня полная.

А я этот "Дивиди" и не смотрела. Даже и не знаю – кто там играет. Попробовала музыкой поинтересоваться, те же проблемы. Ну не слышала я группы: "Рилаудио" и "Винамп". Короче, налицо явная интеллектуальная пропасть.

 

 

О файловой системе

 

ЗДЕСЬ

 

 

 

Терминологические трудности

 

Значения термина "аудио формат":

  • Формат - структура и особенности представления данных.

  • Формат - способа квантования (импульсно-кодовая модуляция или сигма-дельта-модуляция)

  • Формат - разрядность квантования и частота дискретизации  (24 бита/192 кГц; 16 бит/48 кГц).

  • Формат - совокупность описаний контейнеров, набора кодеков и дополнительных метаданных (где одни и те же названия часто используются для кодеков, алгоритмов, стандартов, контейнеров и собственно форматов).

Пример:

  • AAC (Advanced Audio Coding) — собственнический (патентованный) формат аудиофайла с меньшей потерей качества при кодировании, чем MP3 при одинаковых размерах, известный как MPEG-4 Часть 3.

  • AAC — это широкополосный алгоритм кодирования аудио, который использует два основных принципа кодирования для сильного уменьшения количества данных, требуемых для передачи высококачественного цифрового аудио, создавался как преемник MP3. Вышел в свет в 1997 как новая, седьмая, часть семьи MPEG-2.

Расширения файлов формата AAC

  • .aac — незащищённый файл AAC без контейнера;

  • .m4a — незащищённый файл AAC;

  • .m4b — файл AAC, поддерживающий закладки аудиокниг и подкастов;

  • .m4p — защищённый от копирования файл AAC (используется в онлайн-магазинах, напр. iTunes Store).

 

 

 

Стандарты, алгоритмы и кодеки

 

Стандарты - документ (описание, содержащее в себе соответствующие сведения), которому должно соответствовать что-либо ( алгоритм, поток, кодек, контейнер, формат, технология и т.п.) по своим признакам, свойствам, качествам.

Профессиональные камеры пишут поток видео с битрейтом от 50 Мбит/c. (в формате DVCproHD - 100 Мбит/с, и 10 минут видео займет места порядка 7 Гбайт. Этот объем информации полезен для монтажа, но для хранения и передачи избыточен.

Бытовая DV-камера записывает со скоростью порядка 25 Мбит/с.

Битрейт (bit rate) — (максимальная) скорость прохождения битов информации.

Алгоритм - последовательность проведения вычислительных операций для определения искомого результата.

Типы стандартов видеосжатия: 

  • покадровое сжатие (intra-frame compression) - каждая картинка-фрейм обрабатывается отдельно. Кодеки - DV, MPEG2 (IMX), AVC-Intra, JPEG-2000, Avid DNxHD,

  • межкадровое предсказание (inter-frame compression) MPEG-4 (MPEG-4 Part 2), H.264 (MPEG-4 Part 10 или AVC (Advanced Video Coding)), MPEG-2 LongGOP.

Алгоритмы межкадрового предсказания используют  для серий кадров для уменьшения объёма данных (только первый кадр (I-кадр) сохраняется полностью. Последующие  (P-кадры) сравнивается с опорным кадром и кодируются только изменившиеся пиксели.

Процесс сжатия включает в себя применение к исходным видеоданным алгоритма для создания сжатого видеофайла, который можно передавать и хранить. Для воспроизведения сжатого файла используется обратный алгоритм, который воссоздаёт изначальный видеопоток.

Одни и те же алгоритмы кодирования с разным набором параметров дадут на выходе сигнал с разной степенью сжатия и качества.

В зависимости от времени, которое есть у кодера на обработку изображения, можно воспользоваться дополнительными алгоритмами или сделать кодирование в несколько проходов (multi-pass), тогда даже с тем же битрейтом качество изображения будет лучше.

Важно иметь в виду и ширину канала, по которому сигнал нужно будет распространять, и ресурсы декодируюшего устройства.

Если вы пытаетесь посмотреть видео из Интернета в высоком качестве на полном экране, канал хорош, а видео показывается рывками, посмотрите на загрузку CPU - пора менять компьютер?

 

Кодек (кодирование/декодирование) - пара алгоритмов (сжатия/воссоздания), которые работают вместе.

Кодеки различных стандартов обычно не совместимы друг в другом (информация, сжатая с помощью  кодека одного стандарта не может быть извлечена с помощью кодека иного стандарта).

Один алгоритм не может декодировать сжатые другим алгоритмом данные.

Например, декодер MPEG-4 не сможет извлечь информацию, сжатую с помощью кодера H.264.

Программные продукты могут поддерживать различные алгоритмы (и стандарты).

 

 

 

 

 

 

Медиаконтейнеры

 

Контейнеры - файлы-хранилища обработанных данных (видео, аудио, субтитры, анимация).

Контейнеры могут содержать данные, закодированные разными аудио и видеокодеками.

Задача контейнера - правильно мультиплексировать ("завернуть")  закладываемый в него разнообразный контент с целью его синхронизации при воспроизведении.

Подавляющее большинство ошибок при проигрывании файлов связано именно с контейнерами.

 

Контейнеры используют для защиты вложенной информации. В mp3-файл не добавить контроль доступа, поэтому раз скачанный файл будет доступен пользователю на любом устройстве и всегда. Если провайдер хочет ограничить прослушивание, к примеру, несколькими днями, потребуется вложить файл mp3 в контейнер, например, в WMA (Windows Media Video/Audio) вместе с файлами DRM, несущими информацию о правилах доступа.

 

Варианты мультиплексирования:

  • Если предполагается, например, менять субтитры или добавлять аудио, удобнее, если звук, видео и текст расположены в отдельных файлах, а файл-контейнер содержит только ссылки для их синхронизации (reference file).

  • Если же предполагается просто передавать контент для просмотра конечным пользователем, то контейнер - это, обычно, один файл, в котором подряд положены "нарезанные" кусочки файлов звука, видео, субтитров.

Контейнер Quicktime MOV поддерживает оба варианта и умеет конвертировать один в другой.

Типы контейнеров:

  • файловые (вся описательная информация о видео-, аудио- и прочих данных хранится в одном месте (начало или конец файла). Если описательная информация потеряна, повреждена или еще не получена, то воспроизведение или любая другая обработка файла будет невозможна или крайне затруднена. Если информация о файле хранится в начале, то его можно начать проигрывать или обрабатывать с начала, не дожидаясь полной загрузки файла на компьютер (progressive download).

  • потоковые (используются для вещания - описательная информация постоянно присутствует в потоке данных с высокой периодичностью (избыточна), что открывает возможность воспроизведения или обработки данных практически с любого момента).

При потоковом вещании на пользовательском устройстве не создается копии видео (только небольшой его кусочек - буфер, необходимый для равномерного проигрывания), да и на вещательном сервере нет, собственно, файла с видео, который мог бы быть скачан интернет-пиратами.

 

Почему так много форматов?

  1. Нет универсальных решений. Эффективны Разные способы кодирования эффективны для:

  • подготовки видеоматериала и для распространения эффективны разные способы кодирования

  • подготовки спортивных трансляций (нужно обрабатывать быстро двигающиеся изображениеи), для видеомедицины (важно сохранить мелкие детали) и для видеоконференцсвязи (кодек должен работать быстро - иначе образуются большие задержки при общении)

  1. Лицензирование, патенты, конкуренция решений...

 

 

 

MPEG

 

MPEG (Moving Picture Experts Group - экспертная группа по движущемуся изображению; произносится «эмпег») — группа для выработки стандартов сжатия и передачи цифровой видео и аудио информации.

С 1988г. гуппа MPEG стандартизовала следующие стандарты:

  • MPEG-1: Исходный стандарт видео и аудио компрессии для Video CD;

  • MPEG-2: Транспортные, видео и аудио стандарты для широковещательного телевидения.

  • MPEG-3: Не используется. Не следует путать MPEG-3 с MP3 - MPEG-1 Layer 3.

  • MPEG-4 (с 1998): Расширяет MPEG-1 для поддержки видео/аудио «объектов», 3D контента, DRM. Включает новые высокоэффективные видео стандарты (альтернативы MPEG-2):

    • MPEG-4 Part 2 (ASP);

    • MPEG-4 Part 10 (или AVC, или H.264), используется в HD DVD и Blu-Ray дисках.

  • MPEG-7: формальная система описания мультимедийного контента.

  • MPEG-21: стандарт мультимедийных сред разработки.

 

 

 

Перспективы MPEG-4

 

Медиа-объект - ключевое понятие стандарта MPEG-4

Медиа-объекты могут быть:

  • аудио-, видео-, аудиовизуальными, графическими (плоскими и трехмерными), текстовыми.

  • «естественными» (записанными, отснятыми, отсканированными и т. п.), так и синтетическими (т. е. искусственно сгенерированными).

  • файловыми и потоковыми

  • элементарными (primitive) и составными (compound), т. е. представляющими ту или иную композицию элементарных объектов (например, сгенерированный трехмерный телевизор, наложенная на его экран живая видеотрансляция и исходящий из его динамиков звук).

Примеры: неподвижный фон, видеоперсонажи отдельно от фона (на прозрачном фоне), синтезированная на основе текста речь, музыкальные фрагменты, трехмерная модель, которую можно двигать и вращать в кадре, анимированный спрайт.

Каждый медиа-объект имеет связанный с ним набор дескрипторов, где и задаются все его свойства, операции, необходимые для декодирования ассоциированных с ним потоковых данных, размещения в сцене, а также поведение и допустимые реакции на воздействия пользователя.

Из объектов строятся сцены. Сцена имеет свою систему координат, в соответствии с которой размещаются объекты.

 

BIFS (BInary Format for Scenes, расширение С++) - двоичный язык описания объектов, классов объектов и сцен в MPEG-4. BIFS позволяет анимировать объекты, менять их координаты, размеры, свойства, задавать поведение, реакции на воздействия пользователя, менять свойства среды, изменять и обновлять сцену, выполнять 2D-геометрические построения и т. п.

  • MPEG-4 задает правила кодирования различных объектов, их иерархии и способы композиции при построении сцены, а также методы взаимодействия пользователя с отдельными объектами внутри сцены.

  • Каждый объект имеет свою локальную систему координат - с ее помощью объект управляется в пространстве и во времени. При помещении объекта в сцену происходит преобразование его локальной системы координат в систему координат ста ршего по иерархии объекта или глобальную систему координат сцены.

  • Объекты и сцена могут обладать поведением, контролируемым уровнем композиции при визуализации сцены (характер звука, цвет объекта и т. п.). Сцена описывается с помощью иерархической структуры; узлами этой структуры являются объекты, и она динамически перестраивается по мере того, как узлы-объекты добавляются, удаляются или заменяются.

  • Окончательная сборка сцены (причем с возможностью добавления разного рода геометрических преобразований, визуальных и акустических эффектов реального времени) происходит на стороне клиента (в компьютере, приставке или телевизоре пользователя), что в корне меняет всю концепцию современного телевидения. Каждый зритель получает некое подобие виртуального пространства, в которым он может быть «сам себе режиссером трансляции».

Пример: динамический выбор камеры или повтора, изменение точки наблюдения, удаление, добавление и перемещение объектов внутри сцены, выбор языковой дорожки, активизация более или менее сложной цепочки событий путем «щелчка» на объекте, ввод команд с клавиатуры и т. п.

Пользовательские воздействия должны быть предусмотрены и разрешены создателями контента. Для отслеживания действий пользователя и описания реакций на них реализована структура событий из VRML (Virtual Reality Modeling Language — язык моделирования виртуальной реальности).

 

 Синтетические объекты

В MPEG-4 предусмотрены инструменты и алгоритмы для работы с синтетическими объектами (сгенерированными средствами компьютерной графики), в т.ч. потоками геометрических данных класса анимации человеческих лиц и фигур (что позволяют значительно сократить объем передаваемых данных, так как для их анимации бывает достаточно передать всего несколько параметров - все остальное будет сделано в декодере).

BIFS включает наборы управляющих параметров для задания особенностей лица (FDP), его анимации (FAP) и интерполяции, контрольные точки в полигональной сетке, «отвечающие» за те или иные эмоции или движения (с весовыми коэффициентами) и т. п.

Лицо может быть сгенерировано в декодере на базе имеющейся в нем обобщенной модели и затем «индивидуализировано» с помощью FDP, либо желаемая конкретная модель (например, полученный с помощью трехмерного сканера «автопортрет») может быть загружена во входящем потоке. Мало этого, на построенную модель лица можно «натянуть» фото- или видеотекстуру лица конкретного человека, а затем «заставить» его произносить написанный текст. Средства синтеза речи на базе текстов (text-to-speech), предусмотренные в MPEG-4, не только генерируют необходимые фонемы, но могут также создавать поток данных для соответствующей анимации модели лица говорящего.

Аудиостандарты  достаточно слабо связана с видеочастью.

Аудиообъекты входят в структуру дерева сцены и описываются на языке BIFS, что позволяет располагать источники звука в трехмерном пространстве сцены, управлять их характеристиками и применять к ним различные эффекты независимо друг от друга, перемещать источник звука при перемещении связанного с ним визуального объекта  (звуковые объекты также могут иметь (и менять во времени) координаты в пространстве сцены, благодаря чему достигаются стерео- и «окружающие» (surround) эффекты).

Синтез речи использует различные параметры «окраски» голоса - ударения, изменения высоты тона, скорости произнесения фонем и т. п. Можно также задать для «говорящего» пол, возраст, акцент и т. п. В текст можно вставлять управляющую информацию, обнаружив которую синтезатор синхронно с произнесением соответствующей фонемы передаст те или иные параметры или команды другим компонентам системы. Параллельно с голосом может генерироваться поток параметров для анимации лица.

Средства синтеза произвольных звуков и музыки используют метод SA (Structured Audio, структурированный звук) использующий языки SAOL и SASL:

  • SAOL (Structured Audio Orchestra Language) задает оркестр, состоящий из инструментов. Каждый инструмент представлен сетью элементов цифровой обработки сигналов - синтезаторов, цифровых фильтров, которые все вместе и синтезируют нужный звук. С помощью SAOL можно запрограммировать практически любой нужный инструмент, природный или искусственный звук.

  • SASL (Structured Audio Score Language) определяет  то, что и как этот оркестр должен играть.

Стандарты покового медиа

В «потоковой» части MPEG-4 использует семиуровневую модель взаимодействия открытых систем. Напомним, эта модель выделяет семь независимых вложенных уровней (сверху вниз: прикладной, представительский, сеансовый, транспортный, сетевой, канальный, физический). Каждый из уровней на передающем конце общается с соответствующим уровнем на приемном, а для этого обращается к локальным службам соседнего нижнего уровня (который предоставляет ему для этого специальный интерфейс).

По мере продвижения по этой лестнице вниз содержательная информация, которой обмениваются пользователи или приложения - т. е. прикладные уровни, - обрастает служебными данными, данные разбиваются на пакеты, кодируются и передаются между узлами сети, а на приемном конце происходит обратный процесс - сообщение собирается, очищается от вспомогательных данных и восстанавливается к своему первоначальному виду.

Потоковые данные, которые относятся к медиа-объекту, могут поступать через один или несколько элементарных потоков (elementary streams, ES). Дескрипторы объектов передаются в специальном элементарном потоке, что позволяет добавлять к сцене новые объекты или удалять ненужные динамически. Команды описания сцены и объектов в формате BIFS также составляют отдельный элементарный поток и позволяя выстраивать различные сценарии на базе одних и тех же медиа-потоков.

 

Некоторые перспективные наработки MPEG4:

  • Разрешение многопользовательского присутствия в сцене и взаимодействия с контентом.

  • Дальнейшее пополнение функций BIFS и сближение его с VRML.

  • Работа с полигональными 3D-моделями, поддержка уровней детализации модели (LOD).

  • Анимация тела (вдобавок к анимации лица).

  • Стереоскопическое видео.

  • Симметричные соединения отправитель-получатель вместо сервер-клиент (позволит строить разговорные приложения и организовывать поиск в мультимедийных базах данных).

Авторские права - проблема, тормозящая развитие стандарта куда сильнее, чем проблемы технологические.

 

 

 

Видеопираты переходят с .avi на .mp4

 

05.03.2012

Ведущие группы интернет-пиратов договорились о переходе о том, что все новое видео, появляющееся на торрент-трекерах, теперь будет кодироваться с помощью кодеков x264 и в формате .mp4, а не XviD в контейнере .avi.

Соглашение о новых стандартах (The SD x264 TV Releasing Standards 2012) поддержали 13 крупных групп-релизеров: ASAP, BAJSKORV, C4TV, D2V, DiVERGE, FTP, KYR, LMAO, LOL, MOMENTUM, SYS, TLA и YesTV.

  • библиотека x264 с открытым исходным кодом применяется для кодирования видеопотоков H.264/AVC. В таком формате обычно выкладывается HD-видео, поэтому качество новых релизов может быть повыше прежних.

  • mp4-файлы можно без конвертации проигрывать на множестве видеоплееров (TviX, WDTV HD Media Player, Xtreamer), консолей (Xbox 360, Sony PlayStation 3) и мобильных устройств (iPad, iPhone и большинстве смартфонов).

  • mp4-файлы несовместимы с многими бытовыми DVD-плеерами.

 

 

 

Новый стандарт сжатия видео HEVC

 

17.08.2012

Новый международный стандарт для сжатия видео выпущен Moving Picture Experts Group (MPEG).

Кодек High-Efficiency Video Coding (HEVC)  позволит значительно увеличить эффективность сжатия по сравнению с AVC, в особенности для более высоких разрешений, где экономия составит, в среднем, 50%.

 

 

 

Потоковое видео: FLV & HTML5

 

FLV (Flash Video) — медиаконтейнер для передачи потокового видео через Интернет. Используется ведущими сервисами видеохостинга (YouTube, Google Video, Вконтакте, RuTube и др.).

Описание контейнера открыто, кодеки защищены патентами.

FLV-файл — это битовый поток, вариант реализации видеостандарта H.264

Звук, как правило, закодирован в MP3 (могет использоваться несжатое аудио).

Используется в Adobe Flash Player, который распространяется в качестве плагина для различных браузеров и различных операционных систем. Поддерживается многими плеерами (Media Player Classic, GOM Player, Light Alloy, MPlayer, The KMPlayer, VLC media player, Winamp и др). Некоторые плееры могут некорректно воспроизводить видео или звуковой поток при отсутствии кодеков, использованных при создании файла.

 

HTML5

Одним из самых впечатляющих нововведений в спецификации HTML5 является элемент <video>, который позволяет вставлять видео непосредственно на веб-страницы без необходимости использования каких-либо плагинов.

Базовая разметка тега <video> в HTML5 проста:

1

<video src=turkish.ogv

2

  width=320

3

  height=240

4

  controls

5

  poster=kmp.jpg>

6

</video>

В XHTML5 нужно использовать синтаксис XHTML и заключить в кавычки все значения атрибутов (control="control"), а также создавать страницы в виде XML с правильным MIME-типом).

 

Для видео в HTML5 используется три (увы!) реализации (видеокодек/аудиокодек/медиаконтейнер):

  • Theora/Vorbis/Ogg (поддерживаются Mozilla, Opera и Фондом Викимедия),

  • H.264/AAC/MPEG-4 (поддерживается Apple и Microsoft, которые недовольны качеством Theora (опубликован в 2004)),

  • VP8/Vorbis/Matroska (предложен Google «для прекращения «войны форматов», самый перспективный)

19.05.2010 Компания Google представила медиаформат WebM.

WebM призван заменить проприетарный видеостандарт H.264 и основан на открытых видеокодеке VP8, аудиокодеке Vorbis и подмножестве медиаконтейнера Matroska.

WebM поддерживают новые версии браузеров Google Chrome, Mozilla Firefox, Opera и Internet Explorer.

 

20.04.2011 Все загружаемое видео на YouTube кодируется в формат WebM (стандарт HTML5), что позволит его в браузерах без плагина Flash. 

25.07.2017 Adobe Systems объявила 2020 год концом «жизни» Flash Player. Преемником Flash для двухмерной интерактивной графики названа WebGL.

WebGL (Web-based Graphics Library) — программная библиотека, позволяющая создавать на JavaScript интерактивную 3D-графику. WebGL — это контекст элемента canvas HTML, который обеспечивает API 3D графики без использования плагинов, поддерживается непосредственно браузерами, что обеспечивает большую безопасность и удобство, не требует загрузки отдельного плагина и его обновлений.

Полная и подробная книга о WebGL доступна для свободного скачивания на http://webglinsights.com/

 

 

 

 

Мультимедийные возможности HTML.next

 

Спецификацию HTML5 планируется утвердить  в 2014 году, уже сейчас разрабатывается спецификация — HTML.next.

Предложения в области мультимедия HTML.next:

Адаптивные изображения

Загрузка разных размеров изображений в зависимости от текущих параметров на стороне клиента.

Адаптивное потоковое вещание защищенного контента

  • дополнительный медиа-элемент состояния, позволяющий отображать текущий статус (напр. согласование передачи данных с сервером)

  • дополнительный медиа-элемент ошибок (напр. ошибка согласования передачи)

  • дополнительный медиа-элемент событий (напр. изменение битрейта потока)

  • дополнительный медиа-элемент свойств (напр. текущий битрейт, который может быть связан с другими показателями QoS)

Работы в данном направлении уже ведутся: Adaptive StreamingVideo Metrics.

Аудио-баланc

Настройка аудио-баланса (правый/левый канал) средствами HTML5 для стерео композиций. 

Улучшение воспроизведения видео

  • быстрое/медленное воспроизведение/перемотка

  • предыдущий/следующий кадр

Полноэкранный режим и скриншоты

domElement.fullScreen();
domElement.getImageData(0, 0, domElement.offsetWidth, domElement.offsetHeight);

 

 

 

Ogg

 

Ogg (произносится «огг») — открытый медиаконтейнер (с 2002г.).

"Ogg" is derived from "ogging", jargon from the computer game Netrek, which came to mean doing something forcefully, possibly without consideration of the drain on future resources.

Ogg используется со следующими кодеками:

Аудиокодеки с потерями:

  • Speex — для сжатия речевого сигнала на низких битрейтах (~8—32 кбит/канал);

  • Vorbis — для сжатия звука на средних и высоких битрейтах (~16—500 кбит/канал).

Аудиокодеки без потерь:

  • FLAC — для обработки звуковых архивов и других аудиоданных, требующих высокого качества воспроизведения.

Текстовые кодеки:

  • Writ — текстовый кодек, предназначенный для включения в файлы субтитров или заголовков;

  • CMML — текстовый/прикладной кодек для синхронизированных метаданных, заголовков форматирования.

Видеокодеки:

  • Theora — основанный на VP3 фирмы On2 Technologies конкурент видеокодекам MPEG-4 (например, DivX или Xvid, RealVideo или Windows Media Video);

  • Dirac — экспериментальный кодек, разработанный в качестве основы нового кодека для передачи видео через Интернет.

  • OggUVS — черновой вариант кодека, для хранения несжатого видео.

Субтитры

  • Annodex — свободный и открытый набор стандартов, разработанных CSIRO (англ. Commonwealth Scientific and Industrial Research Organisation), предназначенный для описания и индексации мультимедиа, распространяемого по сети.

Метаданные не имеют фициального стандарта для включения в контейнер Ogg. Фондом Xiph.Org рассматриваются несколько вариантов:

  • Дублинское ядро в формате RDF

  • XML-семейство (включая RDF, CMML и XMP)

  • XML-метаданные MusicBrainz

  • Ogg Skeleton

Ogg Media (OGM) — контейнер для хранения потоков медиаданных (видео, аудио, и субтитры). Обеспечивает необходимые средства для надёжной транспортировки файла, контроля целостности файла, минимизации количества перемещений по файлу во время воспроизведения нескольких потоков (чередование).

Контейнер Ogg Media — сторонняя модификация контейнера Ogg, рассчитанного на свободные кодеки, поддерживаемые Xiph.Org, сделанная для поддержки несвободных кодеков, обычно используемых с контейнером AVI, с помощью DirectShow. Ogg Media была создана в 2002 году независимо от Xiph.Org, которая в 2004 году опубликовала просьбу убрать вводящее в заблуждение слово «Ogg» из названия контейнера.

 

 

 

 

AVI

 

AVI (Audio Video Interleaved, .avi) - RIFF-медиаконтейнер от Microsoft (с 1992г.), содержит чередующиеся записи цифрового видео и аудио и не требует для воспроизведения специальных аппаратных средств.  

AVI файлы могут содержать различные виды компрессированных данных (например: DivX для видеоинформации и MP3 для аудио) и поддерживают многопотоковое аудиовидео.

 

RIFF (Resource Interchange File Format) — формат файлов-контейнеров для хранения потоковых мультимедиа-данных (видео, аудио, текст). RIFF используют в качестве контейнера: AVI (видео) и WAV (аудио).

 

 

 

Matroska

 

Matroska (Матрёшка) — перспективный проект создания открытого, гибкого, кроссплатформенного формата мультимедийного контейнера и набора инструментов и библиотек для работы с данными.

Matroska основан на двоичном аналоге XML - языке EBML (Extensible Binary Meta Language — расширяемый двоичный метаязык), позволяющем расширять формат без потери совместимости со старыми программами.

Расширения файлов Matroska: .mkv — для видео (с субтитрами и звуком), .mka — для аудиофайлов и .mks — для субтитров.

Возможности формата .mkv:

  • трансляция по Интернету (протоколы HTTP и RTP);

  • быстрая перемотка в файле;

  • устойчивость к ошибкам;

  • экранные меню (как на DVD-дисках);

  • разбиение файла на главы (Chapters);

  • переключаемые «на лету» субтитры;

  • переключаемые звуковые дорожки;

  • переключаемые видео дорожки;

  • модульная расширяемость.

Проект не включает в себя форматов сжатия видео и кодеков.

Контейнер Matroska может содержать большое число потоков аудио, видео и субтитров.

Matroska - прямая открытая альтернатива контейнерам AVI, ASF, MOV, RealMedia, MP4, MPG.

 

 

 

Кодеки

 

Кодек (codec, от coder/decoder — кодировщик/декодировщик или compressor/decompressor) — программа кодирования  (для передачи, хранения или шифрования) и раскодирования (для просмотра или изменения) потока/сигнала

Кодеки для аудио и видео данных используют сжатие с потерями,  и без потерь (lossless codecs).

 

Видеокодеки

  • DivX — кодек, основанный на стандарте MPEG-4.

  • H.264 (MPEG-4 part 10) реализация.

  • Xvid — кодек MPEG-4 part 2, совместимый с DivX.

  • Tarkin — сжимает с потерями, основан на 3-D-вейвлет сжатии.

  • Theora — часть Ogg Project.

  • Dirac — основанный на вейвлетах

Аудиокодеки

  • FLAC — сжатие без потерь.

  • iLBC — сжатие звука с низким битрейтом.

  • Speex — сжатие с низким битрейтом, в основном речи.

  • TTA — сжатие без потерь.

  • Vorbis — сжатие с потерями; разработан Xiph.org.

  • WavPack — сжатие с потерями/без потерь.

Наборы кодеков:

  • K-Lite Codec Pack — универсальный набор свободных и бесплатных кодеков и утилит для просмотра и обработки аудио- и видеофайлов. Варианты состава: Basic, Standard, Full, Mega,Corporate и 64-bit

  • CCCP (Combined Community Codec Pack) - набор кодеков; разрабатывается он сразу несколькими группами, занимающимися кодированием/переводом анимэ, поэтому должен разрешить любые проблемы, связанные с субтитрами и непонятными (экзотическими) форматами видеофайлов.

  • Windows 7 Codec Pack - набор кодеков и фильтров для Windows 7

Программы определения типа кодеков в видео/аудио файле:

  • MediaInfo

  • VideoInspector

 

 

 

 

Аудиоформаты

 

Формат - структура и особенности представления звуковых данных при хранении на запоминающем устройстве.

Для устранения избыточности аудио данных используются аудиокодеки, при помощи которых производится сжатие аудиоданных. Выделяют три группы звуковых форматов файлов:

  • аудиоформаты без сжатия, такие как WAV, AIFF

  • аудиоформаты со сжатием без потерь (APE, FLAC)

  • аудиоформаты, с применением сжатия с потерями (mp3, ogg)

 

WAV (wave «волна», 1991) — формат файла-контейнера для хранения записи оцифрованного аудиопотока. Под Windows этот формат чаще всего используется в качестве оболочки для несжатого звука (PCM), когда для каждого отсчёта амплитуды сигнала выделяется определённое число бит. Однако, в контейнер WAV можно поместить звук, сжатый почти любымкодеком (но с воспроизведением таких файлов могут возникать проблемы).

AIFF (Audio Interchange File Format, 1988) — формат аудио файлов применяемый для хранения звуковых данных на компьютерах Apple и др.

APE (Monkey’s Audio) — бесплатный, не свободный кодек сжатия аудиоданных без потерь. Расширения: .ape для аудио и .apl для метаданных. Один из самых популярных музыкальных форматов, который использует цифровое кодирование звука без потери качества воспроизведения (lossless). Последняя версия 2011. Чтобы прослушать на компьютере аудиофайлы формата АРЕ можно использовать следующие проигрыватели: foobar2000, Winamp, AIMPайлы АРЕ открывает без установки дополнительных плагинов).

FLAC (Free Lossless Audio Codec) — свободный кодек сжатия аудиоданных без потерь. Поддерживается множеством аудиоприложений, а также имеет большое количество аппаратных реализаций. Основными частями потока являются:

  • Строка из четырёх байтов «fLaC»

  • Блок метаданных STREAMINFO

  • Другие необязательные блоки метаданных

  • Аудио фреймы (сжатые аудиоданные).

 

 

MP3 и другие...

 

MP3 (MPEG-1/2/2.5 Layer 3; но не MPEG-3) — самый распространённый формат цифрового кодирования звуковой информации с потерями/

Кодирование: строится диаграмма звука в виде последовательности коротких промежутков времени, затем на ней удаляется информация предположительно не различимая на слух большинством людей (кодированием восприятия согласно психоакустической модели), а оставшаяся информация сохраняется в компактном виде.  .

Степень сжатия можно варьировать, в т. ч. в пределах одного файла. При создании MP3 с битрейтом 128 кбит/с получается файл, размером 9% от оригинального файла с CD-Audio (битрейт 1411,2 кбит/с).

Качество MP3 зависит от битрейта и кодека (стандарт не устанавливает алгоритм кодирования, только описывает способ представления).

Распространены MP3 файлы с битрейтом 192 кбит/c.

Реально воспринимаемое «качество» зависит от исходного аудиофайла, слушателя и его аудиосистемы. Некоторые меломаны предпочитают кодеки без потерь, например FLAC, т.к. некоторые семплы (фрагменты аудиозаписи) не поддаются качественному сжатию с потерями. Считается (по результатам профессиональных слепых тестов), что битрейта 256 kbps достаточно для комфортного восприятия музыки с CDA-источника (Compact Disk Audio: 44 kHz/16 bit/stereo). Многие предпочитают кодеки без потерь (некоторые семплы (фрагменты аудиозаписи) не поддаются качественному сжатию с потерями?).

Версии MP3 формата для различных нужд:

Количество каналов звука ограничено двумя, в отличии от AAC и Ogg Vorbis. Патентом на MP3 владеет компания Alcatel-Lucent.

 

Превосходящие MP3

  • Windows Media Audio (WMA) — лицензируемый аудиоформат файла (альтернатива MP3 от Microsoft), плохо поддерживается на альтернативных платформах (вследствие его закрытости). Включает поддержку DRM.

  • Advanced Audio Coding (AAC) — лицензируемый формат аудиофайла, создавался как преемник MP3. Также AAC — это широкополосный алгоритм кодирования аудио, который использует два основных принципа кодирования для сильного уменьшения Вышел в свет в 1997 как новая, седьмая, часть семьи MPEG-2. Существует также формат AAC, известный как MPEG-4 Часть 3.

  • Vorbis  — свободный формат сжатия звука с потерями. Второй по популярности (после MP3) формат компрессии звука с потерями. Широко используется в компьютерных играх и в файлообменных сетях, идеален для применения в качестве звуковых дорожек фильмов (не изменяет их длину при переменном битрейте, что позволяет сохранять синхронность с видеодорожкой и применим для многоканального звука). Изначально разрабатывался с возможностью потокового вещания. Имеет гибкую систему тегов в UTF-8. Использует переменный битрейт (до 1000 кбит/с) и частоту дискретизации (от 2 до 192 кГц.). Разработан сообществом «Xiphophorus» для того, чтобы заменить все платные запатентованные аудио форматы. Является частью мультимедиапроекта Ogg (в котором также: Speex — для сжатия голоса; FLAC — для сжатия звука без потерь; Theora — для сжатия видео). В 2010 анонсирован как часть проекта WebM вместе с видеокодеком VP8. Имеет полную поддержку на всех популярных платформах (Microsoft Windows, Linux, Apple Mac OS, PocketPC, Palm, Symbian, DOS, FreeBSD, BeOS и др.) и большое количество аппаратных реализаций.