Операционная система Windows


 

Меню

Реклама


Технология Mpeg-4

Кинематография по праву считается одним из самых выдающихся открытий человечества в области мультимедиа-технологий. Первые открытия в этой области принадлежат Вильяму Диксону 1889 год. Он достиг воссоздания коротких видеороликов путем изменения статических изображений со звуком, что вряд ли можно было назвать синхронизированным. Начальник Диксона, Томас Эдисон, не оценил это изобретение через низкую, по его мнению, качество звука и изображения и быстрого сноса оборудования. Полноценное развитие кинематография приобрела лишь через 40 лет.

Но даже в наши дни, в эпоху революции в области мультимедиа - и Internet-технологий, и невзирая на свою массовость и глобальность, кинематография имеет чрезвычайное подобие с неудачным проектом Диксона. Другие популярные средства коммуникации мобильная связь и тому подобное также не могли в полной мере решить проблему эффективной передачи графической информации. Сегодня, благодаря Mpeg-4 так был назван новый стандарт, который вызывал революцию в сфере мультимедиа, проект многолетней давности был, наконец, реализованный.

Новый стандарт разрабатывался в течение пяти лет группой специалистов Moving Picture Experts Group MPEG на базе Международной Организации по стандартизации ISO в Женеве. Исследования проводились на базе самого современного цифрового оборудования. Видеоизображение и звук, записанные по новой технологии сравнении по качества с их копиями, згенерованими компьютером. Новый формат записи звуковой информации позволяет достичь качества воссоздания уровня компакт-дисков рядом с приемлемой скоростью передачи данных, а, при необходимости, достичь оптимального баланса качества и скорости воссоздания.

С появлением Mpeg-4 программы воссоздания графических и звуковых данных перестали быть пассивными. Высокий уровень интерактивности современных аудиовизуальных систем позволяет пользователю без лишних усилий остановить или же запустить воссоздание видео. Возможности Mpeg-4 очень разнообразны: они позволяют пользователю манипулировать объектами, полученными как из так називаних естественных источников, таких как реально видео, так и из синтетических источников систем компьютерного проектирования или компьютерной мультипликации. Пользователь может редактировать отдельные кадры путем удаления или добавления отдельных объектов, перемещения объектов, и даже управлять их поведением например, кликом мышкой на объекте можно заставить его вращаться.

По-видимому, основное требование к механизму MPEG - обеспечение его надежности. Для этого были разработаны унифицированные и, одновременно, обеспечивающие высокое качество аудио - и видео кодеры и декодеры, доступные в Internet и предназначенные для предотвращения конфликтов при использовании других форматов. Таким образом, пользователю придется выбирать из множества форматов видео: Quicktime корпорации Apple Corp., AVI корпорации Microsoft или, например, Realvideo компании Realnetworks Inc., и еще большего количества аудиоформатов.

Кроме того, для оптимизации работы через Internet стандарт позволяет работать даже при низкой скорости передачи данных и на безпроводних устройствах. Таким образом, в зависимости от качества соединения и траффика обеспечивается разная скорость доступа к информации. Для этого Mpeg-4 поддерживает возможность одноразовой кодировки со следующим воссозданием с разным качеством и на разной скорости передача данных, в зависимости от терминального оборудования.

С другой стороны, это преимущество можно рассматривать как взгляд в будущее, когда телевидение рядом с обычным вещанием позволит принимать информацию от интерактивных цифровых источников. Поэтому Mpeg-4 уже предусматривает средства полной интеграции радиовещательной информации с высококачественными интерактивными объектами MPEG. В перспективе рассматривается обеспечение доступа к радиовещательной информации через глобальную сеть. Однако, здесь возникает еще одна проблема - неунификованисть формату Web-ресурсив.

В последние годы очень популярным стало получение из Internet цифровых копий аудиоинформации, что очень негативно отразилось на музыкальной индустрии. После появления Mpeg-4 и в результате постоянного снижения цен на цифровые устройства та же судьба начала постигать и видео. В связи с этим для разработчиков MPEG возникла дежурная задача - обеспечение защиты интеллектуальной собственности.

Времени на отдых нет!

Или не пришло еще время для нового стандарта аудио - и видеоинформации? Ответ на этот вопрос дает сама история форматов MPEG. Дебютувавши в 1992 году формат Mpeg-1, доныне широко используется в странах Дальнего востока. Это был полноценный цифровой видеопроигрыватель что воспроизводил аудио - и видеоинформацию в линейных потоках, обеспечивая принцип доступа подобный обычному видеомагнитофону. Так называемое аудио и видео на подвижной магнитной ленте. Для его воссоздания не нужно полная предыдущая загрузка всего содержания магнитного носителя, проигрывания, делается параллельно со считыванием и декодированием.

В 1995 году был разработан Mpeg-2, поданный как формат для сжимания и передачи цифровых телевизионных сигналов для записи DVD-дискив также используется кодировка Mpeg-2. Однако, невзирая на то, что новая технология могла использоваться в качестве для управления потоками из серверу так и для получения радиовещательной информации, она, как и предыдущая, была линейной, то есть ее интерактивность ограничивалась стандартными операциями: ускоренным или замедленным воссозданием.

Вскоре появился Mpeg-4 с его многофункциональностью и мощью, в основу которого легла объектно-ориентированная модель.

Преимущества объектной модели

Если провести аналогию с химией, на атомарном уровне аудио - и видеокомпоненты Mpeg-4 поданы как объекты. Эти объекты могут существовать независимо друг от друга, могут группироваться, формируя аудиовизуальные конструкции высшего уровня. Такая группировка называется композицией, результатом которого является сцена кадр. Преимущество такого так називаного объектно-ориентированного подхода в возможности манипулирования любым аудио - или видеообъектом.

Визуальные объекты сцены определяются их координатами в дво - или трехмерном пространстве. По аналогии, аудиообъекты содержатся в звуковом пространстве. При размещении в просторные объекты определяются только один раз. Все последующие операции и вычисления об изменению состояния объектов выполняются локально, то есть на терминале пользователя. Это очень существенно, особенно в тех случаях, когда нужно получить высокую скорость обработки при ограниченной скорости передачи данных.

Язык, который описывает состояние объектов Mpeg-4 и их динамические изменения, называется BIFS Binary Format for Scenes. С помощью команд этого языка можно не только добавлять или удалять объекты из сцены, но и изменять их визуальные и звуковые характеристики независимо одна от обной.

Команды BIFS можно использовать для создания анимации путем определения поведения объекта в зависимости от действий пользователя, обработанных декодером. С помощью этого языка можно создавать даже интерактивные прикладные программы или, например, использовать содержание окна программы например, Web-браузера в качестве текстуры сцены.

Много концепций BIFS заимствованные из Языка Моделирования Виртуальной Реальности Virtual Reality Modeling Language - VRML, что широко используется для описания трехмерных объектов и управления ими в Internet-програмах. В принципе BIFS и VRML можно рассматривать как разные формулировки одной концепции. В языке VRML все объекты и операции над ними, как и в любом языке высокого уровня, поданные в текстовом виде. В BIFS используется двоичное представление, что позволяет уменьшить программный код приблизительно в 10-15 раз.

Основное отличие BIFS, используемого в Mpeg-4, от VRML - обработка в реальном времени. Это значит, что для воссоздания сцены не нужно она полная загрузка, поскольку обработка делается налету. Кроме того, язык BIFS позволяет описывать двумерные объекты, такие как линии и прямоугольники, что невозможно в VRML. При совместной работе над Mpeg-4, MPEG и Web 3-d Consortium параллельно вели работу над VRML.

Свертывания данных

Представление мультимедиа-информации в формате Mpeg-4, принципиально новое и многофункциональное, по-видимому, должно содержать средства для подготовки этой информации к транспортировке или сохранению а, возможно, и декодирование. Для этого все объекты содержатся в так называемые элементарные потоки elementary streams - Ess. Некоторые объекты, такие как звуковые треки или видео, могут иметь только один такой поток. Другие могут иметь два и более элементарных потоки. Например, какой-то масштабируемый объект может иметь ES, предназначенный для сохранения базовой информации наихудшее качество, и один или более дополнительных уровней, каждый из который будет иметь свой ES с информацией, которая улучшает качество видео с более подробной детализацией или ускоренным режимом воссоздания.

Информация на каждом следующем высшем уровне определения данных с помощью BIFS, коррекция и размещение медиаобъектив обробеться в собственном отдельном потоке ES. В этом снова оказывается преимущество иерархической, объектно-ориентированной модели Mpeg-4. Это значительно облегчает разработку новых продуктов при повторном использовании уже имеющегося объекта, поскольку в этом случае изменение самого объекта не требуется. Допустимо, что отдельные части сцены должны использоваться только в определенных случаях. Тогда если обеспечена достаточная скорость передачи данных, для представления одной и той же сцены в разных ситуациях могут использоваться несколько потоков ES, что полностью описывают данную сцену.

Для того, чтобы система знала, какой из элементарных потоков принадлежит определенному объекту в Mpeg-4 внедрена принципиально новая концепция - дескриптор объекта object descriptor - OD. Дескрипторы объектов в свою очередь содержат дескрипторы элементарных потоков, чтобы информировать систему о том, какой декодер необходимо использовать для того или другого потока. Кроме того, дескрипторы содержат полную текстовую информацию об объекте. Дескрипторы объектов розмищаються в отдельном элементарном потоке, что позволяет динамически добавлять или уничтожать их при изменении состояния сцены.

Одновременное воссоздание нескольких объектов Mpeg-4 координируется отдельным уровнем, выделенным специально для обеспечения синхронизации. Элементарные потоки разбиваются на пакеты, после чего проводится их тактування распределение часовых интервалов. После этого пакеты готовы для передачи на так називаний транспортный уровень.

Потоки здесь, потоки там

Временная информация необходима для декодирования данных. В ней сохраняется тактовая частота синхронизатора таймера кодера и оценки времени входных потоков относительно этого синхронизатора. Оценки времени можно разделить на два типа. Оценки первого типа указывают, когда должна декодироваться дежурная порция информации, второго - для указания момента готовности информации к воссозданию.

Стоит различать эти два типа оценок. В некоторых алгоритмах сжимания видеоинформации некоторые кадры определяются путем интерполяции предыдущего и следующего кадров. Таким образом, пока дежурный кадр декодируется и готовится к воссозданию, следующий уже повинный быть декодированный и помещенный в буфер. Поэтому, для обеспечения большей производительности декодера во временную информацию, как правило, дополнительно записывают и параметры буферизации.

Высказываясь терминологией семиуровневой коммуникационной модели ISO, Mpeg-4 не использует никакого принципиально нового механизма передачи данных. Существующих на то время средств оказался вполне достаточно: потек передаче Mpeg-2, асинхронный режим передачи ATM и Internet-протокол передачи в реальном времени RTP. Доречи, потек передаче Mpeg-2, используемый в цифровом телевидении, впоследствии оказал существенное влияние на определение стандартов радиовещания.

Для каждого потока данных может устанавливаться отдельный канал передачи. Поэтому в случаях, когда сцена Mpeg-4 содержит достаточно большое количество таких потоков, процесс становится громоздким и неэффективным. Во избежание подобных ситуаций в Mpeg-4 был включен дополнительный инструмент, так называемый Flexmux, что играет роль промежуточного звена для превращения данных в удобную для передачи форму. Позже в Mpeg-4 был прибавлен еще один интерфейс, что позволяет прикладной программе посылать запрос на соединение по заданным параметрам: пропускной способности оборудования, коэффициенту ошибок, параметрам задержки, и т. п.

С точки зрения прикладной программы этот интерфейс одинаков как для широковещательных каналов связи и интерактивных сеансов так и для локальной работы. В связи с этим разработчикам при написании кода даже не придется задумываться о том, какие механизмы лежат в основе. Следующий релиз Mpeg-4 уже позволял использовать разные каналы передачи на противоположных узлах сети для прийому/передача.

Еще одним существенным нововведением второй версии было введение формата mp4 и средств конвертации из форматов предыдущих версий. Раньше, при использовании Mpeg-1 и Mpeg-2, таких средств не было, но для Mpeg-4, предусмотренного для использования в Internet, они были просто необходимы.

Визуализация объектов

Классическое прямоугольное видео является одним из стандартных визуальных объектов. Объекты произвольной формы могли кодироваться отдельно от фона, а уже впоследствии сообщаться с ним и другими объектами.

Mpeg-4 предлагает два метода описания объектов произвольной формы, каждый из который имеет свои преимущества. В соответствии с первым двоичным методом любой пиксел заданного цвета, яркости, и тому подобное может быть или не быть частью рассмотренного объекта. Такой самый простой, но достаточно сырой подход эффективен для работы при рядом скорости передачи данных. Однако его последствия - явная неловкость элементов изображения, зазубрины, на изгибах кривых - могут раздражать.

Для получения высококачественного изображения используется другая методика, так називана шкала полутонов gray scale. В соответствии с этой методикой, каждый пыксел независимо от того, к какому объекту он принадлежит, кроме значений включенный и исключенный характеризуется степенью прозрачности. Благодаря этому обеспечивается эффект сглаженного фона и всех видимых объектов.

Классический пример сглаженного изображения можно увидеть по телевизориу во время трансляции прогноза погоды. Кажется, что карта находится за спиной у диктора, который находится на переднем плане. В действительности она генерируется отдельно, после чего объекты соединяются.

Технология MPEG не определяет точный алгоритм формирования визуальных объектов. Этот алгоритм, названный видеосегментацией, все еще остается целью интенсивных исследований. Известные на сегодняшний день методы позволяют решить эту задачу, однако они имеют некоторые ограничения. Одним из способов воссоздания сложных объектов есть их запись на голубом или зеленом фоне цвета, что потом легко отфильтровать.

Mpeg-4, как и предыдущие технологии, точно определяет только процесс декодирования. Процесс кодировки, неоднократно усовершенствованный, все еще является открытой темой. Даже сегодня, когда алгоритм сжимания Mpeg-2 практически не используется, продолжают оказываться все новые и новые его преимущества.

Немного подумав

Рядом с высокоскоростными технологиями существенная часть исследований проводилась с целью обеспечения качественного воссоздания анимации на устройствах с очень низкой скоростью приема/передачи данных, в частности на мобильных устройствах. Формат Mpeg-4 оказался пригодным для воссоздания видео на безпроводному оборудовании еще одна область приложения технологии Gsm/global System for Mobile Communications при скорости передача 10 kb/s - скорости, которая используется на сегодняшний день для голосовой связи!

Существенной проблемой при работе с мобильными устройствами является большая вероятность ошибок при передаче данных. Для борьбы с этим разработаны много средств, которые позволяют декодеру как можно быстрее перебороть и загладить неминуемые ошибки. Одним из таких средств есть маркеры ресинхронизации, что сохраняются в потоках с видеоинформацией и позволяют избежать нарушения синхронизации в результате ошибки.

Другим эффективным средством является использование так називаного оборотного кода переменной длины. Такой код корректно декодируется даже при считывании в обратном порядке. Это позволяет терминалу корректно воспроизводить информацию, начиная с ближайшего маркера ресинхронизации, найденного к месту возникновения ошибки.

Эффективность работы даже при низкий скорости передачи данных обеспечивается благодаря использованию масштабируемых объектов. В наши дни многие Internet-провайдерив для доступа к аудио-видео информации позволяют абонентам самостоятельно устанавливать качество получаемой информации в соответствии с пропускной способностью користувального оборудования. Следовательно, провайдеру приходится кодировать ту же информацию несколько раз с ориентацией на широкий диапазон аппаратных возможностей пользователей. Масштабируется кодировка дозволяте избежать этого и кодировать данные только один раз. Налаживание на нужную пропускную способность в этом случае будет делаться непосредственно перед воссозданием или даже во время воссоздания.

В процессе масштабирования базовый уровень передает информацию с некоторым базовым качеством воссоздания. Если возможности оборудования позволяют улучшить качество, передается дополнительная информация из следующих высших уровней. Причем, если сцена включает несколько объектов, то можно передать информацию только о некоторых, больше всего существенные из них. Такой метод масшатбування является принципиально новым. Он даже позволяет обеспечивать для разных объектов разный уровень защиты, то есть, например, больше всего важные объекты имеет смысл защищать лучше. Эта возможность очень существенна, поскольку обеспечение определенной защиты требует дополнительных расходов ресурсов.

Еще один способ сохранения графической информации, так называемые спрайти, как правило, используется для кодировки неизменных фрагментов изображения. Допустимо, например, что в деякомий интерактивной программе пользователь изменяет угол обзора камеры. Это значит, что фон и другие объекты должны полностью перемалевываться при каждой такому изменению. При использовании спрайта для определения, например, фонового изображения, достаточно одной передачи данных, Которые содержатся в нем. После этого, для формирования нового вида обзора достаточно информации о новых координатах четырех уже определенных точек.

Улыбнитесь!

Из широкого спектра возможностей Mpeg-4 самой забавной, по-видимому, есть возможность нанесения изображений на обиды, згенеровани компьютером. А если эти обиды еще и анимированы, то разница между искусственный и реальный становится почти незаметная. Вообще, на произвольный дво - или трехмерный объект точнее, его каркас можно наложить любую картинку. Тогда даже при незначительной деформации каркаса создается впечатление реального видео например, флага, который развевается. Для создания более сложных эффектов полученную анимированную картинку можно наложить на другой каркас. Причем, тогда выходит и существенное уменьшение трафика, поскольку вместо того, чтобы после каждого изменения посылать полностью обновлено изображение, достаточно послать информацию о параметрах деформации, а непосредственно деформация будет выполняться локально.

Особенный интерес представляют определенные формы человеческого лица, точнее, его электронной модели для разных эмоциональных состояний с заданным набором движений.

Благодаря интерфейсу Mpeg-4 для языкового воссоздания текста стало возможным использование анимированных изображений лица для дублирования или синтеза человеческого голоса в реальном времени.

Генерация образа лица может делаться как на этапе декодирования так и с использованием предварительно заготовленных шаблонов. В качестве каркаса такой модели может использоваться произвольная трехмерная поверхность или даже фотоснимок человека.

С помощью специальных команд можно управлять отдельными фрагментами изображения губами, глазами и т. п., принуждая их двигаться синхронизировано с разговором. Средства для моделирования всего человеческого тела будут разработаны во второй версии Mpeg-4.

Живой или электронный?

Около десяти лет потому, когда Moving Picture Expert Group только начинала свои исследования, аудиоинформация считалась второстепенной и неразрывно связанной из видео. Сегодня значение и качество воссоздания аудио нимало не уступают видео.

Инструментарий Mpeg-4 содержит средства для эффективной архивации звуковой информации разного качества: от 6 kb/s до 128 kb/s. Этот диапазон охватывает все виды сигналов, начиная от моно и заканчивая высококачественным стереозвучанням без каких-либо слышных дефектов. Несомненно, качество CD-звучання продолжает оставаться эталоном, однако его требования превышают описанные выше в десятки раз - 1411 kb/s.

Для записи высококачественной звуковой информации используется специальный алгоритм кодировки advanced audio coding - AAC, разработанный еще во времена Mpeg-2. Эффективность кодировки таким алгоритмом значительно превосходит даже формат mp3 - очень популярный в последнее время звуковой формат.

Кодировка вещания осуществляется двумя специально разработанными для этого алгоритмами. Первый параметрический кодувач обрабатывает данные в режиме 2-4 kb/s или даже более малому. Второй, основанный на технологии CELP code exciter linear prediction, предназначенный для работы в режиме 4-24 kb/s. Последний способен кодировать диапазон частот от 8 до 16 khz диапазон, который покрывает диапазон человеческого голоса.

Комбинированное использование разных приемов Mpeg-4 позволяет даже на основе записанного текста генерировать соответствующие движения модели человеческого лица, о котором мы говорили раньше. Более того, при воссоздании вещания с помощью специальных параметров можно добавлять ей определен эмоциональный оттенок, регулировать скорость воссоздания. Максимально реального произношения можно добиться путем изменения вековых параметров, задания полу и даже акценту.

Свой собственный инструмент!

Mpeg-4 принадлежит много открытий в области структурированного аудио. К их числу можно отнести метод кодировки звуковой информации при самых низких скоростях передачи. Идея была заимствована в Медиа Лаборатории Массачусетского Технологического Института, которая занималась разработкой популярного языка звукового синтеза Csound. В отличие от других подобных средств звукового синтеза, структурированное аудио является форматом для описания методики синтеза.

Принцип синтеза звука в структурированном аудио в использовании большой количество так называемых элементов обработки сигналов: осцилляторов, цифровых фильтров и др., наборы которых используются для генерации определенных звуков. Каждый такой набор, который задает определенный звук будь то ревет слона или сигнал тревоги, называется инструментом.

Описанная методика лежит в основе синтеза электронной музыки. Для обработки и управления электронными инструментами, как правило, используется один из языков: язык генерации структурированного оркестрового аудио SAOL или язык партитуры структурированного аудио SASL. С помощью такого языка опытный программист-композитор может генерировать практически любые звуки от звучания музыкальных инструментов к шуму водопада.

Существенным преимуществом такого подхода является гарантированная идентичность результата при воссоздании даже на терминалах с разными физическими параметрами оборудования.

На сегодняшний день ситезатори звучания уже достаточно популярны. Особенно широко используется так называемый интерфейс синтеза музыкальных инструментов musical instrument digital interface - MIDI невзирая на достаточно ограниченные его возможности. С его помощью также можно управлять воссозданиям аудио в Mpeg-4. Во многих звуковых адаптерах для персональных компьютеров для синтеза используется технология Wavetable.

Звук, который сводит с ума

Как уже было сказано, аудио является компонентом объектной модели Mpeg-4. Это может быть как монофонический голосовой канал так и многоканальный высококачественный звуковой объект. В действительности, пвимоги при моделировании аудио определенные намного жестче, чем для видео. Представление аудио в качестве объекта сцены значительно облегчает его обработку и передачу из каналов вводу объекты сцены на каналы вывода динамики.

Особенно четко эффективность объектного представления аудио оказывается в тех случаях, когда оно включает несколько эффектов, которые могут использоваться отдельно один от одного. Например, звуковой трек состоит из одного объекта для воссоздания голоса и другого - для звукового сопровождения заднего плана. В этом случае легко можно применить к голосовому объекту эффект ехо, независимо от музыкального сопровождения.

Аудиообъекты, как и визуальные, могут задаваться в трехмерном звуковом пространстве. Это может быть полезно при проведении голосовых конференций между большим количеством людей или для интерактивных программ, в которых положение источника звука не меньше существенно, чем положение визуального объекта.

Будущее Mpeg-4

Возникает естественное запитанння: какие перспективы развития в Mpeg-4? Первый сервер и декодер Mpeg-4 были представлены компанией Phillips Digital Video Systems в сентябре 1998 года на Международной Конвенции по Широковещательным Технологиям в Амстердаме. На сегодняшний день декодер Mpeg-4 уже функционирует как компонент известного Windows Media Player.

Теперь очередь за производителями мобильного оборудования и провайдерами услуг мобильной связи.

Технологией Mpeg-4 уже заинтересовались много радиовещательных компаний, поскольку его качество признано выше, чем аналоговое AM-радиомовлення. Однако невзирая на это, ряд компаний игнорируют технологию Mpeg-4.

Некоторые встретили новую технологию враждебно, думая что Mpeg-4 вытиснит из рынка популярный Mpeg-2. Другие вообще отклоняют идею перехода из аналогового телевидения на цифровое, считая этот процесс слишком дорогим.

Однако, Mpeg-4 ни в коей мере не допускает витиснення формат Mpeg-2. Напротив, он открывает новые возможности в сфере разработки программного обеспечения и средств коммуникации. В данный момент группой Moving Picture Expert Group разрабатывается механизм общего использования Mpeg-4 и Mpeg-2. В недалеком будущем, когда весь мир примет идею цифрового радиовещания, когда обычные телевизоры превратятся в интерактивные терминалы, наступит новая эра эволюции мультимедиа!