Видеокомпрессия: настоящее и будущее. Часть II

3 сентябрь, 2002 - 23:00Павел Молодчик
Если первая часть статьи ("Компьютерное Обозрение", #33) была посвящена теории, то сейчас мы перейдем к практике. А начнем с ответа на следующий вопрос:
Как правильно подготовить исходный видеоматериал?

1. Позаботьтесь о достаточно ярком освещении; это позволит минимизировать зашумленность видеосигнала. Если это условие выполнить невозможно, попробуйте обработать отснятый материал шумоподавляющими фильтрами. Такие фильтры входят в состав некоторых кодеков (например, DivX), систем нелинейного монтажа (Adobe Premiere) либо существуют в виде отдельных специализированных программ (см., например, http://kttech.com).

2. Не пользуйтесь точечными источниками света, формирующими резкие тени: мягкие тени лучше поддаются компрессии. Для смягчения теней при съемках в студии можно воспользоваться диффузионными рассеивателями, а под открытым небом -- светоотражательными щитами.

3. Избегайте неоправданного избытка монтажных склеек. "MTV-клипы" утомляют зрение и нарушают алгоритмы поиска межкадровых соответствий.

4. Плавные переходы между видеофрагментами также оказывают дестабилизирующее действие на работу многих видеокомпрессоров. Любой другой тип "склеек", предоставляемый программами нелинейного монтажа, почти наверняка окажется более предпочтительным.

5. Видео, снятое неподвижной камерой, характеризуется наименьшими межкадровыми различиями и высокой корреляцией характеристик оптического потока, поэтому его компрессия оказывается самой эффективной. Для применения алгоритмов качественного преобразования чересстрочной развертки в прогрессивную использование штатива является обязательным условием. Если оно все же невозможно, включайте функцию электронной (или оптической) стабилизации изображения.

6. Работайте с большой диафрагмой. Открытая диафрагма уменьшает глубину резкости, концентрируя внимание на снимаемом объекте. Второстепенные планы при этом "размываются" и требуют очень малых затрат на кодирование. Данный пункт особо важен для съемок под открытым небом: колышущаяся на ветру листва -- один из наиболее плохо поддающихся компрессированию объектов; следует всячески избегать случаев, когда она выступает в качестве фона.

7. Выставляйте максимальную выдержку. Размытые границы движущихся объектов не только выразительнее подчеркивают движение, но и лучше компрессируются. По тем же причинам компьютерную графику, предназначенную для компрессирования, следует просчитывать с наивысшим качеством, подразумевающим использование алгоритмов темпорального сглаживания и антиалиасинга, а также моделирование эффектов, связанных с глубиной резкости.

8. Ширина и высота компрессируемого видеоматериала в пикселах должны быть кратны 16 (таков размер макроблоков в большинстве современных видеокомпрессоров). Во избежание появления артефактов вокруг титров, логотипов и т. п. размеры и смещение накладываемых графических элементов также должны вписываться в сеть макроблоков. Текст, вообще говоря, плохо поддается компрессированию, поэтому по возможности следует пользоваться специальными функциями титрования, встроенными в некоторые мультимедийные форматы (например, в QuickTime).


Пути эволюционирования

Видеокомпрессия настоящее и будущее. Часть II
Преимущества wavelet-кодирования: лучше один раз увидеть, чем сто раз услышать. Сверху -- исходное изображение (24 бита на пиксел), в центре -- результат обычной JPEG-компрессии, снизу -- файл в формате JPEG2000 с той же плотностью упаковки (0,5 бита на пиксел)
Видеокомпрессия настоящее и будущее. Часть II
Видеокомпрессия настоящее и будущее. Часть II
Основой всех распространенных современных кодеков являются прямые и инверсные дискретно-косинусные преобразования во многообразных вариациях. Существует мнение, что потенциал этого типа алгоритмов почти исчерпан. Ниже мы расскажем о некоторых наиболее перспективных из известных сейчас альтернативных технологий.


Векторная квантизация

10 лет назад векторная квантизация служила алгоритмической основой доминировавшего кодека Cinepak, имевшего очень высокую скорость декодирования и позволявшего просматривать видео в разрешении 640 x 480 x 15 fps на компьютерах класса i486 50 MHz. Сегодня векторная квантизация применяется в основном для сжатия текстур в памяти видеоакселераторов. Однако это не означает, что потенциал технологии исчерпан -- скорее, он еще не раскрыт. Достаточно заметить, что теоретически ДКП является частным случаем векторной квантизации. Это означает, что при использовании неограниченной вычислительной мощности на этапе кодирования векторная квантизация гарантированно превосходит ДКП по качеству компрессии.


Фрактальная компрессия

В первой половине 90-х гг. эта технология, продвигаемая компанией Iterated Systems, вызывала всеобщий энтузиазм. Сам Майкл Джексон вкладывал в нее деньги! Фирменный фрактальный кодек ClearVideo поддерживался архитектурами QuickTime, VFW и RealVideo. Преимущества фрактальной компрессии -- потенциально очень высокие коэффициенты сжатия и естественная масштабируемость декодируемого результата. Недостаток, надежды на исправление которого почти угасли, -- отсутствие надежных методов отыскания оптимальной системы кодирующих аффинных преобразований (т. е., собственно, практическая невозможность эффективного кодирования). Существующие методы исследуют лишь ограниченное подмножество преобразований, что не позволяет им конкурировать с кодеками, основанными на ДКП. Сегодня ClearVideo совершенно вышел из употребления, а дирекция Iterated Systems кардинально сменила сферу деятельности, занявшись системами управления распределенными массивами графической информации. Впрочем, ситуация может измениться, ведь поток научных публикаций, посвященных усовершенствованию алгоритмов фрактальной компрессии, не иссякает.


Wavelet-преобразование

Семейство кодеков Indeo, разработанных компанией Intel на основе алгоритма wavelet-преобразований, было вытеснено ДКП-ориентированными кодеками во второй половине 90-х гг. Нынешний всплеск интереса к этой технологии связан с включением в нее ряда алгоритмических усовершенствований, ранее считавшихся слишком ресурсоемкими, а также с активной пропагандой новейшего формата сжатия статичных изображений JPEG2000. Читатели, склонные к экспериментированию, могут получить свободно распространяемые wavelet-кодеки MCMW и MJPEG2000 компаний Lead Technologies и Image Power на сайтах www.leadtools.com и www.motionjpeg2000.tv.

Способен ли CD-R в обозримом будущем вместить полнометражный фильм в полноэкранном разрешении без явно различимых артефактов компрессии? Для этого потребовалось бы радикальное улучшение существующих методов компрессии. Поэтому сегодня положительный ответ на этот вопрос возможен лишь в отношении двух категорий кинопродукции -- рисованных мультфильмов и 3D-анимации.

Правда, массовая миграция с CD-R на DVD-R также является делом "обозримого будущего"... Что ж, в любом случае, ресурсов никогда не бывает слишком много.


Компрессия на основе рендеринга

Видеокомпрессия настоящее и будущее. Часть II
Применение компрессии на основе рендеринга для Internet-телевещания
PEGS, Animo и USAnimation -- стандартное программное обеспечение, используемое в студиях 2D-анимации во всем мире. Эти программы координируют усилия сотен художников-аниматоров, предоставляя им доступ к редактированию единой базы графических ресурсов (фоны, спрайты, текстуры и т. д.). При энтропийном кодировании завершенная ресурсная база полнометражного мультфильма, как правило, умещается на одном диске CD-R. В типичном случае просчет готовых кадров на финальном этапе выполняется приблизительно в 10 раз медленнее, чем в реальном времени. Таким образом, для распространения мультфильмов вещательного качества на обычных компакт-дисках требуется 10-кратное увеличение производительности ПК, ожидаемое через 4--5 лет.

Гораздо большее прикладное значение имеет радикальное повышение эффективности компрессирования 3D-анимации. Оно важно, например, для проектирования распределенных CAD/CAM-систем, организации архитектурных Internet-презентаций и т. д. Благодаря ряду активно разрабатываемых в академической среде проектов, связанных с компрессией на основе рендеринга (Rendering-Assisted Compression), прорыв в этой области может наступить и того раньше. В рамках предлагаемой технологии несколько сотен мегабайтов объема лазерного диска (содержащего, к примеру, фильм "The Final Fantasy") отводится для хранения 3D-моделей, текстур и анимационных скриптов. Все эти ресурсы огрубляются с тем, чтобы компьютер, оснащенный графической картой средней производительности, мог обрабатывать их в реальном времени. Остальное дисковое пространство занято звуковым сопровождением, а также заблаговременно просчитанной разностью между изображением эталонного качества и содержимым видеобуфера для каждого кадра. Эта разность, имеющая низкую яркость и очень высокую избыточность, может быть эффективно сжата традиционными методами вроде MPEG-4.

Рассмотрим теперь более универсальные технологии, потенциально способные обеспечить радикальный скачок в увеличении эффективности кодирования.


Объектное компрессирование

Лучший способ сжатия музыкальной фонограммы заключен в ее преобразовании в midi-формат (увы, разработки необходимых для этого надежных алгоритмов уже много лет находятся на начальной стадии). Применительно к видеокомпрессии данная концепция подразумевает сегментацию изображения с целью группирования пикселов по признаку их принадлежности к объектам кадрового пространства. Использование групповых атрибутов повышает эффективность предсказания локальных смещений и кодирования межкадровых различий. В идеальном случае объектный кодер должен обладать не только способностью безошибочного распознавания объектов в сцене, но и строить суждения о форме участков, временно недоступных в результате перекрытия объектов. Это ставит перед разработчиками ряд сложных проблем, связанных с теорией искусственного интеллекта. Так, уже существуют экспериментальные попытки реализации объектного компрессирования, основанные на технологиях восстановления трехмерных сцен.

Хотя элементы объектного компрессирования содержатся в некоторых реализациях MPEG-4, есть мнение, что в целом оно противоречит блочной структуре ДКП. Недостатками описываемой концепции считаются высокие требования, предъявляемые к вычислительной мощности, а также относительно низкая стабильность: не все сцены состоят из однозначно локализуемых объектов. В настоящее время наибольшие надежды в данной области связываются с разработками компании Pulsent, продемонстрировавшей весной этого года реальную возможность троекратного увеличения эффективности компрессии относительно вещательного стандарта MPEG-2. Ближайшая цель компании -- разработка устройств для перекодирования потоков MPEG-2 в объектно-компрессированный формат: в некоторых случаях это может оказаться более выгодным, чем организация дополнительных каналов цифрового вещания.


Психофизиологические модели визуального восприятия

Видеокомпрессия настоящее и будущее. Часть II
Основа карт важности -- статистический анализ траектории движения зрительского взгляда (прости, Леонардо!..)
Чтобы представить потенциал, заложенный в технологиях моделирования психофизиологии зрения, обратимся к цифрам: считается, что качество HDTV (1920 x 1080) вплотную приближено к пределам разрешающей способности человеческого зрения. Поток некомпенсированных данных в таком разрешении составляет около 100 Mbps. Между тем, по оценкам нейрофизиологов, пропускная способность глазного нерва не может превышать 100 Kbps. Это дает основания считать зрительный аппарат человека самым совершенным из всех существующих кодеров, обеспечивающим коэффициент сжатия около 1:1000.

Известно, что пиковое зрительное разрешение достигается в крохотном участке сетчатки, так называемой центральной ямке, охватывающей всего лишь два градуса угла зрения. По мере удаления от центральной ямки плотность фоторецепторов снижается почти по экспоненциальному закону. Это означает, что для зрителя, смотрящего в центр киноэкрана, разрешение в периферийных зонах изображения почти полностью утрачивает значение (с другой стороны, периферийное зрение характеризуется высокой восприимчивостью к колебаниям яркости). Легко понять, что методы достоверного предсказания направления зрительского взгляда, основанные на анализе характера кодируемых изображений, позволили бы воспользоваться этой особенностью зрения для увеличения эффективности компрессии. Ключевым понятием данных методов, изучаемых в настоящее время в основном в академической среде, являются "карты важности" (importance maps, saliency maps) -- т. е. двумерные гистограммы, описывающие распределение вероятности привлечения зрительского внимания к тем или иным участкам изображения. Для построения эталонных карт важности используется специальное офтальмологическое оборудование, анализирующее совершаемые человеческим взглядом скачкообразные движения (саккады). Не исключено, что развитие технологий отслеживания направления взгляда в носимых дисплеях (часто рассматриваемых в качестве альтернативы традиционным манипуляторам) сможет придать этим исследованиям новый импульс.

Сторонники психофизиологических технологий убеждены, что компрессированное видеоизображение должно не столько аппроксимировать исходный материал, сколько наиболее адекватным образом возбуждать специфические нервные узлы зрительного тракта. Неравномерная плотность распределения фоторецепторов -- лишь одна из многих особенностей человеческого зрения, должный учет которых потенциально способен увеличить эффективность видеокомпрессии.