Universitat Oberta de Catalunya

Sistemas de compresión de imagen en movimiento

En 1982 el CCIR (Comité Consultivo Internacional de Radiodifusión), definió la recomendación CCIR-601 (actualmente conocida como ITU-R BT-601). En ésta se especifican los requisitos bajo los que se deberán basar los sistemas de televisión digital de 525 y 625 líneas con relaciones de aspecto de 4:3 y 16:9. En este estándar uno de los parámetros contemplados es el ancho de banda resultante después de aplicar el proceso de conversión de analógico a digital de la señal de vídeo. El resultado de esta conversión trabajando a 8 bits es de 216 Mb/s.

Es evidente que en la actualidad, prácticamente 20 años más tarde, nos sigue pareciendo un valor relativamente excesivo para la mayoría de aplicaciones audiovisuales que existen en el mercado. A pesar de ello, esto no significa que la recomendación 601 estuviera planteada en exceso o mal planteada, sino que en aquella época se diseñó una norma pensando en el futuro. En aquel momento eran realmente pocas las máquinas capaces de trabajar con esos flujos de datos a tiempo real, y las pocas que existían eran realmente caras, como por ejemplo el magnetoscopio D1 de Sony.

En la actualidad existen cámaras, magnetoscopios y algunos ordenadores especialmente diseñados para poder soportar estos flujos de datos. Aún así, esta no es la práctica habitual, ya que los precios de estos equipos son desorbitados y la calidad que ofrecen es subjetivamente parecida a la que se puede conseguir mediante la utilización de técnicas de compresión con dispositivos mucho mas sencillos y económicos.

Esta realidad está afectando al mercado doméstico, permitiendo que una persona pueda grabar una imagen de calidad muy satisfactoria, con una cámara por ejemplo en formato MiniDV, la cual entrega un flujo de datos de 25 Mbits/s, y que pueda editar sus videos con un ordenador personal convencional a un precio muy competitivo.

Pero la compresión de vídeo también se encuentra presente en el sector profesional, observándose cómo las antiguas y costosas salas de edición en Betacam cada vez más van siendo sustituidas por potentes ordenadores a precios mucho mas accesibles que los de las antiguas salas, y obteniendo calidades de imagen muy similares. Esto significa que la mayor parte del mercado profesional ha preferido apostar por formatos más económicos y de calidad similar a la que ya tenían con los sistemas analógicos a realizar grandes inversiones para conseguir factores de calidad que difícilmente hubieran podido justificar en las juntas de administración.

Las técnicas de compresión pueden clasificarse en dos grupos, las que son reversibles (lossless) y las que son irreversibles (lossy). Las reversibles son aquellas en las que después del proceso de compresión/ descompresión los datos resultantes no han sufrido ninguna degradación ni pérdida de calidad. Las irreversibles son aquellas en las cuales una vez realizado el proceso de compresión/ descompresión el contenido resultante ha sufrido una degradación mas o menos perceptible. En la mayoría de aplicaciones audiovisuales se debe utilizar técnicas irreversibles, ya que éstas son las que permiten elevados factores de compresión.

Dentro de las técnicas de compresión irreversibles las más utilizadas e inmediatas son aquellas que consisten en eliminar información reduciendo el tamaño de la imagen, eliminando fotogramas o asignando menor cantidad de bits al codificar cada píxel.

Aun así existe un conjunto de técnicas bastante más complejas, que permiten también la reducción de datos, con las que se pueden conseguir elevados factores de compresión. La más extendida de ellas es la compresión temporal, que consiste en analizar una secuencia de vídeo para que en lugar de transmitir todos los fotogramas consecutivos tan solo se codifique un fotograma y la diferencia entre éste y sus fotogramas cercanos. Por ejemplo, se codifica el fotograma 1 entero y en lugar de codificar el fotograma 2 tan solo se codifica aquella información que es distinta entre los fotogramas 1 y 2. Esto permite que en aquellas secuencias en las que la información es muy redundante (o sea existen muy pocas variaciones entre fotogramas consecutivos) se consigan factores de compresión muy elevados, ya que la diferencia entre ellos es prácticamente nula. La mayoría de las técnicas de compresión temporal que se utilizan en la actualidad no se basan tan sólo en la codificación de la diferencia entre fotogramas consecutivos, sino que lo que codifican es la diferencia entre un fotograma y la predicción del siguiente, lo cual eleva mucho el cómputo del procesado y permite obtener a cambio un flujo de datos mucho más reducido y una imagen de calidad óptima.

El uso de estas técnicas se encuentra tanto en aplicaciones de televisión digital con relaciones de compresión que no suelen superar los 10:1 y sin una aparente pérdida de calidad de imagen como en aplicaciones multimedia con factores de compresión que pueden llegar a ser de 200:1. Estas técnicas de compresión orientadas al sector multimedia se encuentran implementadas en pequeñas aplicaciones llamadas codecs, pequeños programas que incorporan los procesos necesarios para la compresión de una señal.

Para que no existan problemas a la hora de intercambiar archivos comprimidos es necesario que se encuentren ubicados en una arquitectura definida mediante un estándar, de manera que se garantice la correcta generación, transmisión, almacenamiento y visualización de los contenidos entre distintos ordenadores. En realidad las primeras arquitecturas que aparecieron y que se han acabado convirtiendo en estándar son las estructuras AVI (Audio Video Interleave) de Microsoft y la estructura QuickTime de Apple. Posteriormente se creó el estándar MPEG.

La finalidad de una arquitectura como AVI o QuickTime es la de permitir que los desarrolladores puedan integrar de forma sencilla aplicaciones de compresión y descompresión de materiales multimedia sobre cada sistema operativo. En principio AVI y Quick Time aceptan cualquier tipo de compresor o técnica de compresión de vídeo, siempre que el desarrollador del código siga las normativas definidas para la correcta integración del codec sobre cada sistema operativo.

Existe una gran cantidad de codecs adaptados a las arquitecturas AVI y QuickTime. Esto supone que una misma secuencia de vídeo puede tener calidades distintas en función del codec utilizado para comprimirla aunque en todas ellas se haya utilizado la misma arquitectura. Algunos de los codecs más conocidos son el Cinepack, Indeo 3.2, Indeo 4.1, 4.2 y 4.3, Indeo 5.1 y 5.2 Microsoft RLE, Sorenson, DivX, H261, H263

Uno de los principales problemas de las arquitecturas AVI es que para poder visualizar su contenido es necesario tener todo el archivo en el disco duro o DVD/CD-ROM. O sea, no es posible por ejemplo reproducir la secuencia de vídeo a medida que se va descargando de Internet. Para solucionar este problema Microsoft diseñó otra arquitectura que permite visualizar vídeo a tiempo real (streaming) mientras éste se va reproduciendo desde el servidor, conocida como Windows Media. Microsoft proporcionó también una herramienta conocida como DirectShow que permite a los desarrolladores adaptar sus codecs a archivos AVI, Windows Media y MPEG.

Internet está ejerciendo una fuerte presión para la implementación de un conjunto de arquitecturas diseñadas específicamente para aplicaciones de streaming, entre ellas las más comunes son Windows Media para PC, QuickTime para Apple y RealSystems para servidores web. Todas ellas, al igual que en el caso de AVI, son estructuras que admiten distintos codecs, hasta es posible encontrar el mismo codec en distintas arquitecturas. Por lo tanto, la extensión del fichero que se ve en el ordenador como AVI, MOV, WMV, RM, etc., no define el codec que se ha utilizado para comprimir el vídeo, así que tampoco indica la calidad resultante de la información codificada.

Una de las últimas arquitecturas para streaming que ha creado Microsoft es el ASF (Advanced Streaming Format). Este producto se encuentra en dos paquetes básicos: NetShow Server para Windows NT, que es el encargado de suministrar las imágenes a los usuarios conectados a la red, y el NetShow Player que permite la visualización de estos contenidos a usuarios que utilicen Windows NT, Windows 95/98 y versiones posteriores del sistema operativo. Los archivos codificados en ASF pueden proporcionar varias ventajas respeto a las arquitecturas AVI, entre ellas la posibilidad de rebobinar y realizar un fast-forward del contenido que entrega el servidor. Esta opción tan solo es posible si el servidor es de streaming y tiene el NetShow Server instalado, un servidor web convencional no contempla esta posibilidad.

El estándar oficial definido para la compresión de vídeo es el MPEG (Motion Pictures Expert Group). Se trata de un grupo que depende de la ISO (Organización Internacional de Estandarización), formado por más de 70 organismos internacionales que tienen como objetivo definir los procesos de compresión de vídeo para aplicaciones que van desde la producción y difusión de televisión digital hasta la gestión de datos multimedia, pasando por utilidades interactivas como pueden ser la videoconferencia a través de telefonía móvil o la recepción de televisión en una PALM.

Este estándar ha ido evolucionando con el paso del tiempo y se ha ido adaptando a las exigencias del mercado. Empezó mediante la creación del estándar MPEG-1, planteado con la finalidad de almacenar una película entera sobre un CD-ROM convencional, generando secuencias de 352×288 pixels de resolución y 15 fps.

Posteriormente se definió el MPEG-2. En este caso su mercado principal era la televisión digital, o sea imágenes de 720×576 a 25 fps (en Europa). A pesar de ello el estándar contempla multitud de calidades distintas que van desde formatos de resolución reducida (similar al MPEG-1) hasta aplicaciones de HDTV (Televisión de Alta Definición) con resoluciones de 1920×1080 pixels y hasta 60 fps, pasando por la compresión de contenidos para DVD.

Uno de los últimos estándares definidos por la MPEG es el MPEG-4. Este complejo algoritmo de compresión tiene por finalidad el tratamiento de la imagen como objetos multimedia, permitiendo al usuario interactividad con el contenido. Este estándar por lo tanto no tiene como objetivo principal la compresión de imágenes sino que en lugar de tratar una imagen como un elemento único la descompone en múltiplos objetos independientes entre sí.

Por ejemplo: supongamos que partimos de una imagen de una persona hablando mediante la codificación en MPEG-4, que puede considerar como objetos independientes la boca, la nariz, los ojos …de esta manera un usuario que tenga el control de estos parámetros puede interactuar con la imagen, haciendo que hable mediante por ejemplo unos controles de voz o sensores de realidad virtual.

Actualmente este formato se ha hecho muy popular en Internet aunque tan solo se esté utilizando una mínima parte de su potencial (teniendo en cuenta los elevados factores de compresión que es capaz de soportar) con unos resultados visuales muy satisfactorios. Uno de los codecs que basa su compresión en algunos de los parámetros definidos en el estándar es el conocido DivX: en este caso se considera toda la imagen como un único objeto rectangular.

Otros formatos como el MPEG-7 y el MPEG-21 están en la actualidad en pleno desarrollo. Con ellos se pretende generar potentes bases de datos capaces de gestionar e introducir técnicas de acceso condicional a contenidos multimedia. Asimismo, actualmente se están ofreciendo diversas alternativas de streaming orientadas al sector del vídeo profesional (broadcast). Entre ellas se encuentran el Microsoft Windows Media 9 y el estándar definido por la ITU (Organización Internacional de Telecomunicaciones) bajo la nomenclatura ITU H-264/AVC.

Estas arquitecturas están diseñadas para permitir la codificación y difusión de vídeo de diversas calidades a través de reducidos anchos de banda, como es el caso de la telefonía de tercera generación UMTS (3G), y contemplan la posibilidad de incorporar técnicas de codificación de audio multicanal, pero tan sólo este tema seria motivo para otro artículo.

Bibliografía relacionada:

  • VideoDemystified Keith Jack Ed. Newnes
  • Sistemas Audiovisuales Francesc Tarres Ed. UPC

Cita recomendada: BONET PEITX, Xavier. Sistemas de compresión de imagen en movimiento. Mosaic [en línea], julio 2004, no. 29. ISSN: 1696-3296. DOI: https://doi.org/10.7238/m.n29.0419.