Tesis Doctorales UPM: Consulta online

Autor: BERACOECHEA ALAVA, Jon Ander

Título: Codificación de audio multicanal para entornos de tipo ventana acústica.

Fecha: 2007

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

Acceso electrónico:

Director/a(s):

Director/a: TORRES GUIJARRO, Soledad

Resumen: El objetivo del presente trabajo es el estudio de técnicas de codificación orientadas a esquemas de reproducción de audio basados en el concepto de Ventana Acústica (VA). La Ventana Acústica es un sistema de comunicaciones propuesto inicialmente hace décadas, que pretende trasladar la sensación acústica de una sala A (sala de emisión) a otra sala B (sala de recepción), que puede estar situada en cualquier parte del mundo, como si entre ambas salas existiera una ventana física real. Así pues, a diferencia de otros sistemas de reproducción multicanal como el estéreo o los sistemas surround (5.1), la VA permite reconstruir el campo acústico de forma fiel en toda la sala de recepción y no en unas zonas concretas de la misma (zonas que reciben el nombre de sweet spots). Así pues, las aplicaciones basadas en el concepto de VA proporcionan mejoras evidentes sobre un conjunto de atributos a menudo relacionados con el concepto de calidad espacial. Concretamente, tal y como se demuestra en esta tesis, la capacidad de localización de las fuentes en la sala de emisión o la inteligibilidad global del sistema, son atributos que se ven enormemente beneficiados en este tipo de entornos. El concepto original de la VA está basado en el uso de un array de micrófonos capaz de capturar el campo acústico en la sala de emisión, más un array de altavoces encargado de reconstruir dicho campo acústico en la sala de recepción. Como se puede intuir el uso de arrays de transductores, genera una cantidad de información tan importante que puede poner en cuestión la aplicabilidad del sistema. No ha sido hasta hace pocos años, que el desarrollo de codificadores perceptuales avanzados ha permitido el estudio de este tipo de esquemas desde un punto de vista práctico. No obstante, como se pone de manifiesto en este trabajo, la familia de codificadores perceptuales de que disponemos a día de hoy no fueron diseñados con este tipo de entornos en mente y, por tanto, su rendimiento para aplicaciones basadas en la VA es, cuando menos, discutible. Nuestro propósito es el desarrollo de codificadores multicanal que tengan en cuenta las particularidades propias de la VA y que obtengan una mayor tasa de codificación frente a los codificadores perceptuales actuales. Concretamente, se presentan dos esquemas de codificación en función del tipo de aplicación. El primer codificador que proponemos está basado en una decorrelación intercanal empleando la transformada de Karhunen-Loève y fue diseñado pensando en aplicaciones de transmisión en tiempo real de conciertos donde el número de fuentes simultáneas en la sala de emisión es alto. Como previo paso a una codificación perceptual estándar se realiza una decorrelación total de las señales de entrada. Esta decorrelación permite reducir de forma significativa la información redundante que se transmite ya que optimiza el proceso de codificación perceptual. Como es natural los coeficientes del proceso de decorrelación han de ser transmitidos para poder deshacer la operación en recepción. Las pruebas realizadas empleando una extensión multicanal de la herramienta PEAQ desarrollada en el contexto de esta tesis, permiten hablar de una reducción de un 20 por ciento de tasa binaria de codificación sobre el codificador perceptual multicanal por excelencia, el MPEG4-AAC. El segundo codificador está pensado para entornos de tipo teleconferencia donde lo normal es trabajar con un número de fuentes simultáneas reducido y unas condiciones de relación señal ruido complejas y se basa en una separación de fuentes previa más una síntesis del campo acústico en recepción. Esta separación se obtiene, en nuestro caso, empleando técnicas de conformación de haz adaptativas. Como es evidente, este acercamiento ataca el problema desde una óptica totalmente diferente con respecto al codificador anterior. La ganancia, desde el punto de vista de ahorro de tasa binaria de codificación, es realmente significativa puesto que no es necesario enviar más que las fuentes originales secas más un conjunto de parámetros que nos permitan reconstruir el campo acústico en recepción. Además, gracias al proceso de estimación, es posible reducir aquellos ruidos o reverberación existentes en la sala de emisión que deseemos evitar en la sala de recepción. Los principales elementos de lo que constituiría un sistema práctico son estudiados con detalle, poniendo especial énfasis, como veremos, en los bloques de conformación, localización y síntesis de campos acústicos (Wave Field Synthesis). El sistema ha sido evaluado empleando. en este caso, un conjunto de pruebas subjetivas que resaltan las capacidades del sistema. En primer lugar se lleva a cabo una evaluación de la calidad tímbrica global del sistema basada en el estándar MUSHRA para, a continuación, centrarse en verificar la mejora desde el punto de vista de la inteligibilidad que el sistema proporciona frente a otros esquemas en situaciones de múltiples hablantes en la sala de emisión.