Tesis Doctorales UPM: Consulta online

Autor: MARTÍNEZ GONZÁLEZ, Beatriz

Título: Analysis and development of robust speaker diarization for meetings

Fecha: 2017

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: INGENIERIA ELECTRONICA

Acceso electrónico: http://oa.upm.es/47691/

Director/a(s):

Director/a: PARDO MUÑOZ, José Manuel

Resumen: A diferencia de los seres humanos, seguir los giros en una conversación real no es tan fácil para las máquinas. Nosotros hemos sido entrenados toda nuestra vida, sin siquiera notarlo, para reconocer voces, recordarlas y, automáticamente, ignorar los ruidos no relevantes. Las tecnologías del habla tratan de hacer que las máquinas puedan trabajar tan parecido a nosotros como sea posible. La diarización de locutores es la parte de estas tecnologías del habla que trata de solventar la tarea de reconocer, dentro de una grabación, quién está hablando y cuándo lo está haciendo. Este análisis puede aplicarse a cualquier grabación con 2 o más locutores (como en las grabaciones de noticias o conversaciones telefónicas) pero esta tesis se enfocará en su aplicación para reuniones. Reconocer un grupo de locutores desconocidos, los cuales nunca habían sido “escuchados” previamente por el sistema, y seguir sus turnos de habla a lo largo de toda la reunión, requiere muchos pasos de preprocesado y un clasificador muy bien entrenado. En esta tesis algunos de los parámetros típicamente usados en los sistemas de diarización para reuniones se han estudiado y mejorado mediante la selección de los más representativos. Los sistemas actuales de diarización hacen uso de los parámetros MFCC, generalmente combinados con otro tipo de características de la señal. Si se dispone de múltiples grabaciones el retardo entre los diferentes micrófonos constituye la otra característica más usada. Estudiaremos los parámetros de retardo en profundidad y propondremos varias formas de seleccionar entre ellos aquellos con la calidad más alta o aquellos más representativos de los turnos que realmente tienen los locutores en la grabación. Encontramos que los métodos de selección que se basan en la medida de la correlación cruzada entre señales que llegan a diferentes micrófonos son los más propensos a conseguir una reducción en el error de diarizacion. Sin embargo, otros métodos que hacen uso de un análisis de las componentes principales (PCA) o una clasificación de Kmeans seguida de una selección basada en el margen dinámico de los valores de retardo o el coeficiente de Silhouette, también logran una gran mejora. Si la grabación se llevó a cabo con un único micrófono el uso de los retardos se vuelve imposible. La segunda parte de esta tesis presenta un estudio sobre algunos parámetros glotales usados como sustitutos de estos retardos cuando no hay más que un canal de grabación en la reunión. El análisis se centra en grabaciones de reuniones sacadas de los medios de comunicación, cuyos estilos de habla pueden estar fuertemente afectados por el tipo de programa (como ocurriría con un reportaje si lo comparamos con un programa de entrevistas o un informe meteorológico). Hemos encontrado que la inclusión de un módulo de detección de música es muy beneficioso para este tipo de grabaciones de audio, y que, entre los parámetros estudiados, los armónicos concatenados con el logaritmo interpolado de la f0 (lif0) y la relación de los armónicos a ruido (HNR) son los valores más prometedores que definitivamente mejoran el funcionamiento del sistema de diarización. En la tercera parte de esta tesis todos los parámetros analizados previamente se usan en un estudio preliminar para detectar habla solapada. Suponemos que una reunión real contendrá personas que hablan simultáneamente. Estos últimos parámetros glotales y otros muchos relacionados con los retardos anteriores y su correlación cruzada se han estudiado con el objetivo de detectar segmentos de habla solapada. Aunque este estudio es preliminar, nuestra conclusión es que algunos parámetros relacionados con la correlación cruzada y los retardos mostraron cierta relación con la presencia de regiones de solapamiento de habla y deberían ser estudiados en profundidad en el futuro. Para terminar, se presenta una modificación de la etapa de segmentación del sistema de diarización. Durante el desarrollo de esta tesis se ha descubierto que la decisión de introducir un cambio de locutor se regía no sólo por la información acústica, sino también por un parámetro dependiente del número de locutores hipotéticos en cada momento, que varía a lo largo de todo el proceso de diarización. Se ha cancelado esta dependencia y un nuevo factor de peso se ha añadido para que el sistema considere los turnos de locutor independientes del número de locutores y que tan sólo tenga en cuenta la base de datos y las características numéricas del sistema. En nuestros experimentos, los mejores resultados se obtuvieron cuando este factor de peso favorecía los cambios entre locutores si la información acústica estaba muy equilibrada. ----------ABSTRACT---------- Unlike human beings, following a real conversation is not as easy for machines. We have been trained our whole life, without even noticing, to recognize voices, to remember them and to automatically disregard the non-relevant noises. Speech technologies try to make machines to work as similar to us as possible. Speaker diarization is the part of these speech technologies which tries to solve the task of recognizing, within a recording, who is speaking and when. This analysis could be applied to any recording with two or more speakers (such as broadcast news or telephone conversations) but this thesis will focus on its application in real meetings. To recognize a set of unknown speakers, which the system has never “heard” before, and to follow their speaking turns along the whole meeting requires many pre-processing steps and a very well trained classifier. In this thesis some features used in diarization systems for meetings are studied and improved by a selection of the most representative ones. Current diarization systems all make use of MFCC features, usually combined with others. If multiple recordings are available, the delay between microphones are the other most extensively used features. We study these delay features in deep and propose several ways to select among them those with the highest quality or those most representative of the real speaker turns. It is found that methods of selection relying on the cross correlation measure between the signals arriving to the different microphones are the most prone to get a reduction in the diarization error. However, other methods which make use of a Principal Component Analysis (PCA) or a Kmeans classification followed by a selection based on the dynamic margin of the delay values or the Silhouette coefficient, achieve great improvement as well. If the recording has done with only one microphone the use of TDOA features turns impossible. The second part of this thesis presents a study on some glottal features as substitute features for TDOA when there is no more than one recording channel of the meeting. The analysis is focused on meetings from the media, whose speaking styles can be heavily affected by the type of program (as reportages vs talk shows or meteorology reports). We found that the inclusion of a music detection stage is very beneficial for this kind of audio recordings and that, among the studied features, the Harmonics merged with lif0 (logarithm of the interpolated f0) and the harmonics to noise ratio (HNR) are the most promising ones that definitely improve the diarization performance. In the third part of this thesis, all the previously analysed features are used in a preliminary study to detect overlap. As real meetings are supposed to contain people who talk simultaneously, these last glottal features and many more related to the previous TDOA features and its cross correlation are studied to detect overlap. Though this study was preliminary, our conclusion is that some cross correlation and delay related features did show some relation with the presence of overlap regions and should be studied in deep in the future. Finally, a modification of the segmentation stage of the speaker diarization system is presented. It was discovered during this thesis that the decision of changing from one speaker to another was ruled not only by the acoustics but by a parameter dependent on the number of active speakers, which varies throughout the diarization process. This dependency is cancelled and a new weight factor is added to make the speaker turns independent on the number of speakers and dependent only on the database and the numerical characteristics of the system. In our experiments, the best results were obtained when this weight factor favoured speaker changes when acoustics between speakers were balanced.