Tesis Doctorales UPM: Consulta online

Autor: REY DEL CASTILLO, Pilar

Título: Modelo para el tratamiento de conjuntos complejos con datos ausentes de variables categóricas en un contexto de e-democracia. Aplicación a encuestas de opinión.

Fecha: 2012

Materia: Sin materia definida

Escuela: FACULTAD DE INFORMATICA

Departamento: INTELIGENCIA ARTIFICIAL

Acceso electrónico: http://oa.upm.es/14754/

Director/a(s):

Director/a: CARDEÑOSA LERA, Jesús

Resumen: La falta de información es un escenario habitual en los trabajos que utilizan conjuntos de datos, tanto en el ámbito de la inferencia estadística como en el del aprendizaje automático. Aunque esta falta puede referirse a datos numéricos o categóricos, nos centramos en los últimos a causa de algunas peculiaridades que merece la pena estudiar. Las técnicas para afrontar el problema se vienen desarrollando desde hace tiempo y existen numerosas referencias en la literatura, sobre todo acerca de la falta de respuesta en encuestas. En el ámbito del aprendizaje automático es en los últimos años cuando se ha convertido en un área de investigación dinámica. Los dos puntos de vista, el estadístico y el del aprendizaje automático, consideran el problema en formas bien diferentes y tienen distintos objetivos, lo que origina, a su vez, discrepancias en la clasificación de las técnicas y en los criterios para su evaluación. Por un lado, el enfoque estadístico paramétrico tradicional considera el conjunto de datos como una muestra, resultado de la extracción aleatoria de una población con una distribución probabilística, y su objetivo es obtener algunos de los parámetros que caracterizan dicha distribución, tomándose la falta de respuesta como un problema de estimación que se afronta desde diferentes perspectivas. Por su parte, en el ámbito de los procedimientos de aprendizaje automático existen múltiples técnicas que pueden utilizarse para tratar los datos ausentes mediante su sustitución por valores obtenidos a partir de los datos observados: redes neuronales, árboles de decisión, etc. Estos valores que se introducen en el lugar de los ausentes se conocen como imputaciones. En general, para la imputación de datos numéricos continuos se utilizan procedimientos de predicción, mientras que para la imputación de datos categóricos se utilizan clasificadores, en los que los valores de las clases coinciden con las categorías de la variable a imputar. El punto de partida para los trabajos de esta tesis ha sido la necesidad de mejorar los resultados obtenidos, utilizando los procedimientos que la literatura considera como el estado del arte, en problemas de falta de información de variables categóricas en sondeos de opinión. Se ha encontrado que muchos de los métodos que se proponen desde la perspectiva de la inferencia estadística tienen hipótesis de funcionamiento que están muy lejos de las situaciones reales, siendo la mayor parte de las soluciones que se aportan simples reutilizaciones de procedimientos originalmente diseñados para variables numéricas. Esto ha conducido de una forma natural a probar métodos propios de otro ámbito –como es el del aprendizaje automático– que ha sido necesario modificar y ampliar de modo que pudieran aceptar como entradas el tipo de datos que estos sondeos de opinión contienen. Como resultado, y en el caso concreto de un tipo específico de redes neuronales, se ha diseñado una nueva arquitectura y un nuevo algoritmo de funcionamiento que se presentan como aportación más novedosa del estudio. Este trabajo, ante la falta de una taxonomía adecuada, empieza proponiendo una clasificación de las técnicas para tratar la falta de información que abarca el conjunto de todas las relativas a variables cuantitativas y cualitativas. Se presentan, después, los tres grandes grupos según la clasificación propuesta (técnicas basadas en registros completos, técnicas de imputación, y técnicas de tolerancia), mostrando los diferentes procedimientos y sus aplicaciones más conocidas siguiendo los distintos niveles de la jerarquía de clasificación. A continuación, se hace referencia a los criterios que se utilizan para evaluar y comparar los procedimientos y se muestran algunas contradicciones existentes, en el enfoque de la inferencia estadística, entre los modelos teóricos de funcionamiento y las propuestas que se hacen en la práctica para el caso específico de la imputación de variables categóricas. Las redes neuronales borrosas min-max constituyen un procedimiento híbrido neuro-borroso de aprendizaje automático. Participan, así, de las ventajas de ambos enfoques: tienen los méritos genéricos de las redes neuronales –como el paralelismo masivo y la robustez– y utilizan la lógica borrosa para modelizar el conocimiento vago o cualitativo y manejar la incertidumbre. Sin embargo, para su utilización como clasificadores en la imputación de datos categóricos, tienen la limitación de que solo admiten datos numéricos en la entrada, mientras que en las encuestas que se manejan se encuentran datos de ambos tipos, numérico y categórico. El problema reside en que no se dispone de una medida de distancia adecuada entre las clases o categorías de las variables categóricas de entrada. En esta tesis se propone la definición de una tal distancia, la cual permite, a su vez, la definición de nuevas funciones de pertenencia de conjunto borrosos. A partir de éstos se construye una nueva arquitectura de redes neuronales y se establece un nuevo algoritmo de aprendizaje y funcionamiento, etapas que se describen detalladamente. En capítulos posteriores se presenta el problema específico de falta de respuesta en una única variable categórica de una encuesta de opinión que se trata de resolver y se establecen las bases para la experimentación. Los resultados de las redes borrosas min-max extendidas se comparan con los del procedimiento más recomendado actualmente desde el punto de vista de la inferencia estadística, como es la imputación múltiple por regresión logística, consiguiéndose una notable mejora. En las observaciones finales se proponen los siguientes pasos para proseguir en la dirección de incrementar la imputación de la falta de datos en encuestas por medio de procedimientos de aprendizaje automático. El avance en esta línea puede tener una repercusión importante en la elaboración de las cifras estadísticas oficiales, ya que estos métodos muestran posibilidades de automatización y son robustos en la estimación de los valores ausentes, ventajas que podrían ser explotadas en el procesamiento de las encuestas y estudios que dan lugar a dichas cifras.