Tesis Doctorales UPM: Consulta online

Autor: BEATO CASTRO, Lisibonny

Título: Extensiones de PMML para el preproceso de datos en proyectos de data mining

Fecha: 2008

Materia: Ciencias de la computación y tecnología informática

Escuela: FACULTAD DE INFORMATICA

Departamento: LENGUAJES Y SISTEMAS INFORMATICOS E INGENIERIA DE SOFTWARE

Acceso electrónico: http://oa.upm.es/1345

Director/a(s):

Director/a: MENASALVAS RUIZ, Ernestina

Resumen: Desde hace algunos años CRISP-DM se ha establecido como el modelo de procesos por excelencia para el planeamiento y la ejecución de proyectos de Data Mining, describiendo las tareas más comúnmente utilizadas por los expertos en Data Mining para atacar los problemas. Una de las fases de este es la de Data Understanding que busca que el analista se familiarice con el dato, obtenga impresiones iniciales de su estado e identifique problemas de calidad del mismo previas a su preparación y posterior modelado. Se estima que el 80% del esfuerzo desde el inicio de esta fase hasta la compleción del modelo se invierte preparando el dato para el modelado [Sas00], lo que indica que esta fase, como primera parte del proceso de preparación, es clave en el éxito de los proyectos de Data Mining. Esta fase establece fuertes relaciones de colaboración con las fases de Business Understanding y Data Preparation en orden de que el dato que llegue a la fase de Modelling esté en un estado óptimo para su procesamiento. Dado que los avances en computación ubicua permiten abordar proyectos de Minería de Datos de gran tamaño, las tareas pueden ser realizadas por varios sujetos ubicados en puntos geográficos distintos, utilizando una gran variedad de técnicas, dispositivos y herramientas para desempeñar sus funciones. Es por esta razón que se hace necesario que los sujetos hablen un lenguaje común que les permita comunicar los resultados de sus tareas a los demás sujetos involucrados en el proceso. Si bien es cierto que CRISP-DM facilita la ejecución de los proyectos de Data Mining, carece del rigor formal necesario para la comunicación entre sistemas de software, por lo que la necesidad de un estándar para la limpieza, transformación y preparación de los datos a ser modelados es uno de los retos que aún sigue enfrentado la minería de datos en términos de estandarización [Grossman06]. Actualmente existe PMML [Dmg07], un lenguaje basado en XML que provee una manera para definir modelos de Data Mining y compartir estos modelos entre las distintas aplicaciones. Aparte de las ventajas de que está basado en XML, su código abierto e independiente de plataformas y su flexible mecanismo de extensiones, lo hacen un lenguaje modelo para su adaptación a otras fases del proceso de Data Mining. Esta es la motivación principal de esta tesis de master en la que se proponen extensiones a PMML para adaptarlo a las necesidades de especificación y transmisión de resultados de la fase de Data Understanding, facilitando la interacción entre los diversos actores del proceso y permitiendo mejorar el flujo de trabajo de la fase cuando dichos actores deben trabajar bajo condiciones de ubicuidad y colaboración.