Tesis Doctorales UPM: Consulta online

Autor: PEREZ DEL REY, David

Título: Un modelo de integración y preprocesamiento de información distribuida basado en ontologías.

Fecha: 2008

Materia: Sin materia definida

Escuela: FACULTAD DE INFORMATICA

Departamento: INTELIGENCIA ARTIFICIAL

Acceso electrónico:

Director/a(s):

Director/a: MAOJO GARCIA, Víctor Manuel

Resumen: El incremento producido en la cantidad de datos disponibles en todas las áreas de la sociedad no ha implicado un aumento proporcional del conocimiento disponible. Para obtener este conocimiento es necesario avanzar en el proceso de descubrimiento de conocimiento en bases de datos (en inglés, KDD). A pesar de que la relevancia de las fases de preparación de los datos en el proceso de descubrimiento de conocimiento a partir de los datos ha sido ampliamente reconocida en la literatura científica, se han llevado a cabo relativamente pocos esfuerzos científicos en este campo, comparados con las investigaciones centradas en el desarrollo de nuevos algoritmos de minería de datos. La investigación presentada propone el uso de ontologías de dominio en las fases previas a la minería de datos dentro de un proceso KDD. Otros trabajos previos propios, en integración de esquemas de fuentes biomédicas, sugerían a necesidad de abordar el trabajo aquí presentado. En estos trabajos previos) se creaban esquemas virtuales, basados en ontologías, enlazados a fuentes de datos físicas, que se unificaban para integrar la información de los repositorios físicos originales. La existencia de numerosos datos que debían ser preprocesados para evitar inconsistencias y errores en los resultados reforzaba esta necesidad. En la investigación planteada, la integración de instancias se afronta junto con el preprocesamiento de datos debido a su similitud funcional, utilizando una ontología como estructura de soporte formal. Una vez que la información correspondiente a las inconsistencias detectadas en los datos es almacenada en dicha ontología “proceso supervisado por un experto” los datos pueden ser transformados automáticamente cuando son requeridos por el usuario. Para validar experimentalmente el modelo creado se han ejecutado baterías de consultas en diversas fuentes de datos heterogéneos. El análisis estadístico de los resultados muestra datos correctamente integrados preprocesados. La posterior aplicación de algoritmos de minería sobre los resultados obtenidos ofrece también mejores resultados finales que las fuentes de datos por separado o utilizando métodos de integración tradicionales en los que no se transforman las instancias. Una ventaja adicional de este enfoque es poder acceder de forma homogénea a información de varias fuentes heterogéneas unificadas y semánticamente coherentes. Dentro de la creación de un modelo global de KDD basado en ontologías, se propone un método de tratamiento de inconsistencias de instancias, también basado en ontologías. Tradicionalmente los métodos disponibles habían abordado sólo el tratamiento de inconsistencias de esquemas. El modelo propuesto se enmarca en el área de la informática-integración de bases de datos y KDD, y en la biomedicina como dominio de aplicación. Este trabajo ha sido desarrollado en el marco de vahos proyectos europeos y ha generado ya diversas publicaciones en revistas científicas y congresos internacionales.