<< Volver atrás

Tesis:

Modelo de descubrimiento de conocimiento para series temporales numéricas aplicando métodos simbólicos.


  • Autor: SANTAMARIA FALCON,Agustín

  • Título: Modelo de descubrimiento de conocimiento para series temporales numéricas aplicando métodos simbólicos.

  • Fecha: 2011

  • Materia: Sin materia definida

  • Escuela: FACULTAD DE INFORMATICA

  • Departamentos: LENGUAJES Y SISTEMAS INFORMATICOS E INGENIERIA DE SOFTWARE

  • Acceso electrónico: http://oa.upm.es/8762/

  • Director/a 1º: CARAÇA-VALENTE HERNANDEZ, Juan Pedro
  • Director/a 2º: PEREZ PEREZ, Aurora

  • Resumen: La tesis presenta un Marco para el Descubrimiento de Conocimiento en series temporales, abordando el análisis de las mismas desde el punto de vista de la semántica de las series. La mayor parte de los trabajos realizados hasta el momento en el campo del análisis de series temporales proponen el análisis numérico de los valores de la serie, lo que permite obtener buenos resultados pero no ofrece la posibilidad de formular las conclusiones obtenidas en un lenguaje similar al que utilizaría un experto en el dominio del problema. Esto puede dificultar la justificación y la interpretación de los resultados obtenidos. Esta tesis se plantea con el objetivo de realizar el análisis de las series temporales desde un punto de vista similar al que utiliza un experto para analizarlas, incorporando conocimiento del dominio para interpretar las series temporales en términos cualitativos y no tanto cuantitativos. De esta forma se consigue explicar los resultados de una manera entendible para el experto, utilizando los mismos conceptos que él utiliza en su trabajo diario. Un sistema de estas características genera más confianza y recibirá, sin duda, una mejor acogida entre los usuarios finales. Para abordar el objetivo propuesto se plantea, en primer lugar, un mecanismo para extraer, de la serie temporal, la información que resulta de interés para el experto. Para poder hacerlo, primero se formaliza, mediante un alfabeto, el conjunto de comportamientos relevantes en el dominio. Usando este alfabeto de símbolos, el método que se ha diseñado e implementado transforma una serie temporal numérica en una secuencia simbólica que recoge toda la semántica de la serie temporal de partida y resulta más intuitiva y fácil de interpretar por el experto. Una vez que se dispone de un mecanismo para transformar las series numéricas en secuencias simbólicas, se pueden plantear todas las tareas de análisis sobre dichas secuencias de símbolos. La tesis propone una medida de la similitud entre dos secuencias simbólicas como punto de partida para la tarea de comparación, básica en cualquier actividad de data mining. Esta medida permite comparar las secuencias desde el punto de vista de la información semántica que contienen. Por otra parte, la tesis propone un método para la creación de modelos de referencia, entendiendo como modelo de un conjunto de secuencias simbólicas correspondientes a un determinado grupo de población, una secuencia simbólica representativa de todo el grupo. Este método utiliza la Programación Genética Guiada por Gramáticas para obtener el modelo de referencia, destacándose lo innovador de aplicar dicha técnica a series temporales. Con el objetivo de validar el trabajo realizado se ha aplicado al dominio médico de la isocinesia (series temporales que miden la fuerza realizada por un paciente al mover una articulación) y, en concreto, dentro de un sistema informático llamado I4 (Interfaz Inteligente para la Interpretación de una máquina de Isocinéticos).