Modelo de descubrimiento de patrones en series temporales simbólicas

<< Volver atrás

Tesis:

Modelo de descubrimiento de patrones en series temporales simbólicas

Autor: MOLINA BUSTAMANTE, Marco Eduardo

Título: Modelo de descubrimiento de patrones en series temporales simbólicas

Fecha: 2017

Materia: Sin materia definida

Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

Departamentos: LENGUAJES Y SISTEMAS INFORMATICOS E INGENIERIA DE SOFTWARE

Acceso electrónico: http://oa.upm.es/47809/

Director/a 1º: PÉREZ PÉREZ, Aurora
Director/a 2º: CARAÇA-VALENTE HERNÁNDEZ, Juan Pedro

Resumen: La clasificación de series temporales numéricas es una tarea de data mining indispensable en casi todos los dominios, incluyendo algunas ramas de la medicina. Los métodos de clasificación conocidos se ejecutan usando procedimientos que toman en cuenta los valores numéricos de las series sin prestar atención al contexto, la forma y el significado que esos valores pudieran tener dentro de la serie. Pocos estudios enfocan la abstracción del contenido de la serie para descubrir conocimiento compatible con la problemática propia del dominio y en términos inteligibles para los expertos del dominio. El propósito de la presente tesis es obtener un método para clasificar series temporales, sobre la base del descubrimiento de patrones frecuentes encontrados en conjuntos de secuencias simbólicas. Las secuencias simbólicas, por su parte, serán generadas a partir de series temporales numéricas por medio de un proceso de abstracción temporal que tome en cuenta el conocimiento experto del dominio. Para lograr el propósito, se ejecutan tres pasos que consisten en: • En primer lugar, se transforman las series temporales numéricas en secuencias temporales simbólicas, en las que los símbolos tienen como objetivo representar los conceptos relevantes del dominio. Esos símbolos pueden ser definidos usando conocimiento, tanto experto como público, sobre el dominio; • A continuación se aplica una técnica de descubrimiento de patrones simbólicos sobre las secuencias simbólicas obtenidas. Esta técnica identifica las subsecuencias encontradas frecuentemente en el grupo de población y se denominan patrones frecuentes que son representativos de los grupos de población; • Finalmente, se emplea una técnica de clasificación basada en los patrones identificados, a fin de clasificar nuevos individuos. Gracias a la inclusión de conocimiento del dominio, los resultados de la clasificación pueden ser explicados usando la terminología del dominio. Esto hace que los resultados sean más fáciles de interpretar para los especialistas del dominio. Este método ha sido aplicado a las series temporales generadas por las pruebas médicas de Potenciales Evocados Auditivos de Tronco Cerebral (PEATCs). Preliminarmente, se realizaron experimentos para analizar varios aspectos del método, incluyendo la mejor configuración de los parámetros de la técnica para el descubrimiento de patrones. Luego se aplicó el método a las respuestas auditivas del tronco cerebral (ABRs, siglas de la expresión en inglés Auditory Brainstem Responses) de 83 individuos pertenecientes a cuatro clases (sanos, con pérdida conductiva de audición, con schwannoma vestibular – implicación del tronco cerebral y con schwannoma vestibular - implicación del 8º-nervio). De acuerdo con los resultados de la validación cruzada, la exactitud global del clasificador fue del 99.4%, la sensibilidad fue de 97.6% y la especificidad fue del 100% (sin falsos positivos). El método propuesto reduce la dimensionalidad del problema de forma efectiva. Adicionalmente, si la transformación simbólica incluye el conocimiento correcto del dominio, podría decirse que el método produce una representación de datos que denota los conceptos relevantes del dominio con mayor claridad. Durante la experimentación aplicando el método, se encontraron patrones en series temporales de ABRs y se alcanzó un alto grado de precisión al predecir correctamente cuándo un paciente tiene un desorden auditivo o no. ----------ABSTRACT---------- Numeric time series classification is an indispensable data mining task for almost all domains, including many branches of medicine. The known classification methods run using procedures that take into account only the numeric values of data without paying attention to the context, the form and the meaning that these values could have within the series. Few studies focus on the abstraction of the content of the series to discover knowledge compatible with the problems of the domain and in terms intelligible to domain experts. The purpose of the present thesis is to propose and proof a method to classify temporal series, based on the discovery of frequent patterns that will be found in sets of symbolic sequences. Those sequences will be obtained from numerical time series, through a process of temporal abstraction that takes into account the domain’s expert knowledge. To achieve the purpose, three steps are performed: • First, numeric time series are transformed into symbolic temporal sequences where the symbols aim to represent the relevant concepts of the domain, these symbols can be defined using domain knowledge, both expert and public; • Then a symbolic patterns discovery technique is applied to the obtained symbolic sequences. This technique identifies the subsequences frequently found in the population group and they are called frequent patterns that are representative of the population groups; • Finally, a classification technique based on the identified patterns is used, in order to classify new individuals. Thanks to the inclusion of domain knowledge, classification results can be explained using domain terminology. This makes the results easier to interpret for domain specialists. This method has been applied to time series generated by medical exams with brainstem auditory evoked potentials (BAEPs). Preliminary experiments were carried out to analyse several aspects of the method including the best configuration of the pattern discovery technique parameters. We then applied the method to the BAEPs of 83 individuals belonging to four classes (healthy, conductive hearing loss, vestibular schwannoma - brainstem involvement and vestibular schwannoma - 8th-nerve involvement). According to the results of the cross-validation, the classifier overall accuracy was 99.4%, sensitivity (recall) was 97.6% and specificity was 100% (no false positives). The proposed method effectively reduces the problem’s dimensionality. Additionally, if the symbolic transformation includes the right domain knowledge, the method arguably outputs a data representation that denotes the relevant domain concepts more clearly. The method is capable of finding patterns in BAEPs time series and is very accurate at correctly predicting whether or not new patients have an auditory-related disorder.