Tesis Doctorales UPM: Consulta online

Autor: PEÑA SÁNCHEZ, José María

Título: Arquitectura distribuida de control para sistemas con capacidades de Data Mining.

Fecha: 2001

Materia: Sin materia definida

Escuela: FACULTAD DE INFORMATICA

Departamento: ARQUITECTURA Y TECNOLOGIA DE SISTEMAS INFORMATICOS

Acceso electrónico:

Director/a(s):

Director/a: MIGUEL ANASAGASTI, Pedro de

Resumen: Data Mining o KDD son términos que designan las técnicas de análisis de datos para la búsqueda de patrones ocultos en los mismos. Estas técnicas se usan sobre bases de datos con millones de registros y centenares o miles de atributos por registro y consisten en la aplicación de diferentes procesos de preparación de datos, algoritmos de análisis y técnicas de presentación de resultados. Las aplicaciones y sistemas necesarios para la realización de estas tareas en unos plazos razonables requieren de un uso especialmente eficiente de los recursos disponibles (por ejemplo, CPU, memoria o almacenamiento secundario). Dentro de este entorno, la computación distribuida posibilita el reparto de carga computacional entre varios nodos, usando los recursos locales (memoria y disco) de forma conjunta. Sobre un escenario de estaciones de trabajo heterogéneas y dando soporte a todas las diferentes técnicas, algoritmos e implementaciones aportadas por los investigadores en Data Mining la complejidad de estas aplicaciones es su principal característica. Este problema se agrava cuando varios usuarios hacen uso del sistema en paralelo, de forma que varias consultas son formuladas simultáneamente. Como salida a esta problemática es necesario un control de los recursos de los nodos, una priorización de las tareas del sistema, una distribución inteligente de la carga y en resumen un conjunto de decisiones relativas al rendimiento del sistema que se han denominado decisiones de control. Esta tesis propone una solución a la problemática de control de los sistemas de distribuidos de Data Mining basándose en dos elementos: (i) por un lado una arquitectura distribuida de control, descrita y formalizada de forma genérica y (ii) un diseño de un sistema de Data Mining distribuido sobre dicha arquitectura.