Tesis:
Arquitectura distribuida de control para sistemas con capacidades de Data Mining.
- Autor: PEÑA SÁNCHEZ, José María
- Título: Arquitectura distribuida de control para sistemas con capacidades de Data Mining.
- Fecha: 2001
- Materia: Sin materia definida
- Escuela: FACULTAD DE INFORMATICA
- Departamentos: ARQUITECTURA Y TECNOLOGIA DE SISTEMAS INFORMATICOS
- Acceso electrónico:
- Director/a 1º: MIGUEL ANASAGASTI, Pedro de
- Resumen: Data Mining o KDD son términos que designan las técnicas de análisis de datos para la búsqueda de patrones ocultos en los mismos. Estas técnicas se usan sobre bases de datos con millones de registros y centenares o miles de atributos por registro y consisten en la aplicación de diferentes procesos de preparación de datos, algoritmos de análisis y técnicas de presentación de resultados. Las aplicaciones y sistemas necesarios para la realización de estas tareas en unos plazos razonables requieren de un uso especialmente eficiente de los recursos disponibles (por ejemplo, CPU, memoria o almacenamiento secundario). Dentro de este entorno, la computación distribuida posibilita el reparto de carga computacional entre varios nodos, usando los recursos locales (memoria y disco) de forma conjunta. Sobre un escenario de estaciones de trabajo heterogéneas y dando soporte a todas las diferentes técnicas, algoritmos e implementaciones aportadas por los investigadores en Data Mining la complejidad de estas aplicaciones es su principal característica. Este problema se agrava cuando varios usuarios hacen uso del sistema en paralelo, de forma que varias consultas son formuladas simultáneamente. Como salida a esta problemática es necesario un control de los recursos de los nodos, una priorización de las tareas del sistema, una distribución inteligente de la carga y en resumen un conjunto de decisiones relativas al rendimiento del sistema que se han denominado decisiones de control. Esta tesis propone una solución a la problemática de control de los sistemas de distribuidos de Data Mining basándose en dos elementos: (i) por un lado una arquitectura distribuida de control, descrita y formalizada de forma genérica y (ii) un diseño de un sistema de Data Mining distribuido sobre dicha arquitectura.