Tesis:

Metodología para la definición de requisitos en proyectos de data mining


  • Autor: GALLARDO ARANCIBIA, José Alberto

  • Título: Metodología para la definición de requisitos en proyectos de data mining

  • Fecha: 2009

  • Materia: Ciencias de la computación y tecnología informática

  • Escuela: FACULTAD DE INFORMATICA

  • Departamentos: LENGUAJES Y SISTEMAS INFORMATICOS E INGENIERIA DE SOFTWARE

  • Acceso electrónico: http://oa.upm.es/1946

  • Director/a 1º: MARBAN GALLEGO, Oscar

  • Resumen: En años recientes, se ha dado inicio al desarrollo de una cantidad importante de proyectos de Data Mining y diversos estudios estiman que esta cantidad, se incrementará en el futuro inmediato. Las razones que estimulan este crecimiento son numerosas; fundamentalmente, la gran cantidad de datos que se generan y almacenan a diario en las bases de datos de las organizaciones; la imposibilidad de procesar y analizar estos grandes volúmenes de datos mediante métodos clásicos de análisis de datos y la necesidad de las empresas de descubrir en ellos, patrones, relaciones, reglas o asociaciones útiles, que aporten información relevante o conocimiento para el proceso de toma de decisiones. Cuando se inicia un proyecto de Data Mining, la educción, el análisis y el modelado de los requisitos del usuario (proceso de Ingeniería de Requisitos), constituyen actividades relevantes para el éxito del proyecto. Sin embargo estas actividades, normalmente son las menos exploradas debido a la inexistencia de técnicas, procedimientos o métodos ad-hoc para estos propósitos. Si bien es cierto, que en la tarea “Evaluación de la Situación”, correspondiente a la primera fase (Comprensión del Negocio) del modelo de proceso estándar CRISP-DM (Cross Industry Standard Process for Data Mining), uno de los procesos más ampliamente utilizados en los ámbitos industrial y académico, se propone como actividades iniciales, emitir un inventario de los recursos y establecer los requisitos, supuestos y restricciones del proyecto, no se menciona, cómo estas tareas deben ser desarrolladas, ni mediante qué instrumentos. En consecuencia, dada la importancia de contar con un documento eficaz de especificación de requisitos antes de dar inicio a un proyecto de Data Mining y la necesidad de disponer de un procedimiento metodológico explícito para obtener este documento, se ha desarrollado el presente trabajo de tesis doctoral, el cual propone una metodología para definir los requisitos de un proyecto de Data Mining. Esta metodología está centrada en las actividades fundamentales de la Ingeniería de Requisitos y se focaliza en la propuesta de un Framework que consiste de un proceso iterativo, compuesto por un conjunto de fases, que van desde la fase de comprensión del dominio de negocio, la de modelado del proceso decisional en la organización, hasta la fase de construcción del documento final de requisitos. Para el desarrollo de cada una de las fases del framework, se proponen un conjunto de técnicas y artefactos. La metodología, ha sido ensayada en el desarrollo de un proyecto de Data Mining; su aplicación ha permitido establecer lazos de confianza entre el cliente y desarrolladores del proyecto, clarificar las ideas acerca del problema y sus soluciones, mediante el modelado del proceso de negocios decisional, la posterior educción y validación de los requisitos, la observación por parte del cliente de resultados preliminares que permitieron la necesaria retroalimentación y finalmente la redacción conjunta del documento final de contrato, el cual fue suscrito de conformidad por el cliente y los desarrolladores del proyecto. Abstract In the last few years, the development of a significant amount of Data Mining projects has been done and the forecast is that this quantity will increase in the near future. The causes that stimulate this increase are many; mainly, the great amount of data that is daily generated and stored in the organization’s data bases, the impossibility to process and analyze big data volumes with classical analysis methods and the need in the organizations to discover patterns, relations, rules and useful associations in them, that would provide relevant information or knowledge for the decision making process. When the challenge of beginning a Data Mining Project is taken, the elicitation, analysis and modeling of the user’s requirements (Requirements Engineering process) become outstanding activities for the project success. Nevertheless, these activities are the less explored, due to the inexistence of ad-hoc techniques, procedures or methods for these purposes. Although in the Situation Assessment task, that belongs to the first phase (Business Understanding), of the CRISP-DM (Cross Industry Standard Process for Data Mining) standard process, one of the most used process in the industrial and academic environment, a resource inventory and the establishment of the project’s requirements, assumptions and restrictions as initial activities are proposed; there is no mention on how these tasks should be carried out, neither with which instruments. Consequently, due to the significance of having an efficient requirements specification document before beginning a Data Mining project, and the need of having an explicit methodological procedure to make this document, the present doctoral project thesis has been developed, in which, a methodology is proposed for defining the requirements in a Data Mining project. This methodology is centered in the requirement’s engineering essential activities and it is focused in a Framework proposal that is composed of an iterative and interactive process, that consists of a set of phases, that go from the comprehension of the business domain phase, the decisional process modeling in the organization, to the construction phase of the final requirement document. For the development of each of the framework phases, a set of techniques and devices are proposed. The methodology has been proved in the development of a Data Mining project; its application has allowed the establishment of trust ties between the client and the project developers, to clarify the ideas about the problem and its solutions by means of the decisional business process modeling, the subsequently elicit and validation requirements, the client remarks about the preliminary results that allowed the necessary feedback and finally the joint writing of the final contract document, which was subscribed in accordance with the client and the project developers.