Tesis:

Big Medical Text Analytics: querying, searching and understanding clinical data


  • Autor: COSTUMERO MORENO, Roberto

  • Título: Big Medical Text Analytics: querying, searching and understanding clinical data

  • Fecha: 2017

  • Materia: Sin materia definida

  • Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

  • Departamentos: LENGUAJES Y SISTEMAS INFORMATICOS E INGENIERIA DE SOFTWARE

  • Acceso electrónico: http://oa.upm.es/47852/

  • Director/a 1º: MENASALVAS RUIZ, Ernestina
  • Director/a 2º: GONZALO MARTÍN, Consuelo

  • Resumen: The increasing generation of data in different sectors thanks to digitalization has provoked a change in the techniques used to store, process and extract value and knowledge from different datasets. This change has also affected more traditional sectors like healthcare, which have been transformed in this process. The amount of medical data generated is increasing as the adoption of Electronic Health Records is becoming a standard in all the developed countries. The economic impact of the digitalization of medical data is estimated at $300 billion annually. Most of the data generated in healthcare are unstructured data: texts and images. The focus in this thesis is on the development of new techniques and methods that allow the structure and knowledge extraction from written texts which are stored in EHRs. This data is specially relevant as it contains information on the patient's health, their signs, symptoms, treatments, diseases and their evolution. The richness of this data, which is not already being exploited, can lead to the development of information systems to help doctors to make decisions. The main development of the research performed is focused on the analysis of the structure of the medical data mentioned in EHRs, as well as its challenges. The use of statistical models to identify the basic structures of Spanish language in written texts is the basis for the rest of developments. The identification of the different medical entities mentioned, as well as drug names, the detection of positivity or negativity of a sentence, together with the disambiguation of acronyms and abbreviations used, are some of the problems analyzed in this research. In order to realize this analysis, an architecture named H2A: Human Health Analytics has been designed, taking into account the interoperability of the different developed components and providing the corresponding flexibility for its use in different scenarios. As part of the development of this thesis, the methods and techniques developed have been applied to the study of a real life use case: the analysis on the evolution of stroke patients. This use case demonstrates the potential of these methods and its applicability to scenarios in which real data is used. Finally, in order to remark the industrial focus of this thesis, an analysis on the market conditions and a business plan has been developed to bring the technology developed in this thesis to the market.----------ABSTRACT---------- La creciente generación de datos en distintos sectores debido a la digitalización ha provocado un cambio en las técnicas para almacenarlos, procesarlos y extraer valor y conocimiento de diferentes conjuntos de datos. Este cambio ha afectado también a sectores tradicionales como el sector de la salud, que ha sufrido un proceso de transformación. La cantidad de datos médicos generados está aumentando a medida que la adopción de las Historias Clínicas Electrónicas (HCE) se convierte en un estándar en los países desarrollados. El impacto económico de la digitalización de los datos médicos se estima en $300.000 millones anuales. La mayor parte de los datos generados en el sector de la salud, son datos no estructurados: texto e imágenes. El énfasis de esta tesis está en el desarrollo de nuevas técnicas y métodos que permitan la estructuración y la extracción de conocimiento de los textos escritos y almacenados en las HCEs. Estos datos cobran especial relevancia dado que contienen información sobre la salud de los pacientes, los signos, síntomas, tratamientos, enfermedades y evolución de los mismos. La riqueza de estos datos que aún no están aprovechados, puede servir para el desarrollo de sistemas de información que ayuden a los médicos a tomar decisiones. La investigación desarrollada se centra en el análisis de la estructuración de los datos mencionados en las HCEs, así como en los retos que esto supone. El uso de modelos estadísticos para identificar las estructuras básicas del lenguaje en textos escritos en español sienta las bases del resto de los desarrollos. La identificación de los distintos términos médicos mencionados, así como los nombres de medicamentos, la detección de la positividad o negatividad de una frase, junto con la desambiguación de los acrónimos y abreviaturas usados, son parte de los problemas analizados en esta tesis de investigación. Para la realización de estos análisis, se ha diseñado una arquitectura denominada H2A: Human Health Analytics (H2A), que permite la interoperabilidad de los distintos componentes desarrollados y que provee de la flexibilidad correspondiente para su uso en distintos casos de estudio. Como parte del desarrollo de esta tesis, se han aplicado los métodos y técnicas desarrollados en el estudio de un caso de uso real: el análisis de la evolución de pacientes de ictus. Este caso de estudio demuestra el potencial de estos métodos y su aplicabilidad en escenarios en los que se utilizan datos reales. Finalmente, para remarcar el enfoque industrial de esta tesis, se ha realizado un análisis del mercado y un modelo de negocio para poder comercializar la tecnología desarrollada en esta tesis.