Tesis:

Detection and formal classification of certainty and its application to text mining of chains of scholarly statements


  • Autor: PRIETO GODOY, Mario

  • Título: Detection and formal classification of certainty and its application to text mining of chains of scholarly statements

  • Fecha: 2019

  • Materia: Sin materia definida

  • Escuela: E.T.S. DE INGENIERÍA AGRONÓMICA, ALIMENTARIA Y DE BIOSISTEMAS

  • Departamentos: BIOTECNOLOGIA

  • Acceso electrónico: http://oa.upm.es/57930/

  • Director/a 1º: WILKINSON, Mark D.

  • Resumen: Las estructuras gramaticales que los investigadores usan para expresar sus afirmaciones intentan transmitir diversos grados de certeza o especulación. Estudios anteriores han sugerido una variedad de sistemas de categorización para la certeza académica; sin embargo, estos no han sido validados objetivamente, particularmente con respecto a representar la interpretación del lector, en lugar de la intención del autor. En esta tesis intentamos un enfoque de categorización de certeza basado en un modelo de datos. Ejecutamos una serie de estudios basados en cuestionarios utilizando frases académicas seleccionadas manualmente, en inglés, para determinar cómo los investigadores clasifican varias afirmaciones académicas, utilizando tres sistemas distintos de clasificación de certeza. Luego intentamos definir objetivamente las categorías de certeza percibida entre los lectores de textos biomédicos mediante el examen del grado de acuerdo/consistencia en la selección de categorías de certeza, por parte de los mismos lectores. Posteriormente se aplican pruebas estadísticas para evaluar el grado en que el sistema de categorización proporcionado en cada encuesta refleja la percepción de aquellos a quienes se les pidió que usaran esas categorías. El sistema de categorización con la puntuación más alta, es decir, el que proporcionó el nivel más alto de acuerdo, se usó para crear manualmente un gran corpus de declaraciones anotadas con su respectivo grado de certeza. Esto, a su vez, se utilizó para generar un modelo de “machine-learning” capaz de clasificar automáticamente nuevas declaraciones entre estas categorías, con alta precisión. Proponemos que este modelo podría usarse dentro de los algoritmos existentes de minería de texto para capturar metadatos adicionales que reflejen la expresión de certeza en el texto original. Además, proporcionamos un ejemplo de una publicación académica “machine-accesible", una Nanopublicación, en la que hemos incorporado estos nuevos metadatos de certeza contextual. Descubrimos que los lectores perciben tres categorías de certeza: un nivel de certeza alta y dos niveles de certeza más baja que están menos diferenciados, pero que muestran un grado significativo de acuerdo entre lectores. Mostramos que estas categorías se pueden detectar de manera automatizada, utilizando un modelo de “machine-learning”, con una precisión de “Cross-Validation” (CV) del 89,0% en relación a un "gold-standard" generado manualmente, y una precisión del 82,2% contra un corpus formado por las respuestas de los lectores. Este hallazgo brinda la oportunidad de capturar metadatos contextuales relacionados con la certeza como parte de proyectos de minería de texto, que actualmente omiten estas sutiles claves lingüísticas. Proporcionamos como ejemplo un conjunto de nanopublicaciones “machine-accesible” que representan todas las declaraciones analizadas en esta tesis, donde la categoría de certeza asignada por nuestro modelo de aprendizaje automático está integrada como metadatos de manera formal con base ontológica como prueba de concepto. ----------ABSTRACT---------- The grammatical structures scholars use to express their assertions are intended to convey various degrees of certainty or speculation. Prior studies have suggested a variety of categorization systems for scholarly certainty; however, these have not been objectively tested for their validity, particularly with respect to representing the interpretation of the reader, rather than the intention of the author. In this thesis we attempt a data-driven certainty categorization approach. We execute a series of questionnaire-based studies using manually-curated scholarly assertions, in English, to determine how researchers classify various scholarly assertions, using three distinct certainty classification systems. We then attempt to objectively define categories of perceived certainty that are shared among readers of biomedical text by examining the degree of consistency in certainty category selection by these readers. Statistical tests are then applied to evaluate the degree to which the categorization system provided in each Survey reflects the perception of those asked to use those categories. The categorization system with the highest score - that is, the one that provided the highest level of agreement - was then used to manually create a large corpus of certainty-annotated statements. This, in turn, was used to generate a machine-learning model capable of automatically classifying new statements into these categories with high accuracy. We propose that this model could be used within existing text-mining algorithms to capture additional metadata reflecting the nuanced expression of certainty in the original text. Additionally, we provide an example of a machine-accessible scholarly publication - a NanoPublication - within which we have embedded this novel contextual certainty metadata. We found that there are three categories of certainty perceived by readers: one level of high certainty, and two levels of lower certainty that are somewhat less distinct, but nevertheless show a significant degree of inter-annotator agreement. We show that these categories can be detected in an automated manner, using a machine learning model, with a cross-validation (CV) accuracy of 89,0% relative to a manually-generated “gold standard”, and 82,2% accuracy against a publicly-annotated corpus. This finding provides an opportunity for contextual metadata related to certainty to be captured as a part of text-mining pipelines, which currently miss these subtle linguistic cues. We provide a set of exemplar machine-accessible Nanopublications representing all statements analyzed in this thesis, where the certainty category assigned by our machine learning model is embedded as metadata in a formal, ontology-based manner as proof-of-concept.