Tesis Doctorales UPM: Consulta online

Autor: ZHU, Ganggao

Título: Semantic similarity analysis and application in knowledge graphs

Fecha: 2017

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: INGENIERIA DE SISTEMAS TELEMATICOS

Acceso electrónico: http://oa.upm.es/47031/

Director/a(s):

Director/a: IGLESIAS FERNÁNDEZ, Carlos Ángel

Resumen: Las técnicas avanzadas de extracción de información y la creciente disponibilidad de datos vinculados han dado a luz a la noción de Grafo de Conocimiento (Knowledge Graph, KG) de gran escala. Con la creciente popularidad de KGs que contienen millones de conceptos y entidades, la investigación de herramientas fundamentales que estudian características semánticas de KGs es crítica para el desarrollo de aplicaciones basadas en KG, aparte del estudio de las técnicas de población de KG. Con este enfoque, esta tesis explora la similitud semántica en KGs teniendo en cuenta el concepto de taxonomía, concepto de distribución, la entidad descripciones y las categorías. La similitud semántica captura la cercanía de significados. A través del estudio de la red semántica de conceptos y entidades con relaciones significativas en KGs, hemos propuesto una nueva métrica de semántica WPath semántica, y un nuevo método de computación basado en información gráfica (IC). Con el WPath y el IC basado en gráfos, la similitud semántica de los conceptos se puede calcular directamente, basándose únicamente en el conocimiento estructural y el conocimiento estadístico contenido en KGs. Los experimentos en similitud de palabras han demostrado que la mejora de los métodos propuestos es estadísticamente significativa en comparación con los métodos convencionales. Por otra parte, observando que los conceptos suelen ser colocados con descripciones textuales, proponemos un nuevo enfoque de incorporación para formar el concepto y incorporación de palabras conjuntamente. El espacio vectorial compartido de conceptos y palabras ha proporcionado una computación de la similitud conveniente entre conceptos y palabras a través de similitud vectorial. De manera adicional, se ilustran algunas aplicaciones de modelos basados en el conocimiento, en corpus y en embeddings en la tarea de desambiguación y clasificación semántica, con el fin de demostrar la capacidad e idoneidad de diferentes métodos de similitud en aplicaciones específicas. Por último, la búsqueda de entidad semántica se utiliza como una demostración ilustrativa de un nivel más alto de la aplicación que consiste en similitud basado en el texto de concordancia, la desambiguación y la expansión de la consulta. Para implementar la demostración completa de la consulta de información centrada en la entidad, también proponemos un enfoque basado en reglas para construir y ejecutar automáticamente consultas SPARQL. ABSTRACT The advanced information extraction techniques and increasing availability of linked data have given birth to the notion of large scale Knowledge Graph (KG). With the increasing popularity of KGs containing millions of concepts and entities, the research of fundamental tools studying semantic features of KGs is critical for the development of KG-based applications, apart from the study of KG population techniques. With such focus, this thesis exploits semantic similarity in KGs taking into consideration of concept taxonomy, concept distribution, entity descriptions and categories. Semantic similarity captures the closeness of meanings. Through studying the semantic network of concepts and entities with meaningful relations in KGs, we proposed a novel WPath semantic similarity metric and new graph-based Information Content (IC) computation method. With the WPath and graph-based IC, semantic similarity of concepts can be computed directly and only based on the structural and statistical knowledge contained in KG. The word similarity experiments have shown that the improvement of the proposed methods is statistical significant comparing to conventional methods. Moreover, observing that concepts are usually collocated with textual descriptions, we propose a novel embedding approach to train concept and word embedding jointly. The shared vector space of concepts and words, has provided convenient similarity computation between concepts and words through vector similarity. Furthermore, the applications of knowledge-based, corpus-based and embedding-based similarity methods are shown and compared in the task of semantic disambiguation and classification, in order to demonstrate the capability and suitability of different similarity methods in specific application. Finally, semantic entity search is used as an illustrative showcase to demonstrate higher level of the application consisting of text matching, disambiguation and query expansion. To implement the complete demonstration of entity-centric information querying, we also propose a rule-based approach for constructing and executing SPARQL queries automatically. In summary, the thesis exploits various similarity methods and illustrates their corresponding applications for KGs. The proposed similarity methods and presented similaritybased applications would help in facilitating the research and development of applications in KGs.