Tesis:

Criticalidad, fenómenos de umbral y leyes lingüísticas en el habla


  • Autor: GONZÁLEZ TORRE, Iván

  • Título: Criticalidad, fenómenos de umbral y leyes lingüísticas en el habla

  • Fecha: 2019

  • Materia: Sin materia definida

  • Escuela: E.T.S. DE INGENIEROS AGRONOMOS

  • Departamentos: SIN DEPARTAMENTO DEFINIDO

  • Acceso electrónico: http://oa.upm.es/56671/

  • Director/a 1º: LUQUE SERRANO, Bartolome

  • Resumen: Las leyes lingüísticas constituyen una de las piezas clave, cuantitativamente medibles, de las ciencias cognitivas y la lingüística, y han sido intensamente investigadas durante el último siglo, principalmente en corpus escritos. Las conclusiones extraídas del estudio de estos patrones estadísticos del lenguaje, están por tanto influenciadas por la segmentación aplicada, y características como la variabilidad en duración o energía de las unidades lingüísticas orales, se pierden debido a la uniformidad de las transcripciones escritas. En esta tesis, examinamos la vigencia de las leyes lingüísticas en las unidades propias del habla segmentada respecto del tradicional análisis en unidades transcritas y posteriormente, mediante un método de segmentación independiente del léxico, encontramos estos mismo patrones en niveles infrafonémicos, donde los efectos cognitivos no operan. Utilizando conocidos corpus orales, primero mostramos que la duración de todas las unidades lingüísticas en diferentes escalas es acorde a una distribución lognormal y proponemos un modelo estocástico explicativo únicamente asumiendo lognormalidad en la escala inferior. Posteriormente mostramos que las leyes lingüísticas aparecen en todos los casos de forma más robusta en magnitudes físicas frente a las simbólicas, apoyando la hipótesis de que estos patrones tengan un origen físico. Mostramos que la ley de Herdan-Heaps debe tener el mismo exponente independientemente de las unidades de estudio, proponemos por primera vez una formulación matemática para la ley de Brevedad, basándonos en principios de compresión óptima de la teoría de la información y proponemos un modelo mecanicista de ley Menzerath-Altmann que también es válido para el régimen invertido. Finalmente, aplicamos el método de los umbrales para estudiar la señal de voz, sin necesidad de segmentarla, recuperando las leyes lingüísticas en niveles infrafonémicos y mostrando evidencias de que el habla está producida por un sistema crítico. Este método plantea si las leyes lingüísticas encontradas en corpus escritos no serán un producto de dinámicas que emergen desde niveles no cognitivos, y en cualquier caso, abre la posibilidad a estudios comparativos en comunicación animal y en señales sin transcripción conocida. ----------ABSTRACT---------- Linguistic laws constitute one of the cornerstones, quantitatively measurable, of modern cognitive sciences and linguistics, and have been intensively researched during last century, mainly in written corpora. The conclusions reached from the study of statistical patterns of language are therefore, biased by the segmentation used, and characteristics such as the variability on the energy and duration of linguistic units are lost in the uniformity of the written transcription. In this thesis we examine whether linguistic laws hold with respect to the physical manifestations of linguistic units in segmented speech, and later, using a lexical independent segmentation method, we recover those equivalent statistical patterns at timescales even below the phonemic level, where cognitive process does not operate. Using well-known corporas, we first verify that acoustically transcribed durations of linguistic units at several scales comply with a Log-Normal distribution, and we quantitatively justify this observation using a stochastic generative model that only assumes lognormalty in the lower scale. Then, we find that classical linguistic laws appear stronger when using physical units than in their symbolic counterpart, supporting the hypothesis that statistical laws in language have a physical origin. We show that Herdan- Heaps’ law has to hold the same exponent regarding of the units of study, we propose for the first time a precise mathematical formulation of Zipf’s law of abbreviation, which we show to be connected to optimal compression principles in information theory and a mathematical derivation of Menzerath-Altmann’s law which also highlights an additional regime where the law is inverted. Finally, we apply the threshold method to the speech signal, without the need of a segmentation, recovering linguistic laws at infraphonemic levels and showing more evidences that the speech may be produced by a system operating close to a critical point. These methods support the idea that linguistic laws found in written corpora may be, at least in part, a byproduct of dynamics that emerge from noncognitive levels and, in any case, it pave the way for new comparative studies in animal communication or the analysis of signals of unknown code.