Tesis:

Métodos estadísticos para la identificación de patrones de comportamiento de los conductores y la asignación de la responsabilidad aplicada al método de exposición cuasi-inducida


  • Autor: SANJURJO DE NO, María Almudena

  • Título: Métodos estadísticos para la identificación de patrones de comportamiento de los conductores y la asignación de la responsabilidad aplicada al método de exposición cuasi-inducida

  • Fecha: 2021

  • Materia: Sin materia definida

  • Escuela: FACULTAD DE INFORMATICA

  • Departamentos: AEROTECNIA

  • Acceso electrónico: http://oa.upm.es/67496/

  • Director/a 1º: ARENAS RAMÍREZ, Blanca del Valle
  • Director/a 2º: MIRA MCWILLIAMS, José

  • Resumen: Los accidentes de tráfico constituyen una de las principales causas de muerte no natural en los países desarrollados y provocan un gran impacto en la economía y la sociedad de todos estos países. En España, en las últimas décadas se han puesto en marcha numerosas políticas y medidas encaminadas a reducir los accidentes de tráfico o, al menos, a minimizar el impacto de los mismos. Todo ello ha conducido a que el número de accidentes, muertos y heridos graves se reduzca drásticamente. Esto ha consolidado a España en una posición destacada en los indicadores de seguridad vial entre los países de la Unión Europea. El factor humano está presente en el 90% de los accidentes de tráfico, por lo que lograr una nueva mejora desde la posición actual en seguridad vial en la que se encuentra España podría requerir un mayor conocimiento sobre los comportamientos a un nivel más desagregado de los diferentes actores viales. Además, en la revisión de la literatura, se ha puesto de manifiesto la importancia de estimar correctamente las tasas de accidentalidad o del nivel de riesgo de los distintos conductores, para lo cual, es necesario conocer la responsabilidad de los mismos. En esta tesis se exploran los dos enfoques: estudio de comportamiento de los conductores y de responsabilidad en la ocurrencia de accidentes de tráfico mediante técnicas estadísticas tradicionales y de Machine Learning, lo que da lugar a la constitución de los objetivos principales encaminados a contribuir a la seguridad vial: 1. Identificar patrones, de carácter multivariante, de comportamiento de los conductores en función del género y de la edad y en relación a las infracciones cometidas, el estado de los conductores, el tipo de colisión y la gravedad de las lesiones. Este análisis se llevó a cabo con la metodología estadística de clúster Self-Organizing Maps (SOM), que implica la proyección de los datos en un espacio de dimensión reducida. El mapa de resultados obtenido fue comparado con otra metodología de clúster estadística sin reducción de dimensionalidad, denominada K-Means (Objetivo 1). 2. Contribuir a mejorar el procedimiento de asignación de responsabilidad del método de exposición cuasi-inducida (Objetivo 2). Esta investigación se realizó de dos maneras. En primer lugar de manera determinista a través de la metodología de clúster SOM (Objetivo 2.A) y, en segundo lugar, se desarrolló un procedimiento probabilista, aplicando la metodología estadística del teorema de Bayes y las simulaciones de Monte Carlo (Objetivo 2.B). El cumplimiento de estos dos objetivos permite identificar también cuál es el perfil del conductor principalmente responsable de los accidentes de tráfico analizados que, como era de esperar, coincide con el perfil del conductor más infractor. Para abordar estos dos importantes objetivos, se ha utilizado y tratado la Base de Datos General de Accidentes de la Dirección General de Tráfico (DGT) para que recoja finalmente los accidentes ocurridos en España entre dos turismos entre los años 2004 y 2013 en vías interurbanas. La base de datos utilizada, tras los procesos de filtrado y depuración, contiene un total de 145.904 conductores. En la primera parte de la investigación, los resultados ponen de manifiesto como el análisis de las variables relacionas con el comportamiento y el estado de los conductores proporciona información relevante acerca de la estructura multivariante de los datos y permite identificar patrones importantes acerca de su conducción. Se observa así que existen importantes diferencias multivariantes en el comportamiento del conductor tanto en el tipo de colisiones (y por lo tanto en su gravedad) como en el tipo y número de infracciones con respecto al género y la edad de los mismos. En general, se ha concluido que los conductores varones, especialmente los más jóvenes y los más mayores están más representados entre los grupos que cometen más infracciones o presentan condiciones desfavorables para la conducción. Los patrones revelados muestran como las diferencias entre hombres y mujeres se acentúan más si aparecen múltiples infracciones conjuntamente. A su vez, los resultados ponen el foco sobre ciertos patrones de carácter multivariante que requieren especial atención entre los conductores, especialmente entre los hombres y los más jóvenes. Con esta investigación, se identifican diferentes patrones complejos multivariantes junto con la importancia relativa de cada uno de ellos (proporción), lo que permite comprender mejor el comportamiento de los diferentes grupos de conductores. Esto supone el principal valor añadido de esta primera parte de la tesis y una importante contribución metodológica, dado que algunos patrones solo salen a la luz cuando se estudian varias variables conjuntamente. Lo que contribuye a que el alcance de esta investigación sea más amplio a lo existente en la literatura hasta el momento. Todos estos patrones identificados pueden ser utilizados como herramienta de ayuda en la toma de decisiones de política vial a través de realizar una potencialmente mejor asignación de los recursos disponibles por parte de las oficinas reguladoras de seguridad vial, como la Dirección General de Tráfico de España. Esto también puede ayudar a la formulación de medidas, por parte de las autoridades competentes, que estén orientadas a proporcionar mayor información, educación y concienciación a colectivos de conductores específicos de acuerdo con los comportamientos de conducción identificados, así como la responsabilidad en el accidente, de dichos colectivos. En la segunda parte de la tesis, que aborda el cumplimiento del segundo objetivo planteado, se quiere, como se ha indicado anteriormente, contribuir a mejorar la asignación de responsabilidad aplicada al método de exposición cuasi-inducida, que es clave para la estimación de la exposición relativa de los diferentes colectivos de conductores. Una estimación precisa de la exposición es esencial para la posterior determinación de las tasas de accidentalidad o del nivel de riesgo de los diferentes colectivos conductores, que es clave, a su vez, para evaluar el impacto de las medidas de seguridad vial. Como consecuencia de la dificultad de la estimación de la exposición de los diferentes colectivos de conductores, surge el método de exposición cuasi-inducida, que permite estimar la exposición relativa en base a su hipótesis principal de que los conductores no responsables involucrados en accidentes entre dos vehículos pueden considerarse como una muestra aleatoria de la población general de conductores. Por lo tanto, la correcta asignación de responsabilidad es crucial en este método. Sin embargo, las bases de datos de registros de los accidentes de tráfico no contienen habitualmente información acerca de la responsabilidad de los conductores. En la literatura, aunque ha existido un amplio debate acerca de cuáles deben ser consideradas las variables más relevantes para realizar la asignación de responsabilidad, en los últimos años, la mayoría de los investigadores consideran solo los comportamientos de conducción peligrosos, es decir, principalmente las infracciones del conductor y las de velocidad. Sin embargo, hay variables que, aunque no son determinantes totales de la responsabilidad del conductor, sí podrían agregar información relevante acerca de su responsabilidad. Por ello, con el objetivo de mejorar el procedimiento de asignación de responsabilidad aplicado al método de exposición cuasi-inducida, se decidió, en primer lugar, aplicar SOM como herramienta de ayuda para a realizar la asignación de responsabilidad de manera determinista teniendo en cuenta la influencia de un conjunto amplio de variables y, posteriormente mejorar esta herramienta mediante la creación de un procedimiento de asignación probabilista. Para llevar a cabo el procedimiento de asignación de responsabilidad de manera determinista, se utilizó, como se ha indicado anteriormente, la herramienta de clúster SOM con el objetivo de comprender mejor la estructura multivariante de los datos, conocer las variables a priori más importantes en la responsabilidad del conductor, analizar su influencia e identificar patrones de responsabilidad relevantes. Los resultados muestran que el consumo de alcohol/drogas podría influir en la responsabilidad de los conductores y se requieren análisis adicionales para las variables de defecto físico previo y enfermedad súbita, cuya influencia sobre la responsabilidad no ha podido ser completamente determinada. Con esta investigación, se ha utilizado más información para llevar a cabo la asignación de responsabilidad, ya que se tienen en cuenta un mayor número de variables que pueden influir sobre la responsabilidad de los conductores y además se analizan de manera multivariante estas variables. Por lo que se considera una solución más completa que los análisis univariantes o bivariantes, dado que algunos comportamientos complejos solo pueden desarrollarse cuando todas las variables se analizan conjuntamente. El valor añadido de esta investigación es incluir importantes resultados cuantitativos que van más allá de una declaración cualitativa o binaria acerca de si determinadas variables influyen en la responsabilidad, mientras que otras no son relevantes. En esta investigación se cuantifica la proporción y el número de conductores que caen en cada uno de los clústers del mapa, la topología del SOM y la estructura de vecindad del mismo. Una descripción completa de los patrones identificados a partir de los resultados del SOM, así como los límites entre las asignaciones de responsabilidad (responsabilidad clara, intermedia o no clara), solo es posible si se incluye esta cuantificación de los resultados. Por tanto, SOM parece una herramienta prometedora para la evaluación de la responsabilidad de los conductores. Sin embargo, con el procedimiento determinista, todavía quedaban por clasificar al 9,63% de los conductores de la base de datos en función de su responsabilidad. Por lo que, con el objetivo de arrojar luz sobre la responsabilidad de los mismos, se crea un procedimiento de asignación de responsabilidad probabilista. La responsabilidad de estos conductores no clasificados se tratará como una variable aleatoria, cuya incertidumbre se propagará al número total de conductores no responsables y, en consecuencia, a la exposición relativa estimada, que también pasará a ser una variable aleatoria. El método de Monte Carlo será utilizado para estimar la distribución de probabilidad de la variable aleatoria exposición relativa de los hombres en relación a las mujeres y los resultados obtenidos serán comparados con los que obtendríamos con el procedimiento de asignación de responsabilidad determinista utilizando la metodología SOM. Los resultados obtenidos indican que con un 95% de probabilidad, la exposición relativa de los conductores masculinos respecto a los femeninos se sitúa entre 2,395 y 2,418. Adicionalmente, la comparación de estos resultados con los obtenidos a partir de procedimiento determinista de asignación de responsabilidad revela que los valores proporcionados por estos últimos se sitúan por encima de cualquier valor de la distribución de probabilidad de la variable exposición relativa estimada mediante el procedimiento probabilista. Por lo tanto, la exposición relativa determinista de los hombres con respecto a la de las mujeres podría estar sobreestimada y, consecuentemente, la estimación posterior del nivel de riesgo de los hombres con respecto al de las mujeres podría estar subestimado. La aplicación de una metodología probabilista para la asignación de responsabilidad supone una importante contribución al método de exposición cuasi-inducida y, por tanto, al campo de la seguridad vial, dado que será posible comprender mejor el fenómeno multifactorial de los accidentes de tráfico y, a su vez, estimar de manera más precisa los niveles de riesgo de diferentes colectivos de conductores. Además, evaluar la influencia, de manera probabilista, de todas las variables que podrían influir sobre la responsabilidad del conductor, podría ser de gran importancia futura en el ámbito de la seguridad vial. Esta es la primera investigación que propone un enfoque probabilístico para la estimación de la exposición relativa mediante el método de exposición cuasi-inducida, y allanará el camino para futuras metodologías y aplicaciones interesantes en la investigación de seguridad vial. En conclusión, con el uso de la metodología de clúster SOM como herramienta de ayuda para llevar a cabo la asignación de responsabilidad y su posterior complementación a través del procedimiento probabilístico creado, se espera que la asignación de responsabilidad sea realizada de manera más precisa, lo que repercute en la calidad posterior de la exposición relativa estimada a partir del método de exposición cuasi-inducida. ----------ABSTRACT---------- Road accidents are one of the main causes of death in developed countries and result in a great impact in their economies and societies. In Spain, a large set of policies and measures have been established and implemented with the purpose of reducing the number and consequences of accidents. This has caused a drastic reduction of the numbers of killed and seriously injured. This has also consolidated Spain in a leading position within the UE as far as road safety indicators are concerned. The human factor is present in 90% of road accidents, in such way that more improvements in Spain’s situation would require increasing knowledge on a more disaggregated level about driver behavior. Moreover, when reviewing the literature, the importance of correctly estimating accident rates or risk levels has been highlighted, that would, in turn, require knowledge of their responsibility. In this thesis two approaches are explored: a study of driver behavior and of driver responsibility in accidents by means of Statistical and Machine Learning techniques, which leads to establishing the main objectives of the thesis, directed to contributing to road safety: 1. To identify (multivariate) patterns, of driver behavior in terms of gender, age and offences, collision type, and seriousness of illnesses. The analysis has been carried out by means of the Self-Organizing Maps (SOM) clustering technique. SOM provides a projection of the data onto a reduced dimension space. The clustering thus obtained was compared with the one provided by a standard, non-dimension reduction clustering technique such as K-means (Objective 1). 2. To contribute to improve the responsibility assignment procedure based on quasi-induced exposure methods (Objective 2). This research was carried out in two ways. First, within a deterministic framework through SOM clustering (Objective 2.A) and, secondly, a probabilistic procedure was developed by application of Bayes theorem and Monte Carlo simulation (Objective 2.B). Achieving these two objectives may allow for the identification of the most relevant driver profiles in accident responsibility which, as expected coincides with the most offence-prone one. To engage these two important objectives, the General Accident Data Base from the Spanish Traffic General Directorate (Dirección General de Tráfico, DGT) has been used, which compiles accidents along the 2004-2013 in interurban roads. After cleaning and filtering, the final data base applied included a grand total 145,904 drivers. Along the first part of the research, the results unveil that the analysis of the variables related to the behavior and state of drivers provide relevant information on the multivariate structure of the data and allow for the identification of significant driver patterns. It is thus observed that there exits important multivariate differences in the driver behavior as far as collision type (and thus seriousness) and the type and number of offences as related to gender and age. In general, it has been concluded that male drivers, specially the youngest and eldest are more represented within the groups more involved in offences or present less favorable driving conditions. The patterns unveiled show how the differences between male and female drivers are increased when more offences appear jointly. In turn, the result focus on certain multivariate driver patterns which require special attention, especially among young males. By means of thesis research, different complex multivariate patterns have been identified, together with an assessment of the relative importance of each (cluster). This allows for a better understanding of the behavior of the different driver groups. This provides the main added value of this first part of the thesis, and an important methodological contribution, given that certain patterns are only unveiled when several variables are analyzed jointly. This implies a larger scope of the contribution of this research to the state of the art. The pattern thus identified may be applied as auxiliary tool for decision making in road safety by means of a better allocation of resources by the regulatory institutions such as the Spanish Traffic General Directorate. This can also help in establishing and implementing new measures, oriented to providing more information, background and awareness for specific driver groups in agreement with the driver behavior patterns identified, as well as on accident responsibility for such groups. The second part for the thesis engages the second objective, which is concerned with, as mentioned above, contributing the improve the responsibility assignment process as applied to quasi-induced exposure, which is in turn key when estimating the relative exposure of different driver groups. An accurate estimation of exposure is essential for the corresponding on accident rates, or risk levels of different driver groups, which is, in turn, key to evaluate the impact of road safety measures. Resulting from the difficulty in estimating the exposure of different driver groups, the quasi-induced exposure methods was developed, which allows for the estimation of relative exposure, on the basis of its main hypothesis, which is that drivers involved as non-at-fault for accidents can be taken as a random sample of the corresponding driver populations. Thus, a correct assignment of responsibility is crucial in this method. However, the records in the accident data bases do not usually include information on driver responsibility. In the literature, although an important discussion has been present on which variables should be considered as most relevant for responsibility assignment, in the recent years most researchers have considered that only dangerous driving behavior, such as driver and speed offences, should be taken into account. However, there exist variables that, although not fully determinant of driver responsibility, could provide useful information about it. Thus, with the purpose of improving the responsibility assignment procedure, as applied in quasi-induced exposure method, it was decided, in the first place, to apply SOM as auxiliary tool in determinist assignment, by taking into account the influence of a large set of variables, and subsequently improve this method by means of a probabilistic procedure. In order to carry out responsibility assignment within a deterministic framework, the SOM clustering technique, as mentioned above, was applied for a better understanding of the multivariate structure of the data, to find out which variables which a priori could be the most relevant in driver responsibility to analyze their influence and identify relevant responsibility patterns. The results show that alcohol/drug use could affect driver responsibility and additional analyses are required for disability and sudden illness. With this research more information has been used for responsibility assignment, given that a larger number of variables have been taken into account, along with their multivariate structure. Therefore, it is considered as a more comprehensive solution than univariate or bivariate structures, given that some complex behavior only appears when all variables are analyzed jointly. The added value of this research is to include important quantitative results which go beyond qualitative statements of whether given variables are relevant or not for responsibility. In this research the proportion and number of drivers belonging to each SOM cluster are provided, along with the SOM topology and neighborhood structure. A complete description of the patterns identified from the SOM results, as well as the boundaries for responsibility (clear, intermediate or unclear) is only possible through quantification. Thus, SOM appears to be a promising tool for driver responsibility assignment. However, by means of the deterministic procedure, responsibility 9.53% of drivers remained unclassified. Therefore, with the purpose of shedding light into their responsibility, a probabilistic assignment procedure was developed. The responsibility of these unclassified drivers was treated as a random variable, the uncertainty of which will propagate to the total number of non-at-fault drivers and consequently to relative exposure, which will in turn also become a random variable. The Monte Carlo method will be applied to estimate the probability distribution of relative exposure of male vs. female drivers, and the results obtained will be compared with those resulting from the SOM-based deterministic procedure. The results obtained indicate that, with 95% probability, the relative exposure of male vs. female drivers lies between 2.395 and 2.418. Additionally, the comparison of these results with those obtained by means of a deterministic procedure, reveals that the values provided by the latter are larger that the probabilistic ones. Thus, deterministic results for relative exposure and relative risk levels could be over and under estimations, respectively. The application of probabilistic methods to responsibility assignment provides an important contribution to quasi-induced exposure methods and thus to road safety, given that it will thus be possible to better understand the multifactorial phenomenon of road accidents and, in turn, to estimate more accurately the risk levels of different driver groups. Moreover, evaluating in a probabilistic framework the influence of all variables which could influence driver responsibility could be of great relevance in the future of road safety. This is the first research proposing a probabilistic approach for the estimation of relative exposure by means of the quasi-induced exposure method, and will hopefully pave the way to future methodological developments and interesting application to road safety. To conclude, the application of SOM clustering as auxiliary tool in responsibility assignment and its subsequent enhancement by means of the probabilistic procedure developed here is expected to increase the accuracy of responsibility assignment which will in turn increase that of relative exposure as estimated by means of the quasi-induced exposure method.