Tesis Doctorales UPM: Consulta online

Autor: GÓMEZ MARTÍNEZ, Patricia

Título: Análisis de variables explicativas en modelos de predicción de roturas en redes de tuberías

Fecha: 2017

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE CAMINOS, CANALES Y PUERTOS

Departamento: INGENIERIA CIVIL: HIDRAULICA, ENERGIA Y MEDIO AMBIENTE

Acceso electrónico: http://oa.upm.es/47857/

Director/a(s):

Director/a: MARTÍN CARRASCO, Francisco J.
Director/a: GRANADOS GARCÍA, Alfredo

Resumen: Esta Tesis plantea una metodología para la construcción de un modelo de predicción de roturas, basado en el análisis estadístico de los fallos de una infraestructura en servicio, que en este trabajo se particulariza para la red de distribución, y en su relación con las diferentes variables explicativas. Su aplicación permite identificar las variables con influencia significativa en la ocurrencia de roturas, cuantificar su repercusión en la capacidad predictiva de los modelos que se generen y seleccionar aquél modelo con mayor capacidad de predicción de las roturas de entre las diferentes opciones que se planteen según las múltiples combinaciones de variables consideradas. Con el tiempo y el uso, las infraestructuras de abastecimiento se van deteriorando y van requiriendo cada vez mayores inversiones en reparación. En concreto, la red de tuberías presenta un número creciente de fallos anuales que hace que los gestores del abastecimiento busquen en todo momento reducir la frecuencia de las averías y roturas, siendo éste uno de los mayores retos a los que se enfrentan. La estimación de la vida útil de los elementos de la red requiere un criterio fiable para poder plantear adecuadamente las estrategias de renovación y mantenimiento. Ante los diferentes planteamientos de modelos de predicción de roturas, ya sean físicos o estadísticos, determinísticos o probabilísticos, con diferentes formulaciones matemáticas, la presente Tesis evidencia la dependencia estadística de las roturas de tuberías respecto de las variables explicativas, y determina la combinación más adecuada para la construcción de modelos predictivos a través de la cuantificación de su influencia en la capacidad para predecir los fallos. La característica del planteamiento radica en que para la construcción de los modelos se seleccionan las variables predictivas apoyándose únicamente en un estudio estadístico objetivo de las roturas, basado en la evidencia científica sin adoptar ideas preconcebidas sobre la influencia de las diferentes variables en la ocurrencia de roturas. La metodología planteada se divide en tres partes; en la primera de ellas se identifican las variables de las que dependen las roturas de la red de distribución. Para ello se toman todas las variables que a priori podrían tener significancia en la ocurrencia de roturas a partir de la literatura de referencia, y se realiza un test de significancia Kolmogorov-Smirnov que permite confirmar si existe relación de dependencia. En la segunda parte se plantea la construcción de múltiples modelos predictivos basados en un análisis Bayesiano cuyo objetivo es identificar la probabilidad de ocurrencia de roturas como función de las diferentes variables explicativas seleccionadas en la etapa anterior. Para ello se analiza la función de distribución de la probabilidad de ocurrencia de las variables explicativas en una base de datos genérica y en una asociada a las roturas en la red de distribución. El proceso de generación de modelos va incrementando secuencialmente el orden de los mismos, partiendo del modelo más simple de orden uno, con una única variable, e incorporando paso a paso variables de manera adicional. De entre todos los modelos generados en un mismo orden, al incorporar una variable adicional se seleccionan los diez mejores; sobre esta selección se plantean todos los modelos de orden inmediatamente superior posibles al introducir una nueva variable explicativa independiente; este proceso se realiza con todas las variables explicativas disponibles. Se evalúan los modelos y se vuelven a elegir los diez con mejor comportamiento. El proceso prosigue incorporando variables de manera secuencial hasta que no se observa una mejoría significativa en el comportamiento entre un modelo y el de orden superior de acuerdo con el proceso de validación que se describe a continuación. La combinación de variables en la generación de los diferentes modelos se realiza desde dos perspectivas, por un lado se plantean modelos con todas las variables independientes, y por otro se plantean modelos en los que dos variables se analizan de manera conjunta y el resto independientes. La tercera parte de la metodología consiste en la evaluación de los modelos generados de forma objetiva y sistemática mediante la definición de un procedimiento de validación que cuantifica la calidad de los mismos en base a su capacidad de predicción de las roturas. Dicho planteamiento exige un análisis de sensibilidad previo que permita conocer la incertidumbre de los resultados de la validación para garantizar la bondad de la evaluación, y la minimización de la influencia de los parámetros que definen el procedimiento como son el tamaño de la muestra, el número de muestras y el periodo de ajuste. El resultado esperado de la aplicación de la metodología es la definición de la mejor combinación de variables en el modelo predictivo de mayor calidad, es decir, aquél en el que se observa la mejor capacidad de predicción de las roturas. Esta metodología se aplica a la red de distribución de la Comunidad de Madrid (España) gestionada por Canal de Isabel II. Aprovechando los datos disponibles en dicha red se analiza la influencia de las variables explicativas y se identifican los mejores modelos predictivos. En este sentido, las variables con mejor comportamiento por sí solas son diámetro, material y año de instalación. El análisis de los modelos desarrollados revela que si bien a medida que se incorporan variables explicativas de manera secuencial se va mejorando la capacidad predictiva, no todas las combinaciones de variables lo consiguen. También se observa que la mejora se va suavizando por lo que no siempre compensará establecer un modelo predictivo con el mayor número de variables posibles pues la mejora en la predicción resulta insignificante de los modelos de mayor orden frente a la complejidad que implica el tratamiento de un mayor número de variables. Esta idea se traduce en que determinados modelos con un menor número de variables explicativas suponen mejores soluciones, es decir que no se observan ventajas relevantes al establecer modelos construidos con un gran número de variables explicativas. Los resultados obtenidos con los modelos de orden cuatro y orden cinco son muy similares lo que no justifica la aplicación de modelos más complejos simplificando así el tratamiento y la predicción de las roturas con menos variables, cuatro para el caso de estudio. This Thesis proposes a methodology for the construction of a break prediction model based on the statistical analysis of the failures of an asset in service, in this work it is focused on the distribution network, and its relation with different explanatory variables. Its application allows the identification of variables with a significant influence on the occurrence of breaks, quantifying their impact on the predictive capacity of the generated models. It also allows selecting the model with the greatest break prediction capacity from the different options that arise from the multiple combinations of variables considered. As aging water supply assets deteriorate, they require increasing investments for its repair and maintenance. Particularly the pipeline network has a growing number of annual failures that make water providers to seek for reducing the frequency of breaks and bursts, which is one of the biggest challenges they have to face. The estimation of the useful life of the network’s elements requires a reliable criterion for proposing suitable renewal and maintenance strategies. Given the different approaches of breaks prediction models, whether physical or statistical, deterministic or probabilistic, with different mathematical formulations, the present Thesis shows the statistical dependence of the pipe breaks on the explanatory variables. It also determines the variables’ optimal combination for the construction of predictive models through the quantification of their influence on the models’ ability to predict failures. The characteristic of the proposed methodology is that the predictive variables for constructing the models are selected according to an objective statistical study of the registered breaks. Hence, the models are built from scientific evidence without adopting preconceived ideas about the influence of the different variables in the occurrence of breaks. The methodology is divided into three parts; in the first one, the variables on which the network breaks depend are identified. To do so, all the variables that might have significance in the occurrence of breaks from the reference literature are taken, and a Kolmogorov-Smirnov significance test is performed to confirm the dependence relation. The second part proposes the construction of multiple predictive models based on a Bayesian analysis, with the aim of identifying the probability of occurrence of breaks as a function of the different explanatory variables selected in the previous stage. For this purpose, the distribution functions of the likelihood of occurrence of the explanatory variables in a generic database and in one linked to the breaks in the distribution network are analyzed. The model generation process sequentially increases the order of the models, starting from the simplest model of order one, with a single variable, and incorporating step by step additional variables. From all the models generated in the same order, the ten best ones are selected. For each one of them, every additional variable is incorporated as independent variable to the model forming a higher order model. The models are then evaluated and the ten best performers are selected again. The process continues to incorporate variables sequentially until no significant improvement in behavior between a model and the higher order model is observed in accordance with the validation process described below. The combination of variables in the generation of the different models is done from two perspectives, on the one hand models are built with all the independent variables, and on the other, models are built with two joint variables and the rest are treated as independent ones. The third part of the methodology consists on the evaluation of the generated models from an objective and systematic approach. Therefore, a validation procedure that quantifies their breaks prediction capacity is proposed. This procedure firstly requires a sensitivity analysis that allows to know the uncertainty of the validation results in order to guarantee the suitability of the evaluation and to minimize the influence of the validation parameters that define the procedure. Such parameters are sample’s size, number of samples and the adjustment period. The expected result of the methodology is the definition of the best combination of variables for the most reliable predictive model. That model will be the one with the best pipe break predictive capacity observed within the multiple analyzed models. This methodology is applied to the distribution network of the Madrid’s region (Spain) managed by Canal de Isabel II. Taking advantage of the available networks data, the influence of the explanatory variables is analyzed and the best predictive models are identified. Hence, the variables with the best behavior acting independently are diameter, material and year of installation. The analysis of the obtained models reveals that as explanatory variables are sequentially incorporated the predictive capacity is improved, but not all the variables combinations improve that capacity. It is also observed that the improvement is reduced with each iteration. This means that it will not be worthy to apply a predictive model with the greatest number of possible variables since the improvement in the prediction is insignificant compared to the complexity that the treatment of a greater number of variables implies. Therefore, certain models with a smaller number of explanatory variables represent better solutions because no relevant advantages are observed when considering models built with a large number of explanatory variables. The obtained results with the order four and order five models in the case study are very similar, because of that, the application of more complex models is not justified. This all results on a simplification of the treatment and prediction of the breaks with less variables, four for the case study.