Tesis Doctorales UPM: Consulta online

Autor: HERRERA YAGÜE, Carlos

Título: Socio geographical patterns inferred from mobile phone records

Fecha: 2017

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: MATEMATICA APLICADA A LAS TECNOLOGIAS DE LA INFORMACION Y LAS COMUNICACIONES

Acceso electrónico: http://oa.upm.es/47840/

Director/a(s):

Director/a: ZUFIRIA ZATARAIN, Pedro José

Resumen: La ubicuidad de los registros de comunicación recolectados de forma automática y la dramática reducción de los costes asociados al almacenamiento y procesamiento de información, nos permiten comenzar a estudiar el comportamiento humano de una forma completamente nueva. En lugar de limitarnos a pequeños experimentos realizados a decenas o cientos de participantes durante lapsos de tiempo relativamente cortos, como ha ocurrido con la investigación en ciencias sociales o la planificación de transportes anterior a los últimos 15 años, hoy tenemos registros detallados de ciertos comportamientos para millones de personas durante años, con el interesante matiz de que los datos se recolectan de forma pasiva, sin requerir ninguna atención ni disciplina por parte de los participantes. Esta abundancia de información obtenida de forma sistemática para gran cantidad de sujetos, nos permite abordar la comprensión y modelización del comportamiento humano, aplicando métodos hasta ahora reservados a la física y a otras ciencias naturales, más acostumbradas a tratar con datos masivos generados de forma sistemática. En el caso de la investigación presentada en esta tesis, nos centraremos en analizar los registros de comunicación y posición asociados a unos 7 mil millones de registros de llamadas (CDRs, por sus siglas en inglés) que representan todas las realizadas por más de 25 millones de personas durante un período de seis meses. El conjunto de datos analizados incluye información de tres países distintos (Francia, Portugal y España). Esto nos ha permitido garantizar cierta robustez de nuestros resultados frente a posibles sesgos de observación asociados a las comunicaciones móviles, como pudieran ser las políticas comerciales o las cuotas de mercado del operador que facilita los datos. Además, como mostraremos, nos ha permitido también apreciar diferencias macroscópicas significativas entre las tres redes, posiblemente asociadas a la historia e idiosincrasia de cada uno de los países. Entre las múltiples posibilidades que ofrece el análisis de CDRs, en esta tesis nos hemos centrado en los problemas de compleción de red, así como en las relaciones que se establecen entre la red social y el espacio geográfico en la que esta se enmarca. En cuanto a la compleción de la red, nos hemos centrado en el análisis de un escenario al que nos referimos como el problema de los nodos opacos. Este problema considera redes con dos tipos de nodos: por un lado están los nodos transparentes de los que se conocen todos sus enlaces y ciertos atributos específicos del nodo. Por otro lado, están los nodos opacos, de los que solamente se conocen sus enlaces con los nodos transparentes. El problema consiste, pues, en tratar de inferir tanto los atributos de los nodos opacos como los enlaces entre ellos. Nuestro trabajo demuestra que, aprovechando propiedades conocidas de las redes sociales y herramientas del aprendizaje estadístico, es posible conseguir predicciones sorprendentemente acertadas incluso si la población de nodos opacos supera con creces la mitad de la red. Estos resultados tienen especial relevancia en el ámbito de los operadores de telecomunicaciones, ya que demuestran que tienen una capacidad significativa para inferir información sobre usuarios que no son, ni nunca han sido, sus clientes. Asimismo, estos resultados cuestionan la idoneidad de las herramientas de gestión de la privacidad que las grandes plataformas online como Facebook, Twitter o Google han puesto a disposición de sus usuarios, que consideran que para dar a conocer un enlace social (que represente amistad, seguimiento o comunicación) entre dos usuarios, es suficiente conseguir permiso explícito de solamente uno de ellos. A la hora de considerar la relación entre las redes sociales y el espacio geográfico que ocupan, nos hemos centrado primero en mejorar la comprensión de los resultados de uno de los experimentos más famosos del siglo XX: el experimento de Milgram o de los seis grados de separación. Tras realizar una revisión exhaustiva de los trabajos publicados sobre búsqueda descentralizada en redes sociales, tanto desde un marco de modelos teóricos como de reediciones del experimento de mundo pequeño, presentamos lo que hasta la fecha supone la simulación más grande realizada sobre datos empíricos de redes sociales. Nuestros resultados respaldan por primera vez, con datos reales, algunas de las hipótesis más relevantes sobre cuál es la estructura de la red social que permite que la búsqueda descentralizada sea efectiva. Concretamente, nuestros resultados demuestran que la cercanía geográfica es una medida muy efectiva a la hora de orientar la ruta de un mensaje en los primeros pasos; su efectividad desaparece de forma muy abrupta una vez que el mensaje llega a la ciudad del destinatario, casi independientemente del número de habitantes de esta ciudad. Sin embargo, el rutado descentralizado dentro de ciudades sigue siendo posible utilizando la estructura de comunidades de la red social. Los resultados sobre búsqueda descentralizada nos permiten indagar más sobre una relación hasta ahora desconocida entre la red social y el espacio geográfico. Concretamente, encontramos que las comunidades detectadas algorítmicamente por optimización de modularidad pierden en gran medida la correlación espacial dentro de las ciudades. Asimismo, mostramos cómo las redes formadas por los habitantes de una parte de la ciudad geográficamente conectada, pierden su conectividad comparadas con redes del mismo tamaño en número de nodos, pero que contienen al menos un núcleo de población completo. Estos análisis nos han permitido, además, establecer un paralelismo entre los flujos de comunicación y de transporte: ambos decrecen con la distancia física de forma similar. Aprovechando esta similitud, presentamos dos modificaciones del modelo de radiación. En la modificación orientada a flujos de comunicación, garantizamos la simetría de las predicciones, considerando, en el denominador, la población dentro de elipses cuyos focos están en las ciudades cuyo flujo de comunicación tratamos de estimar. En el caso de flujos de transporte casa-trabajo, modelamos la capacidad de atracción de una zona como proporcional al número de negocios en el área, listados en aplicaciones como Google Places y Foursquare. Ambos modelos consiguen predicciones significativamente mejores que los modelos usados anteriormente, y tienen la ventaja adicional de no requerir de datos de entrenamiento para estimar parámetros del modelo. Por último, nos centramos en analizar la correlación entre los patrones de movilidad urbana de personas más o menos cercanas en la red social. Encontramos correlaciones espaciales significativas, incluso entre nodos situados a distancia 3 dentro de la red social, siendo esta correlación espacial mayor cuanto mayor es la cercanía entre los nodos en el grafo social. Además, utilizando técnicas de aprendizaje no supervisado, encontramos que las relaciones entre habitantes de una misma ciudad se agrupan en 3 clases diferenciadas según la intensidad de la comunicación y los momentos en los que se producen eventos de colocalización. Finalmente, presentamos un modelo dual para la construcción de la red social y para la exploración de la ciudad, que permite reproducir buena parte de las correlaciones y distribuciones encontradas en los datos. ----------ABSTRACT---------- The ubiquity of passively collected communication records and the dramatic cost reduction experienced by the fields of information storage and processing allow us to study human behaviour in a entirely different way. Human behaviour studies have been often limited to small experiments done with tens or hundreds of participants during relatively short time lapses, for example with social science research or transportation research prior to the last 15 years. Today, we have detailed electronic records for certain behaviours of millions of people during years. Additionally, most of this records have been passively collected, which means no especial attention or routine was followed by the participants in order to collect the data. This abundance of systematically collected information allows us to face the understanding and modelling of human behaviour applying methods used until now only by physics and other natural sciences, more used to deal with massive amounts of systematically generated data. In the research we are presenting in the thesis, we have focused on analyzing communication and location records associated to 7 billion call detail records (CDRs) that contain all calls placed between over 25 million people during a 6 month period. The data set includes information from three different countries (France, Portugal and Spain), which allowed us to guarantee a certain level of robustness in our results against possible observations biases associated to mobile communications, such as pricing policies and market share of the carrier that facilitates the data. Also we will show how we have been able to spot macroscopic differences between the three networks, possibly related to the history and culture of each of the countries. Among the multiple fields CDRs analysis can be useful for, in this thesis we have focused in network completion problems, and also in the relations that can be established between the social network and the geographical space where it is embedded. Regarding network completion, we have focused in the analysis of an scenario that we refer as the opaque node problem. This problem considers networks with two different kind of nodes: on the one hand there are transparent nodes, about which we know all of their links and their attributes. On the other hand we have the opaque nodes, about which we only know how do they are connected to transparent nodes. The problem consists of trying to infer both the attributes of opaque nodes and links between them. Our work shows that taking advantage of known properties of social networks and machine learning procedures it is possible make good predictions even if the proportion of opaque nodes is over 50% of the network. These results are specially relevant for mobile carriers, since they reveal that this companies have a significant capacity to infer information about users who are not and never have been their customers. Similarly, these results question the suitability of privacy management tools embedded into large online sites created by Facebook, Twitter or Google, that assume that to disclose to a third party the existence of a social link (whether it represents friendship or communication) it is enough to get permissions by just one of the users involved. When it comes to the relationship between social network and the geographical space this are embedded into, we have first focused in understanding the results of one of the most famous experiments of the twentieth century: Milgram’s small world experiment. First, we have exhaustively review all related work about decentralized search in social networks, both from a theoretical modelling perspective and those reproducing similar experiments in order to gather additional empirical insights. Then, we have run the largest decentralized search simulation based on real social network data published to date. Our results support, for the first time empirically, some of the most relevant hypothesis about what is the network structure that allows decentralized search to be efficient in social networks. Precisely, some of our results proof that geographical proximity is a good metric to route the messages in the firsts steps, but its effectiveness vanishes one the message reaches the target city, almost independently of the number of people living in such city. However, decentralized routing within cities is still possible leveraging the community structure of the social network. The results about decentralized search in social networks allow us to dig deeper about the physical structure of social networks in urban environments. Precisely, we find that algorithmically detected communities, obtained through modularity optimization methods, lose almost all of their spatial correlation within cities. Additionally, we show that the networks made of the inhabitants of a certain connected area of the city have very limited connectivity compared to networks with the same number of nodes but that contain at least one complete population nucleus. These results have also allowed us to establish a parallelism between communication and transportation fluxes: they both decrease with distance in a similar fashion. Leveraging such similarity, we present two extensions to the radiation model. In the extension oriented to communication fluxes, we ensure the symmetry of the predictions, considering in the denominator, the population that lives within certain ellipses whose foci are located in the cities whose flux we try to estimate. Regarding commuting flows, we model attraction of an area like proportional to the number of business in the area listed by applications like Google Places and Foursquare. Both models performs remarkably better than their previous counterparts, and have the additional advantage of not requiring training data to fit model parameters. Finally, we focus on analyzing the similarity between human mobility patterns of people depending on how close they are in the social network. We find that socially closer people have similar visitation patterns within the urban environment, and that this positive correlation holds true even up to a social distance of 3 hops. Additionally, using unsupervised learning techniques, we find that the relationship between people living within same city naturally cluster into 3 different groups, depending on what time of the week the co-locate. At last, we present a simple model for social network and city exploration that can reproduce a large portion of the behaviours found in the data.