Tesis:

Métodos Multi-armed bandit en el ámbito del marketing digital y gestores de contenido


  • Autor: MARTÍN BLANCO, Miguel Carlos

  • Título: Métodos Multi-armed bandit en el ámbito del marketing digital y gestores de contenido

  • Fecha: 2021

  • Materia: Sin materia definida

  • Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

  • Departamentos: INTELIGENCIA ARTIFICIAL

  • Acceso electrónico: https://oa.upm.es/68494/

  • Director/a 1º: JIMÉNEZ MARTÍN, Antonio
  • Director/a 2º: MATEOS CABALLERO, Alfonso

  • Resumen: Dentro del ámbito de la toma de decisiones secuenciales en entornos estocásticos, el equilibrio entre explotación y exploración juega un papel clave a la hora de diseñar algoritmos que generen el conjunto de decisiones óptimas que produzcan el mayor premio o valor esperado. Este tipo de problema, conocido como Multi-armed Bandit, es abordado en la literatura actual a través de una gran variedad de métodos que ofrecen soluciones óptimas o aproximadamente óptimas a modelos simplificados de la realidad, donde se conoce el tipo de distribución que tienen las recompensas de las acciones y, además, éstas son recibidas de forma inmediata. Sin embargo, en muchas situaciones reales, estas simplificaciones no se cumplen provocando una degradación considerable en el rendimiento de mucho de estos métodos. Un ámbito concreto en el que esta situación se produce es el de los servicios de marketing digital y recomendación de contenidos. Estos servicios tienen que ofrecer a sus clientes uno entre conjunto de contenidos u ofertas con el objetivo de maximizar algún ratio o indicador (conversiones, ventas, etc.). En muchas situaciones el gestor de los contenidos desconoce la distribución que puede seguir el indicador a optimizar (por ejemplo, tiempo leyendo un contenido, o ingresos por cliente y oferta) y en la mayoría de los casos se producen retardos a la hora de actualizar dichas recompensas. En esta Tesis Doctoral proponemos una nueva familia de métodos que ofrezca una buena solución al problema Multi-armed Bandit en este tipo de situaciones comunes en sistemas reales donde la distribución de los premios es desconocida y además estos se actualizan con retardo. Para ello, además hacemos una evaluación de estos métodos y los comparamos con el estado del arte en sistemas de marketing digital y gestores de contenido. Los resultados obtenidos reflejan que esta nueva familia de métodos mejora en la mayoría de los escenarios a los métodos del estado del arte, convirtiéndose por tanto en una solución recomendable para este tipo de problemas en entornos reales con las características anteriormente descritas. ----------ABSTRACT---------- The balance between exploitation and exploration in sequential decision-making problems with stochastic environments plays a key role when designing algorithms that generate the set of optimal decisions that produce the highest expected reward or value. This type of problem, known as multi-armed bandit, is approached in the literature by means of a great variety of methods that offer optimal or approximately optimal solutions to simplified models of reality, in which the reward distribution is known, and rewards are immediately received. However, in many real-world situations, these simplifications are not met, causing considerable degradation in the performance of many of these methods. A specific area in which this situation occurs is that of digital marketing services and content recommendation. These services have to offer their customers one of a set of contents or offers in order to maximize some ratio or indicator (conversions, sales, etc.). In many situations, the content manager does not know the distribution that the indicator to be optimized can follow (for example, time reading content, or revenue per customer and offer) and in most cases there are delays when updating rewards. In this Doctoral Thesis we propose a new family of methods, the possibilistic reward methods, that offer a good solution to the multi-armed bandit problem in these types of common situations in real systems with delayed rewards, whose distribution is unknown. For this, we perform a numerical evaluation of the possibilistic reward methods and compare them with the state of the art in digital marketing systems and content recommendation services (A/B Tests). The results reached show that this new family of methods outperforms in most of the considered scenarios the state of the art methods, thus becoming a recommended solution for this such problems in real environments with delayed and with unknown distribution rewards.