Tesis Doctorales UPM: Consulta online

Autor: ALVAREZ DE TOLEDO LINIERS, Santiago

Título: Magenta: Marco general de trabajo del aprendizaje

Fecha: 2000

Materia: Sin materia definida

Escuela: FACULTAD DE INFORMATICA

Departamento: INTELIGENCIA ARTIFICIAL

Acceso electrónico:

Director/a(s):

Director/a: BARREIRO SORRIVAS, José María

Resumen: El Aprendizaje por Refuerzo ha tenido durante los últimos años una gran relevancia y se le supone tal potencial que algunos autores han llegado a sostener que es una nueva forma de concebir en su conjunto la Inteligencia Artificial. Sin embargo, el éxito conseguido, por ejemplo, en un área como la robótica, ha sido únicamente parcial, por existir dos principales dificultades en su desarrollo: las aplicaciones son especializadas para un área determinada, lo que dificulta su generalización y extrapolación a otras áreas. el proceso de aprendizaje y la convergencia de los resultados son más lentos y limitados de como sería deseable. A veces, el propio aprendizaje genera tanta información que el proceso se bloquea. Esta Tesis pretende exponer un marco de trabajo que sea utilizable en diferentes clases de aplicaciones de Aprendizaje por Refuerzo, independientemente de los tipos de entrada y salida utilizados, así como del nivel de complejidad. Asimismo, pretende compendiar unos principios generales que sirvan de aceleradores al susodicho proceso de aprendizaje. Para ello, se establece una arquitectura basada en un Agente Central de Asociación, un Subsistema de Entrada y un Subsistema de Salida. El Subsistema de Entrada tiene el cometido de detectar sensorialmente el entorno y generar unos patrones a partir de los estímulos de entrada y proporcionárselo al Agente Central. Éste, a su vez, proporciona patrones de acción al Subsistema de Salida, que es responsable de realizar las acciones correspondientes. El Agente Central de Asociación tiene medios para asociar estadísticamente los patrones de las entradas y salidas que han tenido lugar repetidas veces y que han aportado unos resultados positivos o negativos, acertados o erróneos. Para ello dispone de unos elementos de valoración de los resultados, que reaccionan positiva o negativamente a determinados estímulos sensoriales. La asociación descrita guía el proceso de aprendizaje. El hecho de que el Agente Central de Asociación no se relacione directamente con estímulos sensoriales concretos ni con acciones específicas, sino con meros patrones de unos y otras, le da unas características de generalización que le posibilitan el ser utilizado en diferentes aplicaciones, entornos y niveles. La productividad, cuando se sigue este marco general de aprendizaje está incrementada por un proceso de selectividad de las asociaciones, de forma que permanentemente sólo una parte prioritaria de ellas se crea, mantiene y juega su papel generador del aprendizaje, sin bloquearse por una excesiva información debida a la cantidad de estados y acciones combinados. Los "aceleradores" del proceso de aprendizaje, cuyo potencial es principalmente efectivo al ser utilizados, cada uno en su versión maximizada y todos en conjunto, son: 1.- Detección de resultados positivos y negativos, no solamente de uno u otro tipo. 2.- Utilización de la intensidad de los resultados, no solamente de su signo. 3.- Utilización de la medida de los lapsos de tiempo entre la percepción, la acción y el resultado. 4.- Propagación del valor del resultado a patrones de percepción simultáneos y anteriores. 5.- Utilización de patrones multisensoriales de percepción. 6.- Utilización de patrones de estímulos contiguos. 7.- Acciones directas generadas por estímulos específicos, no por aprendizaje. MAGENTA parece especialmente adecuado para aplicaciones y entornos más complejos y dinámicos, al poderse en ese marco de trabajo, utilizar un tipo variable y por ello un posible gran número de entradas y salidas y posibilitar el uso de patrones de alto nivel tanto como de bajo nivel, así como existir medios de evitar, dificultar o retrasar el bloqueo del proceso de aprendizaje por un excesivo volumen de información.