23 de January de 2022

Máxima entropía RL (probada) Resuelve algunos problemas sólidos de RL

[ad_1]

Por Ben Eysenbach

Casi todas las aplicaciones del aprendizaje mejorado en el mundo real implican cierto grado de desplazamiento entre el entorno de formación y el entorno de prueba. Sin embargo, trabajos anteriores han encontrado que incluso pequeños cambios en el entorno hacen que la mayoría de los algoritmos de RL funcionen significativamente peor. Como nuestro objetivo es escalar los algoritmos de aprendizaje por refuerzo y aplicarlos en el mundo real, se vuelve cada vez más importante aprender pautas que sean robustas a los cambios en el entorno.

Aprendizaje por refuerzo robusto Maximiza la recompensa en un entorno controvertidamente seleccionado.

En general, los enfoques anteriores para abordar el cambio distributivo en RL han tenido como objetivo maximizar el rendimiento en el promedio o en el peor de los casos. Los primeros enfoques, como la aleatorización de dominios, entrenan una política para la distribución de entornos y optimizan el desempeño promedio de la política en esos entornos. Si bien estos métodos se han aplicado con éxito en varias áreas (por ejemplo, automóviles autónomos, locomoción y manipulación de robots), su éxito depende fundamentalmente del diseño de la distribución de los entornos. Además, no se garantiza que las pólizas que funcionan bien en promedio sean altamente recompensadas en todos los entornos. La póliza que recibe la recompensa más alta en promedio puede recibir una recompensa muy baja en una pequeña parte de los entornos. El segundo conjunto de enfoques, normalmente denominado robusto RLConcéntrese en los peores escenarios. El objetivo es encontrar una pauta que obtenga una alta recompensa dentro de una cierta tasa en cualquier entorno. El RL robusto puede verse igualmente como un juego de dos jugadores entre la política y un oponente en el área. La póliza intenta obtener una alta recompensa, mientras que el adversario ambiental intenta optimizar la dinámica y la función de recompensa del entorno para que la póliza obtenga una recompensa menor. Una propiedad importante del enfoque robusto es que, a diferencia de la aleatorización de dominios, no coincide con la proporción de tareas fáciles y difíciles. Si bien el RL robusto siempre evalúa una política para las tareas más difíciles, la aleatorización de dominios predice que la política funcionará mejor cuando se evalúe para una distribución de entornos con tareas más simples.

El trabajo anterior ha sugerido una serie de algoritmos para resolver problemas sólidos de RL. En general, todos estos algoritmos siguen la misma receta: tome un algoritmo RL existente y agregue algunas máquinas adicionales para hacerlo robusto. Por ejemplo, una iteración de valor robusto usa Q-learning como el algoritmo de RL base y modifica la actualización de Bellman resolviendo un problema de optimización convexa en el bucle interno de cada fusible Bellman. Del mismo modo, Pinto ’17 utiliza TRPO como su algoritmo de RL base y actualiza periódicamente el entorno en función del comportamiento de la política actual. Estos enfoques anteriores a menudo son difíciles de implementar e, incluso una vez implementados correctamente, requieren ajustar muchos hiperparámetros adicionales. ¿Podría haber un enfoque más simple que no requiera hiperparámetros adicionales y líneas de código adicionales para depurar?

Para responder a esta pregunta, centrémonos en un tipo de algoritmo RL conocido como Entropía máxima o RL MaxEnt RL corto (Todorov ’06, Rawlik ’08, Ziebart ’10). MaxEnt RL es un pequeño giro en el RL estándar que tiene como objetivo aprender una guía que obtendrá una alta recompensa mientras actúa de la manera más aleatoria posible. Formalmente, MaxEnt maximiza la entropía de la directiva. Algunos trabajos anteriores han observado empíricamente que los algoritmos MaxEnt RL parecen ser robustos a algunas perturbaciones ambientales. Hasta donde sabemos, ningún trabajo previo ha probado realmente que MaxEnt RL sea resistente a las perturbaciones ambientales.

En un artículo reciente, demostramos que cualquier problema de MaxEnt RL equivale a maximizar un piso para un problema de RL robusto. Entonces, cuando ejecuta MaxEnt RL, está resolviendo implícitamente un problema de RL sólido. Nuestro análisis proporciona una explicación basada en la teoría de la solidez empírica de MaxEnt RL y demuestra que MaxEnt RL es en sí mismo un algoritmo RL robusto. En el resto de esta publicación, damos una idea de por qué MaxEnt RL debería ser robusto y contra qué tipo de perturbaciones es resistente MaxEnt RL. También mostraremos algunos experimentos que demuestran la robustez de MaxEnt RL.

Entonces, ¿por qué deberíamos esperar que MaxEnt RL sea resistente a las perturbaciones ambientales? Recuerde que MaxEnt RL entrena las pautas no solo para maximizar la recompensa, sino para hacerlo mientras se opera de la manera más aleatoria posible. En esencia, la propia directiva inyecta la mayor cantidad de ruido posible en el medio ambiente para que pueda “practicar” la recuperación ante desastres. Si el cambio en la dinámica solo aparece como una perturbación en el entorno original, nuestra guía ya ha sido entrenada con dichos datos. Otra forma de ver MaxEnt RL es aprender muchas formas diferentes de resolver la tarea (Kappen ’05). Por ejemplo, veamos la tarea que se muestra en los siguientes videos: Queremos que el robot empuje el objeto blanco hacia el área verde. Los dos videos anteriores muestran que Standard-RL siempre toma la ruta más corta hacia el destino, mientras que MaxEnt RL toma muchas rutas diferentes hacia el destino. Ahora imaginemos que estamos agregando un nuevo obstáculo (bloques rojos) que no se tuvo en cuenta durante el entrenamiento. Como se muestra en los videos en la fila inferior, la guía aprendida de Standard RL casi siempre choca con el obstáculo y rara vez alcanza la meta. Por el contrario, la política MaxEnt RL a menudo elige rutas alrededor del obstáculo y continúa llegando al destino durante una gran parte de los intentos.

RL estándar

MaxEnt RL

Capacitados y evaluados sin obstáculos:

Entrenado sin obstáculos, pero calificado
el obstáculo:

Ahora describimos formalmente los resultados técnicos del documento. El objetivo aquí no es proporcionar una evidencia completa (ver el apéndice), sino más bien desarrollar una intuición de lo que dicen los resultados técnicos. Nuestro principal resultado es que cuando aplica MaxEnt RL con una función de recompensa y algo de impulso, en realidad está maximizando un piso para el objetivo sólido de RL. Para explicar este resultado, primero debemos definir el objetivo de MaxEnt RL: $ J_ {MaxEnt} ( pi; p, r) $ es el rendimiento acumulativo regulado por entropía de la directiva $ pi $ cuando se usa la dinámica $ p (s ‘se valora) mid s, a) $ y función de recompensa $ r (s, a) $. Mientras entrenamos la directriz con un $ p $ dinámico, evaluamos la directriz contra otra dinámica, $ tilde {p} (s ‘ mid s, a) $, que fue elegida por el oponente. Ahora podemos establecer formalmente nuestro resultado principal de la siguiente manera:

El lado izquierdo es la robusta lente RL. Se dice que el oponente puede elegir qué función dinámica $ tilde {p} (s ‘ mid s, a) $ hace que nuestra pauta sea lo más mala posible bajo ciertas restricciones (como lo indica el conjunto $ tilde {) mathcal {P}} $). En el lado derecho tenemos el objetivo MaxEnt RL (tenga en cuenta que $ log T $ es una constante y la función $ exp ( cdots) $ sigue creciendo). Este objetivo dice que una pauta con una recompensa regulada de alta entropía (lado derecho) está garantizada para recibir una recompensa alta si se evalúa sobre la base de una dinámica elegida por los oponentes.

La parte más importante de esta ecuación es el conjunto $ tilde { mathcal {P}} $ de dinámicas entre las que el oponente puede elegir. Nuestro análisis describe exactamente cómo se construye este conjunto y muestra que si queremos que una guía sea robusta a un conjunto más grande de perturbaciones, todo lo que tenemos que hacer es aumentar el peso del término de entropía y disminuir el peso del término de recompensa. El oponente debe elegir intuitivamente una dinámica que se acerque a la dinámica en la que se entrenó la guía. En el caso especial en el que la dinámica es lineal-gaussiana, este conjunto corresponde, por ejemplo, a todas las perturbaciones en las que el siguiente estado originalmente esperado y el siguiente estado esperado perturbado tienen una distancia euclidiana de menos de $ epsilon $.

Nuestro análisis predice que MaxEnt RL debería ser resistente a muchos tipos de perturbaciones. Los primeros videos de esta publicación mostraron que MaxEnt RL es robusto contra obstáculos estáticos. MaxEnt RL también es resistente a las alteraciones dinámicas que ocurren en medio de un episodio. Para demostrar esto, asumimos la misma tarea de empuje de robot y pateamos el disco fuera de lugar en el medio del episodio. Los videos a continuación muestran que la guía aprendida por MaxEnt RL para lidiar con estos trastornos es más sólida, como predice nuestro análisis.

RL estándar

MaxEnt RL

La pauta aprendida por MaxEntRL es robusta contra las perturbaciones dinámicas del disco (marco rojo).

Nuestros resultados teóricos sugieren que las pautas MaxEnt RL siguen siendo sólidas incluso si optimizamos la perturbación ambiental para que el agente lo haga lo peor posible. Para demostrar esta capacidad, capacitamos tanto a Standard RL como a MaxEnt RL para una tarea de inserción de clavijas que se muestra a continuación. Durante la evaluación, cambiamos la posición del agujero para intentar que fallara alguna guía. Si cambiamos la posición del agujero solo un poco ($ le $ 1 cm), ambas pautas siempre resolvieron el problema. Sin embargo, cuando movimos la posición del agujero a 2 cm, la guía aprendida de Standard-RL casi nunca logró insertar el pasador, mientras que la guía MaxEnt-RL tuvo éxito en el 95% de los intentos. Este experimento confirma nuestros resultados teóricos de que MaxEnt es realmente robusto frente a perturbaciones controvertidas (limitadas) en el medio ambiente.

RL estándar

MaxEnt RL

Evaluación de trastornos controvertidos

MaxEnt RL es robusto contra perturbaciones adversas del agujero (donde se encuentra el robot)
inserta el bolígrafo).

En resumen, nuestro artículo muestra que un algoritmo de RL de uso común, MaxEnt RL, ya resuelve un problema de RL robusto. No estamos afirmando que MaxEnt RL superará a los algoritmos RL robustos especialmente diseñados. Sin embargo, la notable simplicidad de MaxEnt RL en comparación con otros algoritmos sólidos de RL sugiere que podría ser una alternativa atractiva para los profesionales que esperan agregar una onza de solidez a sus pautas de RL.

acción de gracias
Gracias a Gokul Swamy, Diba Ghosh, Colin Li y Sergey Levine por sus comentarios sobre los borradores de esta publicación, y a Chloe Hsu y Daniel Seita por ayudar con el blog.


Esta publicación se basa en el siguiente artículo:

Blog de BAIR

Autor invitado

El blog BAIR es el blog oficial del Laboratorio de Investigación de Inteligencia Artificial de Berkeley (BAIR).

[ad_2]