27 de January de 2022

Ajuste de políticas autocontrolado durante la implementación

[ad_1]





Nuestro método aprende una tarea en un entorno fijo y simulado y se adapta rápidamente
a nuevos entornos (por ejemplo, el mundo real) exclusivamente a través de la interacción en línea durante
Compromiso.

La capacidad del hombre para transferir sus conocimientos y experiencias a nuevas situaciones es notable pero poco comprendida. Por ejemplo, imagine a un conductor humano que solo ha conducido previamente por su ciudad con tiempo despejado. Aunque nunca han encontrado diferencias reales en las condiciones de conducción, han adquirido las habilidades básicas de conducción y pueden adaptarse a conducir en ciudades vecinas, bajo la lluvia o el viento, o incluso conducir otro automóvil relativamente rápido, sin mucha práctica o incluso conducir adicionalmente. lecciones de conductor. Si bien los humanos sobresalen en la adaptación, la construcción de sistemas inteligentes con sentido común y la capacidad de adaptarse rápidamente a nuevas situaciones es un problema de larga data en la inteligencia artificial.



Un robot entrenado para realizar una tarea específica en un entorno de laboratorio puede no ser capaz de generalizar
en otros entornos, p. ej. B. un entorno con luces de discoteca en movimiento
aunque la tarea en sí sigue siendo la misma.

En los últimos años, el aprendizaje de pautas cognitivas y conductuales en un marco de principio a fin a través del Aprendizaje por refuerzo profundo (RL) ha tenido un gran éxito, con resultados impresionantes, como un rendimiento sobrehumano en juegos de Atari que se juegan directamente desde píxeles de pantalla. Si bien es impresionante, es de conocimiento común que tales pautas no se generalizan a cambios sutiles en el medio ambiente, cambios a los que los humanos pueden adaptarse fácilmente. Debido a esto, RL ha mostrado un éxito limitado sobre el juego o el entorno en el que se entrenó originalmente, creando un desafío significativo en la implementación de pautas que han sido entrenadas por RL en nuestro mundo real diverso y no estructurado.

En las aplicaciones de RL, los profesionales han intentado mejorar la capacidad de generalización de las pautas introduciendo la aleatorización en el entorno de entrenamiento (por ejemplo, simulación), también conocida como aleatorización de dominios. Al aleatorizar elementos del entorno de entrenamiento que también se espera que varíen en el momento de la prueba, es posible aprender pautas que son inmutables para ciertos factores de variación. Por ejemplo, para la conducción autónoma, queremos que nuestra política sea robusta a los cambios en la iluminación, el clima y las condiciones de la carretera, así como a los modelos de automóviles, edificios cercanos, diferentes diseños de ciudades, etc. Si bien la aleatorización se convierte rápidamente en un desafío técnico complejo, a medida que se tienen en cuenta más y más factores de variación, el problema de aprendizaje en sí también se vuelve más difícil, lo que reduce en gran medida la eficiencia de muestreo de los algoritmos de aprendizaje. Por lo tanto, es natural preguntar: ¿Podemos adaptar una política previamente entrenada al nuevo entorno a través de la interacción, en lugar de aprender una política que pueda resistir todos los cambios ambientales concebibles?




Izquierda: Entrenamiento en un entorno fijo. Ley: Entrenando con
Aleatorización de dominios.

Una forma ingenua de adaptar una política a nuevos entornos es optimizar los parámetros utilizando una señal de recompensa. Sin embargo, en las implementaciones del mundo real, obtener una señal de recompensa a menudo requiere comentarios humanos o una ingeniería cuidadosa, ninguna de las cuales es una solución escalable.

En un trabajo reciente de nuestro laboratorio, hemos demostrado que es posible adaptar una política previamente entrenada a entornos invisibles sin una señal de recompensa o supervisión humana. Una conclusión clave es que en el contexto de muchas implementaciones de RL, el objetivo básico de la tarea sigue siendo el mismo, aunque la representación visual y la dinámica subyacente en comparación con el entorno de formación, p. B. una simulación, puede no coincidir. Cuando entrena una guía en simulación y la implementa en el mundo real (sim2real), a menudo hay diferencias en la dinámica debido a errores en la simulación, y es probable que las entradas visuales capturadas por una cámara difieran de las representaciones de las simulaciones. Por lo tanto, la causa de estos errores es a menudo una comprensión incompleta del mundo y no una especificación incorrecta de la tarea en sí. Por lo tanto, la interacción de un agente con un nuevo entorno puede proporcionarnos información valiosa sobre las diferencias entre su comprensión del mundo y la realidad. .



Ilustración de nuestro marco de ajuste. Izquierda: Entrenamiento antes
Compromiso. El objetivo RL se optimiza junto con uno autocontrolado
El establecimiento de metas. Ley: Ajuste durante el uso. Solo optimizamos eso
Objetivo autocontrolado mediante observaciones recopiladas a través de la interacción
con el medio ambiente.

Para hacer uso de esta información, vayamos a la literatura sobre el aprendizaje autodirigido. Te sugerimos ALMOHADILLA, un marco general para el ajuste de políticas durante el desplieguemediante el uso de la autosupervisión como proxy de la señal de recompensa faltante. Una red de política dada $ pi $, que está parametrizada por una colección de parámetros $ theta $, se divide sucesivamente en un codificador $ pi_ {e} $ y un encabezado de política $ pi_ {a} $, de modo que $ a_ {t} = pi (s_ {t}; theta) = pi_ {a} ( pi_ {e} (s_ {t}; theta_ {e}); theta_ {a}) $ para un estado $ s_ {t} $ y acción $ a_ {t} $ en el momento $ t $. Luego dejamos que $ pi_ {s} $ sea un encabezado de tarea autocontrolado y dejamos que $ pi_ {s} $ comparta el codificador $ pi_ {e} $ con el encabezado de la política. Durante el entrenamiento, trabajamos con la tarea RL para optimizar un objetivo autocontrolado en el que las dos tareas comparten parte de una red neuronal. Durante la implementación, ya no podemos aceptar el acceso a una señal de recompensa y no podemos optimizar el objetivo de RL. Sin embargo, aún podemos optimizar el objetivo autocontrolado mediante el uso de observaciones recopiladas mediante la interacción con el nuevo entorno. Con cada paso en el nuevo entorno, actualizamos la política mediante el autocontrol, utilizando solo las observaciones recopiladas más recientemente:

$$ s_t sim p (s_t | a_ {t-1}, s_ {t-1}) \
theta_ {e}

donde L es un objetivo autocontrolado. Suponiendo que los gradientes del objetivo autocontrolado se correlacionan suficientemente con los del objetivo RL, cualquier adaptación de la tarea autocontrolada también puede influir y corregir errores en la percepción de políticas y la toma de decisiones.

En la práctica utilizamos un modelo dinámico inverso $ a_ {t} = pi_ {s} ( pi_e (s_ {t}), pi_e (s_ {t + 1}))) $ para predecir las acciones sucesivas realizadas entre dos observaciones. Dado que un modelo dinámico inverso conecta las observaciones directamente con las acciones, la guía solo se puede adaptar a las diferencias visuales y dinámicas (por ejemplo, condiciones de iluminación o fricción) entre los entornos de entrenamiento y de prueba al interactuar con el nuevo entorno.

Demostramos la efectividad de la adaptación de guías auto-supervisada (PAD) al entrenar guías para tareas de manipulación de robots en simulación y adaptarlas al mundo real durante su uso en un robot físico, con observaciones registradas directamente desde una cámara no calibrada. Evaluamos la generalización a un entorno robótico real similar a la simulación, así como otros dos escenarios desafiantes: un mantel con mayor fricción y luces de discoteca en continuo movimiento. En la siguiente demostración consideramos un agente SAC (Soft Actor-Critic) que ha sido entrenado con un Modelo de Dinámica Inversa (IDM) con y sin mecanismo de adaptación PAD.



Transferir una guía de la simulación al mundo real. SAC + IDM es un
Política Soft Actor-Critic (SAC) capacitada con un Modelo de Dinámica Inversa (IDM),
y SAC + IDM (PAD) es la misma política pero con la adición de política
Ajuste durante el uso en el robot.

PAD se adapta a los cambios visuales y dinámicos y restaura casi la tasa de éxito original del entorno simulado. La adaptación de políticas es particularmente eficaz cuando el entorno de prueba se diferencia del entorno de formación de varias formas, p. Ej. B. cuando difieren las propiedades visuales y físicas, como la dimensionalidad y la fricción del objeto. Debido a que a menudo es difícil especificar formalmente los elementos que varían entre una simulación y el mundo real, el ajuste de políticas puede ser una alternativa prometedora a las técnicas de aleatorización de dominios en tales entornos.

Las simulaciones ofrecen una buena plataforma para una evaluación más completa de los algoritmos de RL. Junto con PAD, estamos lanzando DMControl Generalization Benchmark, un nuevo punto de referencia para la generalización en RL basado en DeepMind Control Suite, un punto de referencia popular para el control continuo de imágenes. En DMControl Generalization Benchmark, los agentes se entrenan en un entorno fijo y se utilizan en nuevos entornos con p. Ej. B. Se utilizan colores aleatorios o fondos de video que cambian constantemente. Veremos un agente SAC capacitado con un IDM con y sin personalización y lo compararemos con CURL, un método contrastivo discutido en una publicación anterior. Comparamos la capacidad de generalización de los métodos en la siguiente visualización y encontramos, en general, que PAD también puede adaptarse en entornos inestables. Este es un problema desafiante donde los métodos no adaptativos son propensos a fallar. Si bien se encuentra que CURL no se generaliza mejor que el SAC no adaptativo entrenado con un IDM, los agentes aún pueden beneficiarse de la señal de entrenamiento que CURL proporciona durante la fase de entrenamiento. Por lo tanto, se pueden preferir los algoritmos que aprenden tanto durante el entrenamiento y la provisión como a partir de múltiples señales de entrenamiento.



Generalización a un entorno de fondo de video. RIZO es un
método contrastivo, SAC + IDM es una guía SAC capacitada (Soft Actor Critic)
con un modelo de dinámica inversa (IDM) y SAC + IDM (PAD) es el mismo
Política, pero con la adición de un ajuste de política durante la implementación.

El trabajo anterior ha abordado el problema de la generalización en RL a través de la aleatorización, que requiere la anticipación de los cambios ambientales y se sabe que no es bien escalable. Formulamos un problema alternativo en un visionario RL: ¿Podemos adaptar una guía previamente entrenada a entornos invisibles sin recompensas o comentarios humanos? Descubrimos que adaptar las políticas a un objetivo autocontrolado basándose únicamente en las interacciones en el nuevo entorno es una alternativa prometedora a la aleatorización de dominios cuando el entorno objetivo es realmente desconocido. En última instancia, en el futuro, imaginamos agentes que están continuamente aprendiendo y adaptándose a su entorno, y capaces de aprender tanto de la retroalimentación humana explícita como de la interacción no supervisada con el entorno.

Esta publicación se basa en el siguiente artículo:

  • Ajuste de políticas autocontrolado durante la implementación
    Nicklas Hansen, Rishabh Jangir, Yu Sun, Guillem Alenyá, Pieter Abbeel, Alexei A. Efros, Lerrel Pinto, Xiaolong Wang
    Novena Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR), 2021
    arXiv, sitio web del proyecto, código

Blog de BAIR

Autor invitado

El blog BAIR es el blog oficial del Laboratorio de Investigación de Inteligencia Artificial de Berkeley (BAIR).

[ad_2]