Inicio

Enlaces

viernes, 14 de agosto de 2020

El ejército de EE.UU avanza en la capacidad de aprendizaje de los enjambres de drones

[Concepto artístico] Los investigadores del ejército desarrollan un enfoque de aprendizaje de refuerzo llamado Aprendizaje de Refuerzo Jerárquico que permitirá a enjambres de vehículos aéreos y terrestres no tripulados cumplir de forma óptima varias misiones, minimizando la incertidumbre del rendimiento en el campo de batalla. (Shutterstock)

ADELPHI, Md. -- Investigadores del ejército de EE.UU desarrollaron un enfoque de aprendizaje de refuerzo que permitirá a enjambres de vehículos aéreos y terrestres no tripulados cumplir de forma óptima varias misiones, a la vez que se minimiza la incertidumbre en el rendimiento.

El enjambre es un método de operaciones en el que múltiples sistemas autónomos actúan como una unidad cohesiva coordinando activamente sus acciones.

Los investigadores del ejército dijeron que las futuras batallas de múltiples dominios requerirán enjambres de plataformas móviles heterogéneas coordinadas y acopladas dinámicamente para superar las capacidades del enemigo y las amenazas que se ciernen sobre las fuerzas estadounidenses.

Un pequeño robot no tripulado Clearpath Husky, que fue utilizado por los investigadores de ARL para desarrollar una nueva técnica para enseñar rápidamente a los robots nuevos comportamientos de travesía con un mínimo de supervisión humana. (Ejército de los Estados Unidos)

El Ejército está buscando tecnología de enjambre para poder ejecutar tareas largas y peligrosas, dijo el Dr. Jemin George del Laboratorio de Investigación del Ejército del Comando de Desarrollo de Capacidades de Combate del Ejército de los Estados Unidos.

"Encontrar políticas de orientación óptimas para estos vehículos de enjambrazón en tiempo real es un requisito clave para mejorar la conciencia de situación táctica de los combatientes, permitiendo que el Ejército de los EE.UU. domine en un entorno competitivo", dijo George.

El aprendizaje de refuerzo proporciona una forma de controlar de forma óptima a los agentes inciertos para lograr objetivos múltiples cuando no se dispone del modelo preciso para el agente; sin embargo, los planes de aprendizaje de refuerzo existentes sólo pueden aplicarse de forma centralizada, lo que requiere reunir la información de estado de todo el enjambre en un aprendiz central. Esto aumenta drásticamente la complejidad computacional y los requisitos de comunicación, lo que resulta en un tiempo de aprendizaje irrazonable, dijo George.

Para resolver este problema, en colaboración con la Prof. Aranya Chakrabortty de la Universidad Estatal de Carolina del Norte y el Prof. He Bai de la Universidad Estatal de Oklahoma, George creó un esfuerzo de investigación para abordar el problema de aprendizaje de refuerzo a gran escala y con múltiples agentes. El Ejército financió este esfuerzo a través del Premio de Investigación del Director para la Iniciativa de Colaboración Externa, un programa de laboratorio para estimular y apoyar investigaciones nuevas e innovadoras en colaboración con socios externos.

El objetivo principal de este esfuerzo es desarrollar una base teórica para un control óptimo basado en datos para redes de enjambres a gran escala, en las que las acciones de control se llevarán a cabo basándose en datos de medición de baja dimensión en lugar de modelos dinámicos.

El enfoque actual se denomina Aprendizaje de Refuerzo Jerárquico, o HRL, y descompone el objetivo de control global en múltiples jerarquías, a saber, un control microscópico múltiple a nivel de pequeños grupos y un control macroscópico amplio a nivel de enjambre.

"Cada jerarquía tiene su propio bucle de aprendizaje con sus respectivas funciones de recompensa locales y globales", dijo George. "Pudimos reducir significativamente el tiempo de aprendizaje ejecutando estos bucles de aprendizaje en paralelo"

Los investigadores del ejército prevén un control superior para la coordinación de los vehículos terrestres y aéreos. (Gráfico del Ejército de los Estados Unidos)

Según George, el control de aprendizaje de refuerzo en línea del enjambre se reduce a resolver una ecuación de Riccati de matriz algebraica a gran escala utilizando datos de entrada y salida del sistema, o del enjambre.

El enfoque inicial de los investigadores para resolver esta ecuación matricial de Riccati a gran escala fue dividir el enjambre en múltiples grupos más pequeños e implementar el aprendizaje de refuerzo local a nivel de grupo en paralelo, mientras se ejecutaba un aprendizaje de refuerzo global en un estado comprimido de dimensiones más pequeñas de cada grupo.

Su actual esquema de HRL utiliza un mecanismo de desdoblamiento que permite al equipo aproximarse jerárquicamente a una solución de la ecuación matricial a gran escala resolviendo primero el problema de aprendizaje de refuerzo local y luego sintetizando el control global de los controladores locales (resolviendo un problema de mínimos cuadrados) en lugar de ejecutar un aprendizaje de refuerzo global en el estado agregado. Esto reduce aún más el tiempo de aprendizaje.

Los experimentos han demostrado que, en comparación con un enfoque centralizado, el HRL fue capaz de reducir el tiempo de aprendizaje en un 80%, limitando al mismo tiempo la pérdida de optimización al 5%.

"Nuestros esfuerzos actuales de HRL nos permitirán desarrollar políticas de control para enjambres de vehículos aéreos y terrestres no tripulados de manera que puedan cumplir óptimamente diferentes conjuntos de misiones aunque se desconozca la dinámica individual de los agentes del enjambre", dijo George.

George declaró que confía en que esta investigación tendrá repercusiones en el futuro campo de batalla, y que ha sido posible gracias a la innovadora colaboración que ha tenido lugar.

"El propósito principal de la comunidad científica y tecnológica de la ARL es crear y explotar el conocimiento científico para la transformación de la superposición", dijo George. "Al comprometerse con la investigación externa a través de la CTI y otros mecanismos de cooperación, esperamos llevar a cabo una investigación fundacional perturbadora que conduzca a la modernización del Ejército, al mismo tiempo que sirva como el principal vínculo de colaboración del Ejército con la comunidad científica mundial".

El equipo está trabajando actualmente para mejorar aún más su esquema de control de HRL considerando la agrupación óptima de agentes en el enjambre para minimizar la complejidad de la computación y la comunicación, limitando al mismo tiempo la brecha de la optimización.

También están investigando el uso de redes neuronales profundas y recurrentes para aprender y predecir los mejores patrones de agrupamiento y la aplicación de técnicas desarrolladas para la coordinación óptima de vehículos aéreos y terrestres autónomos en operaciones multidominio en terreno urbano denso.

George, junto con los asociados de la CTI, organizó y presidió recientemente una sesión virtual invitada sobre el aprendizaje del refuerzo de los agentes múltiples en la Conferencia de Control de los Estados Unidos de América de 2020, en la que presentaron los resultados de sus investigaciones.

Fuente:https://www.army.mil

No hay comentarios:

Publicar un comentario