Le operazioni multi-dominio, il futuro concetto operativo dell’esercito, richiedono agenti autonomi con componenti di apprendimento per operare al fianco del combattente. La ricerca New Army riduce l’imprevedibilità delle attuali politiche di apprendimento per rinforzo della formazione in modo che siano più applicabili ai sistemi fisici, in particolare ai robot terrestri.
Questi componenti di apprendimento permetteranno agli agenti autonomi di ragionare e adattarsi alle mutevoli condizioni del campo di battaglia, ha affermato il ricercatore dell’esercito Dr. Alec Koppel del Comando per lo sviluppo delle capacità di combattimento dell’esercito americano, ora noto come DEVCOM, Army Research Laboratory.
Il meccanismo sottostante di adattamento e riprogettazione consiste in politiche di rinforzo basate sull’apprendimento. Rendere queste politiche ottenibili in modo efficiente è fondamentale per rendere il concetto operativo di MDO una realtà, ha affermato.
Secondo Koppel, i metodi del gradiente politico nell’apprendimento per rinforzo sono la base per algoritmi scalabili per spazi continui, ma le tecniche esistenti non possono incorporare obiettivi decisionali più ampi come sensibilità al rischio, vincoli di sicurezza, esplorazione e divergenza da un precedente.
La progettazione di comportamenti autonomi quando la relazione tra dinamiche e obiettivi è complessa può essere affrontata con l’apprendimento per rinforzo, che ha recentemente guadagnato l’attenzione per aver risolto compiti precedentemente intrattabili come giochi di strategia come go, scacchi e videogiochi come Atari e Starcraft II, ha detto Koppel.
La pratica prevalente, sfortunatamente, richiede una complessità astronomica del campione, come migliaia di anni di gioco simulato, ha detto. Questa complessità di esempio rende molti meccanismi di addestramento comuni inapplicabili alle impostazioni di mancanza di dati richieste dal contesto MDO per il Next-Generation Combat Vehicle, o NGCV.
“Per facilitare l’apprendimento per rinforzo per MDO e NGCV, i meccanismi di formazione devono migliorare l’efficienza e l’affidabilità del campione in spazi continui”, ha detto Koppel. “Attraverso la generalizzazione degli schemi di ricerca delle politiche esistenti a servizi di pubblica utilità, facciamo un passo avanti verso l’abbattimento delle barriere esistenti di efficienza del campione della pratica prevalente nell’apprendimento per rinforzo”.
Koppel e il suo gruppo di ricerca hanno sviluppato nuovi schemi di ricerca politica per i servizi generali, di cui viene stabilita anche la complessità del campione. Hanno osservato che i risultanti schemi di ricerca politica riducono la volatilità dell’accumulo di ricompense, producono un’esplorazione efficiente di domini sconosciuti e un meccanismo per incorporare l’esperienza precedente.
“Questa ricerca contribuisce ad aumentare il classico Teorema del Gradiente di Politica nell’apprendimento per rinforzo”, ha detto Koppel. “Presenta nuovi schemi di ricerca delle politiche per i servizi generali, la cui complessità del campione è anche stabilita. Queste innovazioni hanno un impatto sull’esercito degli Stati Uniti attraverso la loro abilitazione di obiettivi di apprendimento per rinforzo oltre il rendimento cumulativo standard, come sensibilità al rischio, vincoli di sicurezza, esplorazione e divergenza da un precedente “.
In particolare, nel contesto dei robot terrestri, ha affermato, i dati sono costosi da acquisire. “Ridurre la volatilità dell’accumulo di ricompense, assicurarsi di esplorare un dominio sconosciuto in modo efficiente o incorporare l’esperienza precedente, tutto contribuisce a rompere le barriere esistenti di efficienza del campione della pratica prevalente nell’apprendimento per rinforzo, alleviando la quantità di campionamento casuale richiesto per completa ottimizzazione delle politiche “, ha affermato Koppel.
Il futuro di questa ricerca è molto luminoso e Koppel ha dedicato i suoi sforzi per rendere le sue scoperte applicabili per la tecnologia innovativa per i soldati sul campo di battaglia.
“Sono ottimista sul fatto che i robot autonomi dotati di apprendimento per rinforzo saranno in grado di assistere il combattente nell’esplorazione, ricognizione e valutazione del rischio sul futuro campo di battaglia”, ha detto Koppel. “Che questa visione diventi realtà è essenziale per ciò che motiva i problemi di ricerca a cui dedico i miei sforzi”.
Il passo successivo per questa ricerca è quello di incorporare gli obiettivi decisionali più ampi abilitati dalle utilità generali nell’apprendimento per rinforzo in contesti multi-agente e indagare come le impostazioni interattive tra agenti di apprendimento per rinforzo danno luogo a ragionamenti sinergici e antagonistici tra i team.
Secondo Koppel, la tecnologia che risulta da questa ricerca sarà in grado di ragionare in condizioni di incertezza negli scenari di squadra.
Riferimento; “Metodo del gradiente di politica variabile per l’apprendimento per rinforzo con utilità generali” di Junyu Zhang, Alec Koppel, Amrit Singh Bedi, Csaba Szepesvari e Mengdi Wang, NeurIPS Proceedings .