Forskare använder AI för att träna robotar snabbare och enklare

Kanske har alla sett många videor av Boston Dynamics-anställda som "mockar" robotar och tränar dem att övervinna oförutsedda hinder. Detta är dock en mödosam process som innebär att utvecklare arbetar, testar under verkliga förhållanden, korrigerar fel och upprepar denna process tills acceptabla resultat uppnås.

För att optimera denna process beslutade ett forskarlag från University of Pennsylvania, University of Texas i Austin och nVidia att använda DrEureka, en stor språkmodell som är utformad för att överbrygga klyftan mellan virtuella och verkliga miljöer och träna robotar utan behov av testare eller verkliga hinder. DrEureka är ett tillägg till nVidias Eureka-verktyg.

Eureka är en LLM som automatiserar processen att träna neurala nätverk genom positiv förstärkningsinlärning (en process som i huvudsak liknar mänsklig träning). Systemet tillkännagavs i oktober 2023. Eureka är baserat på ChatGPT-4, förstår normalt tal och kräver inte en exakt beskrivning av de parametrar som ska korrigeras. Eureka kan använda stora urval av resultat från neurala nätverk för att bestämma den bästa kandidaten för positiv förstärkning. Dessutom genererar systemet själv statistik över resultaten, som används för att skapa nya tränings- och förstärkningsparametrar. Med andra ord tränar det neurala nätverket det neurala nätverket enligt utvecklarens allmänna instruktioner.

DrEureka har ett antal fördelar jämfört med Eurekas grundmodell tack vare sina integrerade säkerhetsinstruktioner och sitt positiva förstärkningssystem.

I ett experiment kunde forskarna lära fyrfotadjuret att balansera och gå på en yogaboll i en simulering, och sedan kunde den göra det omedelbart vid sitt första försök i verkligheten.

Avancerade LLM:er som GPT-4 kommer med en inbyggd avancerad förståelse för fysikaliska begrepp som friktion, dämpning, styvhet, gravitation med mera. "Vi är (något) förvånade över att DrEureka kan ställa in dessa parametrar väl och motivera sitt resonemang väl", skrev Jim Fan, nVidia.

Forskarna blev glatt överraskade över att robothunden korrekt hanterade nödsituationer, som förändringar i terrängen eller en minskning av trycket i bollen, under sin första utplacering i verkligheten.

Idag innebär processen med att lansera en robot i den verkliga världen ett noggrant och tråkigt arbete av mycket skickliga robotiker som manuellt måste välja de parametrar som ska överföras till den verkliga världen och de som kan komma att ändras. Användningen av virtuella miljöer kommer att avsevärt minska tiden och kostnaden för att träna robotar i olika aktiviteter.

Forskargruppen har publicerat resultaten av experimentet på GitHub så att fler människor kan delta i processen.

Källa: interestingengineering.com