Een nieuwe trainingsmethode versnelt en vereenvoudigt het trainen van robots. De methode maakt inzichtelijk hoe een robot een taak die het niet succesvol kon uitvoeren in het vervolg wel met tot een goed einde kan brengen. Dit maakt het mogelijk de werking van de robot te finetunen, zodat deze in het vervolg de taak wel succesvol kan uitvoeren.
De methode is ontwikkeld door Andi Peng, studente elektrotechniek en computerwetenschappen bij Massachusetts Institute of Technology (MIT). Samen met onderzoekers van MIT, de New York University en University of California at Berkely creëerde zij een raamwerk dat mensen in staat stelt een robot met minimale inzet een taak te leren. Kenmerkend hierbij is het gebruik van een algoritme om indien een taak niet slaagt inzichtelijk te maken welke wijzigingen nodig zijn om de robot een taak wel succesvol te laten uitvoeren.
Als concreet voorbeeld noemt MIT een kopje dat een robot moet oppakken, maar hierin niet slaagt. Het algoritme kan in dit geval bijvoorbeeld inzichtelijk maken dat de taak wellicht wel was geslaagd indien het kopje een andere kleur had. Het vraagt vervolgens feedback aan zijn menselijke gebruiker over de reden dat het een taak niet kon uitvoeren. Deze feedback zet het systeem in voor het creëren van nieuwe data.
Deze gegevens gebruikt het systeem voor het finetunen van de werking van de robot. Dit finetunen bestaat in de praktijk uit het verder verfijnen van de werking van een machine learning-model, dat eerder is getraind voor het uitvoeren van een specifieke taak. Op basis van zijn bevindingen en de feedback van gebruikers kan het systeem een dergelijk machine learning-model leren ook een tweede taak uit te voeren.
De methode is in de praktijk door de onderzoekers getest. Hieruit blijkt dat hun systeem robots efficiënter taken kan bijleren dan andere beschikbare methoden. Ook blijkt dat robots die met behulp van het raamwerk zijn getraind in de praktijk betere resultaten opleveren. Tegelijkertijd neemt het trainingsproces minder tijd van mensen in beslag.
De onderzoekers wijzen ook op een ander belangrijk voordeel: voor het gebruik van het systeem is geen specifieke kennis nodig. Het systeem stelt daardoor ook gebruikers zonder technische kennis kunnen in staat robots nieuwe taken te leren. Ook kunnen zij robots eenvoudiger leren opereren in nieuwe en onbekende ruimtes.
Dit laatste is van groot belang. Zo kunnen robots in een praktijkomgeving met objecten en ruimtes geconfronteerd worden die zij tijdens hun training niet zijn tegengekomen. Dit kan ertoe leiden dat robots in de praktijk niet weten hoe zij in een nieuwe omgeving moeten handelen.
Een bekende methode voor het trainen van robots is het zogeheten ‘imitatieleren’. Dit betekent in de praktijk dat een menselijke gebruiker een handeling voordoet, en de robot deze handeling kopieert. Deze trainingsmethode kan echter ook onbedoelde dingen aan een robot leren. Als voorbeeld noemt Peng een trainingssessie waarbij een robot door een mens met een wit kopje wordt getraind. Het kan hierdoor aanleren dat alle kopjes wit zijn, en in de praktijk moeite hebben met het oppakken van bijvoorbeeld rode of blauwe kopjes.
“Ik wil niet met 30.000 kopjes demonstraties uitvoeren; ik wil met slechts één kopje een demonstratie geven. Dan moet ik echter de robot trainen zodat het herkent dat het een kopje met iedere willekeurige kleur kan oppakken”, licht Peng toe.
Het systeem van de onderzoekers leert een robot daarom welk object de gebruiker bij de robot onder de aandacht wil brengen, wat in dit geval een kopje is. Ook identificeert het systeem welke elementen hiervoor niet van belang zijn, zoals de kleur van het kopje. Het gebruikt vervolgens deze informatie voor het genereren van nieuwe data door deze minder belangrijke visuele kenmerken te wijzigen. Dit proces heet ook wel data-augmentatie.
Het raamwerk bestaat uit drie stappen. De eerste stap bestaat uit het identificeren van de taak die de robot niet goed kan uitvoeren. Stap twee bestaat uit het geven van een demonstratie van de gewenste acties door de gebruikers. In stap drie genereert het systeem zogeheten ‘counterfactuals’, waarmee het in kaart brengt wat er moet veranderen om de robot in zijn taak te laten slagen.
Deze counterfactuals legt het systeem vervolgens voor aan een menselijke gebruiker, die hierop feedback geeft. Zo bepaalt het systeem welke visuele concepten niet van impact zijn op de gewenste actie. Op basis van deze menselijke feedback genereert het systeem vervolgens nieuwe demonstraties voor het trainen van de robot. Dit betekent in de praktijk dat een gebruiker bijvoorbeeld één keer een kopje oppakt, waarna het systeem aanvullende demonstraties met duizenden kopjes genereert om de robot verder te trainen.
Het systeem is op dit moment alleen nog getest op basis van een gesimuleerde robots. De onderzoekers willen de komende tijd hun systeem op echte robots testen. Ook willen zij de tijd die het systeem nodig heeft voor het genereren van nieuwe data terugdringen door de inzet van nieuwe generatieve machine learning-modellen.
De onderzoekers presenteren hun onderzoeksresultaten op de International Conference on Machine Learning. Daarnaast is meer informatie beschikbaar in de paper die door de onderzoekers is gepubliceerd.
Auteur: Wouter Hoeffnagel
Foto: Pixabay / Michal Jarmoluk