Onderzoekers hebben een nieuwe manier ontdekt om autonome voertuigen te trainen. Hierbij wordt een aanpak gehanteerd die veel lijkt op de wijze waarop kinderen leren fietsen. De auto wordt een veilige omgeving geboden om in te oefenen, waarna het voertuig aan de hand van correcties door een menselijke instructeur zelfstandig leert hoe hij binnen zijn baan moet blijven.
De aanpak is ontwikkeld door Wayve, een bedrijf dat is opgericht door een team van de Engineering Department van de Cambridge University. Leden voor het team zijn onder andere actief geweest voor de Cambridge & Oxford University, BCG, Ubisoft, Goldman Sachs, Microsoft Research, Skydio, NASA en Facebook AI Research. Wayve stelt een unieke end-to-end machine learning aanpak te hebben ontwikkeld waarmee autonome voertuigen efficiënter kunnen leren op onbekende plekken te rijden dan concurrerende technologie.
Autonome voertuigen maken gebruik van machine learning algoritmen, die worden getraind met behulp van uitgebreide datasets. Dit is een tijdrovend proces en vereist een kwalitatief goede dataset. “Hedendaagse zelfrijdende auto’s zijn voorzien van een groot aantal sensoren en worden verteld hoe zij moeten rijden aan de hand van een lange lijst regels die handmatig zijn opgesteld via langzame ontwikkelcycli”, legt Wayve in een blogpost uit.
Wayve kiest voor een andere aanpak en stelt hierbij terug te gaan naar de basis. Het team leert een autonoom voertuig binnen zijn rijbaan te blijven via een trial en error-proces, dat veel lijkt op de wijze waarop mensen leren fietsen. “Kunt u zich herinneren hoe u als kind op een fiets leerde rijden? Enthousiast en licht nerveus zat u waarschijnlijk voor het eerst op een fiets en trapte terwijl een volwassenen over u heen was gebogen, klaar om u op te vangen indien u uw balans verloor. Na enkele wankele pogingen slaagde u er wellicht in uw balans voor enkele meters te behouden. Enkele uren later scheurde u over grind en grasdoor het park”, aldus Wayve.
Het team wijst erop dat kinderen hierbij geen uitgebreide reeks instructies meekrijgen, geen gedetailleerde 3D-kaart van het park nodig hebben en geen sensoren op hun hoofd hoeven te dragen. Een volwassene geeft het kind simpelweg een veilige omgeving waarin het kan leren observaties om te zetten in handelingen en op basis hiervan op een fiets te rijden.
Wayve heeft dit proces in belangrijke mate gerepliceerd voor autonome voertuigen. Dit is mogelijk dankzij het gebruik van een machine learning algoritme dat een ‘deep reinformement learning algoritme’ wordt genoemd. De onderzoekers wijzen erop dat dit algoritme vrij verkrijgbaar en is niet is ontwikkeld voor deze specifieke taak. Het algoritme krijgt data voorgeschoteld die wordt verzameld door één enkele camera, op basis waarvan het algoritme zijn positie binnen een rijbaan kan bepalen. Het voertuig probeert op basis van deze gegevens binnen zij rijbaan te blijven. Indien het voertuig de wegmarkering dreigt te overschrijden corrigeert een menselijke instructeur het voertuig en wordt de taak opnieuw uitgevoerd.
Op basis van deze correcties kan het algoritme zijn werking verbeteren, waardoor steeds minder correcties nodig zijn en het voertuig steeds nauwkeuriger binnen zijn rijbaan kan blijven. Het team van Wayve wist hierdoor tijdens een test in 15 tot 20 minuten een voertuig te leren hoe het binnen zijn rijbaan moet blijven. In de onderstaande video wordt het trainingsproces getoond.
De onderzoekers verwachten dat hun ontwikkeling de kwaliteit van zelfrijdende voertuigen aanzienlijk kan verbeteren. “Hedendaagse zelfrijdende auto’s zitten vast op een prestatieniveau dat goed, maar niet goed genoeg is. We leveren nu bewijs voor het eerste haalbare raamwerk om rij-algoritmes snel te verbeteren van middelmatig naar rijklaar. De mogelijkheid via een slim trial en error-proces te leren hoe taken opgelost kunnen worden hebben van mensen zeer veelzijdige machines gemaakt die in staat zijn te evolueren en te overleven. We leren via een combinatie van imitatie en in belangrijke mate trial en error voor taken variërend van fietsen tot koken”, legt Wayve uit.
Daarnaast wijst het team erop dat zelfrijdende auto’s doorgaans voorzien zijn van een groot aantal sensoren en in principe een onbeperkt budget kan worden besteed aan dergelijke apparatuur. Het onderzoek toont echter aan dat deze geavanceerde sensoren niet nodig zijn voor eenvoudige rijtaken en deze ook kunnen worden uitgevoerd met een monoculair camerabeeld in combinatie met informatie over de snelheid van het voertuig en de hoek waaronder het stuur staat.
Dat deep reinforcement learning veelbelovende mogelijkheden biedt demonstreerde eerder ook DeepMind, onderdeel van Google’s moederbedrijf Alphabet. DeepMind heeft deze methode ingezet om kunstmatige intelligentie (AI) te trainen om onder meer Go, Chess en een aantal computerspellen te spelen. In nagenoeg alle gevallen wist de AI zijn menselijke tegenstanders te verslaan. De onderzoekers wijzen erop dat DeepMind’s algoritmen miljoenen pogingen nodig hebben om een taak op te lossen. De onderzoekers noemen het dan ook opmerkelijk dat zij in minder dan twintig pogingen erin zijn geslaagd een zelfrijdende voertuig te leren op consistente wijze binnen zijn rijbaan te blijven.
Alle bevindingen van Wayve worden beschreven in de onderzoekspaper ‘Learning To Drive in a Day‘.
Auteur: Wouter Hoeffnagel
Bron: Wayve
Bron: Onderzoekspaper ‘Learning To Drive in a Day’