Wetenschappers van NVIDIA, onder leiding van Stan Birchfield en Jonathan Tremblay, hebben een eerste op deep-learning gebaseerd systeem ontwikkeld, waarmee een robot een taak kan uitvoeren, puur door het observeren van een menselijke handeling. De methode is ontworpen om de communicatie tussen mensen en robots te verbeteren en verder te onderzoeken hoe mensen in staat zijn om naadloos naast robots te werken.
“Als robots nuttige taken moeten uitvoeren in de ‘real world’, dan moet het eenvoudig zijn om de betreffende taak te communiceren naar de robot, inclusief het gewenste resultaat en hints om het doel te bereiken,” zeggen de wetenschappers in hun ‘research paper’. “Door middel van demonstraties kan de gebruiker communiceren met de robot en tips geven hoe een bepaalde taak het beste uit te voeren.”
Neurale netwerken
Door gebruik te maken van NVIDIA Titan X GPU’s, trainden de onderzoekers een reeks neurale netwerken om taken uit te voeren die verband houden met perceptie, het genereren van programma’s en het uitvoeren van programma’s. Als gevolg hiervan kon de robot een taak leren van een enkele demonstratie in de echte wereld.
Zodra de robot een taak ziet, genereert deze een door mensen leesbare beschrijving van de stappen die nodig zijn om de taak opnieuw uit te voeren. Met de beschrijving kan de gebruiker problemen met de interpretatie van de robot van de menselijke demonstratie snel identificeren en corrigeren voordat deze wordt uitgevoerd op de echte robot.
Gelabelde trainingsdata
De oplossing tot het bereiken van deze mogelijkheid is het benutten van de kracht van synthetische data om de neurale netwerken te trainen. Huidige benaderingen voor het trainen van neurale netwerken vereisen grote hoeveelheden gelabelde trainingsdata, wat een knelpunt kan vormen in deze systemen. Met het genereren van synthetische data kan een vrijwel oneindige hoeveelheid gelabelde trainingsdata met zeer weinig inspanning worden geproduceerd.

Een beschrijving van hoe de methode werkt: een camera maakt een live video feed van een scène. De posities en relaties van objecten in de scène worden in realtime afgeleid door een paar neurale netwerken. De resulterende waarnemingen worden naar een ander netwerk geleid dat een plan genereert om uit te leggen hoe deze percepties opnieuw kunnen worden gemaakt. Ten slotte leest het uitvoerende netwerk het plan en genereert acties voor de robot, waarbij rekening wordt gehouden met de ‘huidige wereld’ om zich te wapenen tegen externe invloeden (bron: NVIDIA).
Domain randomization
Dit is ook de eerste keer dat een image-centric ‘Domain Randomization’-benadering op een robot is toegepast. Domain randomization is een techniek om synthetische data met grote hoeveelheden aan diversiteit te produceren, die vervolgens het perceptienetwerk ‘voor de gek houden’ om de real-world data te zien als gewoon een andere variatie van zijn trainingsdata. De onderzoekers kozen ervoor om de gegevens beeldgericht te verwerken om ervoor te zorgen dat de netwerken niet afhankelijk zijn van de camera of omgeving.
“Het perceptienetwerk zoals beschreven, is van toepassing op elk rigide ‘real-world’ object dat redelijkerwijs kan worden benaderd door zijn 3D-begrenzingsbalk”, aldus de onderzoekers. “Ondanks het nooit waarnemen van een echt beeld tijdens de training, detecteert het waarnemingsnetwerk op betrouwbare wijze de grenzen van objecten in echte beelden, zelfs onder ernstige blokkades.”
Aanvullende scenario’s
Voor hun demonstratie trainde het team objectdetectors op verschillende gekleurde blokken en een speelgoedauto. Het systeem leerde de fysieke relatie van de blokken, of ze nu op elkaar worden gestapeld of naast elkaar worden geplaatst.
In de video toont de menselijke operator een paar stapels kubussen aan de robot. Het systeem leidt vervolgens een geschikt programma af en plaatst de kubussen correct in de juiste volgorde. Omdat het tijdens de uitvoering rekening houdt met de ‘huidige wereld’, kan het systeem realtime fouten herstellen.
Het team zegt door te gaan met het onderzoek naar het gebruik van synthetische trainingsgegevens voor robotica-manipulatie om zodoende de mogelijkheden van hun methode uit te breiden met aanvullende scenario’s.
Lees hier het onderzoek.


