
ReMoBot : apprentissage par imitation en quelques exemples pour la manipulation mobile avec des modèles fondation visuels
Des chercheurs ont publié ReMoBot (arXiv:2408.15919v4), un framework d'apprentissage par imitation à peu d'exemples conçu pour la manipulation mobile sur robots à vision égocentrique. Évalué sur un Boston Dynamics Spot, le système atteint des taux de succès de 70 % sur la tâche "Table Uncover" et 80 % sur "Gap Cover" en environnement réel, avec seulement 20 démonstrations par tâche. Plutôt que de distiller les démonstrations dans une politique paramétrique classique, ReMoBot adopte une stratégie de récupération : à l'inférence, il identifie dans une base de démonstrations d'experts les séquences les plus pertinentes via une combinaison de similarité d'état, d'alignement temporel des trajectoires et de cohérence des séquences d'actions, puis sélectionne directement les commandes motrices sans aucun entraînement supplémentaire. L'ensemble s'appuie sur des vision foundation models pour extraire des représentations robustes depuis la caméra embarquée du robot, en fonctionnement totalement training-free à l'exécution.
L'approche retrieval-based présente deux avantages concrets pour les intégrateurs industriels. D'abord, le coût de collecte de données est drastiquement réduit : 20 démonstrations contre plusieurs centaines requises par les méthodes IL standard (ACT, Diffusion Policy), ce qui accélère le déploiement sur de nouvelles tâches ou variantes. Ensuite, l'absence d'entraînement à l'inférence supprime le risque de surapprentissage sur données insuffisantes, problème récurrent avec les objets déformables où la variabilité des états est élevée. ReMoBot surpasse deux baselines entraînées directement sur données réelles sans transfert sim-to-réel sur deux tâches sur trois. La tâche "Curtain Open" reste problématique, signalant que la manipulation d'objets hautement déformables sous occultations partielles constitue encore un verrou non résolu, y compris pour les approches retrieval.
ReMoBot s'inscrit dans la tendance à exploiter les vision foundation models (de la famille DINOv2, CLIP, SAM) pour réduire la dépendance aux données propriétaires et améliorer la généralisation. Sur le Spot de Boston Dynamics, plateforme quadrupède commerciale, la manipulation mobile reste un défi structurel : le robot se déplace en même temps qu'il manipule, rendant l'observation égocentrique partielle et bruitée. Face aux VLA de grande taille comme pi-0 (Physical Intelligence) ou RT-2 (Google DeepMind), qui exigent des volumes de données considérables et une infrastructure d'entraînement lourde, ReMoBot se positionne dans le segment "data-efficient, training-free" particulièrement pertinent pour les intégrateurs ou PME industrielles sans capacité de collecte à grande échelle. La prochaine étape logique serait d'enrichir dynamiquement la base de démonstrations et de valider l'approche dans des environnements industriels hors laboratoire contrôlé.
Les PME et intégrateurs robotiques européens sans capacité de collecte de données à grande échelle pourraient bénéficier directement de cette approche data-efficient (20 démos vs plusieurs centaines), réduisant la barrière d'entrée au déploiement de manipulation mobile intelligente.
Dans nos dossiers




