Récupération après chute sur terrains variés par…

Récupération robuste après chute pour robots bipèdes à roues sans bras par apprentissage guidé par les forces

38

1arXiv cs.RO

Récupération robuste après chute pour robots bipèdes à roues sans bras par apprentissage guidé par les forces

Des chercheurs présentent FTSR (Force-guided Teacher-student framework with Stage-wise Rewards), une méthode d'apprentissage par renforcement pour la récupération après chute des robots bipèdes à roues sans bras, publiée sur arXiv en juin 2026 (arXiv:2606.14270). En simulation, une force auxiliaire externe corrélée en temps réel à la hauteur du robot est formulée comme contrainte optimisable : l'algorithme d'apprentissage contraint pousse la politique à réduire progressivement sa dépendance à cette force tout en relevant le corps. Une architecture teacher-student distille la connaissance privilégiée des dynamiques de récupération, structurée par des récompenses progressives par seuils de hauteur (height-progressive stage-wise rewards). La politique est ensuite déployée sur un robot bipède à roues sans bras physique, testée dans des conditions variées et difficiles, et transfère également à un humanoïde à nombreux degrés de liberté (high-DOF). Sans bras ni pattes supplémentaires pour générer des forces d'appui, un bipède à roues figure parmi les morphologies robotiques les plus contraintes pour la récupération après chute. FTSR contourne ce verrou en injectant une force auxiliaire virtuelle pendant l'entraînement en simulation, puis en la supprimant graduellement via une contrainte optimisable : le robot développe ainsi des stratégies de redressement internes sans jamais dépendre d'un artefact absent en conditions réelles. La validation sim-to-real sur robot physique, combinée à la généralisation à un humanoïde high-DOF sans sur-adaptation à une cinématique spécifique, renforce la crédibilité pratique de l'approche pour les équipes travaillant sur plusieurs plateformes. C'est précisément ce gap entre démonstration en simulation et déploiement physique robuste que FTSR cherche à combler, avec des résultats qui méritent d'être suivis. Les robots bipèdes à roues occupent une niche croissante entre les AMR classiques et les humanoïdes complets : ils combinent mobilité sur terrain plat et capacité partielle à franchir des obstacles, à un coût mécanique inférieur. Sur le problème précis de la récupération après chute, les travaux existants se concentrent sur les humanoïdes avec bras (Boston Dynamics Atlas) et les quadrupèdes multi-pattes (ANYmal d'ANYbotics, Unitree Go2), laissant peu de littérature sur les morphologies intermédiaires sans membres supérieurs. FTSR reste à ce stade un preprint arXiv sans déploiement industriel annoncé et sans plateforme commerciale nommée ; les suites naturelles seraient une évaluation sous perturbations extérieures actives et une intégration dans une stack de navigation autonome complète.

RecherchePaper

1 source

GuideWalk : apprentissage de la navigation autonome et de la locomotion unifiées pour robots humanoïdes sur terrains variés

33

2arXiv cs.RO

GuideWalk : apprentissage de la navigation autonome et de la locomotion unifiées pour robots humanoïdes sur terrains variés

Des chercheurs présentent GuideWalk (arXiv:2606.10449, juin 2026), un framework unifié qui couple navigation autonome et locomotion adaptative pour robots humanoïdes sur terrains variés. L'architecture repose sur trois composantes : un module de navigation qui génère des guidances de vitesse explicites en tenant compte de la traversabilité du terrain, un schéma de distillation à enseignants composites qui agrège commandes directionnelles et actions dynamiquement cohérentes dans une politique unique, puis un affinement par apprentissage par renforcement (RL) couplé à un objectif auxiliaire de clonage comportemental (behavior cloning). Ce dernier mécanisme vise à maintenir les comportements souhaitables issus des enseignants tout en favorisant l'exploration. L'article reste au stade de preprint arXiv sans déploiement industriel annoncé ni métriques benchmarkées publiées dans l'abstract. Le problème technique adressé est structurant pour la robotique humanoïde : l'évitement d'obstacles et la locomotion dynamique sont habituellement traités en silos, ce qui crée des incohérences lorsqu'un robot planifie sur escaliers, sol accidenté ou transitions sol dur/mou. GuideWalk découple explicitement la planification d'obstacles de l'état du terrain, ce qui est une approche architecturale plus propre que les solutions end-to-end brutes ou les pipelines hiérarchiques rigides. Pour les intégrateurs et décideurs B2B, le vrai enjeu est le sim-to-real gap sur locomotion hétérogène : si cette architecture tient ses promesses en évaluation externe, elle pourrait réduire le besoin d'ingénierie terrain-spécifique lors du déploiement en entrepôt ou en environnement industriel non structuré. La navigation humanoïde sur terrains complexes reste un des derniers verrous majeurs avant déploiement opérationnel large, là où la locomotion pure en terrain plat est désormais relativement résolue chez Unitree (H1, G1), Boston Dynamics (Atlas) ou Agility Robotics (Digit). Des approches concurrentes comme GR00T N2 de NVIDIA ou les travaux de Physical Intelligence (Pi-0) s'attaquent au même problème via des Visual Language Action models (VLA) généralisés, tandis que des labos académiques comme CMU ou Berkeley publient régulièrement sur le sim-to-real en locomotion adaptative. GuideWalk s'inscrit dans cette vague mais avec une contribution méthodologique spécifique sur le couplage navigation-locomotion. Les prochaines étapes naturelles seraient une évaluation sur hardware réel (le preprint ne précise pas le robot utilisé) et une comparaison quantitative avec des baselines établies.

RecherchePaper

1 source

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration

42

3arXiv cs.RO

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration

Des chercheurs présentent ReGIL (Retrieval-Guided Imitation Learning), un framework d'apprentissage par imitation capable d'entraîner un robot manipulateur à partir d'une seule démonstration. La méthode traite cette démonstration unique comme une mémoire externe statique, interrogée en continu durant l'entraînement pour guider simultanément l'exploration, générer un buffer de régularisation et construire les récompenses. Le calcul de récompense repose sur un alignement temporel local entre la trajectoire courante et le segment récupéré, fournissant un feedback pas-à-pas plutôt qu'un signal binaire succès/échec. Évalué sur les benchmarks LIBERO et Meta-World, ReGIL surpasse les baselines antérieures en taux de réussite et en efficacité d'entraînement. Sur robot réel, avec une seule démonstration et moins d'une heure d'entraînement en ligne, le système atteint plus de 75 % de taux de réussite sur trois tâches de manipulation avec randomisation à la fois de la pose initiale du robot et de la position cible. Ces résultats sont issus d'un preprint arXiv (2606.09381) et n'ont pas encore été soumis à revue par les pairs. Le principal défi que ReGIL cherche à résoudre est connu sous le nom de "compounding error" : en imitation learning classique (behavior cloning), les petites déviations par rapport à la trajectoire démontrée s'accumulent et mènent rapidement à l'échec, ce qui oblige généralement à collecter des centaines, voire des milliers de démonstrations. Ramener ce seuil à une seule démonstration plus moins d'une heure d'interaction en ligne représente un gain opérationnel significatif pour le déploiement industriel, où la collecte de données est coûteuse. Le taux de 75 % obtenu avec randomisation de pose et de cible est un indicateur de robustesse plus solide qu'une démonstration en conditions fixes, même si l'absence de détails sur les tâches spécifiques et la complexité des scènes limite l'interprétation. L'apprentissage par imitation à faible nombre de démonstrations est un axe de recherche très actif, concurrencé notamment par les modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou les politiques de diffusion (Diffusion Policy, ACT). Ces approches misent sur des grandes quantités de données préentraînées pour compenser la rareté des démos spécifiques à une tâche, là où ReGIL propose une alternative radicalement data-light. Le benchmark LIBERO est devenu un standard de fait pour comparer ces méthodes en simulation, et Meta-World permet d'évaluer la généralisation multi-tâches. La prochaine étape logique serait une validation sur des tâches de manipulation plus complexes et une publication dans une conférence de robotique (ICRA, CoRL, RSS) pour valider les claims de manière indépendante.

RecherchePaper

1 source

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

40

4arXiv cs.RO

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Une équipe du Weird Lab de l'Université de Washington publie sur arXiv (arXiv:2606.09758, juin 2026) une méthode appelée DARP (Difference-Aware Retrieval Policies for Imitation Learning), une approche semi-paramétrique d'apprentissage par imitation. Le principe central : plutôt que d'apprendre un mapping global état-action via un réseau de neurones pur (behavior cloning standard), DARP entraîne un modèle à prédire des actions en s'appuyant sur les k plus proches voisins (k-NN) extraits des démonstrations expertes, leurs actions associées, et les vecteurs de distance relative entre les états voisins et l'état requête courant. En reformulant le problème d'imitation en termes de structure de voisinage local plutôt que de mappings directs, la méthode revendique des gains de performance de 15 à 46 % sur behavior cloning standard, mesurés sur des benchmarks de contrôle continu et de manipulation robotique, y compris avec des représentations visuelles haute dimension. L'amplitude de cette fourchette suggère des variations importantes selon les tâches et les domaines évalués. L'intérêt concret de DARP réside dans sa capacité à atténuer le problème de "compounding errors" : lors du déploiement, un agent entraîné par behavior cloning accumule des erreurs en rencontrant des états hors distribution, dégradant rapidement les performances. En réutilisant les données d'entraînement au moment de l'inférence, DARP introduit une forme de mémoire épisodique sans nécessiter de collecte de données supplémentaires, de feedback expert en ligne, ni de connaissance spécifique à la tâche. C'est là la distinction clé vis-à-vis de méthodes comme DAgger (Ross et Bagnell, 2011), qui résolvent la distribution shift mais exigent des requêtes à l'expert pendant l'entraînement, une contrainte souvent rédhibitoire en robotique industrielle réelle. Le behavior cloning reste une méthode de référence pour son absence de contraintes opérationnelles, mais sa fragilité face à la distribution shift en limite la portée pour des déploiements à grande échelle. DARP s'inscrit dans un courant de méthodes semi-paramétriques qui connaît un regain d'intérêt avec la montée des politiques génératives : l'idée de conserver explicitement une mémoire des démonstrations plutôt que de tout comprimer dans des poids de réseau est cohérente avec les architectures hybrides actuelles, comme les VLA Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les résultats sur représentations visuelles haute dimension ouvrent la voie à des applications sur des manipulateurs avec vision RGB, domaine où les approches purement paramétriques montrent encore des limites significatives. Le code et les démonstrations sont disponibles publiquement via le site des auteurs.

RecherchePaper

1 source

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

À lire aussi

Récupération robuste après chute pour robots bipèdes à roues sans bras par apprentissage guidé par les forces

GuideWalk : apprentissage de la navigation autonome et de la locomotion unifiées pour robots humanoïdes sur terrains variés

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation