Aller au contenu principal
Apprentissage de politiques de loco-manipulation quadrupède avec perception tactile
RecherchearXiv cs.RO6sem

Apprentissage de politiques de loco-manipulation quadrupède avec perception tactile

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en avril 2026 sur arXiv (2604.27224) un pipeline hiérarchique de loco-manipulation pour robots quadrupèdes intégrant le retour tactile. Le système combine une politique visuotactile de haut niveau, entraînée sur des démonstrations humaines réelles, qui prédit simultanément les trajectoires de l'effecteur terminal et les signaux tactiles attendus caractérisant l'évolution du contact, avec une politique corps-entier entraînée par reinforcement learning à grande échelle en simulation et transférée zero-shot sur robot physique. Évalué sur trois tâches à contact riche (réorientation en main avec insertion, serrage de vanne, manipulation d'objets fragiles), le système affiche un gain moyen de 28,54 % par rapport aux baselines vision seule et visuotactile sans prédiction tactile.

L'apport principal est de démontrer que vision et proprioception restent insuffisantes pour résoudre des contacts incertains et évolutifs, et que le retour tactile fournit une observabilité directe que les autres modalités ne peuvent pas suppléer. La mise à l'échelle de l'apprentissage tactile à un système complet de loco-manipulation quadrupède est une contribution distinctive : la littérature récente s'était concentrée sur les bras fixes et les mains dextres, laissant les plateformes mobiles en dehors du périmètre. Le transfert zero-shot sim-to-real de la politique multimodale corps-entier valide par ailleurs qu'il est possible de combler le gap simulation-réalité sur des politiques sensorielles complexes sans fine-tuning sur robot physique, un résultat concret pour les déploiements industriels.

La manipulation par quadrupèdes s'est accélérée depuis 2023 avec Spot (Boston Dynamics) et ANYmal (ANYbotics, ETH Zurich), qui s'appuient cependant essentiellement sur la vision et la proprioception. L'intégration d'une couche tactile hiérarchique sur des systèmes mobiles reste une extension non triviale, absente des plateformes Unitree B2/Z1 ou des travaux sur MIT Cheetah. La suite logique inclut l'extension à des capteurs haute densité (GelSight, capacitif distribué) et à des chaînes de manipulation multi-étapes en milieu industriel réel. Ce travail est un preprint non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats au-delà du protocole expérimental décrit.

Impact France/UE

Les résultats sur le transfert zero-shot sim-to-real et la manipulation tactile quadrupède sont directement pertinents pour ANYbotics (spin-off ETH Zurich) et ses déploiements d'inspection industrielle en Europe, où ANYmal constitue la plateforme de référence.

À lire aussi

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
1arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes
2arXiv cs.RO 

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source
ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile
3arXiv cs.RO 

ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile

Une équipe de chercheurs a publié en juin 2025 ViTacFormer, une architecture d'apprentissage de représentations multi-modales pour la manipulation dextre robotique. Le système couple un encodeur cross-attention fusionnant vision haute résolution et données tactiles avec une tête de prédiction autoregressive des signaux de contact futurs, entraîné selon un curriculum progressif allant des tâches simples aux plus complexes. La représentation apprise pilote un module d'imitation learning pour des mains anthropomorphes multi-doigts. Sur des benchmarks réels en laboratoire, ViTacFormer dépasse les systèmes état de l'art précédents d'environ 50 %, enchaîne jusqu'à 11 étapes séquentielles sans intervention humaine et maintient une opération continue de 2,5 minutes sur des tâches de manipulation de précision. L'architecture répond à un verrou concret de la manipulation fine : les occlusions visuelles rendent la vision seule insuffisante lorsque la main cache l'objet, un problème que les capteurs tactiles résolvent mais que peu de systèmes intègrent de façon apprenante. La prédiction anticipée des contacts plutôt que leur simple détection réactive réduit la latence de contrôle, décisive pour les gestes de précision. La capacité à enchaîner 11 sous-tâches ouvre une voie pour l'assemblage multi-étapes industriel, où les robots classiques nécessitent actuellement une programmation explicite à chaque étape. Ces résultats restent cependant des benchmarks de laboratoire contrôlés ; la distance avec un déploiement en ligne de production réelle, où la variabilité des pièces et la robustesse du capteur tactile dans le temps sont critiques, demeure entière. ViTacFormer s'inscrit dans une vague de travaux combinant modèles VLA (Vision-Language-Action) et retour haptique, explorée également par Google DeepMind (Robotic Transformer), Physical Intelligence (Pi-0) et des startups comme Dexterous AI. Côté matériel, la dépendance aux mains anthropomorphes multi-doigts reste un frein à la commercialisation : Shadow Robot (UK) et Inspire-Robots (CN) dominent ce segment, mais à des coûts et avec une fiabilité mécanique qui limitent encore les déploiements industriels à grande échelle. Le travail est publié sous forme de preprint arXiv (arXiv:2506.15953), sans code ni dataset public annoncé à ce stade ; la transition vers des résultats reproductibles et des pilotes hors laboratoire constitue l'étape critique à surveiller.

RechercheOpinion
1 source
ReMoBot : apprentissage par imitation en quelques exemples pour la manipulation mobile avec des modèles fondation visuels
4arXiv cs.RO 

ReMoBot : apprentissage par imitation en quelques exemples pour la manipulation mobile avec des modèles fondation visuels

Des chercheurs ont publié ReMoBot (arXiv:2408.15919v4), un framework d'apprentissage par imitation à peu d'exemples conçu pour la manipulation mobile sur robots à vision égocentrique. Évalué sur un Boston Dynamics Spot, le système atteint des taux de succès de 70 % sur la tâche "Table Uncover" et 80 % sur "Gap Cover" en environnement réel, avec seulement 20 démonstrations par tâche. Plutôt que de distiller les démonstrations dans une politique paramétrique classique, ReMoBot adopte une stratégie de récupération : à l'inférence, il identifie dans une base de démonstrations d'experts les séquences les plus pertinentes via une combinaison de similarité d'état, d'alignement temporel des trajectoires et de cohérence des séquences d'actions, puis sélectionne directement les commandes motrices sans aucun entraînement supplémentaire. L'ensemble s'appuie sur des vision foundation models pour extraire des représentations robustes depuis la caméra embarquée du robot, en fonctionnement totalement training-free à l'exécution. L'approche retrieval-based présente deux avantages concrets pour les intégrateurs industriels. D'abord, le coût de collecte de données est drastiquement réduit : 20 démonstrations contre plusieurs centaines requises par les méthodes IL standard (ACT, Diffusion Policy), ce qui accélère le déploiement sur de nouvelles tâches ou variantes. Ensuite, l'absence d'entraînement à l'inférence supprime le risque de surapprentissage sur données insuffisantes, problème récurrent avec les objets déformables où la variabilité des états est élevée. ReMoBot surpasse deux baselines entraînées directement sur données réelles sans transfert sim-to-réel sur deux tâches sur trois. La tâche "Curtain Open" reste problématique, signalant que la manipulation d'objets hautement déformables sous occultations partielles constitue encore un verrou non résolu, y compris pour les approches retrieval. ReMoBot s'inscrit dans la tendance à exploiter les vision foundation models (de la famille DINOv2, CLIP, SAM) pour réduire la dépendance aux données propriétaires et améliorer la généralisation. Sur le Spot de Boston Dynamics, plateforme quadrupède commerciale, la manipulation mobile reste un défi structurel : le robot se déplace en même temps qu'il manipule, rendant l'observation égocentrique partielle et bruitée. Face aux VLA de grande taille comme pi-0 (Physical Intelligence) ou RT-2 (Google DeepMind), qui exigent des volumes de données considérables et une infrastructure d'entraînement lourde, ReMoBot se positionne dans le segment "data-efficient, training-free" particulièrement pertinent pour les intégrateurs ou PME industrielles sans capacité de collecte à grande échelle. La prochaine étape logique serait d'enrichir dynamiquement la base de démonstrations et de valider l'approche dans des environnements industriels hors laboratoire contrôlé.

UELes PME et intégrateurs robotiques européens sans capacité de collecte de données à grande échelle pourraient bénéficier directement de cette approche data-efficient (20 démos vs plusieurs centaines), réduisant la barrière d'entrée au déploiement de manipulation mobile intelligente.

RecherchePaper
1 source