Aller au contenu principal
RecherchearXiv cs.RO2h

Dextérité extrinsèque émergente en scènes encombrées via l'apprentissage de politique sensible à la dynamique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié DAPL (Dynamics-Aware Policy Learning), un cadre d'apprentissage par renforcement destiné à la manipulation non-préhensile en environnements encombrés. L'approche exploite la "dextérité extrinsèque" - la capacité d'un robot à utiliser les contacts avec l'environnement pour déplacer des objets sans les saisir directement - dans des configurations où plusieurs objets interagissent avec des dynamiques couplées. La nouveauté centrale est une représentation apprise des dynamiques de contact, construite via un modèle du monde explicite, qui conditionne ensuite la politique de RL sans recourir à des heuristiques codées manuellement ni à un reward shaping complexe. En simulation, DAPL surpasse de plus de 25 % les approches de manipulation préhensile, la télé-opération humaine et les politiques à représentation implicite, évaluées sur des scènes encombrées à densité variable non vues à l'entraînement. En conditions réelles, le taux de succès atteint environ 50 % sur dix scènes distinctes, avec un déploiement pilote en contexte épicerie pour valider le transfert sim-to-real.

Ce résultat adresse un verrou concret en robotique de manipulation : la plupart des systèmes industriels actuels évitent le désordre ou le gèrent par des stratégies d'isolement d'objets, coûteuses en infrastructure. L'émergence de comportements de contact sans ingénierie manuelle des heuristiques représente un pas vers des robots capables de travailler dans des bacs en vrac, des rayons de supermarché ou des convoyeurs non triés. Le gain de 25 % en simulation est significatif, mais les 50 % de succès en conditions réelles appellent à la prudence : les détails sur le type d'objets, la densité exacte et la vitesse d'exécution ne sont pas fournis dans le résumé, ce qui rend difficile toute comparaison directe avec des systèmes comme Sparrow d'Amazon Robotics ou les approches de Covariant AI.

La dextérité extrinsèque est un axe de recherche actif depuis une décennie, porté notamment par les groupes de Carnegie Mellon, MIT et ETH Zurich autour du pushing, du pivoting et de la singulation d'objets. DAPL s'inscrit dans cette continuité en ajoutant le world modeling explicite comme composant structurant du pipeline. Le preprint, disponible en version v2 sur arXiv (2603.09882), a été révisé depuis sa soumission initiale, signe d'un affinement des résultats ou des analyses sous revue par les pairs. Aucune timeline de déploiement commercial n'est annoncée ; l'étape logique serait une validation en entrepôt réel sur des volumes plus importants et avec des contraintes de cadence industrielle.

Dans nos dossiers

À lire aussi

Locomotion quadrupède sensible à la dynamique via une tête de dynamique intrinsèque
1arXiv cs.RO 

Locomotion quadrupède sensible à la dynamique via une tête de dynamique intrinsèque

Des chercheurs ont déposé le 2 mai 2026 sur arXiv (identifiant 2605.01227) un cadre d'entraînement appelé "Intrinsic Dynamics Head" (ID Head) pour améliorer la locomotion des robots quadrupèdes sur terrains complexes. Le principe repose sur un entraînement simultané de deux composants : une politique de contrôle classique (Control Policy) et un module auxiliaire, l'ID Head, qui apprend à prédire le couple articulaire (torque) directement à partir de l'état du robot. Ce module génère une "dynamics reward", une récompense qui oriente la politique vers des comportements mécaniquement plus prévisibles. Les expériences de transfert sim-to-real sur robot physique affichent des gains mesurés de 16,8 % sur l'efficacité en couple (torque efficiency), 18,6 % sur le taux d'action (action rate), 12,8 % sur la puissance mécanique consommée, et une amélioration de 6,4 % de l'occupation sécurisée des couples (safe torque occupancy). L'intérêt de cette approche dépasse la performance brute : elle s'attaque directement au problème du "sim-to-real gap" dans la locomotion sur pattes, en rendant la politique explicitement consciente des dynamiques physiques sous-jacentes. Les politiques RL classiques produisent souvent des mouvements erratiques et des pics de couple qui usent prématurément les actionneurs et provoquent des arrêts de sécurité en déploiement réel. Pour un intégrateur ou un développeur de plateforme, des gains de 16 à 19 % sur ces métriques se traduisent concrètement par une durée de vie accrue des composants et une meilleure fiabilité opérationnelle. L'ID Head offre également un levier de réglage fin via ses coefficients d'entraînement, sans nécessiter de réentraînement complet de la politique. Ce travail s'inscrit dans le courant dominant de l'apprentissage par renforcement pour la locomotion sur pattes, porté depuis 2022 par des contributions majeures d'ETH Zurich autour d'ANYmal et par les politiques déployées sur Spot (Boston Dynamics) ou les plateformes Unitree (Go2, H1). Il répond aux critiques récurrentes sur le caractère mécaniquement sous-optimal des politiques RL pures, trop consommatrices de couples. À noter : il s'agit d'une prépublication académique sans partenariat industriel annoncé ni calendrier de déploiement. La validation sur des plateformes commerciales à plus grande échelle reste à démontrer.

RecherchePaper
1 source
Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots
2arXiv cs.RO 

Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots

Des chercheurs ont publié sur arXiv (réf. 2604.13366) une étude comparative portant sur l'identification de systèmes robotiques par méta-apprentissage en contexte, en opposant des modèles de séquences déterministes à des approches génératives basées sur la diffusion. L'équipe reformule le problème classique de l'identification de dynamiques robotiques comme une tâche de méta-apprentissage in-context : le modèle observe une séquence de paires (commande, observation) pour inférer les paramètres dynamiques d'un robot sans re-entraînement. Deux architectures de diffusion sont introduites et évaluées face à une baseline Transformer déterministe : une diffusion par inpainting (inspirée de Diffuser), qui apprend la distribution jointe entrée-observation, et des modèles de diffusion conditionnés sur les entrées de contrôle, déclinés en versions CNN et Transformer. Les expériences sont menées à grande échelle dans des simulations randomisées couvrant des régimes en distribution et hors distribution. Ces résultats sont significatifs pour la commande basée sur modèle (model-based control), qui exige des prédictions de dynamique précises et robustes. L'étude montre que les modèles de diffusion surpassent nettement la baseline déterministe lorsque les conditions d'exécution s'écartent de la distribution d'entraînement, un scénario courant dans les déploiements industriels réels où les robots rencontrent des charges utiles variables, des surfaces inattendues ou de l'usure mécanique. La diffusion par inpainting obtient les meilleures performances globales. Un résultat clé concerne la contrainte temps réel : grâce à un échantillonnage à démarrage chaud (warm-started sampling), les modèles de diffusion parviennent à opérer dans les fenêtres temporelles exigées par les boucles de contrôle, levant ainsi un obstacle majeur à leur adoption pratique. Ce travail s'inscrit dans un courant de recherche actif qui cherche à combiner les capacités génératives des modèles de diffusion avec les exigences de robustesse et de latence du contrôle robotique. La diffusion appliquée à la planification de trajectoires et à la prédiction de dynamiques a émergé avec des travaux comme Diffuser (Janner et al., 2022) et se confronte ici à un scénario de méta-apprentissage, plus réaliste pour des robots déployés dans des environnements variables. Les concurrents directs incluent les approches probabilistes bayésiennes et les réseaux neuronaux récurrents pour l'identification en ligne. La prochaine étape naturelle sera une validation sur hardware réel, notamment pour confirmer que les gains hors distribution observés en simulation résistent au sim-to-real gap.

RecherchePaper
1 source
Apprentissage de la prise-et-dépose dynamique pour un manipulateur à pattes
3arXiv cs.RO 

Apprentissage de la prise-et-dépose dynamique pour un manipulateur à pattes

Des chercheurs ont publié le 21 mai 2026 sur arXiv (réf. 2605.15713) un framework d'apprentissage par renforcement hiérarchique permettant à un robot quadrupède équipé d'un bras à 6 degrés de liberté (6-DOF) d'effectuer des tâches de pick-and-place dynamiques avec des charges allant jusqu'à 2,3 kg en simulation et 1,3 kg en environnement réel. Le système intègre un module explicite d'estimation de masse qui adapte en temps réel le contrôle whole-body en fonction du poids de l'objet saisi. En simulation, le taux de succès atteint 86,05 %. Sur six scénarios réels combinant variations de taille, de masse et de hauteur de dépôt, le système affiche un taux de succès moyen de 73,3 % dans un espace de travail vertical allant du sol à des surfaces à 1,1 m de hauteur, avec un temps d'exécution moyen de 4,06 secondes par cycle. Ce résultat est notable pour deux raisons techniques. D'abord, le système exécute locomotion et manipulation en simultané, abandonnant l'approche séquentielle (se déplacer, s'arrêter, saisir) qui dominait les travaux antérieurs et limitait la cadence opérationnelle. Ensuite, le module d'estimation de masse compense dynamiquement les variations de charge, ce qui est un prérequis pour tout déploiement industriel réel où les objets ne sont pas homogènes. La chute de performance entre simulation et réel (de 86 % à 73 %) illustre que le sim-to-real gap n'est pas encore résolu, mais reste dans une plage acceptable pour des scénarios semi-contrôlés. Les charges manipulées restent modestes comparées aux bras industriels fixes, et les vidéos de démonstration sélectionnées ne couvrent pas de conditions adverses (surfaces glissantes, occlusions). Le robot quadrupède mobile doté d'un bras manipulateur est un segment en forte croissance, porté par des plateformes commerciales comme le Spot d'Boston Dynamics (avec son bras optionnel), l'ANYmal d'ANYbotics, ou le B2 d'Unitree couplé à des bras tiers. Ce travail de recherche, non affilié à un produit commercial annoncé, s'inscrit dans la lignée des travaux sur les manipulateurs mobiles à pattes publiés ces deux dernières années par ETH Zurich, CMU et des équipes chinoises. La prochaine étape attendue dans ce domaine est la généralisation à des objets non rigides ou à géométrie inconnue, ainsi qu'une intégration de la perception visuelle en boucle fermée pour réduire la dépendance aux modèles d'objet préenregistrés.

RecherchePaper
1 source
Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos
4arXiv cs.RO 

Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos

Une nouvelle méthode d'apprentissage par imitation pour robots humanoïdes vient d'être publiée sur arXiv (2605.23762, mai 2026), proposant un cadre à étape unique baptisé Direct Dynamic Retargeting (DDR). L'objectif est d'apprendre des comportements moteurs complexes à partir de simples vidéos monoculaires de démonstration humaine, sans capteurs de mouvement ni combinaisons de capture. Le défi central est morphologique : un humain et un robot humanoïde ne partagent ni les mêmes proportions, ni les mêmes centres de masse, ni les mêmes contraintes articulaires, ce qui rend la transposition directe des trajectoires impossible. Les approches standards, dites Geometric Retargeting ou Indirect Dynamic Retargeting, projettent d'abord le mouvement humain dans un espace cinématique intermédiaire avant de générer les commandes robot, introduisant ce que les auteurs appellent un biais géométrique qui restreint l'espace de solutions et produit des comportements sous-optimaux. DDR supprime cette étape intermédiaire en formulant le problème directement dans l'espace des tâches (task space), couplé à un solveur de contrôle prédictif par modèle (Model Predictive Control, MPC) à base d'échantillonnage, exécuté au sein d'un simulateur physique. Ce couplage permet au système d'optimiser nativement les séquences de contact sol-pied tout en limitant la dérive des entrées, garantissant la faisabilité dynamique des trajectoires générées. Les expériences montrent que DDR surpasse les méthodes de référence en précision de suivi des démonstrations. Plus significatif pour les praticiens : fournir ces références physiquement viables à un agent d'apprentissage par renforcement accélère la convergence de l'entraînement et améliore l'exécution finale de comportements agiles et d'équilibrage dynamique. L'apprentissage par imitation à partir de vidéo est devenu un axe majeur de la robotique humanoïde, porté par des travaux comme Pi-0 de Physical Intelligence ou les pipelines de données de téléopération développés chez Figure AI et Agility Robotics. Ces approches cherchent à exploiter l'immense corpus de vidéos de mouvements humains disponibles en ligne pour réduire le coût prohibitif de la collecte de données sur robot. DDR s'inscrit dans cette tendance mais attaque le problème par la dynamique plutôt que par la géométrie, un pari prometteur qui reste à valider en conditions réelles : aucun résultat physique sur robot n'est présenté dans cet article, uniquement des évaluations en simulation. Le code source sera rendu public, ce qui permettra à la communauté de reproduire et d'étendre ces résultats.

RecherchePaper
1 source