Aller au contenu principal

Dossier arXiv cs.RO — page 17

2263 articles · page 17 sur 46

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots
801arXiv cs.RO RecherchePaper

Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots

Des chercheurs ont publié le 18 juin 2026 sur arXiv (2606.18328) un article présentant ReSYNC, pour Recovery-Driven Synthesis of Relational Concepts, un système d'apprentissage robotique capable d'extraire automatiquement des abstractions conceptuelles à partir de ses propres erreurs. Le principe repose sur un double cycle d'apprentissage incrémental : une phase d'apprentissage de compétences, où le robot utilise le renforcement (RL) pour récupérer d'échecs observés durant l'entraînement, et une phase d'apprentissage de concepts, où il construit et raffine des prédicats relationnels, c'est-à-dire des règles symboliques décrivant les états du monde pertinents pour éviter ces mêmes échecs. Testé sur quatre domaines simulés incluant des tâches de manipulation non préhensile (pousser, faire glisser des objets sans saisie ferme), ReSYNC surpasse les méthodes de référence de plus de 50 % sur des problèmes à horizon long et non vus à l'entraînement. Un transfert sim-to-réel est également démontré, avec exécution de comportements de manipulation en conditions physiques réelles. L'enjeu industriel central que pointe ce travail est l'inefficacité structurelle du RL classique face à la diversité des pannes : entraîner une politique distincte pour chaque mode d'échec ne passe pas à l'échelle. ReSYNC propose une alternative en transformant des récupérations locales, apprises sur des tâches spécifiques, en capacité d'évitement global sur des scénarios inédits. Pour les intégrateurs industriels ou les équipes de robotique mobile, cela suggère un chemin vers des robots capables de se "réparer" conceptuellement sans intervention humaine entre chaque environnement de déploiement. Le transfert sim-to-réel reste cependant présenté sur des tâches de manipulation relativement contraintes, et les vidéos de démonstration sélectionnées dans un preprint ne permettent pas encore d'évaluer la robustesse sur des cycles de production réels. ReSYNC s'inscrit dans un courant de recherche qui tente de réconcilier planification symbolique classique (TAMP, PDDL) et apprentissage par renforcement, un problème ouvert depuis plus d'une décennie. Des approches concurrentes incluent les méthodes guidées par LLM pour la génération de prédicats (Code as Policies, SayCan) ainsi que les travaux sur la découverte automatique de prédicats en TAMP (LEGO, GROOT). Ce qui distingue ReSYNC est son ancrage explicite dans l'expérience d'échec plutôt que dans des démonstrations d'expert. Le code et les environnements de simulation ne semblent pas encore publics au moment de la soumission, et aucun partenaire industriel ni calendrier de déploiement n'est mentionné, ce qui classe ce travail comme une contribution académique prometteuse plutôt qu'un produit opérationnel.

1 source
PAIWorld : un modèle fondation du monde en 3D cohérent pour la manipulation robotique
802arXiv cs.RO 

PAIWorld : un modèle fondation du monde en 3D cohérent pour la manipulation robotique

Des chercheurs ont soumis PAIWorld sur arXiv (2506.18375, juin 2026), un framework de modèle fondationnel de monde (world foundation model, WFM) conçu pour la manipulation robotique avec cohérence 3D multi-vues. L'architecture, construite sur un transformateur de diffusion (DiT), intègre trois composants : des blocs d'attention croisée géométriquement informés (Geometry-Aware Cross-View Attention), un encodage positionnel rotatif qui intègre directions de rayons caméra et poses extrinsèques (Geometric RoPE), et un module Latent 3D-REPA qui distille des représentations 3D à partir de modèles 3D figés. Sur les benchmarks publics, PAIWorld se classe premier sur le leaderboard WorldArena et deuxième sur l'AgiBot-Challenge2026, deux références communautaires pour les simulateurs de manipulation. Le problème que PAIWorld adresse est concret : les robots de manipulation utilisent typiquement plusieurs caméras simultanées (vue égocentrique, eye-to-hand, poignet), mais les modèles de monde existants se contentent de concaténer les tokens de chaque vue sans raisonnement géométrique, générant dérive d'objet entre vues, incohérence de profondeur et désalignement de texture. Ces artefacts dégradent l'entraînement de politiques dans les simulateurs et amplifient le sim-to-real gap, problème central pour tout industriel cherchant à transférer des comportements entraînés en simulation vers des robots physiques. En établissant un canal explicite de communication inter-vues combiné à un prior géométrique 3D, PAIWorld vise à améliorer la fidélité des simulateurs utilisés pour le post-entraînement de politiques multi-vues et la planification basée sur des modèles (model-based planning). Les world foundation models appliqués à la robotique constituent un axe de recherche en forte croissance en 2026, porté notamment par des travaux comme UniSim et Genie 2, ainsi que par les approches VLA (Vision-Language-Action) qui cherchent à intégrer simulation et apprentissage de politiques. L'AgiBot-Challenge2026, structuré autour de tâches de manipulation dextère, joue un rôle de référence communautaire croissant pour ces systèmes. Il s'agit d'une prépublication scientifique sans partenariat commercial ni déploiement industriel annoncé : les suites logiques restent l'évaluation sur des benchmarks de transfert sim-to-real avec des plateformes physiques et l'intégration dans des world action models complets.

RecherchePaper
1 source
Un cadre d'optimisation hybride pour la synthèse de saisie sous observations partielles
803arXiv cs.RO 

Un cadre d'optimisation hybride pour la synthèse de saisie sous observations partielles

Des chercheurs ont publié sur arXiv (référence 2606.18053) un framework hybride de synthèse de préhension robotique capable de générer des saisies robustes à partir de nuages de points partiels, c'est-à-dire des scènes où le robot ne perçoit qu'une vue incomplète de l'objet à manipuler. L'approche combine un modèle à énergie (EBM) entraîné par apprentissage avec une méthode géométrique analytique d'ICP (Iterative Closest Point), les deux étant intégrés dans un cadre d'optimisation SVGD (Stein Variational Gradient Descent) qui raffine itérativement les configurations de préhension candidates. Évalué sur 67 objets distincts avec 5 360 tentatives de saisie, le système atteint un taux de succès moyen de 60,9 %, contre 31,1 % pour AnyGrasp, 48,4 % pour Grasp Pose Detection et 56,6 % pour AS-ICP, son concurrent hybride le plus proche. Ces résultats adressent un problème central en robotique de manipulation industrielle : la dégradation des performances lorsque le capteur ne dispose que d'une vue partielle de la scène, situation quasi systématique en cellule de picking réel. Le gain de 4,3 points sur AS-ICP, méthode purement géométrique, et de près de 30 points sur AnyGrasp, approche purement data-driven, indique que l'hybridation n'est pas un compromis mais une complémentarité structurelle : l'EBM apporte une prior apprise sur la géométrie des objets, tandis que l'ICP ancre le résultat dans une contrainte physique vérifiable. Pour les intégrateurs B2B, cela réduit la dépendance à des datasets massifs spécifiques à chaque référence produit, un frein bien connu au déploiement en logistique et en assemblage. La synthèse de préhension sous observations partielles est un sujet actif depuis les travaux fondateurs de Dex-Net (Berkeley, 2017) et l'émergence des architectures VLA appliquées à la manipulation. AnyGrasp, développé par l'équipe de Hao Su (UC San Diego), reste une référence industrielle largement utilisée ; sa sous-performance ici sur nuages incomplets souligne une limite connue des méthodes purement apprises sans contrainte géométrique explicite. Ce travail n'est pas accompagné d'une annonce de déploiement ou de partenariat industriel ; il s'agit d'une contribution de recherche publiée en preprint, sans validation en environnement industriel réel déclarée. Les prochaines étapes naturelles seraient des tests sur robots physiques (bras 6-DOF type UR ou Franka) et une intégration dans des pipelines de bin picking.

RecherchePaper
1 source
GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée
804arXiv cs.RO 

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

Une équipe de chercheurs a publié fin juin 2026 un système baptisé GASE (Gaussian Splatting-Based Automated System for Reconstructing Embodied-Simulation Environments), conçu pour automatiser la construction de scènes de simulation photoréalistes destinées à l'entraînement de robots. Le pipeline exploite des réseaux de caméras panoramiques multivues pour capturer l'environnement réel, extrait automatiquement les objets de premier plan via une stratégie basée sur les poses de caméras dans le domaine 2D, puis reconstruit séparément objets et arrière-plan statique par 3D Gaussian Splatting avant de les importer dans un simulateur physique avec inpainting haute-fidélité des zones manquantes. Sur des benchmarks de segmentation, GASE surpasse les méthodes 3DGS concurrentes de plus de 10 %. Surtout, lors de déploiements réels sur des tâches de manipulation et de navigation, les politiques entraînées en simulation n'affichent qu'un écart de performance inférieur à 10 % par rapport à celles entraînées sur données réelles, arXiv:2606.17520. Ce résultat chiffré est l'argument central du papier. Le sim-to-real gap, soit la dégradation des performances lors du passage du simulateur au robot physique, reste l'un des obstacles majeurs au déploiement à grande échelle de l'apprentissage robotique. Un écart sous les 10 % suggère que la simulation générée automatiquement depuis des scans réels peut constituer un vecteur de data augmentation viable, réduisant la dépendance à des opérateurs qualifiés et à du matériel coûteux pour la collecte terrain. Pour les intégrateurs et les industriels engagés dans des projets de manipulation ou de navigation autonome, la promesse est de compresser significativement le coût des pipelines d'entraînement, à condition que la méthode tienne à l'échelle et sur des environnements plus complexes que ceux testés. GASE s'inscrit dans la trajectoire tracée par l'émergence du 3D Gaussian Splatting en 2023 comme alternative temps-réel aux NeRF pour la reconstruction de scènes. Les approches concurrentes, notamment SplatSim, Gaussian Grouping et les pipelines d'assets manuels dans Isaac Sim ou MuJoCo, progressent en parallèle, mais l'automatisation complète de l'acquisition jusqu'à l'import simulateur reste un problème ouvert. Le preprint ne mentionne ni institution ni partenaires industriels, ce qui rend difficile l'évaluation des perspectives de transfert applicatif. Le code doit être publié ultérieurement mais n'est pas encore disponible au moment de la soumission. Le périmètre limité des tâches testées et l'absence de comparaison avec des environnements synthétiques construits manuellement laissent plusieurs questions ouvertes à la communauté.

RecherchePaper
1 source
Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques
805arXiv cs.RO 

Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques

Des chercheurs ont publié sur arXiv en juin 2026 (arXiv:2606.18189) une méthode appelée E-MPC (Engagement-aware Model Predictive Control), conçue pour repenser le rôle de l'humain dans la supervision des robots d'assistance. L'approche a été validée en simulation puis dans une étude utilisateur réelle, sur un système robotique d'aide à l'alimentation (bite acquisition), avec des participants simulant des limitations de mobilité. Le principe central : plutôt que de solliciter l'opérateur uniquement lorsqu'un robot échoue ou est en incertitude, le système planifie proactivement des moments d'interaction pour maintenir un niveau d'engagement choisi par l'utilisateur, tout en respectant une contrainte de charge cognitive maximale. E-MPC intègre un modèle de dynamique d'interaction utilisateur qui prédit comment l'engagement évolue en fonction de la fréquence et du type d'intervention demandée. Ce travail remet en cause un postulat dominant dans la robotique d'assistance : que l'autonomie maximale est toujours préférable pour l'utilisateur. Dans des contextes de caregiving physique, les personnes à mobilité réduite risquent de devenir de simples observateurs passifs d'un robot qui agit entièrement seul, ce qui dégrade l'expérience et potentiellement l'adhésion au système. E-MPC déplace le curseur : l'interaction n'est plus un signal d'échec, mais un levier de conception du workflow. Cela a des implications concrètes pour les intégrateurs de systèmes d'assistance à domicile ou en EHPAD, où le consentement continu et le sentiment de contrôle de l'utilisateur sont des critères de certification et d'acceptabilité. La robotique d'assistance humanoïde et collaborative accumule depuis plusieurs années des travaux sur le human-in-the-loop, mais ceux-ci se concentrent presque exclusivement sur la robustesse (détection de pannes, out-of-distribution handling). E-MPC s'inscrit dans une tendance plus récente qui emprunte aux travaux sur l'interaction adaptative et la téléopération partagée, avec des connexions aux recherches sur le shared autonomy (Javdani, Srinivasa et al.). Les auteurs n'annoncent pas de commercialisation ni de partenariat industriel à ce stade : il s'agit d'un prototype de recherche avec étude utilisateur, pas d'un produit déployé. Les suites naturelles incluent des essais avec de vraies populations en situation de handicap et l'extension à des tâches multi-étapes plus complexes que l'alimentation.

UELes implications pour la certification des robots d'assistance à domicile et en EHPAD (consentement continu, sentiment de contrôle utilisateur) sont directement pertinentes pour les intégrateurs français et la réglementation médicosociale en France.

RecherchePaper
1 source
WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles
806arXiv cs.RO 

WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles

Une équipe de recherche a publié sur arXiv (ref. 2606.18097) WireCraft, un benchmark de simulation dédié à la manipulation industrielle d'objets linéaires déformables (DLO), typiquement les câbles et faisceaux électriques omniprésents dans les lignes d'assemblage. Le benchmark couvre trois familles de tâches représentatives du câblage industriel réel : l'insertion de connecteurs, le routage de clips et la mise en place de goulottes (channel seating). Il intègre deux modèles physiques complémentaires pour simuler le comportement des câbles, l'un articulé et l'autre véritablement déformable, et les trajectoires de référence proviennent à la fois de la simulation et d'un bras UR5 physique. Les auteurs ont évalué trois familles de politiques de contrôle : apprentissage par renforcement (RL), apprentissage par imitation (IL) et politiques vision-langage-action (VLA). Sous conditions de RL avec état privilégié (accès direct aux variables d'état internes de la simulation), chaque famille de tâches est résolue avec un taux de succès supérieur à 82 %, confirmant que les tâches sont bien posées et non artificiellement impossibles. Ces résultats exposent un écart critique entre manipulation sous état privilégié et manipulation guidée uniquement par la vision, un problème central pour tout intégrateur cherchant à déployer des cellules robotisées sur des opérations de câblage. Le vrai verrou identifié par WireCraft n'est pas la phase d'approche, mais la transition entre atteindre un connecteur et exécuter l'alignement en contact riche, où les politiques visuelles (RL vision, IL et VLA) échouent de façon significative. Cela contredit implicitement plusieurs narratifs optimistes autour des VLA polyvalents : malgré des performances impressionnantes sur des objets rigides, ces architectures peinent dès que la géométrie est déformable et que le retour d'état est limité à la perception visuelle. Pour un COO industriel ou un intégrateur, le message est pragmatique : les câbles ne sont pas encore un problème résolu, même en simulation propre avec des benchmarks bien construits. Le manque de benchmarks partagés et reproductibles pour les DLO freine depuis longtemps la comparaison objective des approches dans ce domaine. Les benchmarks existants sont généralement liés à du matériel propriétaire ou traitent des objets déformables génériques sans les contraintes de fixation propres au câblage industriel. WireCraft comble cette lacune avec des assets configurables en difficulté et des protocoles d'évaluation communs. Le code, les données et les outils seront mis en open source après acceptation de l'article. Côté concurrence, des acteurs comme OpenAI (avec ses travaux sur la manipulation déformable) ou des laboratoires comme Physical Intelligence (pi) avec Pi-0 poussent également sur la manipulation généraliste, mais aucun benchmark industriel câble de ce type n'était encore disponible publiquement. La prochaine étape naturelle sera le sim-to-real transfer systématique : WireCraft pose les rails, mais la question de savoir quelle architecture franchira le gap reste entièrement ouverte.

RecherchePaper
1 source
Surveillance respiratoire sans contact sur robots mobiles hétérogènes : un cadre multimodal de calcul embarqué
807arXiv cs.RO 

Surveillance respiratoire sans contact sur robots mobiles hétérogènes : un cadre multimodal de calcul embarqué

Des chercheurs ont publié le 17 juin 2026 sur arXiv (réf. 2606.17376) un cadre logiciel de surveillance respiratoire sans contact déployé sur des robots mobiles hétérogènes embarquant des unités de calcul en périphérie (edge computing). Le système mesure la fréquence respiratoire (FR) d'une victime sans capteur porté ni contact physique, en combinant quatre modalités d'imagerie : RGB, thermique, proche infrarouge (NIR) et caméra basse lumière. Une sélection adaptative au niveau lumineux choisit automatiquement la modalité optimale, tandis qu'un module d'extraction de région d'intérêt thoracique guidé par points-clés squelettiques garantit la robustesse aux changements de posture. Un indice de qualité de signal (SQI) filtre les estimations peu fiables avant transmission. Le cadre a été évalué sur trois plateformes robotiques couvrant la locomotion quadrupède et à roues, sans recalibration algorithmique par plateforme. Les portées opérationnelles mesurées sont : RGB jusqu'à 8 m, NIR jusqu'à 6 m, thermique efficace uniquement à courte distance, basse lumière jusqu'à 8 m en obscurité totale. Ce travail répond à un verrou opérationnel concret : lors d'opérations de recherche et sauvetage (SAR) ou de triage en zone contaminée, équiper chaque victime d'un capteur porté est impraticable, et l'exposition des secouristes doit être minimisée. Démontrer qu'un robot mobile standard peut estimer la fréquence respiratoire de manière fiable à plusieurs mètres, sur des sujets en postures variées et dans des conditions d'éclairage dégradées, valide une brique essentielle du triage autonome. La portabilité sans retuning entre plateformes hétérogènes est un résultat notable : elle suggère une intégration possible sur des robots existants via une couche logicielle, sans exiger un matériel dédié. Les limites thermiques à courte portée restent cependant un point de vigilance pour les environnements chauds ou encombrés. Le domaine du triage autonome en SAR mobilise plusieurs équipes académiques et industriels depuis la catastrophe de Fukushima (2011), qui avait mis en évidence le manque de robots capables d'évaluer l'état de victimes sans intervention humaine directe. Dans l'espace des robots d'intervention, Boston Dynamics (Spot), ANYbotics (ANYmal) et Ghost Robotics fournissent des plateformes quadrupèdes sur lesquelles ce type de module pourrait se greffer. Côté français, les travaux du LAAS-CNRS et d'entreprises comme Shark Robotics (robots d'intervention COLOSSUS) s'inscrivent dans ce continuum. Les prochaines étapes logiques incluent la validation sur victimes réelles en exercice USAR (Urban Search and Rescue), l'intégration avec des modules de détection de signe de vie supplémentaires (pouls, mouvement), et le passage à des plateformes certifiées pour les environnements ATEX ou CBRN.

UELes équipes françaises LAAS-CNRS et Shark Robotics, actives sur les robots d'intervention, pourraient intégrer ce framework logiciel sans recalibration sur leurs plateformes existantes pour renforcer les capacités de triage autonome en opérations SAR.

RecherchePaper
1 source
Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée
808arXiv cs.RO 

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper
1 source
WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive
809arXiv cs.RO 

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Des chercheurs ont publié WeaveLA (Weave Latent Memory for Vision-Language-Action Policies) sur arXiv (identifiant 2606.17463v1), un module de mémoire inter-sous-tâches qui se greffe sur un backbone VLA gelé, en l'occurrence π₀.₅ de Physical Intelligence, sans modifier ses poids. À chaque franchissement d'un sous-objectif, WeaveLA compresse le segment d'actions accompli en tokens latents via attention pooling guidé par requêtes, puis injecte ces tokens dans le chemin de génération d'actions du sous-objectif suivant. Évalué sur le benchmark RoboMME, le résultat le plus saillant porte sur la tranche "SwingXtimes" à N=3 répétitions : le taux de succès passe de 0 % à 47,8 %, tandis que les épisodes à exécution unique restent inchangés, confirmant que les gains sont strictement confinés aux tâches causalement dépendantes entre sous-objectifs. Ce résultat pointe une limite structurelle précise des VLA à fenêtre courte : l'absence d'un canal explicite pour propager l'état entre sous-tâches. Les architectures actuelles, qu'il s'agisse de π₀, OpenVLA ou des variantes à mémoire existantes, gèrent bien la manipulation pas-à-pas, mais peinent dès que la réussite d'une étape conditionne la suivante. WeaveLA montre qu'un module léger, déclenché uniquement sur les événements de complétion de sous-objectifs, suffit à corriger cette fragilité sans régression sur les tâches simples. C'est un signal favorable pour les intégrateurs industriels qui cherchent à déployer des politiques génériques sur des workflows multi-étapes sans réentraîner l'intégralité du modèle. Le backbone π₀.₅ utilisé est celui de Physical Intelligence, startup fondée à San Francisco en 2023 et ayant levé environ 400 millions de dollars, devenue référence de facto en manipulation généraliste. WeaveLA s'inscrit dans un courant visant à augmenter les VLA par des modules de mémoire externe plutôt que de les remplacer, une direction concurrente aux travaux de Google DeepMind (RT-2, RT-X), NVIDIA (GR00T N2) et Figure AI (Helix). Étant un preprint non relu par les pairs, le travail ne s'accompagne d'aucun calendrier de déploiement ni de partenariat annoncé, et ses résultats, obtenus en environnement simulé, restent à valider sur des plateformes réelles.

RechercheOpinion
1 source
Adaptation aux dommages en quelques secondes pour les matériaux architecturés
810arXiv cs.RO 

Adaptation aux dommages en quelques secondes pour les matériaux architecturés

Des chercheurs du Murphey Lab publient sur arXiv (référence 2606.17394, juin 2026) LEAP, un algorithme d'adaptation proprioceptive permettant à un robot souple de compenser des dommages catastrophiques, coupures, brûlures ou défaillances d'actionneurs, en moins d'une minute sans recours à la simulation. La démonstration porte sur une tâche de traçage menée par un poignet souple à 6 degrés de liberté (6DoF) à base d'actionneurs HSA (Handed Shearing Auxetic), une classe de matériaux dits architecturés dont la géométrie interne est conçue pour coupler rotation et translation. L'algorithme exploite uniquement des signaux proprioceptifs internes pour inférer une représentation latente des dommages dans un espace de faible dimension, puis une méthode d'ensemble robuste permet d'adapter le contrôle en temps réel à des dommages non anticipés lors de l'entraînement. Le résultat théorique central est que, pour les matériaux architecturés, la complexité d'échantillonnage nécessaire à l'apprentissage de représentations de dommages croît de façon linéaire plutôt qu'exponentielle, un avantage structurel par rapport aux composants rigides ou aux mécanismes souples continus. Pour les intégrateurs, l'absence de dépendance à un simulateur supprime le problème du sim-to-real gap, fréquemment bloquant en production réelle. La capacité à s'adapter à des dommages imprévus en moins d'une minute constitue un verrou critique pour l'autonomie longue durée des robots de service et industriels, que LEAP adresse ici sur un effecteur physique réel. À noter que la validation reste limitée à un unique type d'effecteur et à des scénarios de dommages relativement ciblés. LEAP s'inscrit dans la dynamique de la robotique souple où des acteurs comme Harvard (Soft Robotics Toolkit), l'EPFL (laboratoire Biorobotics) et Festo du côté européen travaillent sur la résilience matérielle et l'adaptation en service. Les actionneurs HSA sont une innovation issue de recherches antérieures sur les matériaux auxétiques, connus pour leur comportement mécanique non conventionnel. Ce travail est un preprint académique, pas un produit commercialisé ni un déploiement industriel annoncé. Les suites naturelles incluent l'intégration sur un bras complet, des tests hors laboratoire en environnement non structuré, et la validation sur des cycles de vie prolongés.

UEL'EPFL (laboratoire Biorobotics) et Festo, acteurs européens de la robotique souple résiliente, opèrent dans le même périmètre ; LEAP constitue une référence académique directement pertinente pour leurs travaux sur l'adaptation en service sans dépendance au simulateur.

RecherchePaper
1 source
Prise de décision bio-inspirée dans les essaims de robots soumis à des biais
811arXiv cs.RO 

Prise de décision bio-inspirée dans les essaims de robots soumis à des biais

Des chercheurs présentent dans un preprint arXiv (2509.07561, version 2, juin 2026) une étude comparative sur les mécanismes de prise de décision collective dans les essaims de robots minimalistes. Le scénario central : des robots individuels commettent fréquemment des erreurs de perception environnementale, mais le groupe doit néanmoins converger rapidement et fiablement vers la meilleure option parmi n alternatives discrètes. L'étude compare deux règles canoniques issues de la dynamique d'opinion observée dans les systèmes biologiques, le "direct-switch" (bascule directe) et la "cross-inhibition" (inhibition croisée), en les soumettant à des biais asociaux, c'est-à-dire des prédispositions individuelles indépendantes de l'interaction sociale. Les modèles de champ moyen existants sont généralisés pour intégrer ces perturbations. Les résultats ont une implication directe pour quiconque conçoit des systèmes multi-agents décentralisés : la cross-inhibition, mécanisme inspiré des colonies d'insectes et des populations neuronales, surpasse systématiquement le direct-switch en présence de biais. Là où le direct-switch se révèle performant en conditions idéales, il conduit à des blocages décisionnels ("decision deadlocks") dès que des biais individuels entrent en jeu. La cross-inhibition, elle, produit des décisions plus rapides, plus cohésives, plus précises et plus robustes sur une large gamme de conditions biaisées, et ce à des échelles croissantes d'essaims. C'est un résultat concret contre l'hypothèse que des règles simples suffisent sans distinction dans des environnements bruités. Cette recherche s'inscrit dans un corpus plus large sur la robotique en essaim (swarm robotics), domaine porté notamment par des équipes comme celles de Marco Dorigo (Université Libre de Bruxelles) et Vito Trianni (CNR-ISTC, Rome), avec des applications visées en surveillance environnementale, réponse aux catastrophes et logistique médicale. Sur le plan compétitif, les approches centralisées (flottes AMR coordonnées par un orchestrateur central, comme chez Exotec ou 6 River Systems) offrent des performances prévisibles mais restent fragiles à la perte de communication. L'enjeu ici est de prouver qu'une architecture entièrement distribuée peut égaler cette fiabilité sans infrastructure centralisée. La prochaine étape naturelle serait la validation expérimentale sur robots physiques, absente de cette version de l'étude.

UELes équipes européennes porteuses de ces travaux (Marco Dorigo, ULB Bruxelles ; Vito Trianni, CNR-ISTC Rome) positionnent la recherche EU en tête sur la robotique en essaim décentralisée, avec des retombées potentielles pour les applications de logistique et de réponse aux catastrophes en Europe.

RecherchePaper
1 source
Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence
812arXiv cs.RO 

Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence

Des chercheurs ont publié en juin 2026 (arXiv:2606.15631) une méthode permettant d'étendre un modèle VLA (Vision-Language-Action) à de nouvelles tâches sans réentraînement par tâche. Le principe : remplacer le fine-tuning par de la récupération d'exemples (retrieval) au moment du déploiement. La politique est entraînée une seule fois sur des démonstrations appariées entre deux embodiments, le robot cible et un embodiment moins coûteux, typiquement une vidéo de main humaine, puis gelée définitivement. Pour ajouter une nouvelle tâche, il suffit d'indexer des démonstrations supplémentaires dans un pool de récupération : aucune mise à jour de paramètres n'est nécessaire. À chaque pas de contrôle, la politique gelée conditionne ses actions sur des trajectoires récupérées dynamiquement. Un fine-tuning reste nécessaire uniquement lors du passage à un embodiment entièrement inconnu, pas pour chaque nouvelle tâche. La méthode a été validée sur les benchmarks PushT et RoboTwin 2.0, ainsi que sur un robot réel. Ce résultat s'attaque directement au principal frein au déploiement industriel des politiques VLA : le coût d'adaptation par tâche. Aujourd'hui, intégrer une nouvelle tâche dans un système VLA exige des démonstrations téléopérées et un fine-tuning intensif en calcul, une barrière réelle pour les intégrateurs devant couvrir des dizaines de SKU ou de postes de travail. Remplacer ce cycle par une simple indexation de données change radicalement l'équation économique. L'effet est notable sur des backbones VLA standard, mais il est surtout prononcé avec Cosmos Policy, le world-action model (WAM) de NVIDIA basé sur la génération vidéo : le retrieval fournit la progression macroscopique de la tâche, tandis que l'objectif de prédiction d'images futures du WAM renforce la cohérence des actions conditionnées. Cela suggère que les modèles de robotique générative de prochaine génération sont particulièrement bien positionnés pour tirer parti de cette approche. Le retrieval-augmented generation (RAG) est une technique établie en traitement du langage naturel ; son application aux politiques de contrôle robotique est plus récente. Les modèles VLA actuels, π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, offrent une bonne généralisation mais exigent toujours un fine-tuning par tâche pour être fiables en production. RoboTwin 2.0 est un benchmark récent pour la manipulation bimanuale. L'aspect cross-embodiment, qui utilise des vidéos de main humaine comme source bon marché, est également structurant : il ouvre la possibilité de collecter des données de déploiement sans robot. Les prochaines étapes naturelles incluent des expériences à plus grande échelle de pools de démonstrations et une intégration avec des systèmes de récupération dense type FAISS pour des catalogues de tâches industrielles larges.

IA physiqueOpinion
1 source
RHO : votre agent de code est secrètement un roboticien
813arXiv cs.RO 

RHO : votre agent de code est secrètement un roboticien

Des chercheurs ont publié en juin 2026 une méthode nommée RHO (Robotics Harness Optimization), qui repense l'usage des LLM pour le contrôle robotique. Plutôt que de générer du code en boucle pendant l'exécution, comme le font les systèmes Code-as-Policies actuels, RHO déplace l'optimisation à l'entraînement : des agents codeurs explorent des dépôts de politiques multi-fichiers (Repositories-as-Policies), composant des primitives de perception, planification et contrôle, avec pour seul signal du reward d'environnement, sans démos téléopérées. À l'exécution, le robot tourne sur du code statique. Sur le benchmark LIBERO-PRO (saisie-dépose avec perturbations), OpenVLA plafonne à 0,0 % et π₀.₅ de Physical Intelligence atteint 12,83 %, contre 45,0 % pour RHO, soit 2,5 fois le meilleur système multi-tour concurrent. Sur Robosuite, RHO fixe un nouveau SOTA à 70,0 % (record précédent : 68,29 %), en exécution single-turn sans corrections LLM au déploiement. Sur le benchmark O3DE de RAI, le taux de succès passe de 23,5 % à 44,3 %, avec 20 % moins de temps horloge et 27 % moins d'appels d'outils. Le résultat pointe un problème concret des VLA (Vision-Language-Action models) et des pipelines Code-as-Policies classiques : itérer avec un LLM à chaque cycle de contrôle est incompatible avec les contraintes temps-réel d'un bras industriel. RHO sépare raisonnement offline et exécution rapide, ce qui rend le déploiement possible sans dépendance cloud en temps réel. Sur LIBERO-PRO, les VLA de Physical Intelligence, parmi les plus robustes du secteur, échouent quasi-systématiquement sur des variantes perturbées que RHO gère à 45 %, ce qui suggère une meilleure généralisation out-of-distribution via l'approche neurosymbolique. Le paradigme Code-as-Policies a été popularisé par des travaux de Google et CMU, mais souffrait de son coût à l'inférence. RHO s'inscrit dans une logique de séparation train/deploy que l'on retrouve dans les approches de compilation de politiques robotiques. Les concurrents directs sur les benchmarks cités sont OpenVLA (Berkeley/Stanford) et π₀.₅ de Physical Intelligence. La recherche est un preprint arXiv (juin 2026), non encore soumis à peer review, et tous les résultats ont été obtenus en simulation ; une validation sur hardware physique et des déploiements industriels réels restent à démontrer.

IA physiqueOpinion
1 source
Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées
814arXiv cs.RO 

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement. L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche. Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

RecherchePaper
1 source
PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude
815arXiv cs.RO 

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

RecherchePaper
1 source
Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel
816arXiv cs.RO 

Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel

Des chercheurs proposent, dans un preprint déposé en juin 2026 sur arXiv (2606.15285), un cadre asynchrone baptisé "semantic-action decoupling" qui découple l'inférence sémantique de la génération d'actions au sein des modèles Vision-Language-Action (VLA). L'architecture divise le VLA en deux modules distincts: un module de compréhension à basse fréquence qui met à jour de manière asynchrone des conditions sémantiques réutilisables, et un module d'action à haute fréquence qui produit en continu des commandes de contrôle sans relancer l'intégralité du modèle. Testée sur le benchmark LIBERO avec les modèles π₀.₅ (Physical Intelligence) et UniVLA, ainsi que sur un robot réel avec UniVLA, la méthode atteint un débit d'inférence côté serveur allant jusqu'à 35,6 Hz pour le seul module d'action. Pour compenser le décalage temporel entre des représentations sémantiques potentiellement périmées et l'état d'exécution courant, les auteurs introduisent deux mécanismes additionnels: le conditionnement sur l'historique des actions passées, et un entraînement explicite à la désynchronisation temporelle (time-misalignment training). Ce résultat s'attaque à l'un des verrous centraux du déploiement industriel des VLA: leur coût computationnel élevé les contraint aujourd'hui à des fréquences de contrôle trop basses pour des tâches de manipulation rapide ou réactive. Atteindre 35,6 Hz sans modifier le backbone vision-langage ni introduire un planificateur externe est non trivial, car cela signifie qu'un intégrateur peut greffer cette optimisation sur un VLA existant sans refonte architecturale. Le travail apporte une réponse partielle au "demo vs. reality gap" souvent reproché aux VLA: en maintenant un contrôle en boucle fermée à haute fréquence, le système peut absorber des perturbations que des architectures synchrones rateraient. Il reste que les métriques publiées correspondent à un throughput serveur, et non à une latence de bout en bout sur un système embarqué, ce qui nuance la portée opérationnelle immédiate. Les VLA sont devenus l'architecture dominante en robotique de manipulation depuis π₀ (Physical Intelligence, 2024) et les travaux de Google DeepMind sur RT-2, OpenVLA et leurs successeurs. UniVLA, lui, est issu de travaux récents visant à unifier les modalités de commande dans un modèle unique. La problématique de la fréquence de contrôle est traitée en parallèle par plusieurs équipes: Physical Intelligence avec π₀.₅, mais aussi des approches par distillation ou par action chunking (ACT, Diffusion Policy). Ce preprint ne présente pas encore de déploiement industriel ni de timeline commerciale, mais il ouvre une voie d'optimisation compatible avec des VLA open-source, ce qui pourrait accélérer l'adoption par des intégrateurs disposant d'une infrastructure GPU serveur sans retraîner leurs modèles de base.

RechercheOpinion
1 source
Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable
817arXiv cs.RO 

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.16572) SteerGenPO, un cadre d'apprentissage par renforcement en espace latent destiné à transformer une politique générative entraînée, basée sur la diffusion ou les flux normalisants, en un contrôleur robotique déterministe et stable. Le système a été évalué sur six benchmarks Isaac Lab d'NVIDIA et sur une tâche de locomotion avec le robot humanoïde Unitree G1, avec des résultats supérieurs aux baselines RL classiques et génératives selon les auteurs. Il s'agit d'une publication académique en pré-impression, sans déploiement industriel annoncé ni validation terrain au-delà du G1. Le verrou technique adressé est connu : les politiques de diffusion accumulent des variations d'action à chaque pas de temps, ce qui dégrade la stabilité sur des systèmes robotiques à haute dimensionnalité. SteerGenPO sépare architecturalement exploration et contrôle : l'échantillonnage stochastique reste actif à l'entraînement pour diversifier les proposals d'actions, mais au déploiement, un acteur latent appris prédit une entrée déterministe et dépendante de l'état qui pilote la politique générative sans bruit résiduel. Pour les intégrateurs, la proposition n'exige pas de réentraîner la politique depuis zéro : elle greffe un mécanisme de pilotage sur un checkpoint pré-entraîné existant, ce qui ouvre la voie à l'exploitation de modèles fondation tout en garantissant la reproductibilité des trajectoires en production. Ce travail s'inscrit dans la compétition intense autour des politiques génératives en robotique. Physical Intelligence avec Pi-0 (2024) et NVIDIA avec GR00T N2 (2025) ont validé l'approche VLA-diffusion en environnements contrôlés, mais les questions sur la robustesse à l'inférence longue restent ouvertes. Boston Dynamics, Agility Robotics et Figure AI privilégient des pipelines de contrôle plus classiques pour la fiabilité en production. SteerGenPO propose une voie médiane : capitaliser sur la richesse exploratoire des modèles génératifs sans en subir l'instabilité au déploiement. Aucune timeline, partenariat industriel ni essai terrain n'est mentionné dans le préprint ; les prochaines validations naturelles porteraient sur la manipulation dextère et des tests sim-to-real approfondis.

IA physiqueOpinion
1 source
La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif
818arXiv cs.RO 

La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif

Une équipe de chercheurs publie sur arXiv (identifiant 2606.15064) un résultat négatif sur la curation de démonstrations pour l'apprentissage par imitation en robotique. L'hypothèse testée était la suivante : segmenter chaque trajectoire en phases temporelles, appliquer à chaque phase la métrique de qualité localement la plus informative, puis agréger les scores pour sélectionner les meilleures démonstrations. Les expériences portent sur trois tâches de saisie-dépose ("pick-and-place") de la suite de benchmarks LIBERO, avec un défaut structurel contrôlé dit "early-release" (relâchement prématuré de l'objet saisi), évalué sur cinq seeds aléatoires par condition. Résultat sans ambiguïté : la curation par phase n'est jamais la meilleure stratégie, et s'avère la pire sur deux tâches sur trois. Les chiffres sont nets : tâche 1, 86,0 % de taux de succès pour la méthode phasée contre 92,0 % pour la métrique globale unique ; tâche 3, 22,7 % contre 48,0 % pour l'application uniforme de la même métrique. Le mécanisme d'échec est tracé précisément : lorsque le signal de défaut est concentré dans une seule phase, l'agrégation des scores sur l'ensemble des phases dilue ce signal avec des valeurs non informatives issues des segments sans défaut, dégradant la sélection du sous-ensemble de démonstrations. Second problème structurel : les métriques gagnantes par phase ne se transfèrent pas d'une tâche à l'autre, aucune phase ne partageant la même métrique optimale entre deux tâches distinctes. La méthode est donc non réutilisable et exige une re-dérivation coûteuse pour chaque nouveau contexte. Pour les praticiens du "behavior cloning" et de l'apprentissage par imitation, ce résultat recadre une intuition répandue : la structure temporelle des démonstrations ne justifie pas une curation localisée quand le défaut est ponctuel. Ce travail s'inscrit dans la problématique croissante de la qualité des données en imitation learning. Des travaux antérieurs avaient établi qu'une métrique globale unique peut être le meilleur détecteur d'un défaut tout en étant le pire curateur de la politique résultante, tension qui avait motivé l'hypothèse phasée. La conclusion pratique est inverse : identifier une seule métrique informative sur le défaut et l'appliquer uniformément surpasse systématiquement la décomposition par phase. Le pipeline complet, les implémentations de métriques et les résultats par seed sont publiés en open source. Le sujet gagne en importance industrielle à mesure que les pipelines VLA (vision-language-action) et les systèmes de collecte téléopérée à grande échelle, notamment pour les robots humanoïdes en cours de déploiement chez Figure, 1X ou Apptronik, font du filtrage de démonstrations un levier critique pour la qualité des politiques apprises.

RecherchePaper
1 source
λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes
819arXiv cs.RO 

λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes

Une équipe de chercheurs publie sur arXiv (arXiv:2606.16022, juin 2026) une nouvelle méthode d'analyse de sécurité pour robots humanoïdes à haute dimension, baptisée λ-Reachability. L'approche reformule les équations de Bellman Hamilton-Jacobi, qui permettent de délimiter le "safe set" d'un système dynamique, en remplaçant les mises à jour TD à un seul pas par un estimateur stochastique multi-pas à horizon géométrique. Un paramètre λ contrôle l'interpolation entre cohérence locale et objectifs sur horizon long, par analogie avec TD(λ) en apprentissage par renforcement. Un second paramètre δ < 1 garantit formellement que la mise à jour est une contraction, permettant l'apprentissage par différence temporelle avec convergence prouvée. Les auteurs appliquent la méthode à des humanoïdes en simulation et en conditions réelles, sur des tâches d'équilibre et d'évitement de collision, avec une amélioration significative de la classification des frontières du safe set et de l'estimation des marges de sécurité par rapport aux baselines TD à un seul pas. Le verrou que cherche à lever ce travail est central pour la commercialisation des humanoïdes : garantir formellement la sécurité d'un système à plusieurs dizaines de degrés de liberté opérant près d'humains. L'analyse Hamilton-Jacobi est mathématiquement rigoureuse mais ne passait pas à l'échelle au-delà de six ou sept dimensions. L'estimateur multi-pas à horizon géométrique améliore l'estimation de valeur de sécurité sans exploser la variance, un compromis que les méthodes à un seul pas gèrent mal sur des espaces d'état élevés. L'inclusion d'expériences sur vrai robot renforce la crédibilité des résultats, même si la nature précise du robot et les conditions expérimentales exactes ne sont pas détaillées dans le résumé du preprint. L'analyse de reachability Hamilton-Jacobi est un domaine actif depuis les années 1990, mais les toolboxes classiques (helperOC, BEACLS) butaient sur la malédiction de la dimensionnalité. Les méthodes concurrentes incluent les Control Barrier Functions (CBF), très utilisées dans les laboratoires de CMU, MIT et Berkeley, et le safe RL à contraintes Lagrangiennes. La connexion avec TD(λ) positionne ce travail à l'intersection du contrôle optimal et du deep RL, un territoire que convoitent Figure, 1X, Agility Robotics et Unitree pour obtenir des garanties de sécurité certifiables en déploiement industriel. Il s'agit d'un preprint académique sans partenariat industriel annoncé : les équipes robotique qui évaluent des approches de safety pour homologation auront intérêt à surveiller la suite de ces travaux.

UELes laboratoires européens comme le CEA-List et l'INRIA, actifs sur la vérification formelle des systèmes robotiques, pourraient intégrer cette approche à horizon géométrique dans leurs travaux de certification sécurité pour humanoïdes.

RecherchePaper
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
820arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source
FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes
821arXiv cs.RO 

FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes

FlashNav, un framework d'entraînement de politiques de navigation robotique présenté dans une préprint arXiv (2606.15846) publiée en juin 2026, annonce un entraînement en moins de 20 secondes sur GPU pour des politiques de navigation déployables sur robots réels. Les auteurs ont testé le système sur deux plateformes matérielles : le robot à roues TurtleBot2 et le robot quadrupède Unitree Go2. Sur une carte RTX 5090, FlashNav atteint un taux de succès de 100 % en dessous de 20 secondes, et reste dans les dizaines de secondes sur des GPU de bureau grand public. L'architecture repose sur un simulateur bitmap batché et un pipeline d'entraînement entièrement résidant sur GPU, piloté par un algorithme baptisé FastDSAC, qui génère en parallèle un volume massif de transitions de navigation sans jamais quitter la mémoire GPU. La clé du gain de vitesse est architecturale : FlashNav aligne strictement la simulation sur le MDP (processus de décision markovien) de navigation, en conservant uniquement les composantes utiles à l'apprentissage, géométrie d'occupation, capteurs de distance (range sensing), contrôle conditionné par objectif, dynamique de mouvement, gestion des collisions, terminaison et réinitialisation, tout en éliminant le rendu graphique et les détails physiques haute-fidélité habituellement présents dans les simulateurs. Ce choix réduit drastiquement le coût computationnel sans sacrifier la transférabilité : les politiques apprises se transfèrent sur robots physiques, en environnement intérieur statique et dynamique. Pour les intégrateurs robotiques, c'est un signal fort : le sim-to-real gap reste gérable même avec une simulation volontairement appauvrie, à condition que le MDP soit correctement modélisé. Le deep reinforcement learning pour la navigation autonome souffrait jusqu'ici d'un frein majeur à l'adoption industrielle : des cycles d'entraînement de plusieurs heures, voire de plusieurs jours, incompatibles avec l'itération rapide en production. FlashNav attaque directement ce verrou. Sur le plan concurrentiel, il se positionne face aux approches de navigation basées sur des cartes (SLAM classique) et aux VLA (Vision-Language-Action models) qui nécessitent des ressources de calcul bien supérieures. La prochaine étape naturelle sera de valider le passage à l'échelle dans des environnements dynamiques plus complexes et sur des flottes de robots, ce que la préprint ne couvre pas encore.

RecherchePaper
1 source
Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées
822arXiv cs.RO 

Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées

Des chercheurs ont présenté Sequential Asymmetric Imitation (SAI), une méthode d'apprentissage par imitation pour entraîner deux robots manipulateurs mobiles bimanuels à collaborer physiquement sur des tâches conjointes impliquant des objets rigides ou déformables. Publiée en pré-impression sur arXiv (2606.16490v1), l'étude part d'un constat précis : les échecs en manipulation collaborative ne proviennent pas d'un manque de compétence individuelle, mais de problèmes de synchronisation, notamment les attentes mal timées, le cédage insuffisant et les conflits lors du saisissement ou du relâchement d'objets. SAI propose un curriculum en trois étapes piloté par un seul téléopérateur : Robot A est d'abord entraîné à partir de démonstrations unilatérales avec un partenaire humain compliant ; Robot B est ensuite entraîné contre la politique déployée de Robot A ; enfin, Robot A est affiné par des interventions ponctuelles ciblées sur les zones de défaillance de coordination. Les expériences en conditions réelles montrent des gains mesurés sur la réussite des tâches, la synchronisation de phase et le comportement de cédage adaptatif, par rapport à des baselines d'imitation indépendante. L'apport principal de SAI réside dans l'élimination de la contrainte des démonstrations synchronisées à deux opérateurs, un frein logistique majeur pour la collecte de données dans les systèmes multi-robots. En structurant le curriculum de manière asymétrique, la méthode expose progressivement chaque robot à des comportements partenaires de plus en plus réalistes, incluant délais, décalages de phase et résistance insuffisante, sans nécessiter de canal de communication explicite entre les robots. Pour les intégrateurs industriels, l'argument est concret : un seul opérateur qualifié suffit à générer un dataset multi-agent viable. L'étude suggère que la coordination physique peut émerger de la structure du curriculum d'imitation elle-même, plutôt que d'un mécanisme de coordination dédié, ce qui contredit l'hypothèse dominante selon laquelle la collaboration multi-robot nécessite obligatoirement une communication inter-agents ou des démonstrations co-téléopérées. Ce travail s'inscrit dans un corpus croissant sur la manipulation multi-robot en milieu non structuré, où les approches dominantes reposaient jusqu'ici soit sur des communications inter-robots explicites, soit sur des démonstrations co-téléopérées coûteuses. En n'utilisant aucun des deux, SAI propose une troisième voie potentiellement plus scalable pour les déploiements industriels impliquant des paires de bras robotiques. Il convient toutefois de souligner que la méthode n'est validée que sur un ensemble limité de tâches réelles, sans benchmark standardisé face à des méthodes récentes comme ACT ou Diffusion Policy en contexte multi-agent, et que ce document reste un pré-print non révisé par les pairs. La page projet est disponible sur GitHub (cyc0429.github.io/sai-project-page) ; les prochaines étapes naturelles incluront la généralisation à des topologies de tâches plus complexes et l'évaluation sur des horizons temporels plus longs.

RecherchePaper
1 source
Entraînement et évaluation des politiques de diffusion avec de longs contextes
823arXiv cs.RO 

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Une équipe de recherche a publié le 20 juin 2026 sur arXiv (arXiv:2606.16447) une étude systématique sur l'impact de la longueur de contexte dans l'apprentissage par imitation pour la manipulation robotique. Les politiques diffusion actuelles, celles qui apprennent des trajectoires motrices à partir d'observations RGB, ne conditionnent généralement les actions du robot que sur une courte fenêtre temporelle d'observations passées. Les auteurs ont construit un benchmark couvrant un spectre de tâches à stabilité locale et à exigences mémoire variables, en faisant varier progressivement la longueur du contexte de courte à longue, et ce dans plusieurs régimes de données. Leur résultat central : avec le bon backbone de débruitage (UNet avec cross-attention), les politiques single-task atteignent des taux de succès élevés même en scalant naïvement le contexte, y compris dans les régimes de données standards. Les chercheurs proposent également un algorithme d'entraînement qui entraîne conjointement les politiques sur plusieurs longueurs de contexte, réduisant ainsi la complexité d'échantillonnage de l'apprentissage à long contexte. Cette étude remet directement en cause un consensus répandu dans la littérature sur les VLA (Vision-Language-Action models) et les diffusion policies : l'idée que l'extension naïve du contexte serait fragile et nécessiterait des solutions architecturales spécifiques. Si ce résultat se confirme sur des benchmarks plus larges, il simplifie considérablement le pipeline de développement pour les intégrateurs robotiques, qui n'auraient plus besoin d'architectures mémoire spécialisées (LSTM, state-space models) pour résoudre des tâches séquentielles longues. C'est aussi un signal que le "memory gap" souvent invoqué pour justifier des approches complexes était peut-être surestimé, au moins dans les régimes de données courants. Les diffusion policies sont devenues un axe central de la robotique de manipulation depuis les travaux de Diffusion Policy (Chi et al., 2023) et leurs déclinaisons comme pi-0 de Physical Intelligence. La question du contexte long était jusqu'ici traitée par des approches ad hoc, recurrence, attention causale, mémoire externe. Cette étude offre la première analyse systématique à ce niveau de granularité, selon les auteurs eux-mêmes. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation industrielle réelle, la généralisation multi-tâche, et l'évaluation contre des baselines comme ACT ou des variantes de pi-0, dont les benchmarks publics permettraient une comparaison directe.

RecherchePaper
1 source
Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques
824arXiv cs.RO 

Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques

Des chercheurs ont publié (arXiv:2602.02773, mise à jour juin 2026) les résultats d'un système permettant à des utilisateurs atteints de lésions cervicales de la moelle épinière (cSCI, quadriplégie) de piloter un manipulateur mobile domestique via des manchettes électromyographiques haute densité (HDEMG). Le dispositif consiste en deux manchettes textiles intégrées, portées sur les deux avant-bras, qui captent l'activité neuromotrice résiduelle de membres cliniquement paralysés et la convertissent en commandes gestuelles temps réel pour le robot. Sur deux participants avec cSCI, le système atteint un taux de classification des intentions motrices allant jusqu'à 98,0 %. L'étude s'est déroulée sur douze jours en conditions réelles, dans le domicile même des participants, pour des tâches quotidiennes de type ADL (activities of daily living). Ce résultat est significatif pour plusieurs raisons. D'abord, il démontre qu'une interface de contrôle non invasive et portable peut extraire un signal moteur exploitable depuis des membres dont la paralysie est établie cliniquement, ce qui remet en cause l'hypothèse selon laquelle les interfaces robustes nécessitent obligatoirement une implantation chirurgicale (BCI intracrânien) ou des capacités motrices résiduelles importantes. Ensuite, l'architecture d'autonomie partagée, combinant vision, langage naturel et planification de mouvement, réduit la charge cognitive de l'opérateur pour les tâches de navigation, qui sont habituellement les plus pénibles dans un environnement domestique non structuré. Pour un intégrateur ou un décideur industriel, cela valide un paradigme de téléopération augmentée où l'IA complète les intentions de l'utilisateur sans les supplanter. Ce travail s'inscrit dans un champ de recherche qui, depuis une décennie, explore l'EMG de surface pour le contrôle prothétique et robotique, mais qui peinait à franchir le cap du test en laboratoire vers un déploiement prolongé hors-lab. Côté concurrence, des acteurs comme Aescape, Wandercraft (exosquelettes) ou des programmes DARPA/NSF travaillent sur des interfaces haptiques et neurales, mais peu ont publié des études en domicile réel sur plusieurs jours. Les prochaines étapes probables incluent l'élargissement de la cohorte au-delà de n=2, l'intégration avec des plateformes commerciales comme le Stretch de Hello Robot ou le spot-arm de Boston Dynamics, et l'évaluation des effets d'adaptation sur le long terme.

UEImpact indirect pour les acteurs français comme Wandercraft qui développent des interfaces neuromotrices pour exosquelettes, mais l'étude provient de chercheurs non identifiés comme européens et ne cible pas le marché UE.

RecherchePaper
1 source
GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels
825arXiv cs.RO 

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Une équipe de chercheurs a publié sur arXiv (2606.14160) une nouvelle méthode d'estimation d'état proprioceptive pour robots à pattes, baptisée GAIT. L'approche repose sur une tokenisation inertielle-jambe (Inertial-Leg, IL) couplée à un réseau d'attention : plutôt que de concaténer l'ensemble des données capteurs en un seul vecteur plat, l'architecture représente les mesures inertielles et les mesures par jambe comme des tokens distincts, puis utilise un mécanisme d'attention pour pondérer dynamiquement chaque source selon les conditions de contact courantes. La méthode a été validée sur un robot quadrupède Unitree Go1, sur des terrains encombrés de débris absents de la simulation d'entraînement, et sur des allures (gait patterns) non présentées lors de l'apprentissage. L'enjeu de GAIT est de résoudre un problème central des estimateurs à pattes : la fiabilité des mesures de cinématique directe dépend du contact effectif du pied avec le sol. Les estimateurs classiques "contact-aided" contournent ce problème via un module de détection de contact explicite et l'hypothèse d'un appui stationnaire, ce qui les rend fragiles sur terrains irréguliers ou lors de transitions d'allure. GAIT apprend ce comportement de repondération directement depuis les données, sans estimateur de contact dédié, éliminant une source d'erreur en cascade. Les résultats montrent une supériorité sur les estimateurs d'apprentissage existants pour des allures non vues, ainsi qu'une amélioration par rapport aux méthodes modèles contact-aided, confirmant que les architectures à attention peuvent réduire le gap sim-to-real sur l'estimation proprioceptive bas-niveau. L'estimation d'état proprioceptive reste un défi persistant en robotique à pattes : les filtres de Kalman étendu (EKF) et variantes invariantes dominent en production chez Boston Dynamics et Unitree, mais peinent sur terrains non structurés. Les approches d'apprentissage antérieures traitaient généralement les capteurs comme un vecteur plat homogène, sans différenciation structurelle entre inertielles et cinématiques. GAIT s'inscrit dans la tendance 2024-2026 d'appliquer des mécanismes d'attention aux données robotiques bas-niveau, une direction convergente avec les architectures VLA (Vision-Language-Action) pour la commande motrice. Le code n'est pas encore publié ; la prochaine étape naturelle serait une validation sur plateformes bipèdes telles que l'Unitree H1 ou le Boston Dynamics Atlas, où la phase de vol rend l'estimation d'état encore plus critique.

RecherchePaper
1 source
Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables
826arXiv cs.RO 

Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables

Fin juin 2025, une équipe de recherche a déposé sur arXiv (2506.14188) CORD-SLS, une méthode de contrôle temps réel pour la manipulation certifiée d'objets déformables, principalement des cordes et des tissus. Le coeur du système est un simulateur différentiable GPU-parallèle avec lissage de contact, permettant une planification par gradient à travers des contacts intermittents. Un algorithme de commande prédictive robuste (MPC) à retour de sortie, lui aussi GPU-parallèle, exploite ce simulateur pour générer des trajectoires en quelques millisecondes. Pour gérer les incertitudes de modèle et de perception, le système intègre la prédiction conforme (conformal prediction), qui calibre les erreurs de rétroaction visuelle et produit des "tubes atteignables" offrant des garanties probabilistes de sécurité. Les expériences couvrent des tâches à contact riche: évitement d'obstacles, routage de corde, pliage et lissage de tissu, évaluées en simulation et sur matériel réel, avec des résultats supérieurs aux baselines sur les critères de sécurité, de vitesse et de taux de succès. La manipulation d'objets déformables reste l'un des angles morts de la robotique industrielle: cordes et tissus présentent des espaces d'états quasi-infinis et des dynamiques de contact difficiles à modéliser. CORD-SLS attaque deux verrous simultanément: la vitesse de planification compatible avec du contrôle en boucle fermée temps réel, et des garanties formelles de sécurité absentes de la quasi-totalité des approches par apprentissage (RL, VLA). Le fait que le même simulateur accélère également l'entraînement de politiques neuronales model-based est notable: cela ouvre la voie à des pipelines hybrides combinant planification robuste et politiques apprises. Pour les intégrateurs ciblant la couture automatisée, la logistique textile ou la robotique chirurgicale, c'est une démonstration académique sérieuse, pas encore un produit déployé. La manipulation déformable est étudiée depuis les années 1990, mais les approches classiques échouaient systématiquement à l'échelle réelle faute de simulateurs rapides et fiables. Les méthodes par apprentissage de type diffusion policies et VLAs gagnent du terrain mais peinent à fournir des garanties certifiables, ce qui freine leur adoption dans des contextes régulés. CORD-SLS positionne le couplage MPC robuste et prédiction conforme comme une alternative formellement vérifiable. Les concurrents directs incluent les travaux de simulation différentiable de DiffTaichi, les approches MPC déformable développées à MIT et CMU, et les politiques end-to-end de type Pi-0 de Physical Intelligence. Le papier reste un preprint sans publication en conférence confirmée à ce stade; les suites dépendront de validations sur des tâches industrielles réelles et d'une éventuelle mise à disposition publique du code.

RecherchePaper
1 source
Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné
827arXiv cs.RO 

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

Des chercheurs publient sur arXiv (référence 2606.14084) une méthode baptisée SDN (Selected Diffusion Noise), conçue pour améliorer à l'inférence les politiques VLA (Vision-Language-Action) basées sur la diffusion, sans nécessiter de réentraînement. SDN opère dans l'espace du bruit de diffusion en sélectionnant dynamiquement des vecteurs de bruit maximalement séparés d'un ensemble de référence, ce qui réduit la dépendance aux corrélations visuelles parasites, tout en filtrant les candidats produisant des trajectoires d'action plus cohérentes. La méthode a été évaluée sur deux benchmarks de simulation (Google Robot, Widow-X) et deux jeux de données réels, sur plusieurs politiques VLA majeures dont pi0 (Physical Intelligence), Groot-N1.5 et Groot-N1.6 (NVIDIA). Les gains annoncés sont de +8 points de taux de succès en simulation et +10 points en conditions réelles, avec une réduction mesurable du "action jitter", c'est-à-dire l'instabilité des trajectoires articulaires. Ces résultats sont issus d'un preprint non encore évalué par les pairs. L'intérêt pratique tient à l'approche "training-free" : SDN s'applique à l'inférence sans modifier les paramètres du modèle, ce qui permet d'améliorer un système déjà déployé sans refondre le pipeline ML ni supporter les coûts d'un réentraînement. Pour un intégrateur ou un décideur achetant une solution robotique basée sur une politique VLA, ce type de méthode représente un levier de fiabilité à faible coût opérationnel. La robustesse maintenue sous des observations avec occultation partielle (object-masked observations) est également pertinente pour les environnements industriels réels. SDN s'inscrit dans la tendance plus large des techniques d'optimisation test-time appliquées aux modèles génératifs, analogues au best-of-N sampling dans les LLMs. Les politiques VLA basées sur la diffusion, popularisées par Physical Intelligence (pi0, pi0.5) et NVIDIA Isaac (GR00T N1.5, N1.6), sont devenues en 2025-2026 la référence de facto en manipulation robotique généraliste. Elles héritent toutefois d'une sensibilité aux artefacts visuels hors distribution et d'une certaine instabilité d'action, deux problèmes que SDN cible directement. L'abstract ne mentionne ni affiliation institutionnelle ni dépôt de code public, ce qui limite pour l'instant la reproductibilité et les comparaisons indépendantes. Les prochaines étapes naturelles seraient une validation sur plateformes humanoïdes complètes (Figure, 1X, Unitree H1) et des benchmarks de manipulation plus diversifiés que Widow-X ou Google Robot.

UELes intégrateurs européens déployant des solutions robotiques basées sur des politiques VLA (pi_0, GR00T) pourraient bénéficier de cette méthode d'optimisation sans réentraînement, mais aucun acteur FR/EU n'est directement impliqué dans ces travaux.

IA physiqueOpinion
1 source
Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles
828arXiv cs.RO 

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

Des chercheurs ont publié en juin 2026 (arXiv:2606.13746) un système de peau tactile dynamique basé sur des guides d'ondes acoustiques passifs et flexibles. L'architecture repose sur des résonateurs de Helmholtz à membranes élastiques interconnectés par des microtubes renforcés par ressorts, formant un réseau fermé dont la transmission acoustique reste stable sous flexion macroscopique, sans électronique distribuée dans la structure. Quatre microphones suffisent à couvrir 64 noeuds de détection avec une résolution spatiale de 4 mm et une précision de localisation supérieure à 99 %. L'inférence, fondée sur une transformée en ondelettes continue rapide (Fast CWT) couplée à un réseau de neurones léger, s'exécute en 5,5 ms. Les prototypes démontrés (réseau d'extrémité de doigt, gant tactile, peaux de grande surface) détectent des stimuli allant du contact d'un seul cheveu à un impact de particule de 5 mg, ainsi que des ondes de pouls artériel et des effleurements de plume, sur des signaux inférieurs à 100 Hz. La contribution clé n'est pas la sensibilité brute mais le découplage entre performance et flexibilité structurelle : contrairement aux capteurs piézorésistifs ou capacitifs qui se dégradent sur des substrats courbés, la transmission acoustique passive reste invariante. Ramener à quatre microphones la couverture de 64 points de mesure réduit câblage, coût et modes de défaillance, trois leviers critiques pour une mise en série industrielle. La précision annoncée de 99 % reste à confirmer hors conditions de laboratoire contrôlé et sur des cycles de manipulation réels. Ces travaux s'inscrivent dans une compétition dense autour de la peau tactile robotique, face aux capteurs optiques (famille GelSight du MIT), aux matrices piézorésistives (BeBop Sensors, SynTouch) et aux peaux capacitives développées en Europe et en Asie. Aucune approche n'a encore atteint la trifecta scalabilité-robustesse-coût sur un corps humanoïde complet. Ce paradigme passif pourrait intéresser des plateformes comme Agility Robotics, Figure AI ou Apptronik, qui cherchent à intégrer du retour tactile sans multiplier la complexité d'assemblage. La validation mécanique sur cycles répétés et la soumission à une revue à comité de lecture constituent les prochaines étapes critiques.

RecherchePaper
1 source
EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée
829arXiv cs.RO 

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

Une équipe de recherche publie sur arXiv (arXiv:2606.12690, juin 2026) une architecture baptisée EWAM (Enhanced World Action Model), conçue pour adapter un robot à de nouvelles configurations de tâches sans aucun jeu de démonstrations supplémentaires et sans réentraîner le réseau de base. EWAM s'appuie sur Cosmos3, le modèle fondationnel de simulation-prédiction monde développé par NVIDIA, maintenu entièrement gelé. Quatre couches neuronales légères y sont greffées : une couche mémoire d'expérience (Neural Experience Memory Layer) insérée dans les couches intermédiaires du Diffusion Transformer (DiT), qui injecte du contexte d'exécution ; une couche de détection d'anomalies (Neural Anomaly Detection Layer) placée après la tête de prédiction d'état, qui mesure en temps réel la divergence entre état prédit et état observé ; une couche de routage de politique (Neural Policy Routing Layer) qui choisit dynamiquement entre exécution directe, replanification conservative ou rollback de récupération selon la sévérité de l'anomalie ; et une couche de correction d'action (Neural Action Correction Layer) qui affine les séquences d'actions générées à partir des diagnostics d'exécution. L'ensemble est évalué exclusivement en protocole zéro-shot. Ce que montre EWAM, c'est qu'il est possible d'obtenir des gains de performance significatifs à l'inférence uniquement, sans toucher aux poids du modèle de base et sans collecter de nouvelles démonstrations spécifiques à chaque tâche. Pour un intégrateur industriel ou un COO, c'est un signal important : le coût de redéploiement sur de nouveaux layouts d'atelier, qui constitue aujourd'hui l'un des freins majeurs à la généralisation des robots mobiles et des manipulateurs apprenants, pourrait être absorbé par de l'adaptation en ligne plutôt que par des cycles coûteux de collecte de données et de fine-tuning. Le module de détection d'anomalies couplé au routage de récupération adresse directement le "demo-to-reality gap" : les modèles génératifs de type monde peuvent prédire des états plausibles mais diverger sur le terrain ; EWAM tente de corriger cette dérive en boucle fermée. La différenciabilité des modules mémoire, détection et correction dans le chemin forward de Cosmos3 distingue cette approche d'une simple fusion de features en post-processing. Cosmos3 est le modèle monde physique de NVIDIA, successeur de Cosmos1 et Cosmos2, entraîné sur des volumes massifs de vidéos de manipulation et de navigation pour prédire des trajectoires d'états futurs vraisemblables. L'architecture EWAM s'inscrit dans une vague de travaux qui cherchent à exploiter ces fondations gelées plutôt qu'à les réentraîner, une tendance que l'on retrouve aussi dans Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA Robotics) ou les approches VLA (Vision-Language-Action) basées sur des backbones pré-entraînés. Les acteurs concurrents sur ce créneau de l'adaptation légère incluent les équipes de DeepMind (RT-2, AutoRT), de Physical Intelligence et de plusieurs laboratoires universitaires américains et chinois. EWAM est pour l'instant un résultat de recherche académique non déployé en production, et les auteurs ne précisent pas de partenaires industriels ni de calendrier de transfert. Les prochaines étapes naturelles seraient une validation sur hardware réel à grande échelle et une comparaison directe en termes de coût de déploiement face aux méthodes de fine-tuning léger (LoRA, QLoRA) appliquées à ces mêmes backbones.

IA physiqueOpinion
1 source
WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force
830arXiv cs.RO 

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

Une équipe de chercheurs présente WT-UMI dans un preprint arXiv déposé en juin 2026, une interface tactile portable conçue pour la manipulation corps entier par des robots humanoïdes. Le dispositif se porte sur un opérateur humain ou se monte directement sur un humanoïde, et capture simultanément des images tactiles, des mesures de force de contact et les poses des effecteurs terminaux, aussi bien en mode démonstration humaine qu'en téléopération. L'architecture repose sur deux modules complémentaires : un correcteur de pose cible conditionné par la force, qui apprend à traduire les poses humaines en commandes exécutables par le robot à partir de données de téléopération, et un planificateur supervisé par la force qui prédit conjointement les trajectoires de pose et les profils de force de contact. Ces prédictions servent de référence à un contrôleur d'admittance basé sur le retour tactile. Évalué sur cinq tâches à contacts riches couvrant des objets déformables, des charges rigides encombrantes et la collaboration humain-humanoïde, WT-UMI surpasse quatre politiques de référence en taux de succès et en précision de suivi des contacts. L'enjeu sous-jacent est structurel : la quasi-totalité des politiques d'imitation actuelles traitent les forces de contact de manière implicite, par le signal visuel ou proprioceptif uniquement, ce qui atteint ses limites physiques dès que l'objet manipulé est souple, encombrant ou porté à plusieurs agents. WT-UMI attaque directement le dilemme classique entre démonstrations humaines, riches en interactions de contact naturelles mais non exécutables telles quelles par un robot, et téléopération, précise dans les actions robot mais moins naturelle dans la régulation des forces. La fusion des deux sources via un module de correction appris propose une troisième voie. Pour les intégrateurs et les décideurs industriels, cela ouvre une piste concrète vers la manipulation de charges souples ou asymétriques, un verrou persistant en logistique et en assemblage. WT-UMI s'inscrit dans la lignée des interfaces UMI (Universal Manipulation Interface) apparues vers 2023-2024 pour faciliter la collecte de démonstrations à faible coût. L'extension "WT" ajoute la détection tactile distribuée sur l'ensemble du corps, au-delà des capteurs de poignet ou de doigts habituels. Il s'agit à ce stade d'un preprint de recherche sans déploiement industriel annoncé, ce point mérite d'être précisé face à des métriques présentées sans contexte de cadence de cycle ni de robustesse à l'échelle. Dans le paysage concurrent, Physical Intelligence avec Pi-0, Figure avec ses humanoïdes commerciaux et Boston Dynamics ciblent également la manipulation robuste, mais restent majoritairement dans une logique visuo-motrice ou de politiques VLA. WT-UMI se distingue en faisant du contact une variable de planification explicite plutôt qu'un résidu à corriger a posteriori. Les prochaines étapes logiques seraient une validation sur matériel humanoïde commercial et une comparaison frontale avec des architectures VLA, aujourd'hui dominantes dans la course à la généralisation.

IA physiquePaper
1 source
Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur
831arXiv cs.RO 

Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur

Des chercheurs ont publié le 11 juin 2026 sur arXiv (référence 2606.11464) un cadre basé sur des transformeurs pour prédire l'état d'une balle de ping-pong en conditions réelles, dans le but d'améliorer le contrôle en boucle fermée d'un robot de tennis de table. Le système modélise les corrélations temporelles longue portée à partir de séquences d'observations historiques, sans recourir à des équations physiques de vol ou de rebond. Pour l'entraînement, l'équipe a constitué un jeu de données réel à grande échelle, collecté auprès de joueurs de niveaux variés et avec des configurations différentes de canons à balles, afin de maximiser la diversité des trajectoires. La pièce centrale de la contribution est SPAD (Swap Predictor at Deployment) : une stratégie de transfert sim-to-real qui consiste simplement à substituer, au moment du déploiement, le simulateur physique utilisé pendant l'entraînement par le prédicteur entraîné sur données réelles, sans nécessiter de réentraînement de la politique de contrôle. Ce résultat est significatif car il s'attaque directement au problème du sim-to-real gap, l'un des verrous majeurs de la robotique dynamique à haute vitesse. La plupart des approches existantes soit dépendent d'une identification précise des paramètres physiques (masse de la balle, coefficient de rebond, spin), soit peinent à généraliser hors distribution simulée. SPAD propose une alternative modulaire : le prédicteur est un composant interchangeable, ce qui permet de conserver l'efficacité de l'entraînement en simulation tout en bénéficiant de la fidélité des données réelles uniquement à l'inférence. C'est un paradigme "plug-and-play" qui pourrait s'étendre à d'autres tâches de manipulation rapide où la simulation reste incomplète. Le tennis de table robotique est un banc de test établi pour le contrôle haute vitesse, utilisé notamment par des équipes de Google DeepMind (qui ont démontré des robots capables de battre des joueurs amateurs en 2023) et par plusieurs laboratoires universitaires en Chine et en Europe. La spécificité de cette approche est d'éviter toute hypothèse sur le modèle physique du vol de balle, là où des systèmes comme celui de DeepMind intègrent encore des composantes analytiques explicites. La prochaine étape naturelle serait de valider SPAD sur des politiques de contrôle plus complexes, notamment face au spin variable et aux échanges multi-rebonds, qui restent les cas limites non résolus du domaine.

RecherchePaper
1 source
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
832arXiv cs.RO 

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires
833arXiv cs.RO 

Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires

Une équipe de chercheurs publie sur arXiv (référence 2606.12027) ILD, pour Invertible Latent Decomposition, un framework de planification de trajectoires sans collision dans des espaces de configuration encombrés. ILD apprend conjointement un mapping inversible et un ensemble de polytopes convexes explicites dans l'espace latent correspondant : la planification s'effectue sur ces convexes latents, et le mapping inversible retraduit les chemins vers l'espace d'origine en préservant la faisabilité vis-à-vis des régions sûres explicites. Le framework intègre également VGS (Visibility-Guided Sampling), une méthode d'échantillonnage guidée par la visibilité conçue pour maintenir la connectivité entre ensembles convexes lors de la planification. Les évaluations couvrent la navigation 2D, un manipulateur à 6 degrés de liberté (DOF) et un bras bimanuel à 14-DOF. Sur ce dernier, les auteurs démontrent une planification temps réel avec un affinement à l'exécution (test-time refinement) s'adaptant aux changements de géométrie de scène, confirmé sur un bras 6-DOF réel. Zéro faux positif n'est observé après cet affinement, contre des taux non nuls pour les méthodes de référence testées. L'enjeu industriel est la résolution d'un arbitrage fondamental en robotique de manipulation : les représentations explicites comme les unions de polytopes convexes s'intègrent directement dans les planificateurs à base d'optimisation comme contraintes dures, garantissant l'absence de collision, mais leur complexité de paramétrage explose avec la dimension de l'espace de configuration. Les représentations implicites passent mieux à l'échelle géométrique mais n'offrent pas ces garanties formelles. ILD combine les deux avantages. Pour un intégrateur ou un responsable de production, la planification temps réel sur 14-DOF avec adaptation dynamique à la scène représente un seuil d'utilisabilité concret en environnement industriel, à condition que les performances tiennent hors des conditions contrôlées de laboratoire, point sur lequel les auteurs restent prudemment ouverts. La planification sous contraintes de collision est un problème adressé depuis des décennies par des planificateurs probabilistes (RRT, PRM) et des méthodes d'optimisation convexe comme IRIS et GCS (Graph of Convex Sets), issus en particulier des travaux de Russ Tedrake au MIT CSAIL. ILD s'inscrit dans la tendance récente qui hybride apprentissage profond et garanties formelles plutôt que d'opposer les deux approches. Le preprint ne mentionne ni partenaire industriel ni calendrier de commercialisation, restant au stade académique. Les extensions attendues concernent la robustesse sur des scènes plus dynamiques et le passage à des espaces de configuration supérieurs à 14-DOF, en vue des manipulateurs humanoïdes à bras multiples dont les architectures dépassent souvent 28-DOF.

RecherchePaper
1 source
Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques
834arXiv cs.RO 

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion
1 source
SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation
835arXiv cs.RO 

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

Une équipe de chercheurs présente SAFER-Nav (arXiv:2606.11636), une méthode de fine-tuning pour améliorer la sécurité des modèles de navigation visuelle robotique opérant uniquement à partir d'images RGB. Le problème est connu : les politiques basées sur des transformeurs ou modèles de diffusion, telles que ViNT (Visual Navigation Transformer) et NoMaD, restent orientées vers leur objectif même dans des environnements inconnus, mais génèrent des trajectoires dangereuses en présence d'obstacles non vus ou de conditions décalées. SAFER-Nav intègre directement dans la politique, via un fine-tuning "segmentation-aware", la représentation explicite des frontières d'obstacles et de l'espace libre traversable, une information absente des approches existantes fondées sur la correction externe de trajectoire ou des priors géométriques internes. Les évaluations portent sur plusieurs plateformes robotiques mobiles, des environnements intérieurs, et des scénarios avec obstacles statiques et dynamiques ; elles montrent une réduction de la fréquence de collisions par rapport à ViNT, NoMaD et leurs variantes augmentées CARE, avec maintien des performances d'atteinte d'objectif. Il s'agit d'un preprint arXiv déposé en juin 2026, non encore évalué par les pairs, sans déploiement commercial annoncé. L'enjeu central est la généralisation à des environnements non vus, verrou majeur pour le déploiement industriel de robots mobiles autonomes dans des entrepôts, hôpitaux ou chantiers. Les méthodes existantes de correction de trajectoire agissent en aval de la politique sans modifier sa représentation interne, laissant intacte la cause première des comportements dangereux. En encodant la structure sémantique de la scène directement dans les poids du modèle, SAFER-Nav adresse le problème à la source ; sa compatibilité avec des backbones RGB variés représente un avantage pratique pour les intégrateurs souhaitant améliorer des systèmes existants sans changer d'architecture. Ces résultats appuient l'hypothèse que le "demo-to-real gap" peut être réduit par supervision sémantique au fine-tuning, sans refonte architecturale complète. ViNT et NoMaD, issus de groupes de recherche de l'Université de Californie à Berkeley, ont instauré un paradigme de modèles de fondation navigants déployables sur des plateformes robotiques hétérogènes sans reprogrammation dédiée. CARE visait à les augmenter par des mécanismes d'évitement sans modifier la politique de base. SAFER-Nav s'inscrit dans la tendance d'adaptation efficace des politiques robotiques par fine-tuning ciblé, parallèlement aux travaux sur les VLA (Vision-Language-Action models) comme pi-zero (Physical Intelligence) ou GR00T N2 (NVIDIA). Les prochaines étapes naturelles incluent une validation en environnement extérieur et en conditions dynamiques réelles, ainsi qu'une évaluation par les pairs. L'absence de financement industriel dans le preprint indique une contribution de recherche fondamentale, non une annonce produit imminente.

UELes équipes R&D et intégrateurs européens de robots mobiles autonomes (entrepôts, hôpitaux, chantiers) pourraient exploiter cette méthode de fine-tuning pour réduire les collisions sur flottes RGB existantes sans refonte architecturale, sous réserve de validation par les pairs et de mise à disposition publique des poids.

IA physiquePaper
1 source
Ce qui compte dans l'orchestration des politiques robotiques : étude systématique des agents VLA hiérarchiques
836arXiv cs.RO 

Ce qui compte dans l'orchestration des politiques robotiques : étude systématique des agents VLA hiérarchiques

Une équipe de chercheurs a publié en juin 2026 sur arXiv (réf. 2606.10267) une étude systématique des architectures hiérarchiques VLA, désignées Hi-VLA, pour la manipulation robotique. Ces systèmes couplent un planificateur de haut niveau basé sur un grand modèle vision-langage (VLM) avec un contrôleur bas niveau de type VLA (vision-language-action) : le planificateur décompose une tâche complexe en sous-objectifs formulés en langage naturel, que le contrôleur exécute séquentiellement. Les auteurs unifient plusieurs architectures Hi-VLA existantes sous un cadre commun dit « options-style » et les évaluent sur trois familles de tâches : courte horizon, longue horizon et à forte charge de raisonnement. Les expériences combinent simulation et validation physique sur un robot ALOHA, le manipulateur bimanuel développé initialement par Stanford et repris par Google DeepMind. Ce travail comble un manque réel dans la littérature : jusqu'ici, les systèmes Hi-VLA divergeaient dans leurs choix de planificateurs, de contrôleurs, de mécanismes de transition et de représentation mémoire, sans base de comparaison commune. Les résultats montrent qu'une hiérarchie bien conçue surpasse clairement le contrôle VLA plat (non-hiérarchique) ainsi qu'une hiérarchie naïve, ce qui valide empiriquement l'approche mais souligne que les gains dépendent fortement des interfaces entre niveaux et du choix des modèles. Pour les intégrateurs industriels qui explorent les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ces principes de conception fournissent un cadre d'arbitrage concret entre flexibilité de planification et précision de contrôle. L'article s'inscrit dans une dynamique de consolidation méthodologique qui suit une période d'expérimentation empirique rapide. Depuis 2023-2024, des systèmes comme SayCan (Google), RoboCat (DeepMind) ou les architectures de Physical Intelligence ont démontré la faisabilité des VLA à grande échelle, mais les recettes de design restaient opaques. Les concurrents directs sur le segment de la planification hiérarchique incluent des travaux comme Code-as-Policies ou Voyager. La prochaine étape naturelle sera l'extension de ces principes à des environnements non structurés hors laboratoire ; le site du projet (jiahenghu.github.io/hi-vla) propose des vidéos de démonstration, mais aucun déploiement industriel n'est annoncé à ce stade.

RechercheOpinion
1 source
UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles
837arXiv cs.RO 

UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles

Une équipe de chercheurs a publié mi-juin 2026 sur arXiv (arXiv:2606.10683) un travail intitulé UniDexTok, proposant une représentation unifiée pour les états de mains dextres hétérogènes, humaines et robotiques. Le coeur du système est le Unified Dexterous Hand Model (UDHM), une interface sémantique partagée à 22 degrés de liberté (DoF) qui normalise les états articulaires de n'importe quelle main dans un espace commun. Sur cette base, UniDexTok est un tokenizer d'états appris exclusivement depuis des données réelles, sans recours au retargeting ni à la simulation. Les gains de précision par rapport à la baseline UniHM sont significatifs : l'erreur angulaire moyenne par articulation (MPJAE) chute de 15,63° à 0,16° (réduction de 98,98 %), et l'erreur de position par articulation (MPJPE) passe de 18,51 mm à 0,18 mm (réduction de 99,03 %), ramenant la reconstruction de l'échelle centimétrique à une précision sub-millimétrique. La portée industrielle de ce résultat tient moins aux chiffres absolus qu'à ce qu'ils rendent possible : un entraînement cross-embodiment sans pipeline de retargeting, qui a longtemps constitué un goulot d'étranglement dans la constitution de datasets pour mains dextres. Jusqu'ici, les données capturées sur une Shadow Hand, une Allegro ou une LEAP Hand étaient difficilement réutilisables pour un autre robot, faute de représentation commune. UniDexTok permet de les agréger : les expériences montrent que des données provenant d'autres embodiments améliorent la reconstruction sur l'embodiment cible, validant le principe de transfert cross-morphologie. Le système affiche également des capacités zero-shot et few-shot lors de l'introduction de nouvelles mains, ce qui réduit le coût d'intégration pour les intégrateurs qui déploient plusieurs plateformes en parallèle. La manipulation dextre reste l'un des défis les plus ouverts de la robotique humanoïde, avec une fragmentation des efforts entre labos (Dexterous Manipulation Group chez CMU, OpenAI Dactyl suspendu, Physical Intelligence avec Pi-0) et industriels (Tesla Optimus, Figure, Unitree). Les approches précédentes comme UniHM avaient posé la question de la représentation unifiée mais avec des erreurs de reconstruction trop élevées pour être exploitables en contrôle fin. UniDexTok s'inscrit dans un mouvement plus large vers des politiques robotiques génériques multi-embodiments, analogue à ce que les VLA (Vision-Language-Action models) tentent du côté de la perception. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat ; il s'agit d'une contribution de recherche fondamentale, dont l'intégration dans des pipelines de formation de politiques reste à démontrer en conditions réelles.

RecherchePaper
1 source
AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique
838arXiv cs.RO 

AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique

Une équipe de recherche a publié en juin 2026 sur arXiv (référence 2606.10903) un framework de navigation locale appelé AgniNav, conçu pour permettre à des robots de morphologies radicalement différentes de naviguer en autonomie à partir d'une unique caméra RGB, sans recourir à un capteur de profondeur actif et sans réentraînement du modèle. Le système repose sur une enveloppe de sécurité définie par quatre paramètres mesurables : hauteur critique pour la détection de collisions, longueur avant, longueur arrière, demi-largeur. Ces paramètres conditionnent simultanément un réseau image-vers-scan qui prédit un pseudo-laserscan 1D à partir d'une image couleur monoculaire, et un planificateur local qui adapte la vérification de collisions au gabarit du robot. Les expérimentations ont été conduites sur trois plateformes réelles : le Turtlebot2 (base à roues), l'Unitree Go2 (quadrupède), et l'Accelerated Evolution K1 (humanoïde). Les taux de succès sont respectivement de 39/40, 18/20 et 18/20, avec 0, 1 et 2 collisions sur l'ensemble des essais, le tout tournant à 30 Hz sur un Jetson Orin. Ce qui distingue AgniNav des travaux existants est précisément l'absence de retraining par plateforme. La quasi-totalité des politiques de navigation visuelle actuelles sont entraînées pour un couple caméra/gabarit fixe, ce qui rend leur transfert d'un robot à un autre coûteux en données et en temps. Ici, le même réseau, entraîné une fois sur des paires couleur-profondeur supervisées par des labels de scan générés à la volée, se déploie sans adaptation sur des morphologies aussi différentes qu'un rover plat et un humanoïde. Pour un intégrateur gérant une flotte hétérogène, ou pour un OEM souhaitant embarquer la navigation sur plusieurs SKUs avec un seul modèle, c'est un changement d'économie non négligeable. La navigation cross-embodiment est un problème ouvert depuis plusieurs années dans la communauté robotique : les approches concurrentes, comme celles mobilisant des politiques VLA (vision-language-action) ou des pipelines basés sur la simulation, exigent généralement soit du matériel dédié (LiDAR, caméra de profondeur RGB-D), soit des cycles de fine-tuning par plateforme. AgniNav s'inscrit dans un courant de travaux cherchant à normaliser la couche de perception au niveau de l'enveloppe physique plutôt que du modèle de robot complet. Le résultat présenté reste à ce stade une contribution de recherche, pas un produit ou un SDK distribué. Les prochaines étapes naturelles incluent la validation sur des environnements dynamiques et des densités d'obstacles plus élevées, ainsi que l'extension à des architectures d'enveloppe plus complexes pour les humanoïdes à forte variation de posture.

RecherchePaper
1 source
Modèles de tiges pour le contrôle des robots continus et souples : une revue
839arXiv cs.RO 

Modèles de tiges pour le contrôle des robots continus et souples : une revue

Une équipe de chercheurs a publié sur arXiv (référence 2407.05886, troisième révision) une revue exhaustive des modèles de tiges (rod models) appliqués à la modélisation et au contrôle des robots continus et souples. Le travail couvre les fondements mathématiques des théories de tiges, leur application à la modélisation de structures déformables, et les stratégies de contrôle dérivées, tant model-based que learning-based. Les auteurs proposent une classification des modèles selon le type de déformation pris en compte, contribution qui fait défaut dans la littérature existante. Les domaines applicatifs ciblés incluent la santé, l'agriculture, le milieu marin et l'espace, où les robots rigides conventionnels montrent leurs limites face à des environnements non structurés et à des interactions mécaniques en contact permanent. L'intérêt principal de ce survey est de structurer un sous-champ marqué par une forte fragmentation de la littérature. Les modèles de type Cosserat ou Kirchhoff proposent une approximation dimensionnellement réduite du comportement de corps élancés et déformables, offrant un meilleur équilibre que les méthodes éléments finis (FEM) entre précision et coût computationnel temps-réel. Pour les équipes R&D travaillant sur des bras flexibles endoscopiques, des cathéters guidés ou des manipulateurs agricoles, ce panorama unifié permet d'arbitrer entre approche physique et apprentissage, et de cibler les lacunes identifiées : robustesse au contact incertain, calibration en conditions réelles, et fermeture du fossé sim-to-real. Les modèles de tiges appliqués à la robotique souple se sont imposés comme cadre de référence depuis le milieu des années 2010, portés par l'essor des actionneurs à câbles, pneumatiques et à base d'élastomères. Plusieurs groupes académiques restent moteurs sur le sujet : INRIA, MIT CSAIL, IIT Gênes, Universität Stuttgart. Dans l'écosystème industriel, les applications en chirurgie mini-invasive et en manipulation agricole sont directement confrontées à ces problèmes de modélisation. Le papier identifie trois directions ouvertes : gestion du contact multi-points, intégration avec les architectures VLA (vision-langage-action), et généralisation à des morphologies hybrides rigides-souples. Ces fronts devraient alimenter le champ dans les deux à trois prochaines années.

UEINRIA figure parmi les groupes académiques moteurs du domaine ; les applications ciblées (chirurgie mini-invasive, manipulation agricole) concernent directement des acteurs industriels et projets de recherche européens.

RecherchePaper
1 source
Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques
840arXiv cs.RO 

Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques

Une équipe de recherche publie sur arXiv (2606.08107) les résultats d'Ego-Pi, une méthode de fine-tuning de modèle VLA (Vision-Language-Action) conçue pour exploiter des données égocentristes humaines dans l'entraînement de robots manipulateurs. L'étude prend comme fondation le modèle π₀.₅ de Physical Intelligence et cible des robots humanoïdes équipés de mains à cinq doigts dextres. Le résultat central : des données de manipulation filmées du point de vue humain permettent au robot d'apprendre de nouvelles sémantiques de tâches et de composer des compétences existantes en comportements inédits, sans nécessiter de données robot équivalentes pour ces mêmes tâches. Ce résultat adresse directement l'un des verrous les plus cités en robotique : la rareté des données d'entraînement à grande échelle. Contrairement au NLP ou à la vision, il n'existe pas de corpus internet pour la manipulation robotique. La démonstration qu'une capture égocentrique humaine, collectée plus facilement, à moindre coût et à plus grande échelle, peut servir de substitut partiel représente un changement de paradigme potentiel pour les pipelines de données. Cela valide aussi l'hypothèse du transfert inter-embodiment : un VLA peut généraliser entre morphologies humaine et robotique si le point de vue reste cohérent. Physical Intelligence, startup californienne fondée en 2023 et à l'origine des modèles π₀ et π₀.₅, positionne ainsi sa fondation comme un socle cross-embodiment viable. Ses concurrents directs, notamment NVIDIA avec GR00T N2 et Google DeepMind avec RT-2, explorent également l'apprentissage multi-source. Il faut souligner qu'Ego-Pi est un preprint non encore évalué par les pairs, sans benchmark industriel ni déploiement réel annoncé à ce stade.

UERésultats potentiellement utiles aux équipes européennes (CEA-List, INRIA) travaillant sur des VLA, mais aucun acteur ni déploiement européen directement impliqué.

IA physiqueOpinion
1 source
LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation
841arXiv cs.RO 

LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation

LightTact est un capteur tactile-visuel de bout de doigt conçu pour détecter les contacts sans déformation mécanique de surface. Là où les capteurs conventionnels (GelSight du MIT, DIGIT de Meta, Tactip) s'appuient sur la déformation d'un élastomère pour inférer un contact, LightTact exploite une configuration optique à blocage de lumière ambiante: seule la lumière diffusée aux points de véritables contacts traverse le système, laissant les pixels non-contactés à une valeur de gris moyenne inférieure à 3 sur 255. Les images brutes produites sont à fort contraste, chaque zone de contact préservant l'apparence naturelle de la surface touchée. La robustesse annoncée couvre les variations de propriétés matérielles, de force de contact, d'apparence de surface et d'éclairage ambiant, sans calibration spécifique au matériau. Ce verrou adresse un angle mort structurant de la manipulation robotique fine: les contacts dits "légers" avec des liquides, semi-liquides ou matériaux ultra-mous ne génèrent pas de déformation macroscopique et restent donc invisibles pour la plupart des capteurs actuels. LightTact démontre des comportements jusque-là difficiles à automatiser: étalement d'eau sur une surface, prélèvement de crème cosmétique, interaction avec des films minces souples. Pour les intégrateurs ciblant la cosmétique, l'agroalimentaire ou la manutention de produits fragiles, c'est un point de blocage technique levé. Fait significatif: les images visuelles et tactiles, spatialement alignées, sont directement interprétables par des vision-language models (VLMs), ce qui abaisse la barrière d'intégration avec les pipelines d'IA multimodaux sans couche de traitement intermédiaire dédiée. Le travail est publié en préprint sur arXiv (référence 2512.20591, troisième version), ce qui le situe au stade de la recherche académique: aucun produit commercial ni déploiement industriel n'est annoncé. Dans le panorama des capteurs tactiles visuels, LightTact occupe une niche distincte de celle de GelSight et ses dérivés, ou des solutions capacitives comme Xela Robotics, qui ciblent des régimes de contact avec déformation mesurable. Du côté européen, Pollen Robotics ou Wandercraft ne proposent pas de capteur tactile propre à ce niveau de spécificité. Les prochaines étapes logiques incluent une validation en boucle fermée sur plateforme robotique réelle et un test de durabilité de la surface optique face à des matériaux agressifs en usage répété.

UEAucun impact direct documenté à ce stade de préprint, mais les acteurs FR/EU ciblant la manipulation fine (Pollen Robotics, intégrateurs agroalimentaire/cosmétique) pourraient bénéficier de cette approche pour des contacts légers avec matériaux mous ou liquides.

RecherchePaper
1 source
Avatar androïde cybernétique Yui : intégration système, déploiement terrain et évaluation
842arXiv cs.RO 

Avatar androïde cybernétique Yui : intégration système, déploiement terrain et évaluation

Yui est un avatar androïde téléopéré à corps entier, développé par une équipe de recherche japonaise et présenté dans un article soumis à arXiv (2606.08099) en juin 2026. Le système embarque 55 degrés de liberté répartis sur l'ensemble du corps, combinant une tête androïde préexistante avec un contrôle des expressions faciales, du regard, de la mobilité des bras et des mains, et une plateforme mobile. Deux modes de pilotage sont disponibles : un mode immersif via casque de réalité mixte (HMD), et un mode bureau utilisant une simple webcam. Le système a été déployé dans trois configurations réelles : une exposition longue durée à l'Expo 2025 d'Osaka (Kansai, Japon), un échange pédagogique à distance entre écoliers, et une étude d'interaction avec le grand public. Sur le seul site de l'Expo, deux unités ont cumulé environ 1 131 heures d'opération, ce qui constitue un volume de terrain significatif pour ce type de plateforme. Ce chiffre de 1 131 heures dépasse la plupart des évaluations publiées sur les avatars androïdes, généralement limitées à des sessions de laboratoire contrôlées. Il permet d'identifier des enjeux de maintenance réels et de valider l'exploitabilité opérationnelle dans des conditions d'usage non maîtrisées. Les retours recueillis auprès des opérateurs et des interlocuteurs sont globalement positifs sur la sensation de co-présence et la transmission des émotions et intentions. Toutefois, les auteurs reconnaissent explicitement des lacunes en termes de contrôlabilité fine, notamment pour les gestes précis, ce qui est cohérent avec les défis connus de la téléopération à haute fidélité sensorielle. Le projet s'inscrit dans la continuité des travaux d'Hiroshi Ishiguro (Osaka University) sur les androïdes téléopérés, dont les systèmes Geminoid et Telenoid ont posé les bases de cette discipline depuis les années 2000. Dans l'espace commercial, des acteurs comme Engineered Arts (Ameca, Royaume-Uni) ou des projets de téléprésence incarnée comme ceux de l'entreprise californienne Embodied restent sur des périmètres plus restreints. Yui se distingue par son déploiement public massif à l'Expo 2025, qui a accueilli plusieurs millions de visiteurs, fournissant un terrain d'évaluation rare. Les prochaines étapes identifiées portent sur l'amélioration de la précision de contrôle et l'élargissement des scénarios d'usage sociaux, avec des implications de conception pour les futures générations d'avatars androïdes déployables en contexte ouvert.

HumanoïdesPaper
1 source
EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes
843arXiv cs.RO 

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (réf. 2606.08495) EgoPriMo, un cadre unifié d'apprentissage de prior de mouvement pour robots humanoïdes, entraîné exclusivement à partir de démonstrations humaines en vue égocentrique (caméra portée sur la personne). Le système prend en entrée une séquence vidéo égocentrique et un prompt texte, puis reconstruit, génère ou prédit des mouvements corps entier au format SMPL (Skinned Multi-Person Linear model, le standard académique de représentation du squelette humain). L'architecture centrale est un Triple-stream Diffusion Transformer (DiT) qui modélise conjointement la dynamique corporelle, le contexte visuel égocentriique et le langage naturel via un seul checkpoint partagé, des masques de conditionnement de tâche routant les trois cas d'usage sans architecture distincte. Évalué sur les datasets Nymeria et EgoExo4D, EgoPriMo surpasse UniEgoMotion sur la génération égocentrique, et les trajectoires SMPL produites ont été exécutées avec succès sur le contrôleur humanoïde Unitree (probablement G1 ou H1). Il s'agit d'un papier de recherche, pas d'un déploiement industriel. L'intérêt de cette approche tient à son vecteur de données : les vidéos égocentrique humaines (Nymeria, EgoExo4D) sont disponibles à grande échelle, contrairement aux démonstrations téléopérées sur robots qui restent coûteuses et lentes à collecter. En utilisant le langage comme signal de contrôle haut niveau plutôt que comme spécification complète du mouvement, EgoPriMo vise la généralisation comportementale sans avoir à décrire exhaustivement chaque trajectoire, ce qui est l'un des verrous historiques des systèmes VLA (Vision-Language-Action). Le fait qu'un seul checkpoint gère reconstruction, génération et prévision simplifie le déploiement et réduit la dette de maintenance. La validation sur Unitree démontre une transition sim-to-real partielle, bien qu'aucun chiffre de robustesse en environnement non contrôlé ne soit communiqué dans l'abstract. Ce travail s'inscrit dans une compétition dense autour des priors de mouvement pour humanoïdes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure (03) investissent massivement dans des pipelines VLA capables de généraliser à des tâches variées. L'originalité d'EgoPriMo est de contourner la dépendance aux données robot en exploitant l'observation humaine égocentrique, une direction explorée également par des travaux issus de CMU et Stanford sur l'imitation via vidéo. Le choix de Unitree comme cible hardware est cohérent avec sa diffusion large dans les labos académiques. Les prochaines étapes naturelles seraient une validation en environnement semi-industriel et une intégration dans une boucle de contrôle fermée, deux dimensions absentes de ce preprint.

RechercheOpinion
1 source
TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs
844arXiv cs.RO 

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

Des chercheurs ont publié le 10 juin 2026 sur arXiv (arXiv:2606.09337) un framework baptisé TORL-VLA (Tactile-guided Online Reinforcement Learning for Vision-Language-Action), conçu pour résoudre un point de blocage précis des VLA en robotique de manipulation : l'inadaptation en temps réel aux conditions de contact. TORL-VLA couple un module VLA enrichi de retour tactile, capable de prédire à la fois une action de référence et une séquence de forces futures (wrench sequences), avec un module d'apprentissage par renforcement en ligne, léger, qui raffine ces actions au fil des tentatives. Le système a été validé sur des tâches longues et en contact soutenu avec l'environnement : manipulation d'une serrure (latch manipulation), placement précis d'une tasse à café, et manipulation d'un œuf cru. Sur l'ensemble de ces scénarios, TORL-VLA améliore les taux de succès à l'échelle des sous-tâches et des tâches complètes, ainsi que l'efficacité temporelle d'exécution par rapport aux baselines comparées. L'enjeu technique est bien réel : les VLA actuels sont déployés comme des politiques hors ligne (offline policies), c'est-à-dire figées après entraînement. Dès que les conditions de contact s'écartent de la distribution d'entraînement, friction différente, compliance d'objet inattendue, positionnement imprécis, la politique échoue sans mécanisme de correction. Le résultat concret est une accumulation de forces de contact inappropriées et des boucles de retry inefficaces, problème critique pour tout déploiement industriel où la reproductibilité du geste est exigée. TORL-VLA introduit également un "intervention-censored critic", un mécanisme qui évite d'attribuer à tort un succès post-intervention humaine aux actions de la politique générées avant cette intervention, ce qui stabilise l'apprentissage sur des données mixtes (exploration autonome + corrections opérateur). Cette approche est méthodologiquement significative : elle rend l'apprentissage en ligne viable dans un contexte d'apprentissage par démonstration avec supervision humaine intermittente, ce qui correspond précisément aux conditions réelles de mise en service. Les VLA comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de RT-2 (Google DeepMind) ont démontré une généralisation impressionnante en manipulation, mais leur rigidité post-entraînement constitue un frein reconnu au déploiement en production. Des travaux comme DexVLA ou des approches avec force feedback (ForceSight, TacVLA) ont commencé à intégrer la modalité tactile, mais sans adaptation en ligne. TORL-VLA se positionne à l'intersection de ces deux axes : adaptation dynamique et perception haptique. Aucun chiffre de performance absolu (taux de succès brut, temps de cycle) n'est communiqué dans l'abstract, ce qui limite la comparaison directe avec d'autres systèmes, les résultats complets sont dans le papier complet. Du côté européen, des acteurs comme Enchanted Tools (France, robot Mirokaï) ou Wandercraft travaillent sur la compliance et l'interaction physique, mais sur des architectures différentes. Les prochaines étapes naturelles pour TORL-VLA concernent la généralisation à d'autres objets déformables, la réduction de la latence du module RL en ligne, et une validation à plus grande échelle avant tout positionnement comme solution industrielle.

UELes équipes françaises comme Enchanted Tools ou Wandercraft, actives sur la compliance et l'interaction physique, pourraient s'appuyer sur cette méthodologie d'adaptation tactile en ligne pour améliorer la robustesse au contact de leurs robots, bien qu'aucun transfert direct ne soit documenté.

IA physiqueOpinion
1 source
Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes
845arXiv cs.RO 

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08725) une méthode de planification de trajectoire en temps réel pour la téleopération sans collision de bras manipulateurs. Le problème central : en téleopération, l'opérateur ne contrôle que la pose de l'effecteur terminal (position et orientation de l'outil), sans piloter individuellement les articulations. Cela provoque régulièrement des auto-collisions du bras sur lui-même ou des collisions avec les obstacles de l'environnement de travail. L'approche proposée reformule les contraintes d'évitement de collision en les rendant différentiables via la dualité en optimisation convexe, une formulation récente adaptée ici au contexte de la téleopération. Le robot est représenté géométriquement par des capsules (cylindres à extrémités hémisphériques), l'environnement par des polytopes. La méthode a été validée en simulation sur des scénarios à nombre variable d'obstacles, puis testée physiquement sur un bras UR5e de Universal Robots dans une session de téleopération réelle. Les résultats indiquent des temps de calcul inférieurs aux méthodes de référence, tout en autorisant une modélisation géométrique plus fidèle, produisant des trajectoires plus lisses et garantissant l'absence de collision. L'enjeu industriel est direct : les approches existantes contraignent les développeurs à choisir entre précision géométrique et performance de calcul. Approximer robot et obstacles par des sphères simplifie la différentiabilité mais introduit des marges de sécurité artificiellement larges, restreignant l'espace de travail utile. À l'inverse, approximer les dérivées dégrade la convergence du solveur et augmente la latence, incompatible avec les exigences temps réel de la téleopération. En utilisant la dualité convexe, ce travail contourne les deux compromis simultanément. Pour un intégrateur déployant des cellules robotisées téléopérées, cela représente potentiellement moins de zones interdites inutiles et une meilleure réactivité du système. La téleopération connaît un regain d'intérêt important depuis 2023, portée par les besoins en collecte de données pour l'apprentissage par imitation dans les robots humanoïdes et par les applications en environnements dangereux ou médicaux. Les méthodes concurrentes incluent les contrôleurs réactifs basés sur des champs de potentiel, les planificateurs par échantillonnage (RRT, CHOMP) et les approches de contrôle optimal à horizon glissant avec modèles en sphères. L'approche ici, fondée sur la programmation différentiable et les contraintes duales convexes, s'inscrit dans une tendance plus large d'intégration des outils d'optimisation différentiable dans la robotique de manipulation. Le travail est un preprint non encore évalué par les pairs ; les prochaines étapes probables concernent l'extension à des configurations à plus grand nombre de degrés de liberté et à des environnements dynamiques.

UEApplicable aux intégrateurs européens déployant des cellules téléopérées (chirurgie, environnements dangereux), mais aucun acteur FR/EU n'est directement impliqué dans ce preprint.

RecherchePaper
1 source
Génération et exécution de mouvements sûrs, fluides et acceptables pour l'interaction humain-robot en milieu industriel
846arXiv cs.RO 

Génération et exécution de mouvements sûrs, fluides et acceptables pour l'interaction humain-robot en milieu industriel

Des chercheurs ont publié sur arXiv (preprint 2606.08741, juin 2026) une étude portant sur la génération de mouvements pour robots collaboratifs en environnements manufacturiers partagés avec des opérateurs humains. L'équipe propose un cadre de contrôle prédictif par modèle (MPC, Model Predictive Control) capable de produire quatre comportements distincts intégrant des contraintes sociales, au-delà des seules garanties de sécurité physique. Ces comportements varient selon des paramètres de mouvement identifiés comme influençant la perception humaine : fluidité de trajectoire, vitesse d'approche, lisibilité de l'intention, et niveau de confort perçu par l'opérateur. Une étude utilisateur a ensuite été menée auprès de participants non-experts pour évaluer et valider chaque mode comportemental et mesurer leur impact social. Le résultat central est que les variations de comportement du robot affectent significativement son acceptabilité sociale perçue, indépendamment des critères de sécurité technique. Ce constat a des implications directes pour les intégrateurs de cobots en milieu industriel : une cellule de travail conforme aux normes ISO/TS 15066 (vitesse et séparation) peut malgré tout générer friction, inconfort ou méfiance chez les opérateurs, réduisant l'adoption réelle. L'étude apporte une validation empirique à l'hypothèse que la dimension psycho-cognitive doit être traitée comme une contrainte de conception à part entière, et non comme un ajustement cosmétique post-déploiement. C'est un argument concret pour les décideurs B2B qui peinent à justifier le passage de robots en cage à la collaboration directe. Ce travail s'inscrit dans un champ de recherche en pleine expansion autour de l'interaction humain-robot (HRI) socialement intelligente, porté notamment par des laboratoires européens actifs sur la thématique cobot-manufacturing. Le MPC est une approche mature en robotique industrielle, mais son application explicite à des objectifs de confort social reste peu documentée à cette échelle. Des acteurs comme Universal Robots, Franka Robotics ou, côté français, Pollen Robotics travaillent sur des cobots à vocation collaborative, mais sans encore intégrer formellement ce type de métriques comportementales dans leurs pipelines de contrôle. Les prochaines étapes naturelles seraient des validations en conditions réelles de production et une quantification du retour sur investissement lié à l'amélioration de l'acceptabilité.

UELes résultats concernent directement des fabricants européens comme Franka Robotics et Pollen Robotics (FR), dont les pipelines de contrôle cobot pourraient intégrer ces métriques comportementales pour réduire la friction opérateur et accélérer la transition vers la collaboration directe en usine.

RecherchePaper
1 source
MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel
847arXiv cs.RO 

MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel

Des chercheurs présentent MotionWAM (arXiv:2606.09215), un World Action Model (WAM) temps réel pour la loco-manipulation humanoïde, validé sur neuf tâches physiques avec un Unitree G1 piloté par une unique caméra égocentrique. Contrairement aux architectures dominantes qui séparent une politique pour les bras et un contrôleur pour la locomotion, le système prédit des tokens de mouvement corps-entier dans un espace d'action unifié couvrant locomotion, déplacements du torse, régulation de hauteur, interaction plantaire et manipulation des mains. Pour atteindre le temps réel, MotionWAM conditionne la politique sur les features intermédiaires de débruitage d'un modèle monde vidéo, évitant le débruitage itératif complet sur des latents haute dimension, goulot d'étranglement des WAMs antérieurs. Sur le hardware réel, le système dépasse de plus de 30 points les baselines Vision-Language-Action (VLA) entraînées sur les mêmes démonstrations et réalise des tâches d'interaction plantaire inatteignables par les politiques haut/bas-corps découplées. Le paradigme hiérarchique haut/bas-corps, présent dans des systèmes comme GR00T N2 (NVIDIA) et de nombreuses architectures humanoïdes commerciales, contraint les jambes à un simple rôle d'équilibre déconnecté de la manipulation. MotionWAM démontre sur matériel réel que cette contrainte n'est pas une fatalité et valide que des modèles monde pré-entraînés sur vidéo peuvent réduire la dépendance aux démonstrations robotiques coûteuses. Les métriques restent à contextualiser: neuf tâches sur un seul embodiment, sans publication de temps de cycle ni de robustesse aux variations de scène, restent loin d'une validation industrielle. Les WAMs appliqués à la robotique s'appuient sur des travaux antérieurs en manipulation tabletop (UniSim, Genie de Google DeepMind); MotionWAM étend ces techniques à la commande humanoïde corps-entier. Face aux approches VLA dominantes dans les publications de référence, notamment pi-0 (Physical Intelligence) et GR00T N2, cette architecture propose une alternative centrée sur la dynamique vidéo pré-entraînée. Les prochaines étapes naturelles concernent la validation multi-embodiment et des déploiements industriels semi-structurés, où la variabilité des environnements constituera le vrai test de maturité.

IA physiqueOpinion
1 source
Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés
848arXiv cs.RO 

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Des chercheurs proposent une méthode de récupération après chute pour robots humanoïdes sur terrains variés, publiée en juin 2026 sur arXiv (identifiant 2606.08922). Baptisée PTDL (Phase-Terrain Decoupled Learning), elle cible un problème concret : un humanoïde tombé sur du gravier, une pente ou un sol inégal doit non seulement se relever, mais reprendre immédiatement une marche dirigée par commande de vitesse, sans capteurs externes ni étiquettes de terrain fournies au moment de l'exécution. La validation porte sur le Unitree G1, humanoïde commercial de 29 degrés de liberté, testé en simulation et sur robot réel, sur sol plat, gravier et inclinaisons allant jusqu'à 20 degrés. L'architecture de PTDL repose sur une double décorrélation. Sur l'axe des phases, des discriminateurs de mouvement à double prior conditionnés par la gravité projetée lient la récupération post-chute à la reprise de locomotion normale. Sur l'axe des terrains, un façonnage de récompense stratifié par surface applique des supervisions d'entraînement spécifiques à chaque sol, labels qui sont ensuite retirés à la politique au déploiement : le robot développe des comportements de lever implicitement adaptés à chaque surface, sans qu'on lui indique sur quoi il repose. Les méthodes antérieures s'arrêtaient généralement au lever quasi-statique ou entraînaient une politique de compromis dégradée face à la diversité des terrains. PTDL enchaîne récupération et reprise de marche sous une seule politique proprioceptive unifiée, ce qui est directement pertinent pour tout déploiement en environnement industriel non structuré où la chute n'est pas une exception mais une probabilité réelle. Le G1 de Unitree Robotics (Shenzhen) est devenu en 2024-2025 une plateforme de référence pour la recherche en locomotion humanoïde, notamment grâce à son accessibilité tarifaire (environ 16 000 USD). La récupération après chute reste un angle mort notoire dans la course humanoïde actuelle : Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus) se concentrent principalement sur les démonstrations de marche et de manipulation, peu sur les protocoles de résilience post-chute. Ce preprint arXiv n'annonce pas de déploiement industriel immédiat et n'a pas encore subi de révision par les pairs, mais il ouvre une piste méthodologique solide : entraîner sur des terrains stratifiés tout en maintenant une politique unifiée à l'inférence, une approche transposable à d'autres défis de robustesse en conditions réelles.

RecherchePaper
1 source
Coordination continue de robots quadrupèdes par découverte de compétences sémantiques
849arXiv cs.RO 

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Des chercheurs ont publié sur arXiv (réf. 2606.08102) un framework appelé Conquer, conçu pour coordonner des équipes de robots quadrupèdes en apprentissage continu, c'est-à-dire sans avoir à réentraîner le système à chaque nouvelle tâche. L'approche repose sur une bibliothèque de compétences sémantiques organisée autour d'un cycle récupérer-adapter-mettre à jour : avant d'exécuter une tâche inconnue, le système construit un descripteur sémantique à partir des informations pré-exécution, retrouve la compétence la plus proche dans la bibliothèque, l'adapte, puis intègre les trajectoires réelles pour enrichir la base. Le backbone SAG (Self-Allies-Goal) permet de gérer des équipes de taille variable en modélisant explicitement l'état propre de chaque robot, le contexte de ses coéquipiers et l'objectif de la tâche. En simulation, Conquer atteint un taux de succès moyen final de 95,6 %, avec un transfert positif démontré vers de nouvelles tâches et un oubli catastrophique qualifié de négligeable. Des essais en conditions réelles ont été conduits sur des équipes de Unitree Go2, le quadrupède commercial d'Unitree Robotics. Ce résultat compte parce qu'il s'attaque à l'un des verrous fondamentaux de la robotique multi-agents : les méthodes de type MARL (apprentissage par renforcement multi-agents) existantes entraînent des politiques spécifiques à une famille de tâches fermée, ce qui les rend inutilisables dans des environnements industriels où les missions évoluent en permanence. Conquer propose une alternative où de nouvelles compétences de coordination s'accumulent sans effacer les précédentes, un prérequis pour tout déploiement réel dans des entrepôts ou sur des lignes de production à géométrie variable. La capacité à gérer des équipes de taille arbitraire est également non triviale : la plupart des approches supposent un nombre fixe d'agents. À noter cependant que les métriques de succès sont issues de simulation, et que les vidéos de déploiement sur Go2 restent des démonstrations sélectionnées, sans données quantifiées sur les taux d'échec terrain ni sur les temps de cycle réels. La coordination multi-quadrupèdes s'est intensifiée avec la disponibilité de robots comme le Go2 d'Unitree (lancé à moins de 2 700 dollars en version grand public), qui abaisse le coût d'expérimentation en laboratoire. La problématique de l'apprentissage continu en robotique est partagée par plusieurs groupes de recherche, notamment autour des architectures VLA (Vision-Language-Action) qui cherchent elles aussi à éviter la réinitialisation à chaque nouvelle tâche. Conquer se positionne dans un espace encore peu industrialisé, entre les approches MARL classiques et les frameworks généralistes de type foundation model. Les prochaines étapes logiques seraient des évaluations en entrepôt réel sur des tâches de manutention collaboratives, domaine où des acteurs comme Exotec (France) ou Boston Dynamics investissent sur des flottes mixtes humanoïdes et quadrupèdes.

RecherchePaper
1 source
UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)
850arXiv cs.RO 

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (référence 2602.18020v2) une méthode baptisée UAOR (Uncertainty-aware Observation Reinjection), conçue pour améliorer les modèles VLA (Vision-Language-Action) sans nécessiter de réentraînement ni de données supplémentaires. Le principe repose sur la mesure de l'entropie d'action à chaque couche du modèle de langage sous-jacent : lorsqu'une couche présente une incertitude élevée, le module réinjecte les informations d'observation clés dans le réseau Feed-Forward (FFN) de la couche suivante, via un mécanisme d'attention retrieval. Les auteurs exploitent ici une propriété connue des transformeurs où les FFN se comportent comme des mémoires clé-valeur, et l'appliquent de façon adaptative et conditionnelle à l'état d'incertitude du modèle. Les expériences couvrent à la fois des environnements simulés et des tâches de manipulation réelle, sans précisions chiffrées sur les volumes ou les délais de cycle dans l'abstract publié. L'intérêt pratique est réel pour les équipes qui cherchent à améliorer des pipelines VLA existants : la plupart des approches actuelles exigent l'ajout de capteurs (nuages de points, cartes de profondeur) ou de modules auxiliaires (détecteurs d'objets, encodeurs spécialisés), impliquant collecte de données et phases d'entraînement coûteuses. UAOR se branche en plug-and-play sur des modèles déjà entraînés, ce qui réduit significativement le coût d'intégration. Cette approche "training-free" est particulièrement pertinente dans un contexte industriel où le fine-tuning sur données propriétaires reste un frein. Cela dit, l'abstract ne communique pas de métriques précises (taux de succès, amélioration relative), ce qui rend l'évaluation de l'amplitude des gains difficile avant lecture complète du papier. Les VLA sont devenus un axe central de la robotique de manipulation généraliste depuis 2024, portés par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). UAOR s'inscrit dans une dynamique de recherche qui cherche à extraire davantage de performance des architectures existantes plutôt qu'à en construire de nouvelles, une tendance d'optimisation à moindre coût computationnel. La prochaine étape naturelle serait une évaluation comparative sur des benchmarks standardisés comme RLBench ou FurnitureBench, et un test d'intégration sur des modèles open-source populaires tels qu'OpenVLA ou Octo.

RechercheOpinion
1 source