Aller au contenu principal

Dossier NVIDIA GR00T — page 11

535 articles · page 11 sur 11

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes
501arXiv cs.RO RechercheOpinion

Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (référence 2606.08775) un framework baptisé WorldDP, conçu pour résoudre le problème de la manipulation robotique multi-étapes. L'architecture est hiérarchique : un modèle du monde de haut niveau sert de fonction de transition au sein d'un cadre MPC (Model Predictive Control) et optimise des sous-objectifs intermédiaires à l'exécution, tandis qu'une Diffusion Policy de bas niveau se charge d'atteindre concrètement chacun de ces sous-objectifs. Pour structurer la planification, les auteurs introduisent des représentations object-centric qui découplent les entités de l'environnement, permettant au planificateur de raisonner séquentiellement sur chaque objet indépendamment. Évalué sur plusieurs benchmarks de manipulation robotique standards, WorldDP surpasse les baselines existantes selon les auteurs, résultat à prendre comme une affirmation de preprint, sans replication externe à ce stade. Ce travail s'attaque à un verrou reconnu du domaine : les modèles du monde visuels, aussi performants soient-ils sur des tâches isolées comme le reaching ou le grasping, échouent structurellement dès que la tâche exige plusieurs étapes causalement enchaînées. Pour un intégrateur ou un COO industriel, cela touche directement à l'exploitabilité réelle des robots manipulateurs en ligne de production, où les séquences pick-and-place complexes sont la norme. Le couplage entre la planification physiquement ancrée d'un world model et l'exécution fluide d'une Diffusion Policy représente une piste sérieuse pour réduire le sim-to-real gap sur des tâches longue horizon, sans nécessiter de démonstrations humaines exhaustives pour chaque variante de tâche. La Diffusion Policy, popularisée par Chi et al. en 2023, est devenue l'une des architectures de référence pour l'imitation learning en robotique, mais elle reste principalement réactive et peu adaptée au raisonnement causal multi-étapes. Les approches VLA (Vision-Language-Action), portées par Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, intègrent du raisonnement de haut niveau mais via des LLM, avec une latence et un coût computationnel élevés. WorldDP explore une voie intermédiaire, purement visuelle et sans langage, plus proche en philosophie des travaux sur les modèles du monde latents (DreamerV3, RSSM). Il s'agit d'un preprint académique sans déploiement industriel annoncé ; les prochaines étapes naturelles seraient une validation sur hardware réel et des benchmarks comparatifs face aux pipelines VLA actuels.

1 source
Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels
502arXiv cs.RO 

Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels

Des chercheurs publient sur arXiv (2606.05248) un cadre hybride pour la manipulation inverse en robotique : restaurer l'état initial d'un objet après qu'un bras manipulateur a exécuté une tâche. Le système extrait automatiquement des opérateurs de type STRIPS à partir de démonstrations humaines, via des prédicats géométriques souples (soft geometric predicates). Pour chaque opérateur, il dérive un objectif de restauration inverse qui préserve les préconditions, restaure les effets supprimés et annule les effets ajoutés. Quand le planificateur symbolique ne parvient pas à tout résoudre seul, les prédicats irrésolus déclenchent un apprentissage résiduel par algorithme Soft Actor-Critic (SAC). L'évaluation porte sur la tâche PushCube du benchmark de simulation ManiSkill3 : le plan symbolique effectue une restauration grossière par pick-and-place, puis le SAC affine la pose du cube pour satisfaire les prédicats restants. Ce travail s'attaque à un problème industriellement critique mais peu formalisé : inverser une tâche robotique ne se résume ni à rejouer les trajectoires moteur à rebours, ni à inverser les transitions symboliques d'un plan. La dynamique continue des contacts physiques crée des effets irréversibles qu'aucune de ces deux approches seules ne corrige. En combinant planification symbolique pour la restauration grossière et RL résiduel pour le raffinement précis, les auteurs montrent qu'un inverse approximatif peut devenir une compétence physiquement fondée. Pour les intégrateurs industriels, cela ouvre la voie à des systèmes capables de récupération d'erreur automatique sans reprogrammation manuelle, une lacune réelle des installations robotiques actuelles. Ce preprint s'inscrit dans la tension croissante entre deux paradigmes : les modèles tout-neuronal de type VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur l'apprentissage de bout en bout, et les approches hybrides symbolique-neuronal. Les auteurs parient sur STRIPS, formalisé en 1971, comme couche de représentation structurée des effets d'actions. ManiSkill3 est un benchmark de simulation standardisé développé à l'Université de San Diego ; les résultats restent donc entièrement en simulation, sans transfert sim-to-real démontré ni partenaire industriel annoncé. L'extension à des tâches aux effets réellement irréversibles (assemblage, coupe, collage) constitue la prochaine étape non résolue, et conditionnera l'intérêt concret de cette approche pour le déploiement réel.

RecherchePaper
1 source
AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances
503arXiv cs.RO 

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

IA physiqueOpinion
1 source
Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données
504arXiv cs.RO 

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01047) MATE (Multi-Modal Trajectory Policies), un cadre de prédiction de trajectoires pour la manipulation robotique construit sur une architecture Mixture-of-Experts (MoE). MATE traite simultanément des entrées hétérogènes, observations visuelles, instructions en langage naturel et représentations de trajectoires, en introduisant un routeur cosinus cross-modal qui garantit une affectation stable entre experts spécialisés, indépendamment de l'échelle des représentations. Un mécanisme de routage à température contrôlée avec injection de bruit stochastique prévient l'effondrement prématuré des experts (expert collapse). Sur le benchmark LIBERO, MATE améliore le taux de succès moyen de 4,75% par rapport aux politiques guidées par trajectoires existantes, particulièrement dans des scénarios à faible volume de données d'entraînement. Des tests en conditions réelles sur un robot jouant au ping-pong complètent la validation expérimentale. Le problème ciblé est la "modality interference" : quand une politique transformer unique traite dans le même espace de paramètres des signaux aussi disparates que des images RGB, du texte et des coordonnées de trajectoire, les représentations se perturbent mutuellement et les performances chutent. C'est un goulot d'étranglement bien documenté dans le développement des VLAs (Vision-Language-Action models) : les données de démonstration de qualité coûtent cher à collecter en environnement industriel. En proposant un découplage fin au niveau sub-token par spécialisation d'experts, MATE réduit cette interférence sans nécessiter de données supplémentaires. Pour les équipes robotique opérant avec des budgets de téléopération limités, c'est un signal positif, bien que les gains absolus (+4,75%) restent modestes et mesurés sur un benchmark académique contrôlé. La manipulation robotique généraliste est sous forte compétition depuis l'émergence des architectures transformer dédiées à la robotique vers 2022-2023. Des travaux comme ACT, Diffusion Policy, puis les VLAs OpenVLA (Berkeley/Stanford), pi0 de Physical Intelligence et GR00T N2 de NVIDIA ont progressivement unifié vision, langage et action. L'approche MoE reste moins explorée en robotique qu'en LLMs (GPT-4, Mixtral, DeepSeek-MoE), et MATE tente d'en résoudre les instabilités de routage propres aux modalités hétérogènes. Le benchmark LIBERO, développé par des institutions académiques américaines, est devenu une référence standard pour évaluer la généralisation en manipulation. À ce stade, il n'y a pas de déploiement industriel ni de partenariat annoncé : MATE est une preuve de concept académique, avec validation réelle limitée à un robot de ping-pong.

RechercheOpinion
1 source
Vers une navigation aérienne VLA précisément alignée sur l'intention via GRPO guidé par des experts
505arXiv cs.RO 

Vers une navigation aérienne VLA précisément alignée sur l'intention via GRPO guidé par des experts

Une équipe de chercheurs publie aujourd'hui sur arXiv (réf. 2606.02313) un framework d'apprentissage par renforcement destiné à améliorer la navigation aérienne autonome de drones via des modèles Vision-Language-Action (VLA). Le coeur du dispositif, baptisé EG-GRPO (Expert-Guided Group Relative Policy Optimization), combine un entraînement par renforcement en ligne avec un petit ensemble de trajectoires expertes (few-shot). Résultat annoncé : un taux de succès multiplié par 2,13 par rapport à la baseline en fine-tuning supervisé classique (SFT), et une amélioration de 60,9 % sur l'alignement avec les instructions humaines complexes. Le pipeline hétérogène développé en parallèle simulation/inférence réduit le temps de collecte de rollouts de 43,5 %, point critique quand l'entraînement RL doit couvrir un espace de vol tridimensionnel continu. L'enjeu industriel est réel : les modèles VLA, qui mappent directement des instructions en langage naturel vers des actions motrices, peinent jusqu'ici sur les UAV. Contrairement à la manipulation robotique en espace contraint, la navigation aérienne implique un espace d'exploration quasi-infini où le SFT classique souffre de rareté des données et d'une supervision trop grossière pour des intentions fines ("survole le bâtiment, puis pivote à 90° avant la ligne rouge"). EG-GRPO adresse ce problème en guidant l'exploration par quelques démonstrations expertes plutôt qu'en s'appuyant sur une exploration purement aléatoire. Cela représente une avancée potentielle pour les opérateurs de flottes de drones industriels, les intégrateurs en logistique, inspection d'infrastructures ou intervention en zones difficiles. La note de prudence s'impose cependant : les métriques sont issues de simulations, et le gap sim-to-real sur les UAV reste un problème non résolu dans la littérature. Ce travail s'inscrit dans un mouvement plus large d'application des VLA à la robotique physique. GRPO est la méthode d'optimisation popularisée par DeepSeek-R1 pour les LLM raisonneurs ; son adaptation à l'action physique aérienne suit le chemin tracé par des modèles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais ceux-ci ciblent la manipulation en espace clos. Côté drones, les travaux de navigation autonome par langage naturel restent majoritairement académiques. Ce preprint n'annonce ni déploiement, ni partenaire industriel, ni timeline commerciale : c'est une contribution de recherche fondamentale, dont la valeur dépendra des résultats en conditions réelles.

RechercheOpinion
1 source
Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel
506arXiv cs.RO 

Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel

Un préprint soumis sur arXiv le 2 juin 2026 (identifiant 2606.00110) introduit le cadre GAM (Generalized Action Manifold), une approche architecturale pour améliorer la généralisation des politiques robotiques en intelligence incarnée. Le problème ciblé est précis : les méthodes actuelles de Vision-Language-Action (VLA) entraînent les robots à régresser des coordonnées absolues, liant la politique à un style de mouvement et une vitesse d'exécution fixes. GAM résout cela via deux mécanismes orthogonaux. Le premier, l'Arc-Length Parameterizer, sépare la géométrie spatiale d'une trajectoire de sa dynamique temporelle, rendant la politique insensible aux variations de vitesse. Le second, le Schema-Affine-Factorization, projette les trajectoires dans un repère normalisé (pose-normalized coordinate frame), distinguant les schémas géométriques invariants des modulations affines locales. Intégré dans une architecture VLA structurée, GAM permet à un faible nombre de démonstrations de peupler densément un manifold d'actions continu et valide. Les auteurs rapportent des performances supérieures aux baselines geometry-agnostic sur des benchmarks empiriques, sans préciser les robots ou plateformes testés. L'enjeu industriel est direct : la généralisation depuis un nombre limité de démonstrations reste l'un des verrous les plus coûteux du déploiement robotique. Dans les usines où les intégrateurs doivent collecter des milliers de trajectoires par variante de tâche, réduire ce volume a un impact économique concret. Le principe de covariance générale, emprunté à la physique relativiste, stipule qu'une loi ne doit pas dépendre du système de coordonnées choisi. Appliqué à la robotique, cela signifie apprendre la structure géométrique intrinsèque d'une tâche plutôt que les habitudes motrices d'un démonstrateur humain. Si validée à l'échelle, cette approche s'attaquerait directement au demo-to-reality gap et au sim-to-real transfer, deux obstacles persistants pour des systèmes VLA commerciaux comme Pi-0 de Physical Intelligence ou OpenVLA. La recherche VLA s'est accélérée depuis 2024 avec Pi-0, RDT-1B, Octo, et les travaux de NVIDIA sur GR00T N2. GAM se positionne comme une couche d'invariance structurelle compatible avec ces architectures existantes plutôt que comme un modèle concurrent. Ce papier reste à ce stade un preprint non relu par des pairs, sans validation sur des robots physiques identifiés ni données de déploiement réel. Aucun auteur, institution ou partenaire industriel n'est mentionné dans l'abstract disponible, ce qui limite l'évaluation de la crédibilité et de la roadmap concrète. La prochaine étape naturelle serait une soumission à CoRL, ICRA ou RSS avec des expériences sur manipulateurs physiques dans des environnements semi-structurés.

RechercheOpinion
1 source
Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée
507arXiv cs.RO 

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

Une équipe de chercheurs publie Afford-VLA (arXiv:2605.24203, mai 2026), un cadre unifié pour améliorer le raisonnement spatial des modèles vision-langage-action (VLA) appliqués à la manipulation robotique. Le problème ciblé est précis : les VLA actuels peinent à déterminer où interagir dans des scènes visuelles complexes, une lacune qui limite leur généralisation sur des tâches de manipulation réelle. Afford-VLA internalise l'affordance conditionnée par la tâche comme interface de planification visuelle explicite au sein du modèle lui-même : des tokens apprenables interrogent les régions d'interaction pertinentes, des masques d'affordance sont décodés depuis les représentations multimodales, puis convertis en embeddings compacts qui conditionnent directement la prédiction d'action. Le système est évalué sur LIBERO, LIBERO-Plus et SimplerEnv, trois bancs de test simulés standards en manipulation, ainsi que sur des expériences en conditions réelles. Les auteurs revendiquent des performances état-de-l'art sur ces benchmarks, sans toutefois détailler les métriques précises dans l'abstract. L'intérêt architectural réside dans le couplage serré entre perception et action : contrairement aux approches existantes qui génèrent des signaux visuels intermédiaires de manière externe ou recourent à des représentations symboliques faiblement reliées au contrôle moteur, Afford-VLA génère et consomme l'affordance au sein du même pipeline. Ce choix évite le découplage habituel entre planification visuelle et prédiction d'action, un problème récurrent dans les VLA de première génération. Pour un intégrateur ou un COO industriel, le message pratique est que la localisation explicite et locale du point d'interaction, plutôt qu'un raisonnement global sur la scène, pourrait réduire le sim-to-real gap sur des tâches de pick-and-place ou d'assemblage en environnement non structuré. Le domaine VLA est aujourd'hui très actif : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure AI (Helix) et de nombreux laboratoires académiques ont chacun leur approche de la planification visuelle pour la manipulation généraliste. Ce preprint s'inscrit dans une vague de travaux cherchant à combler la faiblesse spatiale des VLA après les premières générations de modèles de type RT-2 ou OpenVLA. Aucun déploiement industriel n'est annoncé et aucun partenaire opérationnel n'est mentionné : il s'agit d'un papier de recherche préliminaire non encore évalué par les pairs, dont les résultats reels devront être confirmés dans des conditions de production.

IA physiqueOpinion
1 source
Des ingénieurs américains franchissent une étape clé vers une conscience précise de l'environnement réel pour les robots autonomes
508Interesting Engineering 

Des ingénieurs américains franchissent une étape clé vers une conscience précise de l'environnement réel pour les robots autonomes

Brain Corp, spécialiste américain des systèmes d'autonomie pour robots commerciaux, annonce un partenariat de recherche avec l'Université de Californie San Diego (UC San Diego) pour développer des technologies de cartographie sémantique et d'intelligence contextuelle. L'accord implique notamment le professeur Nikolay Atanasov du département d'Electrical and Computer Engineering de la Jacobs School. L'objectif déclaré : doter les robots autonomes d'une couche de compréhension spatiale plus fine que ce que permettent les solutions de localisation et cartographie simultanées (SLAM) actuelles. Brain Corp s'appuie sur un parc opérationnel de plus de 50 000 robots autonomes déployés dans des environnements commerciaux à l'échelle mondiale, totalisant plus de 25 millions d'heures d'opérations autonomes, corpus de données réelles qui constitue le socle expérimental de la collaboration. L'enjeu dépasse la simple navigation : les approches basées sur la vision directe (end-to-end visual) peinent à maintenir une robustesse satisfaisante dans des environnements dynamiques à grande échelle. Le tandem Brain Corp/UC San Diego parie que des cartes 3D sémantiques enrichies, intégrant la nature fonctionnelle des objets et des espaces et pas seulement leur géométrie, permettront aux flottes de robots de s'adapter à des conditions changeantes sans intervention humaine. Pour les intégrateurs et les opérateurs industriels, cela se traduit par une résilience opérationnelle accrue et une coordination multi-agents fiable à l'échelle d'un site entier, qu'il s'agisse d'entrepôts, d'hôpitaux ou d'espaces commerciaux. John Black, CTO de Brain Corp, résume l'enjeu : "le défi n'est plus le mouvement ou la perception, mais la compréhension." Il convient de noter que l'annonce ne détaille aucune métrique de performance ni résultat expérimental publié à ce stade. Brain Corp, fondée en 2009 à San Diego, s'est imposée dans le segment des robots de nettoyage autonomes (AMR floor care) en grande distribution et facilities management, avec des clients comme Walmart, en déployant sa plateforme BrainOS comme système d'exploitation mutualisé pour l'ensemble de sa flotte. Face à l'émergence de modèles vision-langage-action (VLA) portés par des acteurs comme Physical Intelligence avec pi-0, Nvidia avec GR00T N2, ou Figure AI avec Figure 03, Brain Corp repositionne BrainOS comme infrastructure d'orchestration d'agents autonomes hétérogènes plutôt que comme simple pile de navigation. Le partenariat avec UC San Diego vise à intégrer directement ces avancées en cartographie sémantique dans BrainOS. Aucun calendrier de livraison n'est précisé : il s'agit pour l'heure d'un accord de collaboration recherche, non d'un produit commercialisé ni d'un déploiement en cours.

IndustrielActu
1 source
Contrôle robuste aux distributions via l'inférence de Stein pour la manipulation au contact
509arXiv cs.RO 

Contrôle robuste aux distributions via l'inférence de Stein pour la manipulation au contact

Une équipe de chercheurs publie sur arXiv (référence 2605.19029) une méthode de contrôle robuste pour la manipulation robotique en contact riche, domaine couvrant la saisie, l'assemblage et l'insertion précise d'objets. Le travail formalise le problème comme une optimisation de contrôle robuste aux distributions (distributionally robust control), résolue via l'inférence variationnelle de Stein, une technique probabiliste déterministe issue du machine learning bayésien. Les contrôleurs qui en résultent modélisent explicitement l'incertitude paramétrique liée aux contacts, sans nécessiter les volumes massifs de données d'entraînement qu'exigent les approches data-driven modernes. Les résultats expérimentaux rapportés indiquent une robustesse améliorée jusqu'à un facteur 3 par rapport aux méthodes classiques à base de modèles, sur une gamme de tâches avec incertitude paramétrique large. Ce chiffre est à nuancer : il provient des propres benchmarks des auteurs, sans validation indépendante. La manipulation en contact riche reste l'un des goulots d'étranglement critiques pour le déploiement de robots industriels polyvalents. Les approches VLA (Vision-Language-Action models), comme pi-0 de Physical Intelligence, offrent une flexibilité remarquable mais se dégradent fortement lorsque les données d'entraînement sont rares, ce qui limite leur adoption dans des environnements industriels où les jeux de données sont difficiles à constituer. Les contrôleurs classiques à base de modèles, à l'inverse, sont computationnellement efficaces mais peinent à représenter l'incertitude task-sensitive, c'est-à-dire celle qui impacte réellement la performance sur une tâche précise. L'approche proposée tente de combler ce fossé en injectant une modélisation probabiliste flexible dans le cadre déterministe des contrôleurs classiques, un compromis potentiellement attractif pour les intégrateurs industriels cherchant fiabilité sans pipeline de données massif. Ce travail s'inscrit dans une tendance académique cherchant à réconcilier le model-based engineering (Boston Dynamics, ABB) et les learned policies (Physical Intelligence avec pi-0, Google DeepMind avec ses architectures GR00T-style). L'inférence variationnelle de Stein, popularisée par Liu et Wang en 2016, est ici adaptée au contrôle optimal, ce qui représente une contribution méthodologique notable. Le résumé disponible ne mentionne ni déploiements réels ni partenaires industriels, signalant clairement un stade de recherche fondamentale, probablement conduite en simulation ou sur bancs d'essai de laboratoire. Une validation sur des plateformes hardware standardisées comme les bras Franka Emika ou UR10, dont les propriétés de contact sont bien documentées, constituerait la prochaine étape logique avant toute perspective d'industrialisation.

RecherchePaper
1 source
FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable
510arXiv cs.RO 

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

Des chercheurs ont publié FuncCanon sur arXiv (réf. 2509.19102, deuxième révision), un framework qui décompose les tâches de manipulation robotique à long horizon en séquences d'"action chunks", des triplets structurés (acteur, verbe, objet), pour apprendre des politiques généralisables à partir de démonstrations humaines. L'idée centrale est de centrer l'apprentissage sur les actions elles-mêmes, pas sur des tâches isolées, ce qui ouvre la voie à la composition et à la réutilisation de primitives. La brique technique originale est la "canonicalisation fonctionnelle d'objets" : les objets sont projetés dans des repères fonctionnels partagés en s'appuyant sur des cues d'affordance extraites de grands modèles vision-langage (VLM). Ce mapping automatique permet de transférer des trajectoires de manipulation entre instances d'une même catégorie sans nouvelles démonstrations. La politique apprise, FuncDiffuser, est une politique de diffusion centrée objet et action, entraînée sur ces données alignées et évaluée sur des benchmarks en simulation et en déploiement réel. L'abstract ne fournit pas de métriques précises (temps de cycle, taux de succès chiffré, nombre de DOF testés), ce qui limite l'évaluation indépendante à ce stade. Le problème que FuncCanon attaque directement est la généralisation hors distribution des politiques end-to-end issues de l'imitation learning, un obstacle bien documenté qui bloque le passage à l'échelle industrielle. En normalisant la pose et la fonctionnalité des objets avant l'apprentissage, FuncDiffuser n'a pas besoin de voir chaque instance d'une catégorie lors de l'entraînement, ce qui réduit structurellement le volume de démonstrations nécessaires par référence produit. Pour un intégrateur industriel, c'est un levier économique potentiellement significatif : le coût de télé-opération pour collecter des données reste l'un des principaux freins au déploiement de bras robotiques en production. Les auteurs revendiquent également une robustesse sim-to-real, mais sans chiffres publiés dans l'abstract, cette affirmation reste à vérifier sur les benchmarks complets disponibles sur le site du projet. FuncCanon s'inscrit dans une vague de travaux visant à dépasser les limites des politiques de diffusion pures (Diffusion Policy, Chi et al., 2023) en ajoutant des représentations sémantiques intermédiaires. Les approches concurrentes incluent Pi-0 de Physical Intelligence, qui exploite une architecture VLA (vision-language-action) pour la généralisation zéro-shot, et GR00T N2 de NVIDIA, qui mise sur un entraînement massif sur données synthétiques. ACT (Action Chunking with Transformers, Zhao et al., 2023) partage la logique de découpage en chunks mais sans canonicalisation fonctionnelle. L'utilisation des VLMs pour extraire des affordances plutôt qu'apprendre des représentations ad hoc est une tendance forte portée par RT-2 de Google DeepMind et OpenVLA. FuncCanon reste pour l'instant une contribution académique sans partenaire industriel ni timeline de commercialisation annoncée.

RechercheOpinion
1 source
RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel
511arXiv cs.RO 

RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel

Des chercheurs ont publié le 22 mai 2026 sur arXiv (référence 2605.17522) les travaux autour de RoboFlow4D, un modèle de planification en flux 3D destiné à la manipulation robotique temps réel. L'approche repose sur ce que les auteurs appellent un "flow world model" : plutôt que d'empiler plusieurs sous-modèles spécialisés dans un pipeline modulaire classique, RoboFlow4D prédit directement des flux de mouvement 3D sur plusieurs trames temporelles à partir d'observations visuelles et d'instructions textuelles. Ce flux explicite sert de plan intermédiaire pour guider la génération d'actions motrices, bouclant ainsi un cycle perception-planification-exécution en une seule architecture de bout en bout. L'exécution repose sur une collaboration dite "slow-fast" entre le prédicteur de flux et le contrôleur d'action, visant à réduire la latence globale. Les résultats présentés couvrent des benchmarks en simulation et des expériences en environnement réel, avec des gains annoncés sur les taux de succès de manipulation et sur l'efficacité computationnelle, sans que les chiffres précis soient détaillés dans l'abstract. L'intérêt de cette direction de recherche réside dans la réduction de la charge de calcul associée aux pipelines VLA (Vision-Language-Action) contemporains. Les architectures modulaires dominantes, comme celles utilisées dans Pi-0 (Physical Intelligence) ou les variantes de GR00T N2 (NVIDIA), impliquent des inférences en cascade coûteuses qui limitent la réactivité en conditions industrielles. RoboFlow4D tente de consolider perception et planification dans un seul modèle léger, ce qui, si les performances se confirment à l'échelle, pourrait abaisser les exigences matérielles pour déployer des politiques de manipulation dextres sur des robots à ressources contraintes. Du côté du contexte compétitif, le domaine des planificateurs par flux optique 3D est actif depuis les travaux sur UniFlow et Flowbot3D, mais leur intégration dans des boucles temps réel reste un défi ouvert. RoboFlow4D se positionne comme une réponse légère à ces limitations. Il s'agit pour l'instant d'un preprint non évalué par les pairs, sans code ni modèle publiés, ce qui invite à la prudence avant tout benchmark indépendant. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés type RLBench ou LIBERO, et une comparaison directe avec les baselines modulaires qu'il prétend dépasser.

RechercheOpinion
1 source
HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines
512arXiv cs.RO 

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper
1 source
Adoptez une vision systémique pour le déploiement à grande échelle des humanoïdes au Robotics Summit
513Robotics Business Review 

Adoptez une vision systémique pour le déploiement à grande échelle des humanoïdes au Robotics Summit

Le Robotics Summit & Expo se tiendra les 27 et 28 mai 2026 à Boston, et l'un de ses temps forts techniques sera la session intitulée "Humanoids That Scale: A Systems and Semiconductor Perspective", programmée le second jour à 14h30 ET. L'intervenant principal sera Giovanni Campanella, directeur général du segment robotique chez Texas Instruments, ingénieur diplômé de l'Université de Bologne et du Politecnico di Torino. Sa présentation s'appuiera sur des architectures de référence et des cas de conception réels pour adresser quatre verrous techniques centraux dans le développement des humanoïdes : la fusion de capteurs à haute bande passante, le traitement IA embarqué en temps réel, le contrôle moteur de précision, et la fiabilité des communications entre sous-systèmes distribués. L'événement accueillera plus de 70 intervenants confirmés, issus notamment de Tesla, Toyota Research Institute, PickNik Robotics, Robust AI, Harmonic Drive et Fictiv, répartis sur plus de 50 sessions couvrant l'IA, le design, les technologies habilitantes, la santé et la logistique. La valeur de cette session tient à son niveau d'abstraction : alors que la plupart des annonces dans le secteur humanoïde portent sur les modèles de fondation, les VLA (Vision-Language-Action models) ou les benchmarks de locomotion, Campanella aborde la question par le bas de la pile, au niveau des chaînes de signal analogiques, de la gestion de puissance et du traitement embarqué. Pour un intégrateur ou un directeur technique qui doit concevoir un système déployable, c'est précisément là que se jouent les compromis décisifs : latence bout-en-bout, consommation énergétique par cycle de tâche, et fiabilité des communications dans un environnement industriel bruité. Le message implicite de Texas Instruments est que le "scaling" des humanoïdes n'est pas uniquement un problème logiciel, et que les semi-conducteurs restent un goulot d'étranglement sous-estimé dans la course à la commercialisation. Il faut noter que cet article est avant tout un communiqué promotionnel pour le sommet, sans métriques de déploiement ni annonce produit. Sur le fond, le Robotics Summit est produit par The Robot Report et WTWH Media, et constitue l'un des principaux rendez-vous techniques pour les développeurs de robotique commerciale aux États-Unis. Il est colocalisé cette année avec DeviceTalks Boston, dédié aux dispositifs médicaux. Dans le contexte plus large, la session TI s'inscrit dans une phase où les acteurs humanoïdes majeurs (Figure avec son robot 03, Tesla avec Optimus Gen 3, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2) ont tous publié des démonstrations convaincantes mais où les déploiements industriels à l'échelle restent rares. La question de savoir si l'infrastructure semiconducteur est prête à suivre la cadence des ambitions logicielles sera au coeur des échanges à Boston fin mai.

HumanoïdesActu
1 source
RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données
514arXiv cs.RO 

RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données

RoboEvolve est un framework de recherche publié en preprint arXiv (réf. 2605.13775, mai 2025) dont l'objectif est de résoudre la rareté des données d'interaction physique alignées sur les tâches de manipulation robotique. Le système couple un planificateur basé sur un modèle vision-langage (VLM) et un simulateur basé sur un modèle de génération vidéo (VGM) dans une boucle co-évolutive auto-renforçante, opérant à partir de seulement 500 images non annotées, soit une réduction de 50x par rapport aux baselines entièrement supervisées. Le mécanisme alterne une phase d'exploration diurne, qui génère des trajectoires ancrées physiquement via une récompense multi-granulaire à contrôle sémantique, et une phase de consolidation nocturne, qui exploite les échecs "near-miss" pour stabiliser l'optimisation de politique. Les résultats publiés indiquent une amélioration de 30 points absolus sur les planificateurs de base, une hausse de 48 % du taux de succès des simulateurs, et un apprentissage continu robuste sans oubli catastrophique. Ces chiffres adressent directement le principal verrou économique des pipelines de manipulation à grande échelle : la collecte de données téléopérées, qui freine aujourd'hui des systèmes commerciaux comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). La co-évolution VLM-VGM contourne deux limitations bien documentées : les VLM seuls souffrent d'un désalignement sémantique-spatial (compréhension correcte de la tâche mais imprécision dans le positionnement 3D), tandis que les VGM seuls produisent des hallucinations physiques (vidéos synthétiques qui violent les contraintes physiques réelles). Un curriculum progressif automatique fait évoluer le système d'actions atomiques simples vers des tâches composites complexes, approche concrète au problème de généralisation hiérarchique encore non résolu à l'échelle commerciale. Ce travail s'inscrit dans une tendance émergente visant à substituer la génération synthétique de données à la collecte terrain coûteuse, tendance accélérée depuis Diffusion Policy (2023) et l'essor des modèles VLA (vision-language-action). Le résumé disponible ne précise ni affiliation institutionnelle des auteurs ni plateforme matérielle de validation, une limite importante avant tout transfert industriel. Aucun déploiement physique ni partenariat constructeur n'est annoncé : RoboEvolve reste à ce stade une contribution académique dont la transposition sim-to-real sur hardware réel reste entièrement à démontrer.

RechercheOpinion
1 source
BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux
515arXiv cs.RO 

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

Une équipe de chercheurs a publié sur arXiv en mai 2026 (arXiv:2605.08571) un cadre théorique baptisé BEACON -- acronyme de Best-Effort Adaptation for Cross-Domain Co-Training -- destiné à entraîner des politiques robotiques génératives lorsque les données dans le domaine cible sont rares. L'approche repose sur un mécanisme de pondération par importance : plutôt que de mélanger naïvement des démonstrations provenant de domaines sources abondants (simulation, autres environnements) avec un faible nombre de démonstrations réelles, BEACON apprend simultanément une politique visuomotrice basée sur la diffusion et des poids par échantillon source qui minimisent une fonction objectif garantissant la généralisation sur le domaine cible. Pour rendre cela praticable sur des séquences de haute dimension, les auteurs développent des estimateurs de divergence à l'échelle de l'instance, des mises à jour alternées stochastiques, et une extension multi-sources capable de pondérer des domaines sources hétérogènes. L'enjeu est directement lié au problème du sim-to-real gap, l'un des verrous principaux de la robotique de manipulation : collecter des démonstrations téléopérées dans le monde réel reste coûteux et lent, tandis que la simulation génère des données à bas coût mais au prix d'un écart de distribution souvent fatal au déploiement. BEACON montrerait, selon les auteurs, des gains de robustesse et d'efficacité de données par rapport à trois baselines majeures -- entraînement sur cibles seules, co-entraînement à ratio fixe, et alignement de features explicite -- dans des configurations sim-to-sim, sim-to-real et manipulation multi-sources. Le résultat le plus contre-intuitif est qu'en l'absence de tout objectif d'alignement explicite, BEACON produit néanmoins un alignement de représentations comme effet émergent de la pondération par divergence. Les auteurs ne fournissent pas de taux de réussite précis dans l'abstract, ce qui limite la comparaison directe avec des benchmarks publiés. Ce travail s'inscrit dans une vague de recherches sur le transfert de politiques entre domaines, portée notamment par des méthodes comme RoboAgent, DROID, ou les approches VLA (vision-language-action) de Physical Intelligence (Pi-0) et Google DeepMind (GR00T N2), qui cherchent elles aussi à tirer parti de données hétérogènes à grande échelle. Là où ces dernières misent sur des architectures généralistes entraînées sur des corpus massifs, BEACON propose un angle complémentaire et plus frugal : exploiter intelligemment des sources existantes sans disposer de millions de démonstrations. Le code et les expériences n'étant pas encore publics, il reste à confirmer si les résultats tiennent sur des tâches de manipulation réelle complexes hors du cadre contrôlé des évaluations présentées.

RechercheOpinion
1 source
ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique
516arXiv cs.RO 

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Une équipe de recherche a publié en mai 2026 sur arXiv (référence 2605.08774) ProcVLM, un modèle vision-langage conçu pour générer des signaux de récompense denses dans les tâches de manipulation robotique à longue durée. Contrairement aux approches existantes qui s'appuient sur des étiquettes de succès en fin de trajectoire ou sur une interpolation temporelle, ProcVLM ancre son estimation de progression dans la structure procédurale de la tâche et dans les changements visuels au sein de chaque sous-étape. Le modèle adopte un paradigme "raisonner avant d'estimer" : il infère d'abord les actions atomiques restantes avant de chiffrer l'avancement global. Pour l'entraîner à grande échelle, les auteurs ont constitué ProcCorpus-60M, un corpus de 60 millions de trames annotées issues de 30 jeux de données embodied, dont est dérivé ProcVQA, un benchmark couvrant l'estimation de progression, la segmentation d'actions et la planification prospective. L'enjeu est direct pour les intégrateurs et les équipes travaillant sur la manipulation longue durée, comme l'assemblage multi-étapes, le conditionnement ou la maintenance industrielle. Les modèles de récompense classiques, en confondant temps écoulé et progression réelle, sont incapables de détecter stagnation, étapes manquées ou états d'échec intermédiaires. ProcVLM produit des estimations discriminantes intra-trajectoire, ce qui en fait un composant plus utile pour la policy optimization guidée par récompense. Les expériences publiées montrent des gains mesurés sur ProcVQA et sur des benchmarks de modèles de récompense face aux baselines représentatives. Ces résultats restent néanmoins dans le cadre de la simulation et de l'évaluation hors-ligne : aucun déploiement sur robot physique n'est annoncé. Ce travail s'inscrit dans une tendance de fond visant à améliorer la qualité des signaux de supervision pour les modèles vision-langage-action (VLA), un chantier central depuis la publication de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le problème du reward shaping dans les tâches manipulatoires longues est un verrou bien identifié : le sim-to-real gap se double d'un gap supervision-comportement quand les étiquettes de succès sont trop parcimonieuses. ProcVLM propose une réponse méthodologique à ce second verrou via un corpus de supervision synthétique à 60 millions de trames, mais demeure à ce stade un preprint académique sans validation sur hardware réel annoncée. La page projet (procvlm.github.io) est en ligne, sans date de release du code ou des données précisée.

RechercheOpinion
1 source
BrickCraft : composition de compétences visuomotrices avec guidage manuel pour l'assemblage de briques emboîtables à long horizon
517arXiv cs.RO 

BrickCraft : composition de compétences visuomotrices avec guidage manuel pour l'assemblage de briques emboîtables à long horizon

Des chercheurs de l'Intelligent Control Lab ont déposé sur arXiv en mai 2026 (réf. 2605.07605) BrickCraft, un framework compositionnel pour l'assemblage autonome de briques emboîtables par bras robotique. L'approche repose sur une formulation relative : chaque étape est ancrée à une brique de référence dans la structure partielle, ce qui décompose toute séquence longue en un ensemble fini de compétences primitives réutilisables. Pour piloter l'exécution physique, le système introduit les "situated manuals", des guides spatiaux projetés en temps réel dans les observations du robot, permettant à des politiques visuomotrices apprises de recevoir un ancrage spatial précis sans avoir à reprogrammer chaque primitive pour chaque nouvelle structure. L'abstract ne précise ni le robot utilisé, ni les métriques chiffrées (taux de succès, temps de cycle), des informations attendues dans la version complète de l'article. L'assemblage de briques emboîtables constitue un banc d'essai redoutable pour la manipulation fine : les tolérances d'emboîtement sont de l'ordre du dixième de millimètre, les séquences dépassent fréquemment plusieurs dizaines d'étapes, et une erreur de positionnement en amont propage des défauts irréversibles. BrickCraft s'attaque simultanément aux trois verrous classiques du domaine, à savoir le raisonnement sur horizon long, l'ancrage spatial (spatial grounding) et la manipulation fine, là où les approches end-to-end actuelles peinent à généraliser. La capacité à transférer des compétences apprises sur un nombre limité de démonstrations vers des structures inédites est particulièrement notable : elle indique que les primitives ne sont pas surajustées à une topologie spécifique, un écueil fréquent des méthodes par imitation en robotique d'assemblage. Du côté de la compétition académique et industrielle, l'assemblage de briques LEGO a déjà mobilisé le MIT CSAIL, l'ETH Zurich via des approches de planification de tâches et mouvements (TAMP), et plus récemment des équipes exploitant des Vision-Language-Action models (VLA) comme Pi-0 d'Embodied Intelligence ou GR00T N2 de NVIDIA pour la manipulation généraliste. BrickCraft choisit un inductive bias différent : exploiter la structure hiérarchique et répétitive propre aux assemblages par emboîtement plutôt que viser une généralité totale, un parti pris qui peut s'avérer payant pour des applications industrielles ciblées comme le montage de kits, le prototypage ou les lignes de petites séries. Le projet dispose d'un site dédié, mais aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

RecherchePaper
1 source
Video Friday : l'IA confère aux mains robotiques une dextérité humaine
518IEEE Spectrum Robotics 

Video Friday : l'IA confère aux mains robotiques une dextérité humaine

Cette semaine dans la sphère robotique, l'annonce la plus médiatisée émane de Genesis AI, qui présente GENE-26.5, décrit par la société comme "le premier cerveau IA à conférer aux robots des capacités de manipulation physique au niveau humain." Les démonstrations vidéo montrent un système cuisant un repas complet, cassant un oeuf d'une seule main, conduisant des expériences de laboratoire, réalisant du câblage de harnais électrique et jouant du piano. Aucun détail technique sur le matériel robotique utilisé, les taux de succès, ou les conditions d'environnement contrôlées n'est communiqué, ce qui invite à la prudence avant de valider ces affirmations. En parallèle, le Robotics and AI Institute publie une démonstration du quadrupède Spot de Boston Dynamics piloté par un réseau de neurones entraîné par apprentissage par renforcement combiné à une distillation multi-expert: le robot s'accroupit, saute, escalade des caisses et franchit des vides. Du côté de la NASA, les ingénieurs du Jet Propulsion Laboratory ont passé la barrière du son avec des pales de rotor de prochaine génération pour hélicoptère martien, atteignant Mach 1 dans une chambre simulant l'atmosphère de Mars, dont la densité représente environ 1 % de celle de la Terre. Jim Fan, qui dirige le groupe de recherche en autonomie incarnée chez Nvidia, affirme pour sa part que la robotique entre dans sa "phase finale" et que le plan de jeu est déjà écrit. Les affirmations de Genesis AI sur la manipulation humanoïde méritent d'être contextualisées: le secteur est parsemé d'annonces de "dextérité humaine" qui peinent à se vérifier hors conditions contrôlées. L'absence de métriques objectives, taux de succès, nombre de tentatives, variété des objets manipulés, est un signal d'alerte classique dans les communications de ce type, et le demo-to-reality gap reste la question centrale pour tout décideur B2B qui évalue ces systèmes. La prouesse NASA sur les rotors martiens est, en revanche, une avancée mesurable: franchir Mach 1 dans une atmosphère aussi ténue implique des vitesses de rotation extrêmes et des matériaux composites capables de résister à des charges aérodynamiques inédites, ouvrant la voie à des hélicoptères plus capables pour de futures missions. Quant à Atlas, le discours officiel de Boston Dynamics sur l'équilibre entre objectifs commerciaux et recherche fondamentale traduit la pression croissante que subissent les constructeurs de plateformes humanoïdes pour démontrer une rentabilité tangible après des années d'investissement massif. Genesis AI est peu connue du grand public; sa mise en avant via TechCrunch suggère une stratégie de visibilité plutôt qu'un lancement produit au sens strict. Dans l'écosystème concurrent, Physical Intelligence avec Pi-0, Figure Robotics avec le Figure 03, Agility Robotics et 1X mènent des efforts comparables sur la manipulation généraliste, tandis que Nvidia prépare le terrain pour GR00T N2 et les prochains modèles de foundation pour corps physiques. Le thème de l'Open Duck Mini, version open-source des droids BDX de Disney publiée par la communauté, rappelle que l'innovation en robotique ne se limite pas aux acteurs industriels. La communauté se retrouvera à ICRA 2026 du 1er au 5 juin à Vienne, puis à RSS 2026 du 13 au 17 juillet à Sydney, deux rendez-vous où ces avancées seront soumises à une évaluation scientifique rigoureuse, loin des vidéos de démonstration soigneusement sélectionnées.

💬 Genesis AI sort le grand jeu avec GENE-26.5, mais zéro métrique, zéro taux de réussite, ça reste une démo marketing jusqu'à preuve du contraire. Ce qui me retient vraiment dans cette actu, c'est la prouesse NASA sur les rotors martiens: Mach 1 dans 1% de densité atmosphérique, ça c'est de la physique vérifiable, pas du storytelling. Jim Fan parle de "phase finale" pour la robotique, bon, sur le papier c'est enthousiasmant, reste à voir ce que ça donne à ICRA en juin face aux pairs.

IA physiqueActu
1 source
SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée
519Pandaily 

SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée

SynapX, une startup fondée en janvier 2026, a annoncé le lancement de SYNData, un système de collecte de données multimodale conçu pour l'apprentissage de la manipulation dextre en robotique incarnée. Le système repose sur trois modules matériels distincts : un casque Ego à quatre caméras pour la vision première personne, des bracelets EMG (électromyographie) pour capter les signaux bioélectriques musculaires, et un exosquelette-gant bionique pour enregistrer la pose de la main, l'état de contact sur toute la paume et la distribution des forces. L'architecture permet la collecte simultanée de ces modalités, y compris en conditions d'occlusion visuelle partielle. Trois semaines seulement après sa création et sa première participation en compétition, SynapX a terminé 2e au classement mondial et 1er en Chine dans la piste "Reasoning to Action" de l'AGIBOT World Challenge, organisé dans le cadre de l'ICRA 2026. L'enjeu central que SYNData prétend résoudre est le goulot d'étranglement de la donnée physique à l'échelle. Dans le développement des modèles vision-langage-action (VLA) pour la manipulation robotique, la collecte de données haute qualité demeure le facteur limitant, davantage que l'architecture des modèles ou la maturité du hardware. Le mécanisme propriétaire Bio2Robot transforme les signaux biologiques humains en données directement exploitables par des modèles de robot, avec l'objectif déclaré de ne pas perturber le comportement naturel de l'opérateur lors de la capture. Si cette promesse tient à l'échelle, cela représenterait un avantage opérationnel significatif pour les intégrateurs cherchant à industrialiser la démonstration humaine sans pipeline de labellisation coûteux. Le contexte concurrentiel est dense : des acteurs comme Physical Intelligence avec son modèle Pi-0, NVIDIA avec GR00T N2, ou encore Agibot et 1X Technologies investissent massivement dans des pipelines de données pour la manipulation généraliste. En Chine, l'écosystème est particulièrement actif, porté par des programmes de soutien public et une communauté robotique illustrée par l'AGIBOT World Challenge lui-même. SynapX se positionne en amont de la chaîne de valeur, comme fournisseur d'infrastructure de collecte plutôt que fabricant de robot. La robustesse du classement ICRA reste à confirmer en conditions de déploiement industriel réelles, le gap entre performance en compétition et application terrain demeurant un défi structurel du secteur.

💬 Le vrai goulot en robotique, c'est pas l'archi du modèle, c'est la donnée physique à l'échelle, et SynapX l'a compris avant beaucoup. Se positionner comme fournisseur d'infra de capture plutôt que fabricant de robot, c'est malin : tu fournis à tout l'écosystème sans te battre contre Physical Intelligence ou NVIDIA sur le hardware. Trois semaines d'existence, 2e mondial à l'ICRA, bon, reste à voir si les EMG et l'exo tiennent hors compétition.

IA physiqueOpinion
1 source
SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique
520arXiv cs.RO 

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Des chercheurs présentent dans un preprint arXiv (2511.06754v3, troisième révision, mai 2026) SlotVLA, un framework de manipulation robotique multitatches qui repose sur des représentations centrées sur les objets et leurs relations plutôt que sur les plongements denses utilisés par la majorité des modèles VLA actuels. L'architecture combine trois composants : un tokeniseur visuel à slots qui maintient des représentations temporellement cohérentes pour chaque objet détecté dans la scène, un décodeur centré sur les relations entre objets pour produire des embeddings pertinents à la tâche, et un module LLM qui traduit ces embeddings en séquences d'actions exécutables. En parallèle, les auteurs publient LIBERO+, un benchmark de manipulation dérivé du jeu de données LIBERO existant, enrichi d'annotations objet-centriques au niveau des boîtes englobantes et des masques de segmentation, ainsi qu'un suivi temporel des instances entre frames. Les expériences conduites sur LIBERO+ montrent que les représentations à slots réduisent significativement le nombre de tokens visuels nécessaires tout en conservant des performances de généralisation comparables aux baselines denses. L'intérêt principal de cette approche réside dans la tension qu'elle adresse directement : les VLAs déployés à ce jour (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure) s'appuient sur des encodeurs visuels qui traitent la scène comme un champ dense, sans distinction explicite entre objets manipulables et arrière-plan. Cette architecture entraîne une redondance computationnelle et rend difficile l'audit du raisonnement du modèle, ce qui freine l'adoption industrielle dans des contextes certifiables. SlotVLA propose que des représentations structurées, inspirées de la cognition humaine sur les objets discrets, puissent constituer une base plus efficace et interprétable pour le contrôle visuomoteur. La réduction du nombre de tokens visuels est un levier concret de coût d'inférence pour des systèmes embarqués ou des flottes de robots. Il convient toutefois de noter que les résultats présentés restent confinés à l'environnement simulé LIBERO+ : aucune validation physique sur robot réel n'est rapportée dans ce preprint, ce qui laisse ouverte la question du sim-to-real gap pour ce type de représentation. Cette publication s'inscrit dans un courant actif de recherche sur les architectures objet-centriques pour la robotique, dont les travaux fondateurs incluent les modèles de slot attention de Locatello et al. (2020) et les approches OCRL. LIBERO avait déjà été introduit comme benchmark multitatches pour la manipulation, mais sans annotations objet-centriques fines : LIBERO+ vient combler ce manque pour faciliter l'évaluation comparative de ce type de représentation. Sur le plan concurrentiel, les laboratoires académiques (notamment ceux liés à CMU, Berkeley, Stanford) et industriels travaillent en parallèle sur des architectures plus interprétables pour répondre aux demandes croissantes de traçabilité dans l'automatisation industrielle. Les prochaines étapes naturelles seront la validation sim-to-real sur des plateformes physiques standard (Franka, UR, ou humanoïdes) et l'intégration dans des pipelines de fine-tuning avec des modèles fondateurs publics.

IA physiqueOpinion
1 source
Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé
521arXiv cs.RO 

Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé

Une équipe de chercheurs propose Adaptive Humanoid Control (AHC), un framework de contrôle locomoteur pour humanoïdes publié sur arXiv (2511.06371v3). Le problème de départ est structurel : les méthodes dominantes entraînent une politique séparée pour chaque compétence (se relever, marcher, courir, sauter), générant des contrôleurs rigides qui échouent dès que le terrain devient irrégulier. AHC y répond en deux phases : d'abord, plusieurs politiques primaires sont entraînées puis fusionnées par distillation multi-comportements en un contrôleur unique capable de commuter dynamiquement selon le contexte ; ensuite, un affinage par renforcement avec retours en ligne consolide l'adaptabilité sur terrains variés. Le système est validé en simulation et en conditions réelles sur le robot Unitree G1 d'Unitree Robotics. Pour les intégrateurs et les décideurs industriels, la promesse est concrète : un seul contrôleur couvrant l'ensemble des comportements locomoteurs réduit la complexité opérationnelle et supprime les transitions manuelles entre modes. Du côté de la recherche, le résultat le plus notable est que la distillation combinée à un fine-tuning par RL en ligne permet de réduire partiellement le sim-to-real gap sans ré-entraînement complet. La réserve à formuler : le papier ne publie pas de métriques quantitatives détaillées (taux de succès par terrain, fréquence de chute), ce qui rend difficile la comparaison objective avec d'autres approches. Le Unitree G1 (1,27 m, environ 35 kg, 16 000 dollars) est devenu depuis 2024 une plateforme de recherche de référence pour ce type de travaux. AHC s'inscrit dans une compétition internationale où Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure (Helix) et Boston Dynamics cherchent tous à produire des politiques locomotrices généralisables hors environnement contrôlé. L'approche par distillation multi-politiques rappelle les travaux de curriculum learning menés à Berkeley et CMU, et l'affinage par RL en ligne emprunte aux méthodologies RLHF adaptées à la robotique physique. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé ; le projet en est au stade de la démonstration académique.

RecherchePaper
1 source
Du langage à la logique : une architecture théorique pour la navigation sécurisée fondée sur les modèles VLM
522arXiv cs.RO 

Du langage à la logique : une architecture théorique pour la navigation sécurisée fondée sur les modèles VLM

Des chercheurs ont publié en mai 2026 sur arXiv (arXiv:2605.04327) une architecture théorique visant à intégrer des règles de sécurité en langage naturel dans la navigation autonome de robots opérant en environnements extérieurs non structurés. Le principe central consiste à convertir des consignes humaines informelles en spécifications formelles de Signal Temporal Logic (STL), un formalisme mathématique permettant d'exprimer des contraintes temporelles sur le comportement d'un système. Les règles persistantes liées au terrain sont encodées dans une carte de coûts 2D, tandis que les exigences dynamiques sont surveillées en temps réel sous forme de moniteurs STL. Pour l'interprétation sémantique de la scène, les auteurs proposent l'usage de Vision-Language Models (VLMs) en mode zero-shot, c'est-à-dire sans phase d'entraînement spécifique à l'environnement opérationnel. L'intérêt de cette approche réside dans la tentative de combler deux fossés bien connus du secteur : d'une part, le gouffre entre les instructions opérateur en langage naturel et les contraintes exploitables par un planificateur formel ; d'autre part, le manque de garanties vérifiables dans les systèmes de navigation basés sur l'apprentissage. Pour les intégrateurs et les décideurs B2B actifs dans l'agriculture de précision, la construction ou la logistique extérieure, la promesse est claire : pouvoir exprimer des règles de sécurité terrain sans écrire de code ni annoter de données. Il convient cependant de noter que l'article reste entièrement théorique, les auteurs utilisant eux-mêmes le terme "hypothesize" pour qualifier l'usage des VLMs, sans présenter de résultats expérimentaux ni de validation sur robot réel. Cette publication s'inscrit dans une dynamique plus large où les VLMs sont progressivement intégrés dans des pipelines robotiques complets, comme en témoignent les travaux récents de Physical Intelligence avec Pi-0, ou de NVIDIA avec GR00T N2. L'utilisation de STL pour la navigation n'est pas nouvelle, le formalisme ayant fait ses preuves en conduite autonome et drones, mais son couplage avec des VLMs pour le grounding sémantique constitue une direction de recherche active. Plusieurs groupes, notamment en Europe (dont des équipes liées aux projets de l'ANR et d'Horizon Europe sur la navigation sûre), explorent des pistes similaires. Les prochaines étapes logiques seraient une implémentation sur simulateur puis une validation terrain, étapes absentes de ce premier article d'architecture.

UEDes équipes européennes liées à l'ANR et Horizon Europe travaillent sur des problématiques similaires de navigation sûre, ce qui ancre ce sujet dans la dynamique de recherche continentale, sans impact industriel direct à ce stade.

RecherchePaper
1 source
Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled
523arXiv cs.RO 

Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled

Une équipe de chercheurs a publié le 6 mai 2026 sur arXiv (réf. 2605.03637) un framework génératif pour convertir des vidéos de démonstration humaine en séquences d'exécution robotique plausibles, sans données appariées humain-robot. La méthode décompose la vidéo source en deux espaces latents orthogonaux: l'un encodant la tâche accomplie, l'autre la morphologie du corps en mouvement. Un double objectif contrastif impose cette séparation en minimisant l'information mutuelle entre les deux espaces pour garantir leur indépendance, tout en maximisant la cohérence intra-espace pour stabiliser les représentations. Un adaptateur à faible coût paramétrique injecte ces codes latents dans un modèle de diffusion vidéo figé, produisant des démonstrations robotiques morphologiquement précises et cohérentes dans le temps à partir d'une seule séquence humaine. L'enjeu est critique: les approches existantes génèrent des représentations enchevêtrées où l'information de tâche reste couplée à la cinématique humaine spécifique, ce qui bloque le transfert vers d'autres morphologies. En découplant explicitement ces deux dimensions, la méthode ouvre la voie à l'exploitation des vastes corpus de vidéos humaines disponibles sur internet pour entraîner des politiques de manipulation robotique, sans collecte de démonstrations robot coûteuse par télé-opération. Les expériences rapportent des vidéos générées temporellement consistantes et morphologiquement fidèles, bien que l'abstract ne fournisse pas de métriques quantitatives comparatives avec les baselines; les résultats visuels restent la principale validation. Pour un intégrateur ou un décideur industriel, la promesse est de réduire significativement le coût de labeling nécessaire à l'apprentissage de nouveaux comportements de manipulation. Cette publication s'inscrit dans une compétition intense autour des politiques de manipulation généralisables: Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA (UC Berkeley) cherchent tous à réduire la dépendance aux démonstrations robot propriétaires. L'approche par édition vidéo emprunte un chemin différent des VLA classiques: plutôt qu'apprendre une politique directement depuis des vidéos humaines, elle synthétise d'abord une démonstration robot plausible exploitable par les pipelines d'imitation learning standards. Il s'agit à ce stade d'un preprint préliminaire, sans déploiement industriel ni partenariat annoncé. Le cadre latent disentangled proposé pourrait néanmoins rapidement intéresser des acteurs comme 1X Technologies ou Apptronik, et côté européen, des équipes travaillant sur l'imitation learning comme certains labs INRIA ou des spin-offs de manipulation comme Enchanted Tools.

UEDes équipes INRIA et des spin-offs de manipulation comme Enchanted Tools pourraient bénéficier de cette approche pour réduire le coût de collecte de démonstrations robotiques, mais aucun partenariat ou déploiement européen n'est impliqué à ce stade.

IA physiqueOpinion
1 source
Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède
524arXiv cs.RO 

Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède

Des chercheurs ont publié sur arXiv (identifiant 2508.14994, troisième révision) un système de téleopération à contrôle partagé pour un robot quadrupède équipé d'un bras manipulateur, ciblant les environnements dangereux ou inaccessibles. Le principe : une caméra externe couplée à un modèle d'apprentissage automatique détecte la position du poignet de l'opérateur en temps réel, puis traduit ces mouvements en commandes directes pour le bras robotique. Un planificateur de trajectoire intégré assure la sécurité en détectant et bloquant les collisions potentielles avec les obstacles environnants, ainsi que les auto-collisions entre le bras et le châssis du robot. Le système a été validé sur un robot physique réel, pas uniquement en simulation. Il s'agit d'un preprint académique, pas d'un produit commercialisé. Ce travail adresse un verrou connu dans l'intégration industrielle des robots à pattes : les interfaces joystick ou manette exigent un niveau d'expertise élevé et génèrent une charge cognitive importante pour l'opérateur, augmentant le risque de collision dans des espaces confinés ou dynamiques. En mappant directement les gestes naturels du bras humain vers le bras du robot, l'approche réduit la barrière à l'entrée et pourrait accélérer le déploiement de plateformes comme le Boston Dynamics Spot ARM ou l'ANYmal d'ANYbotics dans des scénarios d'inspection ou de maintenance à risque. La solution revendique un faible coût d'implémentation, ne nécessitant qu'une caméra standard plutôt qu'un équipement de capture de mouvement dédié ou un retour haptique coûteux. La téleopération de robots locomoteurs reste un champ en compétition dense. Les approches concurrentes incluent la commande par réalité virtuelle (Boston Dynamics, Apptronik), les exosquelettes (Sarcos, Shadow Robot) et les interfaces à vision stéréo immersive. Du côté académique, les modèles Visual-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent à réduire ou éliminer la téleopération au profit de l'autonomie embarquée. Ce travail se positionne dans une niche différente : augmenter la sécurité et l'intuitivité du contrôle humain plutôt que de le remplacer. Les prochaines étapes, non détaillées dans le preprint, concerneraient typiquement des tests de robustesse en conditions dégradées (faible luminosité, poussière) et une évaluation comparative des temps de cycle opérateur face aux interfaces existantes.

RecherchePaper
1 source
Anticipation-VLA : résolution de tâches incarnées à long horizon par génération de sous-objectifs
525arXiv cs.RO 

Anticipation-VLA : résolution de tâches incarnées à long horizon par génération de sous-objectifs

Une équipe de chercheurs a publié le 5 mai 2026 sur arXiv (référence 2605.01772) un modèle de contrôle robotique baptisé Anticipation-VLA, conçu pour résoudre les tâches à long horizon en robotique incarnée. Le système repose sur un composant appelé Anticipation Model, qui génère de manière adaptive et récursive des sous-objectifs intermédiaires au fil de l'exécution d'une tâche. L'architecture est hiérarchique : un Unified Multimodal Model (UMM) affiné gère la planification de haut niveau en produisant ces sous-objectifs, tandis qu'une politique VLA (Vision-Language-Action) conditionnée sur ces cibles pilote l'exécution motrice à bas niveau. Les expériences couvrent des environnements simulés et des tâches robotiques réelles. Les auteurs affirment des gains de robustesse significatifs par rapport aux approches antérieures, sans toutefois publier de métriques quantitatives précises dans l'abstract, ce qui limite la comparaison directe avec l'état de l'art. Le problème adressé est central dans la robotique d'apprentissage : les modèles VLA accumulent des erreurs sur les tâches longues, chaque décision imparfaite amplifiant les erreurs suivantes. Les approches existantes décomposent les tâches en sous-tâches de granularité fixe, ce qui les rend rigides face aux variations de complexité des états d'exécution. La contribution clé d'Anticipation-VLA est d'ajuster dynamiquement les sous-objectifs en fonction de l'évolution réelle de la situation, une avancée dans le contrôle hiérarchique adaptatif. Pour les intégrateurs et décideurs B2B, ce type de système ouvre la voie à des robots capables d'exécuter des séquences complexes en environnement industriel sans supervision constante, un verrou majeur dans le déploiement à grande échelle des bras manipulateurs. Le domaine des VLA est en pleine effervescence depuis la publication de RT-2 (Google DeepMind, 2023), puis d'OpenVLA, Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). La recherche sur la planification hiérarchique se heurte systématiquement au "demo-reality gap" : les résultats en simulation ne se transfèrent pas toujours au monde réel. Anticipation-VLA revendique une validation sur tâches réelles, signal positif, bien que l'absence de benchmarks standardisés tels que RLBench ou LIBERO dans la publication rende difficile le positionnement précis face à la concurrence. Les prochaines étapes probables incluent des évaluations comparatives sur ces benchmarks et une extension vers des plateformes mobiles manipulatrices, segment où des acteurs comme Physical Intelligence et Boston Dynamics intensifient leurs travaux.

RechercheOpinion
1 source
LLMs pour le comportement de recherche dans les essaims de robots décentralisés
526arXiv cs.RO 

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.01461) LLM-Foraging, un contrôleur décentralisé pour essaims de robots conçu pour la collecte de ressources. L'approche intègre un large modèle de langage (LLM) comme décideur tactique dans la machine d'états du CPFA (central-place foraging algorithm), à trois points précis : après un dépôt de ressource, à l'arrivée en zone centrale, et lors d'un blocage de recherche (search starvation). Chaque robot embarque son propre client LLM et l'interroge sur la base de ses seules observations locales, sans communication centralisée. Les tests ont été conduits dans le simulateur Gazebo avec des robots TurtleBot3 virtuels, sur 36 configurations couvrant des équipes de 4 à 10 robots, des arènes de 6x6 à 10x10 mètres et trois distributions de ressources (groupée, loi de puissance, aléatoire). LLM-Foraging surpasse la baseline CPFA optimisée par algorithme génétique sur l'ensemble des configurations testées, avec une consistance que les auteurs jugent supérieure. L'enjeu principal est l'absence de phase d'entraînement au déploiement. Un CPFA calibré par algorithme génétique produit des politiques figées sur une configuration donnée : tout changement de taille d'équipe, d'arène ou de distribution de ressources impose un recalcul coûteux. En substituant un LLM comme politique générale de décision, l'architecture se transfère à de nouvelles conditions sans ré-optimisation. Pour les intégrateurs de systèmes robotiques distribués, c'est une promesse de reconfigurabilité opérationnelle notable. Limite importante à retenir : l'évaluation reste entièrement en simulation, et le sim-to-real gap pour des décisions LLM dans des essaims physiques reste entièrement à démontrer. Le CPFA est un algorithme de référence en robotique d'essaim depuis les années 2010, inspiré des stratégies de fourragement des insectes sociaux. LLM-Foraging s'inscrit dans la tendance d'intégration des modèles fondationnels en robotique, aux côtés d'architectures vision-langage-action (VLA) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais appliquée pour la première fois aux essaims décentralisés, un domaine où les approches évolutionnaires et par apprentissage par renforcement dominaient sans alternative crédible. Aucun acteur européen n'est impliqué dans ces travaux académiques. Les prochaines étapes naturelles incluent la validation sur robots physiques, le passage à des essaims dépassant la dizaine d'unités, et l'évaluation dans des environnements dynamiques où les ressources se déplacent ou disparaissent.

RechercheActu
1 source
Attention spatiale stéréo multi-étapes pour manipulation mobile en temps réel sous variations d'échelle et perturbations
527arXiv cs.RO 

Attention spatiale stéréo multi-étapes pour manipulation mobile en temps réel sous variations d'échelle et perturbations

Des chercheurs ont publié en mai 2026 un préprint (arXiv:2605.00471) présentant une méthode d'apprentissage prédictif profond basée sur une attention spatiale stéréo multi-étapes pour la manipulation mobile en temps réel. L'approche extrait des points d'attention spatiale pertinents à partir d'images stéréo, les intègre avec les états du robot via une architecture récurrente hiérarchique, et génère des actions en boucle fermée. Le système a été évalué sur quatre tâches de manipulation mobile en conditions réelles avec un manipulateur mobile : placement d'objets rigides, manipulation d'objets articulés, et interaction avec des objets déformables. Les expériences se sont déroulées sous positions initiales aléatoires et perturbations visuelles contrôlées. Les auteurs rapportent des taux de succès et une robustesse supérieurs aux baselines d'imitation learning et aux modèles vision-langage-action (VLA) dans des conditions de contrôle identiques. À noter : l'abstract ne fournit pas de chiffres quantitatifs précis (taux de succès, fréquence de contrôle, payload), ce qui limite l'évaluation indépendante des gains annoncés. Le problème central adressé est rarement traité explicitement dans la littérature VLA : quand un robot se déplace de manière autonome, les changements continus de point de vue caméra provoquent des variations d'échelle visuelle significatives sur les objets cibles, ce qui dégrade la génération de mouvements fondée sur la vision. Les modèles VLA actuels, entraînés sur des données à échelle fixe ou simulées, peinent à compenser ce phénomène en déploiement réel. L'architecture proposée, en combinant attention stéréo structurée et modélisation temporelle prédictive, offre une piste crédible pour combler ce fossé sim-to-real sur des plateformes mobiles, une classe de robots particulièrement exposée à ce problème par rapport aux bras fixes. Ce travail s'inscrit dans un contexte de forte compétition sur la manipulation généraliste : Boston Dynamics, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et Figure avec ses plateformes humanoïdes investissent massivement dans des politiques VLA robustes au monde réel. La manipulation mobile reste un défi distinct de la manipulation fixe, car elle cumule les difficultés de navigation et de préhension dans des environnements non structurés. En l'absence d'affiliation institutionnelle dans le préprint et de code ou de vidéos publiés, il est prématuré d'évaluer la reproductibilité de l'approche. Les prochaines étapes naturelles seraient une publication sur benchmark standardisé (Open-X Embodiment, LIBERO) et un test sur plateformes commerciales comme les AMR équipés de bras (MiR, Clearpath, ou des acteurs européens comme Niryo ou Wandercraft sur des variantes mobiles).

RechercheOpinion
1 source
Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?
528arXiv cs.RO 

Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?

Une équipe de chercheurs a publié sur arXiv (référence 2604.27667) une méthode hybride dénommée TFM-S3, conçue pour améliorer l'exploration globale dans l'apprentissage de politiques robotiques tout en limitant le nombre de simulations nécessaires. L'approche alterne des mises à jour locales à haute fréquence avec des rondes de recherche globale intermittentes. À chaque ronde, TFM-S3 construit dynamiquement un sous-espace de politique de faible dimension via une décomposition en valeurs singulières (SVD), puis effectue un raffinement itératif guidé par un modèle de substitution (surrogate model). Ce modèle de fondation tabulaire pré-entraîné prédit les retours candidats à partir d'un petit ensemble de contextes, permettant un criblage à grande échelle sans multiplier les rollouts coûteux. Sur des benchmarks de contrôle continu standards, TFM-S3 accélère la convergence en phase initiale et améliore les performances finales par rapport à TD3 (Twin Delayed Deep Deterministic Policy Gradient) et des baselines à population, à budget de rollouts identique. L'enjeu central est le coût d'exploration. En robotique, l'apprentissage par renforcement dans des espaces d'action continus à haute dimension souffre d'un dilemme structurel : les méthodes locales convergent vite mais restent piégées dans des optima locaux, tandis que les méthodes globales sont plus robustes à l'initialisation mais très gourmandes en évaluations. TFM-S3 propose un compromis crédible en déléguant le criblage des candidats à un modèle tabulaire pré-entraîné. Si ces résultats se confirment sur des environnements physiques réels et pas seulement en simulation, ce serait un levier direct pour accélérer l'entraînement de politiques sur des robots industriels où chaque essai a un coût mécanique et temporel non négligeable. Cette publication s'inscrit dans une tendance croissante qui cherche à transférer les bénéfices des modèles de fondation (pré-entraînement massif, généralisation) au problème classique de l'optimisation de politique. Des approches concurrentes comme les VLA (Vision-Language-Action models) Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA misent sur l'apprentissage multimodal et l'imitation à grande échelle plutôt que sur le renforcement pur. TFM-S3 se positionne comme un outil orthogonal, compatible avec des pipelines RL existants. Il reste pour l'instant un preprint non relu par des pairs, et ses expériences se limitent aux benchmarks de contrôle continu standards de type MuJoCo, sans validation sur hardware physique annoncée à ce stade.

RecherchePaper
1 source
Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables
529arXiv cs.RO 

Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables

Des chercheurs ont publié sur arXiv (preprint 2511.19543v2) une approche visant à rendre les transferts d'objets entre humains et robots plus robustes face aux imprévus. Le coeur de la contribution est une couche d'interaction basée sur le Virtual Model Control (VMC), une technique de contrôle qui simule des ressorts et amortisseurs virtuels autour de l'effecteur pour absorber les variations dynamiques de pose de l'objet lors du passage de main. En complément, les auteurs intègrent la réalité augmentée (AR) pour établir une communication bidirectionnelle en temps réel entre l'opérateur humain et le robot, permettant à chaque partie d'anticiper l'intention de l'autre. Les performances du contrôleur ont été évaluées sur une série d'expériences couvrant différentes sources d'incertitude, puis validées par une étude utilisateur impliquant 16 participants testant plusieurs profils de contrôle et visualisations AR. La problématique du transfert d'objet humain-robot (H2R handover) est un verrou bien identifié en robotique collaborative : une légère désorientation de la pièce, un geste hésitant, et le robot échoue ou force l'objet, ce qui rend ce scénario incompatible avec un déploiement industriel fiable. L'approche VMC est intéressante parce qu'elle ne dépend pas d'une trajectoire rigide pré-planifiée mais s'adapte en continu, ce qui réduit la sensibilité au sim-to-real gap souvent fatal aux méthodes basées sur l'apprentissage. L'ajout de la boucle AR pour synchroniser les intentions est également prometteur pour les environnements d'assemblage où la communication verbale est difficile. L'étude utilisateur montre une préférence générale pour l'approche proposée, même si 16 participants reste un panel modeste pour généraliser les conclusions. Le problème H2R est un domaine actif depuis plusieurs années, avec des approches concurrentes allant du contrôle en impédance classique aux méthodes VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux sur GR00T N2 de NVIDIA. Le VMC s'inscrit dans la tradition du contrôle à base de modèle, plus explicable mais moins généraliste que les approches end-to-end. L'article est à ce stade un preprint sans affiliation industrielle identifiée ni déploiement annoncé, ce qui le place clairement dans la catégorie recherche fondamentale. Les prochaines étapes probables incluent une soumission en conférence (ICRA ou IROS) et des tests sur une plus large cohorte ou sur un robot commercial tel qu'un UR ou Franka.

RecherchePaper
1 source
Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels
530arXiv cs.RO 

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

Des chercheurs ont publié sur arXiv (preprint 2604.26689) un protocole d'évaluation pour gouverner les mises à jour de compétences dans les politiques robotiques compositionnelles. Le problème concret : les bibliothèques de skills dans les systèmes déployés sont continuellement raffinées par fine-tuning, nouvelles démonstrations ou adaptation de domaine, mais les méthodes de composition existantes (BLADE, SymSkill, Generative Skill Chaining) supposent que la bibliothèque est figée au moment du test et ne caractérisent pas l'impact d'un remplacement de skill sur la composition globale. L'équipe introduit un protocole de swap cross-version par échantillonnage couplé (paired-sampling cross-version swap) sur les tâches de manipulation robosuite. Sur une tâche bimanuelle peg-in-hole, ils documentent un effet de skill dominant : un seul ECM (Elementary Composition Module) atteint 86,7 % de taux de succès atomique tandis que tous les autres restent sous 26,7 %, et la présence ou l'absence de cet ECM dominant dans une composition déplace le taux de succès de la composition jusqu'à +50 points de pourcentage. Ils testent également une tâche de pick où toutes les politiques saturent à 100 %, rendant l'effet indéfini, et couvrent au total 144 décisions de mise à jour de skill sur trois tâches. L'enseignement industriellement pertinent est que les métriques de distance comportementale hors-politique échouent à identifier l'ECM dominant, ce qui élimine le prédicteur bon marché le plus naturel pour un système de gouvernance en production. Pour pallier cela, les auteurs proposent une sonde de qualité atomique (atomic-quality probe) combinée à un Hybrid Selector : sur T6, la sonde atomique seule se situe 23 points sous la revalidation complète (64,6 % vs 87,5 % de correspondance oracle) à coût nul par décision ; le Hybrid Selector avec m=10 ramène cet écart à environ 12 points en mobilisant 46 % du coût d'une revalidation complète. Sur la moyenne inter-tâches des 144 événements, la sonde atomique seule reste à moins de 3 points de la revalidation complète, avec une réserve liée à l'oracle mixte. Pour les intégrateurs qui déploient des robots en production continue, ce résultat signifie qu'une stratégie de revalidation sélective peut préserver l'essentiel de la qualité compositionnelle à moitié coût, sans rejouer l'intégralité du test de composition à chaque mise à jour de skill. Ce travail s'inscrit dans un corpus académique croissant autour de la composition de politiques robotiques, domaine animé notamment par des méthodes comme Generative Skill Chaining et BLADE qui ont posé les bases du typed-composition mais sans mécanisme de gouvernance post-déploiement. Il n'existe à ce stade aucun déploiement industriel annoncé, ni partenariat OEM mentionné dans le preprint : il s'agit d'un résultat de recherche fondamentale évalué uniquement en simulation (robosuite). La portée pratique dépendra de la capacité à transférer ces résultats sur des stacks de policies VLA (Vision-Language-Action) plus récents, comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA, qui multiplient précisément les modules compositionnels mis à jour en continu. Les prochaines étapes naturelles seraient une validation sim-to-real et une intégration dans des pipelines de CI/CD pour robots, un problème d'ingénierie encore largement ouvert.

RecherchePaper
1 source
LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage
531arXiv cs.RO 

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Des chercheurs ont publié LLM-Flax (arXiv 2604.26569v1), un framework en trois étapes conçu pour automatiser le déploiement de planificateurs de tâches neuro-symboliques sans expertise manuelle ni données d'entraînement. Le système prend en entrée uniquement un LLM hébergé localement et un fichier PDDL décrivant le domaine : l'étape 1 génère les règles de relaxation par prompting structuré avec auto-correction, l'étape 2 pilote la récupération sur échec via une politique de budget de latence, et l'étape 3 remplace entièrement le réseau GNN par un scoring d'objets zero-shot. Évalué sur le benchmark MazeNamo en grilles 10x10, 12x12 et 15x15 (8 benchmarks au total), LLM-Flax atteint un taux de succès moyen de 0,945 contre 0,828 pour la baseline manuelle, soit un gain de +0,117. Sur la configuration 12x12 Expert, où le planificateur manuel échoue complètement (SR 0,000), LLM-Flax atteint SR 0,733 ; sur 15x15 Hard, il obtient SR 1,000 contre 0,900 pour l'approche de référence. Le principal verrou adressé est le coût de transfert de domaine : adapter un planificateur symbolique à une nouvelle cellule robotique mobilise aujourd'hui des centaines de problèmes d'entraînement et l'intervention d'un expert métier, ce qui rend le déploiement à l'échelle industrielle prohibitif. La politique de budget de latence de l'étape 2, qui réserve explicitement une enveloppe d'appels LLM avant chaque séquence de récupération sur échec, adresse un problème pratique rarement traité dans la littérature : les boucles de fallback infinies qui paralysent les systèmes en production. L'étape 3 démontre la faisabilité du zero-shot avec SR 0,720 sur 12x12 Hard sans aucune donnée d'entraînement, mais bute sur la fenêtre de contexte à grande échelle, que les auteurs identifient eux-mêmes comme le principal défi ouvert. LLM-Flax s'inscrit dans la lignée des travaux combinant PDDL et LLMs pour la robotique, après SayCan (Google, 2022), Code as Policies (Google DeepMind) et ProgPrompt. Cette approche neuro-symbolique reste distinctement différente des architectures VLA end-to-end comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) : elle préserve un module de raisonnement explicite et auditable, ce qui peut constituer un avantage dans les environnements industriels certifiables. Le benchmark MazeNamo demeure un environnement de navigation 2D simplifié, éloigné des scénarios de manipulation réels ; aucun déploiement terrain n'est annoncé à ce stade, et les auteurs indiquent l'extension à des environnements multi-objets complexes comme prochaine étape.

RecherchePaper
1 source
Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense
532arXiv cs.RO 

Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense

Une équipe de chercheurs a publié MSDP (MultiSensory Dynamic Pretraining), un cadre d'apprentissage par représentation auto-supervisé conçu pour la manipulation robotique en contact étroit. Le système fusionne trois flux sensoriels, vision, force et proprioception, via un encodeur transformer entraîné par autoencoding masqué : l'encodeur doit reconstruire des observations multisensorielles complètes à partir d'un sous-ensemble partiel d'embeddings, forçant l'émergence d'une prédiction inter-modale et d'une fusion sensorielle robuste. Pour l'apprentissage de politiques en aval (downstream policy learning), MSDP introduit une architecture asymétrique originale : un mécanisme de cross-attention permet au critique d'extraire des caractéristiques dynamiques et tâche-spécifiques depuis les embeddings figés, tandis que l'acteur reçoit une représentation poolée stable pour guider ses actions. Sur robot réel, la méthode revendique des taux de succès élevés avec seulement 6 000 interactions en ligne, un chiffre à prendre avec précaution car le papier ne détaille pas précisément le type de robot, les seuils de succès retenus ni le panel de tâches évalué. Les expériences couvrent plusieurs scénarios de manipulation contact-riches, en simulation et sur plateforme physique. L'importance de MSDP tient d'abord à la difficulté structurelle qu'il adresse : l'apprentissage par renforcement multisensoriel est notoirement instable en présence de bruit et de perturbations dynamiques, deux conditions omniprésentes en environnement industriel. Si le chiffre de 6 000 interactions en ligne se confirme sur des tâches variées, il représenterait un signal fort sur l'efficacité des données, goulot d'étranglement critique pour tout déploiement en production. L'architecture asymétrique critique-acteur est un choix peu commun et potentiellement généralisable : elle découple la richesse représentationnelle nécessaire à l'évaluation des états de la stabilité requise pour l'exécution motrice, un compromis que la communauté robotique cherche à résoudre depuis plusieurs années. Pour un intégrateur ou un COO industriel, le préentraînement auto-supervisé sans étiquetage manuel réduit également le coût de déploiement sur de nouvelles tâches ou de nouveaux effecteurs. Le contexte académique de MSDP s'inscrit dans la dynamique de transfert des techniques de préentraînement auto-supervisé, popularisées en vision (MAE de Meta, 2021) et en NLP (BERT, GPT), vers la robotique multisensorielle. La manipulation en contact étroit reste l'un des défis les plus difficiles du domaine, car contrairement au pick-and-place, elle exige une gestion précise des forces de contact et une réponse rapide aux perturbations tactiles. Côté positionnement concurrentiel, des approches comme R3M (Meta) ou les modèles VLA récents (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) explorent des fusions multimodales différentes, mais restent majoritairement centrés sur vision et langage, sans intégration native de la force au stade du préentraînement. Le papier est soumis en version 3 sur arXiv (2511.14427), ce qui témoigne de plusieurs cycles de révision. Les suites naturelles incluent la validation sur bras industriels standards (UR, Franka) et des tâches d'assemblage de précision, terrain où des acteurs européens comme Wandercraft ou les labos de robotique du CNRS pourraient s'appuyer sur ce cadre pour accélérer leurs travaux sur la manipulation dextre.

IA physiquePaper
1 source
Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot
533arXiv cs.RO 

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

Une équipe de chercheurs a publié sur arXiv (ref. 2404.19670) un framework baptisé RAPIDDS, conçu pour améliorer la collaboration entre humains et robots dans des environnements industriels répétitifs, typiquement les lignes de fabrication. Le système opère sur plusieurs cycles de travail successifs : à chaque cycle, il apprend les comportements spatiaux (trajectoires réelles empruntées par l'opérateur) et temporels (temps effectifs de réalisation de chaque tâche) propres à l'individu face à lui. Ces modèles personnalisés alimentent ensuite deux mécanismes couplés : un planificateur de tâches qui réorganise allocations et séquençages, et un modèle de diffusion qui steer les trajectoires du robot en temps réel pour éviter les zones de proximité critique. Les expériences ont été conduites en simulation, puis sur un bras robotique à 7 degrés de liberté (7-DOF) dans un scénario physique, et validées par une étude utilisateur portant sur 32 participants (n=32). Les résultats montrent une amélioration significative sur des indicateurs objectifs (efficacité, distance de proximité) et subjectifs (fluidité perçue, préférence utilisateur) par rapport à un système non adaptatif. L'apport central de RAPIDDS réside dans la jonction de deux niveaux d'adaptation longtemps traités séparément dans la littérature. Les méthodes de planification de tâches optimisaient l'allocation et le séquençage mais ignoraient les interférences spatiales en situation de proximité étroite ; les méthodes de niveau motion se concentraient sur l'évitement de collision sans tenir compte du contexte global de la tâche. Unifier les deux, en les calibrant sur un modèle individuel mis à jour cycle après cycle, représente un changement concret de posture pour les déploiements industriels : le robot ne s'adapte pas à un opérateur générique, mais à la personne précise qui travaille ce jour-là, avec ses rythmes et ses habitudes de déplacement. Ce travail s'inscrit dans un courant plus large d'utilisation des modèles de diffusion pour la génération de trajectoires robotiques, un terrain que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) exploitent côté manipulation généraliste. RAPIDDS se distingue par sa focalisation sur la couche adaptation humain-robot plutôt que sur la polyvalence du modèle de motion. Le papier reste pour l'instant un preprint arXiv non encore soumis à peer-review, et aucun déploiement industriel ni partenariat avec un intégrateur n'est mentionné. La prochaine étape naturelle serait une validation sur des opérateurs en conditions réelles de production, avec une diversité de profils moteurs, pour tester la robustesse de la personnalisation au-delà d'un environnement contrôlé.

RecherchePaper
1 source
IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions
534arXiv cs.RO 

IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17810) un travail portant sur la question-réponse incarnée multi-agents (MA-EQA), un paradigme où plusieurs robots coopèrent pour répondre à des requêtes sur ce qu'ils ont collectivement observé sur un horizon temporel long. Le problème central est l'allocation de puissance de transmission entre agents : quand les ressources radio sont limitées, quels robots doivent avoir la priorité pour transmettre leurs souvenirs ? Les auteurs proposent deux contributions : un modèle de qualité de mémoire (QoM) basé sur un examen génératif adversarial (GAE), et un algorithme d'allocation de puissance centré sur la mémoire (MCPA). Le GAE fonctionne par simulation prospective : il génère des questions-tests, évalue la capacité de chaque agent à y répondre correctement à partir de sa mémoire locale, puis convertit les scores obtenus en valeurs QoM. Le MCPA maximise ensuite la fonction QoM globale sous contraintes de ressources de communication. L'analyse asymptotique montre que la puissance allouée à chaque robot est proportionnelle à sa probabilité d'erreur GAE, ce qui revient à prioriser les agents dont la mémoire est la plus riche et la plus fiable. L'intérêt concret pour les architectes de systèmes multi-robots est de déplacer le critère d'optimisation réseau des métriques classiques (débit, latence, taux d'erreur paquet) vers une métrique applicative directement liée à la tâche cognitive. Dans les déploiements d'inspection industrielle, de surveillance ou d'exploration, les robots ne transmettent pas pour transmettre : ils transmettent pour que le système réponde correctement à des requêtes. Traiter la qualité de mémoire comme une ressource à optimiser, au même titre que la bande passante, est une rupture de cadre qui pourrait influencer la conception des protocoles MAC dans les flottes d'agents embarqués. Les expériences montrent des gains significatifs sur plusieurs benchmarks et scénarios, bien que les conditions exactes de déploiement (nombre d'agents, topologie réseau, type de mémoire) ne soient pas détaillées dans le résumé. Ce travail s'inscrit dans la convergence entre vision-langage-action (VLA), robotique incarnée et gestion des ressources sans-fil, un champ en forte expansion depuis 2023 avec les architectures de type RT-2 (Google DeepMind), GR00T (NVIDIA) et les travaux sur les mémoires épisodiques longue durée pour robots mobiles. Sur le plan académique, le GAE adversarial rappelle les techniques d'évaluation automatique utilisées dans les LLM, ici transposées à l'évaluation de mémoire sensorimotrice. Les prochaines étapes logiques seraient une validation sur flotte physique réelle et une intégration avec des architectures mémoire de type VectorDB embarqué. Aucun acteur industriel ni partenaire de déploiement n'est mentionné dans la publication.

RecherchePaper
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
535arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source