Aller au contenu principal

Dossier NVIDIA GR00T — page 10

473 articles · page 10 sur 10

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances
451arXiv cs.RO IA physiqueOpinion

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

1 source
Vers une navigation aérienne VLA précisément alignée sur l'intention via GRPO guidé par des experts
452arXiv cs.RO 

Vers une navigation aérienne VLA précisément alignée sur l'intention via GRPO guidé par des experts

Une équipe de chercheurs publie aujourd'hui sur arXiv (réf. 2606.02313) un framework d'apprentissage par renforcement destiné à améliorer la navigation aérienne autonome de drones via des modèles Vision-Language-Action (VLA). Le coeur du dispositif, baptisé EG-GRPO (Expert-Guided Group Relative Policy Optimization), combine un entraînement par renforcement en ligne avec un petit ensemble de trajectoires expertes (few-shot). Résultat annoncé : un taux de succès multiplié par 2,13 par rapport à la baseline en fine-tuning supervisé classique (SFT), et une amélioration de 60,9 % sur l'alignement avec les instructions humaines complexes. Le pipeline hétérogène développé en parallèle simulation/inférence réduit le temps de collecte de rollouts de 43,5 %, point critique quand l'entraînement RL doit couvrir un espace de vol tridimensionnel continu. L'enjeu industriel est réel : les modèles VLA, qui mappent directement des instructions en langage naturel vers des actions motrices, peinent jusqu'ici sur les UAV. Contrairement à la manipulation robotique en espace contraint, la navigation aérienne implique un espace d'exploration quasi-infini où le SFT classique souffre de rareté des données et d'une supervision trop grossière pour des intentions fines ("survole le bâtiment, puis pivote à 90° avant la ligne rouge"). EG-GRPO adresse ce problème en guidant l'exploration par quelques démonstrations expertes plutôt qu'en s'appuyant sur une exploration purement aléatoire. Cela représente une avancée potentielle pour les opérateurs de flottes de drones industriels, les intégrateurs en logistique, inspection d'infrastructures ou intervention en zones difficiles. La note de prudence s'impose cependant : les métriques sont issues de simulations, et le gap sim-to-real sur les UAV reste un problème non résolu dans la littérature. Ce travail s'inscrit dans un mouvement plus large d'application des VLA à la robotique physique. GRPO est la méthode d'optimisation popularisée par DeepSeek-R1 pour les LLM raisonneurs ; son adaptation à l'action physique aérienne suit le chemin tracé par des modèles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais ceux-ci ciblent la manipulation en espace clos. Côté drones, les travaux de navigation autonome par langage naturel restent majoritairement académiques. Ce preprint n'annonce ni déploiement, ni partenaire industriel, ni timeline commerciale : c'est une contribution de recherche fondamentale, dont la valeur dépendra des résultats en conditions réelles.

RechercheOpinion
1 source
Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel
453arXiv cs.RO 

Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel

Un préprint soumis sur arXiv le 2 juin 2026 (identifiant 2606.00110) introduit le cadre GAM (Generalized Action Manifold), une approche architecturale pour améliorer la généralisation des politiques robotiques en intelligence incarnée. Le problème ciblé est précis : les méthodes actuelles de Vision-Language-Action (VLA) entraînent les robots à régresser des coordonnées absolues, liant la politique à un style de mouvement et une vitesse d'exécution fixes. GAM résout cela via deux mécanismes orthogonaux. Le premier, l'Arc-Length Parameterizer, sépare la géométrie spatiale d'une trajectoire de sa dynamique temporelle, rendant la politique insensible aux variations de vitesse. Le second, le Schema-Affine-Factorization, projette les trajectoires dans un repère normalisé (pose-normalized coordinate frame), distinguant les schémas géométriques invariants des modulations affines locales. Intégré dans une architecture VLA structurée, GAM permet à un faible nombre de démonstrations de peupler densément un manifold d'actions continu et valide. Les auteurs rapportent des performances supérieures aux baselines geometry-agnostic sur des benchmarks empiriques, sans préciser les robots ou plateformes testés. L'enjeu industriel est direct : la généralisation depuis un nombre limité de démonstrations reste l'un des verrous les plus coûteux du déploiement robotique. Dans les usines où les intégrateurs doivent collecter des milliers de trajectoires par variante de tâche, réduire ce volume a un impact économique concret. Le principe de covariance générale, emprunté à la physique relativiste, stipule qu'une loi ne doit pas dépendre du système de coordonnées choisi. Appliqué à la robotique, cela signifie apprendre la structure géométrique intrinsèque d'une tâche plutôt que les habitudes motrices d'un démonstrateur humain. Si validée à l'échelle, cette approche s'attaquerait directement au demo-to-reality gap et au sim-to-real transfer, deux obstacles persistants pour des systèmes VLA commerciaux comme Pi-0 de Physical Intelligence ou OpenVLA. La recherche VLA s'est accélérée depuis 2024 avec Pi-0, RDT-1B, Octo, et les travaux de NVIDIA sur GR00T N2. GAM se positionne comme une couche d'invariance structurelle compatible avec ces architectures existantes plutôt que comme un modèle concurrent. Ce papier reste à ce stade un preprint non relu par des pairs, sans validation sur des robots physiques identifiés ni données de déploiement réel. Aucun auteur, institution ou partenaire industriel n'est mentionné dans l'abstract disponible, ce qui limite l'évaluation de la crédibilité et de la roadmap concrète. La prochaine étape naturelle serait une soumission à CoRL, ICRA ou RSS avec des expériences sur manipulateurs physiques dans des environnements semi-structurés.

RechercheOpinion
1 source
Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée
454arXiv cs.RO 

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

Une équipe de chercheurs publie Afford-VLA (arXiv:2605.24203, mai 2026), un cadre unifié pour améliorer le raisonnement spatial des modèles vision-langage-action (VLA) appliqués à la manipulation robotique. Le problème ciblé est précis : les VLA actuels peinent à déterminer où interagir dans des scènes visuelles complexes, une lacune qui limite leur généralisation sur des tâches de manipulation réelle. Afford-VLA internalise l'affordance conditionnée par la tâche comme interface de planification visuelle explicite au sein du modèle lui-même : des tokens apprenables interrogent les régions d'interaction pertinentes, des masques d'affordance sont décodés depuis les représentations multimodales, puis convertis en embeddings compacts qui conditionnent directement la prédiction d'action. Le système est évalué sur LIBERO, LIBERO-Plus et SimplerEnv, trois bancs de test simulés standards en manipulation, ainsi que sur des expériences en conditions réelles. Les auteurs revendiquent des performances état-de-l'art sur ces benchmarks, sans toutefois détailler les métriques précises dans l'abstract. L'intérêt architectural réside dans le couplage serré entre perception et action : contrairement aux approches existantes qui génèrent des signaux visuels intermédiaires de manière externe ou recourent à des représentations symboliques faiblement reliées au contrôle moteur, Afford-VLA génère et consomme l'affordance au sein du même pipeline. Ce choix évite le découplage habituel entre planification visuelle et prédiction d'action, un problème récurrent dans les VLA de première génération. Pour un intégrateur ou un COO industriel, le message pratique est que la localisation explicite et locale du point d'interaction, plutôt qu'un raisonnement global sur la scène, pourrait réduire le sim-to-real gap sur des tâches de pick-and-place ou d'assemblage en environnement non structuré. Le domaine VLA est aujourd'hui très actif : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure AI (Helix) et de nombreux laboratoires académiques ont chacun leur approche de la planification visuelle pour la manipulation généraliste. Ce preprint s'inscrit dans une vague de travaux cherchant à combler la faiblesse spatiale des VLA après les premières générations de modèles de type RT-2 ou OpenVLA. Aucun déploiement industriel n'est annoncé et aucun partenaire opérationnel n'est mentionné : il s'agit d'un papier de recherche préliminaire non encore évalué par les pairs, dont les résultats reels devront être confirmés dans des conditions de production.

IA physiqueOpinion
1 source
Des ingénieurs américains franchissent une étape clé vers une conscience précise de l'environnement réel pour les robots autonomes
455Interesting Engineering 

Des ingénieurs américains franchissent une étape clé vers une conscience précise de l'environnement réel pour les robots autonomes

Brain Corp, spécialiste américain des systèmes d'autonomie pour robots commerciaux, annonce un partenariat de recherche avec l'Université de Californie San Diego (UC San Diego) pour développer des technologies de cartographie sémantique et d'intelligence contextuelle. L'accord implique notamment le professeur Nikolay Atanasov du département d'Electrical and Computer Engineering de la Jacobs School. L'objectif déclaré : doter les robots autonomes d'une couche de compréhension spatiale plus fine que ce que permettent les solutions de localisation et cartographie simultanées (SLAM) actuelles. Brain Corp s'appuie sur un parc opérationnel de plus de 50 000 robots autonomes déployés dans des environnements commerciaux à l'échelle mondiale, totalisant plus de 25 millions d'heures d'opérations autonomes, corpus de données réelles qui constitue le socle expérimental de la collaboration. L'enjeu dépasse la simple navigation : les approches basées sur la vision directe (end-to-end visual) peinent à maintenir une robustesse satisfaisante dans des environnements dynamiques à grande échelle. Le tandem Brain Corp/UC San Diego parie que des cartes 3D sémantiques enrichies, intégrant la nature fonctionnelle des objets et des espaces et pas seulement leur géométrie, permettront aux flottes de robots de s'adapter à des conditions changeantes sans intervention humaine. Pour les intégrateurs et les opérateurs industriels, cela se traduit par une résilience opérationnelle accrue et une coordination multi-agents fiable à l'échelle d'un site entier, qu'il s'agisse d'entrepôts, d'hôpitaux ou d'espaces commerciaux. John Black, CTO de Brain Corp, résume l'enjeu : "le défi n'est plus le mouvement ou la perception, mais la compréhension." Il convient de noter que l'annonce ne détaille aucune métrique de performance ni résultat expérimental publié à ce stade. Brain Corp, fondée en 2009 à San Diego, s'est imposée dans le segment des robots de nettoyage autonomes (AMR floor care) en grande distribution et facilities management, avec des clients comme Walmart, en déployant sa plateforme BrainOS comme système d'exploitation mutualisé pour l'ensemble de sa flotte. Face à l'émergence de modèles vision-langage-action (VLA) portés par des acteurs comme Physical Intelligence avec pi-0, Nvidia avec GR00T N2, ou Figure AI avec Figure 03, Brain Corp repositionne BrainOS comme infrastructure d'orchestration d'agents autonomes hétérogènes plutôt que comme simple pile de navigation. Le partenariat avec UC San Diego vise à intégrer directement ces avancées en cartographie sémantique dans BrainOS. Aucun calendrier de livraison n'est précisé : il s'agit pour l'heure d'un accord de collaboration recherche, non d'un produit commercialisé ni d'un déploiement en cours.

IndustrielActu
1 source
FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable
456arXiv cs.RO 

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

Des chercheurs ont publié FuncCanon sur arXiv (réf. 2509.19102, deuxième révision), un framework qui décompose les tâches de manipulation robotique à long horizon en séquences d'"action chunks", des triplets structurés (acteur, verbe, objet), pour apprendre des politiques généralisables à partir de démonstrations humaines. L'idée centrale est de centrer l'apprentissage sur les actions elles-mêmes, pas sur des tâches isolées, ce qui ouvre la voie à la composition et à la réutilisation de primitives. La brique technique originale est la "canonicalisation fonctionnelle d'objets" : les objets sont projetés dans des repères fonctionnels partagés en s'appuyant sur des cues d'affordance extraites de grands modèles vision-langage (VLM). Ce mapping automatique permet de transférer des trajectoires de manipulation entre instances d'une même catégorie sans nouvelles démonstrations. La politique apprise, FuncDiffuser, est une politique de diffusion centrée objet et action, entraînée sur ces données alignées et évaluée sur des benchmarks en simulation et en déploiement réel. L'abstract ne fournit pas de métriques précises (temps de cycle, taux de succès chiffré, nombre de DOF testés), ce qui limite l'évaluation indépendante à ce stade. Le problème que FuncCanon attaque directement est la généralisation hors distribution des politiques end-to-end issues de l'imitation learning, un obstacle bien documenté qui bloque le passage à l'échelle industrielle. En normalisant la pose et la fonctionnalité des objets avant l'apprentissage, FuncDiffuser n'a pas besoin de voir chaque instance d'une catégorie lors de l'entraînement, ce qui réduit structurellement le volume de démonstrations nécessaires par référence produit. Pour un intégrateur industriel, c'est un levier économique potentiellement significatif : le coût de télé-opération pour collecter des données reste l'un des principaux freins au déploiement de bras robotiques en production. Les auteurs revendiquent également une robustesse sim-to-real, mais sans chiffres publiés dans l'abstract, cette affirmation reste à vérifier sur les benchmarks complets disponibles sur le site du projet. FuncCanon s'inscrit dans une vague de travaux visant à dépasser les limites des politiques de diffusion pures (Diffusion Policy, Chi et al., 2023) en ajoutant des représentations sémantiques intermédiaires. Les approches concurrentes incluent Pi-0 de Physical Intelligence, qui exploite une architecture VLA (vision-language-action) pour la généralisation zéro-shot, et GR00T N2 de NVIDIA, qui mise sur un entraînement massif sur données synthétiques. ACT (Action Chunking with Transformers, Zhao et al., 2023) partage la logique de découpage en chunks mais sans canonicalisation fonctionnelle. L'utilisation des VLMs pour extraire des affordances plutôt qu'apprendre des représentations ad hoc est une tendance forte portée par RT-2 de Google DeepMind et OpenVLA. FuncCanon reste pour l'instant une contribution académique sans partenaire industriel ni timeline de commercialisation annoncée.

RechercheOpinion
1 source
RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel
457arXiv cs.RO 

RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel

Des chercheurs ont publié le 22 mai 2026 sur arXiv (référence 2605.17522) les travaux autour de RoboFlow4D, un modèle de planification en flux 3D destiné à la manipulation robotique temps réel. L'approche repose sur ce que les auteurs appellent un "flow world model" : plutôt que d'empiler plusieurs sous-modèles spécialisés dans un pipeline modulaire classique, RoboFlow4D prédit directement des flux de mouvement 3D sur plusieurs trames temporelles à partir d'observations visuelles et d'instructions textuelles. Ce flux explicite sert de plan intermédiaire pour guider la génération d'actions motrices, bouclant ainsi un cycle perception-planification-exécution en une seule architecture de bout en bout. L'exécution repose sur une collaboration dite "slow-fast" entre le prédicteur de flux et le contrôleur d'action, visant à réduire la latence globale. Les résultats présentés couvrent des benchmarks en simulation et des expériences en environnement réel, avec des gains annoncés sur les taux de succès de manipulation et sur l'efficacité computationnelle, sans que les chiffres précis soient détaillés dans l'abstract. L'intérêt de cette direction de recherche réside dans la réduction de la charge de calcul associée aux pipelines VLA (Vision-Language-Action) contemporains. Les architectures modulaires dominantes, comme celles utilisées dans Pi-0 (Physical Intelligence) ou les variantes de GR00T N2 (NVIDIA), impliquent des inférences en cascade coûteuses qui limitent la réactivité en conditions industrielles. RoboFlow4D tente de consolider perception et planification dans un seul modèle léger, ce qui, si les performances se confirment à l'échelle, pourrait abaisser les exigences matérielles pour déployer des politiques de manipulation dextres sur des robots à ressources contraintes. Du côté du contexte compétitif, le domaine des planificateurs par flux optique 3D est actif depuis les travaux sur UniFlow et Flowbot3D, mais leur intégration dans des boucles temps réel reste un défi ouvert. RoboFlow4D se positionne comme une réponse légère à ces limitations. Il s'agit pour l'instant d'un preprint non évalué par les pairs, sans code ni modèle publiés, ce qui invite à la prudence avant tout benchmark indépendant. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés type RLBench ou LIBERO, et une comparaison directe avec les baselines modulaires qu'il prétend dépasser.

RechercheOpinion
1 source
HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines
458arXiv cs.RO 

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper
1 source
Adoptez une vision systémique pour le déploiement à grande échelle des humanoïdes au Robotics Summit
459Robotics Business Review 

Adoptez une vision systémique pour le déploiement à grande échelle des humanoïdes au Robotics Summit

Le Robotics Summit & Expo se tiendra les 27 et 28 mai 2026 à Boston, et l'un de ses temps forts techniques sera la session intitulée "Humanoids That Scale: A Systems and Semiconductor Perspective", programmée le second jour à 14h30 ET. L'intervenant principal sera Giovanni Campanella, directeur général du segment robotique chez Texas Instruments, ingénieur diplômé de l'Université de Bologne et du Politecnico di Torino. Sa présentation s'appuiera sur des architectures de référence et des cas de conception réels pour adresser quatre verrous techniques centraux dans le développement des humanoïdes : la fusion de capteurs à haute bande passante, le traitement IA embarqué en temps réel, le contrôle moteur de précision, et la fiabilité des communications entre sous-systèmes distribués. L'événement accueillera plus de 70 intervenants confirmés, issus notamment de Tesla, Toyota Research Institute, PickNik Robotics, Robust AI, Harmonic Drive et Fictiv, répartis sur plus de 50 sessions couvrant l'IA, le design, les technologies habilitantes, la santé et la logistique. La valeur de cette session tient à son niveau d'abstraction : alors que la plupart des annonces dans le secteur humanoïde portent sur les modèles de fondation, les VLA (Vision-Language-Action models) ou les benchmarks de locomotion, Campanella aborde la question par le bas de la pile, au niveau des chaînes de signal analogiques, de la gestion de puissance et du traitement embarqué. Pour un intégrateur ou un directeur technique qui doit concevoir un système déployable, c'est précisément là que se jouent les compromis décisifs : latence bout-en-bout, consommation énergétique par cycle de tâche, et fiabilité des communications dans un environnement industriel bruité. Le message implicite de Texas Instruments est que le "scaling" des humanoïdes n'est pas uniquement un problème logiciel, et que les semi-conducteurs restent un goulot d'étranglement sous-estimé dans la course à la commercialisation. Il faut noter que cet article est avant tout un communiqué promotionnel pour le sommet, sans métriques de déploiement ni annonce produit. Sur le fond, le Robotics Summit est produit par The Robot Report et WTWH Media, et constitue l'un des principaux rendez-vous techniques pour les développeurs de robotique commerciale aux États-Unis. Il est colocalisé cette année avec DeviceTalks Boston, dédié aux dispositifs médicaux. Dans le contexte plus large, la session TI s'inscrit dans une phase où les acteurs humanoïdes majeurs (Figure avec son robot 03, Tesla avec Optimus Gen 3, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2) ont tous publié des démonstrations convaincantes mais où les déploiements industriels à l'échelle restent rares. La question de savoir si l'infrastructure semiconducteur est prête à suivre la cadence des ambitions logicielles sera au coeur des échanges à Boston fin mai.

HumanoïdesActu
1 source
BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux
460arXiv cs.RO 

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

Une équipe de chercheurs a publié sur arXiv en mai 2026 (arXiv:2605.08571) un cadre théorique baptisé BEACON -- acronyme de Best-Effort Adaptation for Cross-Domain Co-Training -- destiné à entraîner des politiques robotiques génératives lorsque les données dans le domaine cible sont rares. L'approche repose sur un mécanisme de pondération par importance : plutôt que de mélanger naïvement des démonstrations provenant de domaines sources abondants (simulation, autres environnements) avec un faible nombre de démonstrations réelles, BEACON apprend simultanément une politique visuomotrice basée sur la diffusion et des poids par échantillon source qui minimisent une fonction objectif garantissant la généralisation sur le domaine cible. Pour rendre cela praticable sur des séquences de haute dimension, les auteurs développent des estimateurs de divergence à l'échelle de l'instance, des mises à jour alternées stochastiques, et une extension multi-sources capable de pondérer des domaines sources hétérogènes. L'enjeu est directement lié au problème du sim-to-real gap, l'un des verrous principaux de la robotique de manipulation : collecter des démonstrations téléopérées dans le monde réel reste coûteux et lent, tandis que la simulation génère des données à bas coût mais au prix d'un écart de distribution souvent fatal au déploiement. BEACON montrerait, selon les auteurs, des gains de robustesse et d'efficacité de données par rapport à trois baselines majeures -- entraînement sur cibles seules, co-entraînement à ratio fixe, et alignement de features explicite -- dans des configurations sim-to-sim, sim-to-real et manipulation multi-sources. Le résultat le plus contre-intuitif est qu'en l'absence de tout objectif d'alignement explicite, BEACON produit néanmoins un alignement de représentations comme effet émergent de la pondération par divergence. Les auteurs ne fournissent pas de taux de réussite précis dans l'abstract, ce qui limite la comparaison directe avec des benchmarks publiés. Ce travail s'inscrit dans une vague de recherches sur le transfert de politiques entre domaines, portée notamment par des méthodes comme RoboAgent, DROID, ou les approches VLA (vision-language-action) de Physical Intelligence (Pi-0) et Google DeepMind (GR00T N2), qui cherchent elles aussi à tirer parti de données hétérogènes à grande échelle. Là où ces dernières misent sur des architectures généralistes entraînées sur des corpus massifs, BEACON propose un angle complémentaire et plus frugal : exploiter intelligemment des sources existantes sans disposer de millions de démonstrations. Le code et les expériences n'étant pas encore publics, il reste à confirmer si les résultats tiennent sur des tâches de manipulation réelle complexes hors du cadre contrôlé des évaluations présentées.

RechercheOpinion
1 source
ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique
461arXiv cs.RO 

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Une équipe de recherche a publié en mai 2026 sur arXiv (référence 2605.08774) ProcVLM, un modèle vision-langage conçu pour générer des signaux de récompense denses dans les tâches de manipulation robotique à longue durée. Contrairement aux approches existantes qui s'appuient sur des étiquettes de succès en fin de trajectoire ou sur une interpolation temporelle, ProcVLM ancre son estimation de progression dans la structure procédurale de la tâche et dans les changements visuels au sein de chaque sous-étape. Le modèle adopte un paradigme "raisonner avant d'estimer" : il infère d'abord les actions atomiques restantes avant de chiffrer l'avancement global. Pour l'entraîner à grande échelle, les auteurs ont constitué ProcCorpus-60M, un corpus de 60 millions de trames annotées issues de 30 jeux de données embodied, dont est dérivé ProcVQA, un benchmark couvrant l'estimation de progression, la segmentation d'actions et la planification prospective. L'enjeu est direct pour les intégrateurs et les équipes travaillant sur la manipulation longue durée, comme l'assemblage multi-étapes, le conditionnement ou la maintenance industrielle. Les modèles de récompense classiques, en confondant temps écoulé et progression réelle, sont incapables de détecter stagnation, étapes manquées ou états d'échec intermédiaires. ProcVLM produit des estimations discriminantes intra-trajectoire, ce qui en fait un composant plus utile pour la policy optimization guidée par récompense. Les expériences publiées montrent des gains mesurés sur ProcVQA et sur des benchmarks de modèles de récompense face aux baselines représentatives. Ces résultats restent néanmoins dans le cadre de la simulation et de l'évaluation hors-ligne : aucun déploiement sur robot physique n'est annoncé. Ce travail s'inscrit dans une tendance de fond visant à améliorer la qualité des signaux de supervision pour les modèles vision-langage-action (VLA), un chantier central depuis la publication de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le problème du reward shaping dans les tâches manipulatoires longues est un verrou bien identifié : le sim-to-real gap se double d'un gap supervision-comportement quand les étiquettes de succès sont trop parcimonieuses. ProcVLM propose une réponse méthodologique à ce second verrou via un corpus de supervision synthétique à 60 millions de trames, mais demeure à ce stade un preprint académique sans validation sur hardware réel annoncée. La page projet (procvlm.github.io) est en ligne, sans date de release du code ou des données précisée.

RechercheOpinion
1 source
BrickCraft : composition de compétences visuomotrices avec guidage manuel pour l'assemblage de briques emboîtables à long horizon
462arXiv cs.RO 

BrickCraft : composition de compétences visuomotrices avec guidage manuel pour l'assemblage de briques emboîtables à long horizon

Des chercheurs de l'Intelligent Control Lab ont déposé sur arXiv en mai 2026 (réf. 2605.07605) BrickCraft, un framework compositionnel pour l'assemblage autonome de briques emboîtables par bras robotique. L'approche repose sur une formulation relative : chaque étape est ancrée à une brique de référence dans la structure partielle, ce qui décompose toute séquence longue en un ensemble fini de compétences primitives réutilisables. Pour piloter l'exécution physique, le système introduit les "situated manuals", des guides spatiaux projetés en temps réel dans les observations du robot, permettant à des politiques visuomotrices apprises de recevoir un ancrage spatial précis sans avoir à reprogrammer chaque primitive pour chaque nouvelle structure. L'abstract ne précise ni le robot utilisé, ni les métriques chiffrées (taux de succès, temps de cycle), des informations attendues dans la version complète de l'article. L'assemblage de briques emboîtables constitue un banc d'essai redoutable pour la manipulation fine : les tolérances d'emboîtement sont de l'ordre du dixième de millimètre, les séquences dépassent fréquemment plusieurs dizaines d'étapes, et une erreur de positionnement en amont propage des défauts irréversibles. BrickCraft s'attaque simultanément aux trois verrous classiques du domaine, à savoir le raisonnement sur horizon long, l'ancrage spatial (spatial grounding) et la manipulation fine, là où les approches end-to-end actuelles peinent à généraliser. La capacité à transférer des compétences apprises sur un nombre limité de démonstrations vers des structures inédites est particulièrement notable : elle indique que les primitives ne sont pas surajustées à une topologie spécifique, un écueil fréquent des méthodes par imitation en robotique d'assemblage. Du côté de la compétition académique et industrielle, l'assemblage de briques LEGO a déjà mobilisé le MIT CSAIL, l'ETH Zurich via des approches de planification de tâches et mouvements (TAMP), et plus récemment des équipes exploitant des Vision-Language-Action models (VLA) comme Pi-0 d'Embodied Intelligence ou GR00T N2 de NVIDIA pour la manipulation généraliste. BrickCraft choisit un inductive bias différent : exploiter la structure hiérarchique et répétitive propre aux assemblages par emboîtement plutôt que viser une généralité totale, un parti pris qui peut s'avérer payant pour des applications industrielles ciblées comme le montage de kits, le prototypage ou les lignes de petites séries. Le projet dispose d'un site dédié, mais aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

RecherchePaper
1 source
SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée
463Pandaily 

SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée

SynapX, une startup fondée en janvier 2026, a annoncé le lancement de SYNData, un système de collecte de données multimodale conçu pour l'apprentissage de la manipulation dextre en robotique incarnée. Le système repose sur trois modules matériels distincts : un casque Ego à quatre caméras pour la vision première personne, des bracelets EMG (électromyographie) pour capter les signaux bioélectriques musculaires, et un exosquelette-gant bionique pour enregistrer la pose de la main, l'état de contact sur toute la paume et la distribution des forces. L'architecture permet la collecte simultanée de ces modalités, y compris en conditions d'occlusion visuelle partielle. Trois semaines seulement après sa création et sa première participation en compétition, SynapX a terminé 2e au classement mondial et 1er en Chine dans la piste "Reasoning to Action" de l'AGIBOT World Challenge, organisé dans le cadre de l'ICRA 2026. L'enjeu central que SYNData prétend résoudre est le goulot d'étranglement de la donnée physique à l'échelle. Dans le développement des modèles vision-langage-action (VLA) pour la manipulation robotique, la collecte de données haute qualité demeure le facteur limitant, davantage que l'architecture des modèles ou la maturité du hardware. Le mécanisme propriétaire Bio2Robot transforme les signaux biologiques humains en données directement exploitables par des modèles de robot, avec l'objectif déclaré de ne pas perturber le comportement naturel de l'opérateur lors de la capture. Si cette promesse tient à l'échelle, cela représenterait un avantage opérationnel significatif pour les intégrateurs cherchant à industrialiser la démonstration humaine sans pipeline de labellisation coûteux. Le contexte concurrentiel est dense : des acteurs comme Physical Intelligence avec son modèle Pi-0, NVIDIA avec GR00T N2, ou encore Agibot et 1X Technologies investissent massivement dans des pipelines de données pour la manipulation généraliste. En Chine, l'écosystème est particulièrement actif, porté par des programmes de soutien public et une communauté robotique illustrée par l'AGIBOT World Challenge lui-même. SynapX se positionne en amont de la chaîne de valeur, comme fournisseur d'infrastructure de collecte plutôt que fabricant de robot. La robustesse du classement ICRA reste à confirmer en conditions de déploiement industriel réelles, le gap entre performance en compétition et application terrain demeurant un défi structurel du secteur.

💬 Le vrai goulot en robotique, c'est pas l'archi du modèle, c'est la donnée physique à l'échelle, et SynapX l'a compris avant beaucoup. Se positionner comme fournisseur d'infra de capture plutôt que fabricant de robot, c'est malin : tu fournis à tout l'écosystème sans te battre contre Physical Intelligence ou NVIDIA sur le hardware. Trois semaines d'existence, 2e mondial à l'ICRA, bon, reste à voir si les EMG et l'exo tiennent hors compétition.

IA physiqueOpinion
1 source
Du langage à la logique : une architecture théorique pour la navigation sécurisée fondée sur les modèles VLM
464arXiv cs.RO 

Du langage à la logique : une architecture théorique pour la navigation sécurisée fondée sur les modèles VLM

Des chercheurs ont publié en mai 2026 sur arXiv (arXiv:2605.04327) une architecture théorique visant à intégrer des règles de sécurité en langage naturel dans la navigation autonome de robots opérant en environnements extérieurs non structurés. Le principe central consiste à convertir des consignes humaines informelles en spécifications formelles de Signal Temporal Logic (STL), un formalisme mathématique permettant d'exprimer des contraintes temporelles sur le comportement d'un système. Les règles persistantes liées au terrain sont encodées dans une carte de coûts 2D, tandis que les exigences dynamiques sont surveillées en temps réel sous forme de moniteurs STL. Pour l'interprétation sémantique de la scène, les auteurs proposent l'usage de Vision-Language Models (VLMs) en mode zero-shot, c'est-à-dire sans phase d'entraînement spécifique à l'environnement opérationnel. L'intérêt de cette approche réside dans la tentative de combler deux fossés bien connus du secteur : d'une part, le gouffre entre les instructions opérateur en langage naturel et les contraintes exploitables par un planificateur formel ; d'autre part, le manque de garanties vérifiables dans les systèmes de navigation basés sur l'apprentissage. Pour les intégrateurs et les décideurs B2B actifs dans l'agriculture de précision, la construction ou la logistique extérieure, la promesse est claire : pouvoir exprimer des règles de sécurité terrain sans écrire de code ni annoter de données. Il convient cependant de noter que l'article reste entièrement théorique, les auteurs utilisant eux-mêmes le terme "hypothesize" pour qualifier l'usage des VLMs, sans présenter de résultats expérimentaux ni de validation sur robot réel. Cette publication s'inscrit dans une dynamique plus large où les VLMs sont progressivement intégrés dans des pipelines robotiques complets, comme en témoignent les travaux récents de Physical Intelligence avec Pi-0, ou de NVIDIA avec GR00T N2. L'utilisation de STL pour la navigation n'est pas nouvelle, le formalisme ayant fait ses preuves en conduite autonome et drones, mais son couplage avec des VLMs pour le grounding sémantique constitue une direction de recherche active. Plusieurs groupes, notamment en Europe (dont des équipes liées aux projets de l'ANR et d'Horizon Europe sur la navigation sûre), explorent des pistes similaires. Les prochaines étapes logiques seraient une implémentation sur simulateur puis une validation terrain, étapes absentes de ce premier article d'architecture.

UEDes équipes européennes liées à l'ANR et Horizon Europe travaillent sur des problématiques similaires de navigation sûre, ce qui ancre ce sujet dans la dynamique de recherche continentale, sans impact industriel direct à ce stade.

RecherchePaper
1 source
Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède
465arXiv cs.RO 

Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède

Des chercheurs ont publié sur arXiv (identifiant 2508.14994, troisième révision) un système de téleopération à contrôle partagé pour un robot quadrupède équipé d'un bras manipulateur, ciblant les environnements dangereux ou inaccessibles. Le principe : une caméra externe couplée à un modèle d'apprentissage automatique détecte la position du poignet de l'opérateur en temps réel, puis traduit ces mouvements en commandes directes pour le bras robotique. Un planificateur de trajectoire intégré assure la sécurité en détectant et bloquant les collisions potentielles avec les obstacles environnants, ainsi que les auto-collisions entre le bras et le châssis du robot. Le système a été validé sur un robot physique réel, pas uniquement en simulation. Il s'agit d'un preprint académique, pas d'un produit commercialisé. Ce travail adresse un verrou connu dans l'intégration industrielle des robots à pattes : les interfaces joystick ou manette exigent un niveau d'expertise élevé et génèrent une charge cognitive importante pour l'opérateur, augmentant le risque de collision dans des espaces confinés ou dynamiques. En mappant directement les gestes naturels du bras humain vers le bras du robot, l'approche réduit la barrière à l'entrée et pourrait accélérer le déploiement de plateformes comme le Boston Dynamics Spot ARM ou l'ANYmal d'ANYbotics dans des scénarios d'inspection ou de maintenance à risque. La solution revendique un faible coût d'implémentation, ne nécessitant qu'une caméra standard plutôt qu'un équipement de capture de mouvement dédié ou un retour haptique coûteux. La téleopération de robots locomoteurs reste un champ en compétition dense. Les approches concurrentes incluent la commande par réalité virtuelle (Boston Dynamics, Apptronik), les exosquelettes (Sarcos, Shadow Robot) et les interfaces à vision stéréo immersive. Du côté académique, les modèles Visual-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent à réduire ou éliminer la téleopération au profit de l'autonomie embarquée. Ce travail se positionne dans une niche différente : augmenter la sécurité et l'intuitivité du contrôle humain plutôt que de le remplacer. Les prochaines étapes, non détaillées dans le preprint, concerneraient typiquement des tests de robustesse en conditions dégradées (faible luminosité, poussière) et une évaluation comparative des temps de cycle opérateur face aux interfaces existantes.

RecherchePaper
1 source
LLMs pour le comportement de recherche dans les essaims de robots décentralisés
466arXiv cs.RO 

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.01461) LLM-Foraging, un contrôleur décentralisé pour essaims de robots conçu pour la collecte de ressources. L'approche intègre un large modèle de langage (LLM) comme décideur tactique dans la machine d'états du CPFA (central-place foraging algorithm), à trois points précis : après un dépôt de ressource, à l'arrivée en zone centrale, et lors d'un blocage de recherche (search starvation). Chaque robot embarque son propre client LLM et l'interroge sur la base de ses seules observations locales, sans communication centralisée. Les tests ont été conduits dans le simulateur Gazebo avec des robots TurtleBot3 virtuels, sur 36 configurations couvrant des équipes de 4 à 10 robots, des arènes de 6x6 à 10x10 mètres et trois distributions de ressources (groupée, loi de puissance, aléatoire). LLM-Foraging surpasse la baseline CPFA optimisée par algorithme génétique sur l'ensemble des configurations testées, avec une consistance que les auteurs jugent supérieure. L'enjeu principal est l'absence de phase d'entraînement au déploiement. Un CPFA calibré par algorithme génétique produit des politiques figées sur une configuration donnée : tout changement de taille d'équipe, d'arène ou de distribution de ressources impose un recalcul coûteux. En substituant un LLM comme politique générale de décision, l'architecture se transfère à de nouvelles conditions sans ré-optimisation. Pour les intégrateurs de systèmes robotiques distribués, c'est une promesse de reconfigurabilité opérationnelle notable. Limite importante à retenir : l'évaluation reste entièrement en simulation, et le sim-to-real gap pour des décisions LLM dans des essaims physiques reste entièrement à démontrer. Le CPFA est un algorithme de référence en robotique d'essaim depuis les années 2010, inspiré des stratégies de fourragement des insectes sociaux. LLM-Foraging s'inscrit dans la tendance d'intégration des modèles fondationnels en robotique, aux côtés d'architectures vision-langage-action (VLA) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais appliquée pour la première fois aux essaims décentralisés, un domaine où les approches évolutionnaires et par apprentissage par renforcement dominaient sans alternative crédible. Aucun acteur européen n'est impliqué dans ces travaux académiques. Les prochaines étapes naturelles incluent la validation sur robots physiques, le passage à des essaims dépassant la dizaine d'unités, et l'évaluation dans des environnements dynamiques où les ressources se déplacent ou disparaissent.

RechercheActu
1 source
Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?
467arXiv cs.RO 

Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?

Une équipe de chercheurs a publié sur arXiv (référence 2604.27667) une méthode hybride dénommée TFM-S3, conçue pour améliorer l'exploration globale dans l'apprentissage de politiques robotiques tout en limitant le nombre de simulations nécessaires. L'approche alterne des mises à jour locales à haute fréquence avec des rondes de recherche globale intermittentes. À chaque ronde, TFM-S3 construit dynamiquement un sous-espace de politique de faible dimension via une décomposition en valeurs singulières (SVD), puis effectue un raffinement itératif guidé par un modèle de substitution (surrogate model). Ce modèle de fondation tabulaire pré-entraîné prédit les retours candidats à partir d'un petit ensemble de contextes, permettant un criblage à grande échelle sans multiplier les rollouts coûteux. Sur des benchmarks de contrôle continu standards, TFM-S3 accélère la convergence en phase initiale et améliore les performances finales par rapport à TD3 (Twin Delayed Deep Deterministic Policy Gradient) et des baselines à population, à budget de rollouts identique. L'enjeu central est le coût d'exploration. En robotique, l'apprentissage par renforcement dans des espaces d'action continus à haute dimension souffre d'un dilemme structurel : les méthodes locales convergent vite mais restent piégées dans des optima locaux, tandis que les méthodes globales sont plus robustes à l'initialisation mais très gourmandes en évaluations. TFM-S3 propose un compromis crédible en déléguant le criblage des candidats à un modèle tabulaire pré-entraîné. Si ces résultats se confirment sur des environnements physiques réels et pas seulement en simulation, ce serait un levier direct pour accélérer l'entraînement de politiques sur des robots industriels où chaque essai a un coût mécanique et temporel non négligeable. Cette publication s'inscrit dans une tendance croissante qui cherche à transférer les bénéfices des modèles de fondation (pré-entraînement massif, généralisation) au problème classique de l'optimisation de politique. Des approches concurrentes comme les VLA (Vision-Language-Action models) Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA misent sur l'apprentissage multimodal et l'imitation à grande échelle plutôt que sur le renforcement pur. TFM-S3 se positionne comme un outil orthogonal, compatible avec des pipelines RL existants. Il reste pour l'instant un preprint non relu par des pairs, et ses expériences se limitent aux benchmarks de contrôle continu standards de type MuJoCo, sans validation sur hardware physique annoncée à ce stade.

RecherchePaper
1 source
Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables
468arXiv cs.RO 

Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables

Des chercheurs ont publié sur arXiv (preprint 2511.19543v2) une approche visant à rendre les transferts d'objets entre humains et robots plus robustes face aux imprévus. Le coeur de la contribution est une couche d'interaction basée sur le Virtual Model Control (VMC), une technique de contrôle qui simule des ressorts et amortisseurs virtuels autour de l'effecteur pour absorber les variations dynamiques de pose de l'objet lors du passage de main. En complément, les auteurs intègrent la réalité augmentée (AR) pour établir une communication bidirectionnelle en temps réel entre l'opérateur humain et le robot, permettant à chaque partie d'anticiper l'intention de l'autre. Les performances du contrôleur ont été évaluées sur une série d'expériences couvrant différentes sources d'incertitude, puis validées par une étude utilisateur impliquant 16 participants testant plusieurs profils de contrôle et visualisations AR. La problématique du transfert d'objet humain-robot (H2R handover) est un verrou bien identifié en robotique collaborative : une légère désorientation de la pièce, un geste hésitant, et le robot échoue ou force l'objet, ce qui rend ce scénario incompatible avec un déploiement industriel fiable. L'approche VMC est intéressante parce qu'elle ne dépend pas d'une trajectoire rigide pré-planifiée mais s'adapte en continu, ce qui réduit la sensibilité au sim-to-real gap souvent fatal aux méthodes basées sur l'apprentissage. L'ajout de la boucle AR pour synchroniser les intentions est également prometteur pour les environnements d'assemblage où la communication verbale est difficile. L'étude utilisateur montre une préférence générale pour l'approche proposée, même si 16 participants reste un panel modeste pour généraliser les conclusions. Le problème H2R est un domaine actif depuis plusieurs années, avec des approches concurrentes allant du contrôle en impédance classique aux méthodes VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux sur GR00T N2 de NVIDIA. Le VMC s'inscrit dans la tradition du contrôle à base de modèle, plus explicable mais moins généraliste que les approches end-to-end. L'article est à ce stade un preprint sans affiliation industrielle identifiée ni déploiement annoncé, ce qui le place clairement dans la catégorie recherche fondamentale. Les prochaines étapes probables incluent une soumission en conférence (ICRA ou IROS) et des tests sur une plus large cohorte ou sur un robot commercial tel qu'un UR ou Franka.

RecherchePaper
1 source
LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage
469arXiv cs.RO 

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Des chercheurs ont publié LLM-Flax (arXiv 2604.26569v1), un framework en trois étapes conçu pour automatiser le déploiement de planificateurs de tâches neuro-symboliques sans expertise manuelle ni données d'entraînement. Le système prend en entrée uniquement un LLM hébergé localement et un fichier PDDL décrivant le domaine : l'étape 1 génère les règles de relaxation par prompting structuré avec auto-correction, l'étape 2 pilote la récupération sur échec via une politique de budget de latence, et l'étape 3 remplace entièrement le réseau GNN par un scoring d'objets zero-shot. Évalué sur le benchmark MazeNamo en grilles 10x10, 12x12 et 15x15 (8 benchmarks au total), LLM-Flax atteint un taux de succès moyen de 0,945 contre 0,828 pour la baseline manuelle, soit un gain de +0,117. Sur la configuration 12x12 Expert, où le planificateur manuel échoue complètement (SR 0,000), LLM-Flax atteint SR 0,733 ; sur 15x15 Hard, il obtient SR 1,000 contre 0,900 pour l'approche de référence. Le principal verrou adressé est le coût de transfert de domaine : adapter un planificateur symbolique à une nouvelle cellule robotique mobilise aujourd'hui des centaines de problèmes d'entraînement et l'intervention d'un expert métier, ce qui rend le déploiement à l'échelle industrielle prohibitif. La politique de budget de latence de l'étape 2, qui réserve explicitement une enveloppe d'appels LLM avant chaque séquence de récupération sur échec, adresse un problème pratique rarement traité dans la littérature : les boucles de fallback infinies qui paralysent les systèmes en production. L'étape 3 démontre la faisabilité du zero-shot avec SR 0,720 sur 12x12 Hard sans aucune donnée d'entraînement, mais bute sur la fenêtre de contexte à grande échelle, que les auteurs identifient eux-mêmes comme le principal défi ouvert. LLM-Flax s'inscrit dans la lignée des travaux combinant PDDL et LLMs pour la robotique, après SayCan (Google, 2022), Code as Policies (Google DeepMind) et ProgPrompt. Cette approche neuro-symbolique reste distinctement différente des architectures VLA end-to-end comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) : elle préserve un module de raisonnement explicite et auditable, ce qui peut constituer un avantage dans les environnements industriels certifiables. Le benchmark MazeNamo demeure un environnement de navigation 2D simplifié, éloigné des scénarios de manipulation réels ; aucun déploiement terrain n'est annoncé à ce stade, et les auteurs indiquent l'extension à des environnements multi-objets complexes comme prochaine étape.

RecherchePaper
1 source
Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels
470arXiv cs.RO 

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

Des chercheurs ont publié sur arXiv (preprint 2604.26689) un protocole d'évaluation pour gouverner les mises à jour de compétences dans les politiques robotiques compositionnelles. Le problème concret : les bibliothèques de skills dans les systèmes déployés sont continuellement raffinées par fine-tuning, nouvelles démonstrations ou adaptation de domaine, mais les méthodes de composition existantes (BLADE, SymSkill, Generative Skill Chaining) supposent que la bibliothèque est figée au moment du test et ne caractérisent pas l'impact d'un remplacement de skill sur la composition globale. L'équipe introduit un protocole de swap cross-version par échantillonnage couplé (paired-sampling cross-version swap) sur les tâches de manipulation robosuite. Sur une tâche bimanuelle peg-in-hole, ils documentent un effet de skill dominant : un seul ECM (Elementary Composition Module) atteint 86,7 % de taux de succès atomique tandis que tous les autres restent sous 26,7 %, et la présence ou l'absence de cet ECM dominant dans une composition déplace le taux de succès de la composition jusqu'à +50 points de pourcentage. Ils testent également une tâche de pick où toutes les politiques saturent à 100 %, rendant l'effet indéfini, et couvrent au total 144 décisions de mise à jour de skill sur trois tâches. L'enseignement industriellement pertinent est que les métriques de distance comportementale hors-politique échouent à identifier l'ECM dominant, ce qui élimine le prédicteur bon marché le plus naturel pour un système de gouvernance en production. Pour pallier cela, les auteurs proposent une sonde de qualité atomique (atomic-quality probe) combinée à un Hybrid Selector : sur T6, la sonde atomique seule se situe 23 points sous la revalidation complète (64,6 % vs 87,5 % de correspondance oracle) à coût nul par décision ; le Hybrid Selector avec m=10 ramène cet écart à environ 12 points en mobilisant 46 % du coût d'une revalidation complète. Sur la moyenne inter-tâches des 144 événements, la sonde atomique seule reste à moins de 3 points de la revalidation complète, avec une réserve liée à l'oracle mixte. Pour les intégrateurs qui déploient des robots en production continue, ce résultat signifie qu'une stratégie de revalidation sélective peut préserver l'essentiel de la qualité compositionnelle à moitié coût, sans rejouer l'intégralité du test de composition à chaque mise à jour de skill. Ce travail s'inscrit dans un corpus académique croissant autour de la composition de politiques robotiques, domaine animé notamment par des méthodes comme Generative Skill Chaining et BLADE qui ont posé les bases du typed-composition mais sans mécanisme de gouvernance post-déploiement. Il n'existe à ce stade aucun déploiement industriel annoncé, ni partenariat OEM mentionné dans le preprint : il s'agit d'un résultat de recherche fondamentale évalué uniquement en simulation (robosuite). La portée pratique dépendra de la capacité à transférer ces résultats sur des stacks de policies VLA (Vision-Language-Action) plus récents, comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA, qui multiplient précisément les modules compositionnels mis à jour en continu. Les prochaines étapes naturelles seraient une validation sim-to-real et une intégration dans des pipelines de CI/CD pour robots, un problème d'ingénierie encore largement ouvert.

RecherchePaper
1 source
Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot
471arXiv cs.RO 

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

Une équipe de chercheurs a publié sur arXiv (ref. 2404.19670) un framework baptisé RAPIDDS, conçu pour améliorer la collaboration entre humains et robots dans des environnements industriels répétitifs, typiquement les lignes de fabrication. Le système opère sur plusieurs cycles de travail successifs : à chaque cycle, il apprend les comportements spatiaux (trajectoires réelles empruntées par l'opérateur) et temporels (temps effectifs de réalisation de chaque tâche) propres à l'individu face à lui. Ces modèles personnalisés alimentent ensuite deux mécanismes couplés : un planificateur de tâches qui réorganise allocations et séquençages, et un modèle de diffusion qui steer les trajectoires du robot en temps réel pour éviter les zones de proximité critique. Les expériences ont été conduites en simulation, puis sur un bras robotique à 7 degrés de liberté (7-DOF) dans un scénario physique, et validées par une étude utilisateur portant sur 32 participants (n=32). Les résultats montrent une amélioration significative sur des indicateurs objectifs (efficacité, distance de proximité) et subjectifs (fluidité perçue, préférence utilisateur) par rapport à un système non adaptatif. L'apport central de RAPIDDS réside dans la jonction de deux niveaux d'adaptation longtemps traités séparément dans la littérature. Les méthodes de planification de tâches optimisaient l'allocation et le séquençage mais ignoraient les interférences spatiales en situation de proximité étroite ; les méthodes de niveau motion se concentraient sur l'évitement de collision sans tenir compte du contexte global de la tâche. Unifier les deux, en les calibrant sur un modèle individuel mis à jour cycle après cycle, représente un changement concret de posture pour les déploiements industriels : le robot ne s'adapte pas à un opérateur générique, mais à la personne précise qui travaille ce jour-là, avec ses rythmes et ses habitudes de déplacement. Ce travail s'inscrit dans un courant plus large d'utilisation des modèles de diffusion pour la génération de trajectoires robotiques, un terrain que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) exploitent côté manipulation généraliste. RAPIDDS se distingue par sa focalisation sur la couche adaptation humain-robot plutôt que sur la polyvalence du modèle de motion. Le papier reste pour l'instant un preprint arXiv non encore soumis à peer-review, et aucun déploiement industriel ni partenariat avec un intégrateur n'est mentionné. La prochaine étape naturelle serait une validation sur des opérateurs en conditions réelles de production, avec une diversité de profils moteurs, pour tester la robustesse de la personnalisation au-delà d'un environnement contrôlé.

RecherchePaper
1 source
IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions
472arXiv cs.RO 

IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17810) un travail portant sur la question-réponse incarnée multi-agents (MA-EQA), un paradigme où plusieurs robots coopèrent pour répondre à des requêtes sur ce qu'ils ont collectivement observé sur un horizon temporel long. Le problème central est l'allocation de puissance de transmission entre agents : quand les ressources radio sont limitées, quels robots doivent avoir la priorité pour transmettre leurs souvenirs ? Les auteurs proposent deux contributions : un modèle de qualité de mémoire (QoM) basé sur un examen génératif adversarial (GAE), et un algorithme d'allocation de puissance centré sur la mémoire (MCPA). Le GAE fonctionne par simulation prospective : il génère des questions-tests, évalue la capacité de chaque agent à y répondre correctement à partir de sa mémoire locale, puis convertit les scores obtenus en valeurs QoM. Le MCPA maximise ensuite la fonction QoM globale sous contraintes de ressources de communication. L'analyse asymptotique montre que la puissance allouée à chaque robot est proportionnelle à sa probabilité d'erreur GAE, ce qui revient à prioriser les agents dont la mémoire est la plus riche et la plus fiable. L'intérêt concret pour les architectes de systèmes multi-robots est de déplacer le critère d'optimisation réseau des métriques classiques (débit, latence, taux d'erreur paquet) vers une métrique applicative directement liée à la tâche cognitive. Dans les déploiements d'inspection industrielle, de surveillance ou d'exploration, les robots ne transmettent pas pour transmettre : ils transmettent pour que le système réponde correctement à des requêtes. Traiter la qualité de mémoire comme une ressource à optimiser, au même titre que la bande passante, est une rupture de cadre qui pourrait influencer la conception des protocoles MAC dans les flottes d'agents embarqués. Les expériences montrent des gains significatifs sur plusieurs benchmarks et scénarios, bien que les conditions exactes de déploiement (nombre d'agents, topologie réseau, type de mémoire) ne soient pas détaillées dans le résumé. Ce travail s'inscrit dans la convergence entre vision-langage-action (VLA), robotique incarnée et gestion des ressources sans-fil, un champ en forte expansion depuis 2023 avec les architectures de type RT-2 (Google DeepMind), GR00T (NVIDIA) et les travaux sur les mémoires épisodiques longue durée pour robots mobiles. Sur le plan académique, le GAE adversarial rappelle les techniques d'évaluation automatique utilisées dans les LLM, ici transposées à l'évaluation de mémoire sensorimotrice. Les prochaines étapes logiques seraient une validation sur flotte physique réelle et une intégration avec des architectures mémoire de type VectorDB embarqué. Aucun acteur industriel ni partenaire de déploiement n'est mentionné dans la publication.

RecherchePaper
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
473arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source