Aller au contenu principal

Dossier NVIDIA GR00T — page 4

684 articles · page 4 sur 14

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

Planification de mouvement adaptative aux événements avec un modèle vision-langage distillé en situations critiques
151arXiv cs.RO RecherchePaper

Planification de mouvement adaptative aux événements avec un modèle vision-langage distillé en situations critiques

Une équipe de chercheurs a déposé le 25 juin 2026 sur arXiv (réf. 2606.25629) un cadre algorithmique baptisé EAMP (Event-Adaptive Motion Planning) pour la navigation robotique en environnements logistiques à criticité sécurité. Le système repose sur trois modules imbriqués : un déclencheur sémantique configurable par prompt, le PC-SET, qui surveille en continu de courtes séquences vidéo pour détecter des anomalies comportementales ; un modèle vision-langage allégé, le SemNav-VLM, activé uniquement lors d'une anomalie avérée, qui produit des décisions stratégiques discrètes ; et un module de contrôle prédictif sémantique (SMPC) qui traduit ces décisions en reconfiguration des objectifs d'optimisation et des références géométriques du planificateur bas niveau. Le SemNav-VLM est obtenu par distillation d'un grand modèle vision-langage (VLM), guidée par des vérifications de cohérence physique, ce qui préserve le raisonnement de bon sens du modèle parent tout en réduisant drastiquement la latence d'inférence. Les expériences sont menées dans des scénarios logistiques simulés. L'enjeu adressé est structurel pour la robotique mobile industrielle : dans les entrepôts et environnements mixtes, la majorité des collisions ne provient pas d'obstacles statiques inédits, mais du comportement imprévisible d'agents dynamiques, opérateurs humains, chariots élévateurs, autres robots autonomes. Les VLMs, capables d'un raisonnement contextuel robuste sur ces situations, sont jusqu'ici incompatibles avec la boucle de contrôle temps-réel en raison de leur latence computationnelle, qui déstabilise l'exécution physique. EAMP résout cette contradiction par déclenchement conditionnel : le modèle allégé n'est invoqué qu'en présence d'une anomalie, préservant l'efficacité temps-réel sans sacrifier la capacité de raisonnement sémantique. Les résultats indiquent une amélioration significative des marges de sécurité dynamiques par rapport aux baselines existantes. Il s'agit néanmoins d'une démonstration en simulation ; aucune validation sur robot physique réel n'est rapportée dans cette version du preprint. Ce travail s'inscrit dans une tendance de fond de 2025-2026 : intégrer les capacités de raisonnement des grands modèles dans des architectures de planification classiques (MPC, RRT) sans sacrifier la réactivité temps-réel. Les approches concurrentes incluent les modèles VLA (Vision-Language-Action) de bout en bout comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui fusionnent différemment raisonnement et action à l'échelle. La distillation supervisée par contraintes physiques est une direction active pour compresser ces modèles sans dégradation critique. Côté déploiement, des acteurs comme Exotec (France, système Skypod) opèrent déjà dans des entrepôts mixtes humains-robots où la problématique des agents dynamiques est centrale ; un cadre comme EAMP pourrait constituer une brique de planification adaptative pour ces systèmes, à condition d'une validation physique que les auteurs n'ont pas encore fournie.

UEExotec (France, système Skypod) est explicitement cité comme cas d'usage potentiel pour ce cadre de planification adaptative, mais l'absence de validation sur robot physique réel reporte tout impact industriel concret.

1 source
RoBoSR : représentations structurées de scènes pour le raisonnement des robots incarnés
152arXiv cs.RO 

RoBoSR : représentations structurées de scènes pour le raisonnement des robots incarnés

Une équipe de chercheurs a publié fin juin 2026 un preprint arXiv (2606.24338) présentant RoBoSR, un cadre de représentation intermédiaire structurée pour la manipulation robotique en monde ouvert. L'approche modélise chaque tâche comme une séquence de transitions d'états sur des graphes de scène orientés objet, sémantiquement ancrés. Concrètement, le système segmente l'environnement perçu en entités discrètes (objets, relations spatiales, états) avant de raisonner sur les préconditions et effets de chaque sous-tâche. Pour entraîner ce raisonnement, les auteurs publient simultanément Manip-Cognition-1.6M, un jeu de données de 1,6 million d'exemples couvrant la compréhension de scène, l'interprétation d'instructions et la planification de sous-tâches sur des manipulations variées. Sur plusieurs benchmarks et démonstrations réelles, RoBoSR revendique des performances supérieures aux méthodes par prompting et aux pipelines TAMP classiques (Task and Motion Planning), notamment en généralisation zéro-shot et sur des tâches longue-portée. Ce que pointe cette publication, c'est l'une des frictions centrales des architectures VLA (Vision-Language-Action) actuelles : leur biais séquentiel issu des données de démonstration les rend fragiles dès que la tâche sort du scénario d'entraînement. En intercalant une représentation graphique explicite entre la perception brute et l'action, RoBoSR tente de rendre le raisonnement causal modulaire et réutilisable, ce qui améliore théoriquement la robustesse aux variations d'environnement. Pour un intégrateur industriel, c'est le problème du "demo-to-reality gap" qui est visé : un robot qui comprend les dépendances entre sous-tâches peut récupérer d'un échec partiel sans replanifier depuis zéro. Le dataset Manip-Cognition-1.6M, s'il est effectivement rendu public, constitue également une ressource d'entraînement non négligeable pour la communauté. RoBoSR s'inscrit dans une vague de recherches cherchant à dépasser les limites des modèles d'imitation pure, dans un secteur où Physical Intelligence (pi0), Google DeepMind (GR00T N2) et Figure AI travaillent sur des architectures hybrides mêlant apprentissage et planification symbolique. Le papier reste un preprint non évalué par les pairs, et les résultats en "démonstrations réelles" ne sont pas détaillés quantitativement dans le résumé disponible. Les prochaines étapes naturelles seraient une soumission en conférence (CoRL, ICRA) et la mise à disposition publique du dataset annoncé.

IA physiquePaper
1 source
Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique
153Interesting Engineering 

Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique

MindOne Robotics, startup chinoise fondée à Shenzhen en 2025, a présenté une démonstration de son framework robotique Mind-0, capable de piloter simultanément des robots humanoïdes Unitree G1 et des systèmes bras-double fixes à partir d'un unique modèle d'IA. Le scénario illustré couvre un workflow logistique complet: récupération d'objets, transport, emballage et fermeture de caisses, avec une flotte mixte opérant sous la même intelligence centralisée. L'entreprise revendique une précision de manipulation inférieure au centimètre sur la plateforme Unitree G1 en conditions réelles. L'architecture Mind-0 sépare le raisonnement de haut niveau (perception, planification, décision) du contrôle moteur bas niveau, ce qui permet de déployer le même cerveau logiciel sur des morphologies différentes sans pipeline d'entraînement séparé par plateforme. Particularité notable: le modèle est entraîné exclusivement sur des données humaines capturées par motion capture corps entier, caméras égocentrées et dispositifs manuels, et non sur de la téléopération robot directe, ce que MindOn présente comme un moyen de préserver les comportements naturels de résolution de problèmes. L'enjeu industriel est double. D'abord, l'agnosticisme matériel: si un seul modèle orchestre humanoïdes et bras fixes sur une même tâche, les intégrateurs n'ont plus à développer des pipelines d'IA distincts par plateforme, ce qui réduit le coût d'entrée dans les déploiements multi-robots. Ensuite, MindOn s'attaque frontalement au sim-to-real, l'un des verrous les plus persistants de la robotique moderne: son Real-World Execution Compensation Model utilise un volume réduit de données réelles pour corriger les dérives dues aux différences de dynamique entre simulation et environnement physique. Les métriques annoncées (précision sub-centimétrique sur une démonstration sélectionnée) restent toutefois à valider dans des conditions de déploiement industriel répétable, avec cadences et taux d'erreur documentés. Le système de raisonnement hiérarchique compensant les délais d'actuation répond par ailleurs à un problème souvent sous-estimé: contrairement aux démonstrations humaines, les robots subissent des latences de capteur, de calcul et d'actionneur que le modèle doit continuellement corriger en temps réel. MindOne Robotics évolue dans un espace concurrentiel très chargé. Sur l'agnosticisme matériel et les modèles unifiés cross-embodiment, elle fait face à GR00T N2 de NVIDIA (conçu pour humanoïdes multiples), à pi0 de Physical Intelligence (modèle généraliste pour la manipulation), ainsi qu'aux stacks maison de Fourier Intelligence et d'Unitree. En Europe, Enchanted Tools avec son robot Miroka et Wandercraft positionnent des approches verticales différentes. MindOne reste une très jeune société, et cette démonstration constitue à ce stade un teaser technologique, non un produit commercialement déployé: aucun client pilote ni délai de mise en production n'ont été annoncés publiquement. L'entreprise indique vouloir étendre ses datasets humains et industrialiser son pipeline cross-embodiment, sans préciser de calendrier.

UELa montée en puissance de l'approche cross-embodiment chinoise (Mind-0) crée une pression concurrentielle indirecte sur les acteurs français Enchanted Tools et Wandercraft, qui développent des approches verticales différentes sans modèle unifié cross-morphologie.

Chine/AsieOpinion
1 source
Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences
154arXiv cs.RO 

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

Une équipe de recherche propose FAFM (Frequency-Aware Flow Matching), une méthode de génération d'actions robotiques présentée en préprint arXiv (2606.20135, juin 2026), qui reformule le problème du flow matching pour la manipulation robotique dans le domaine fréquentiel. Le principe : plutôt que de prédire directement des séquences d'actions discrètes (des "chunks"), FAFM applique une transformée en cosinus discrète (DCT) sur ces séquences pour les convertir en coefficients fréquentiels, effectue le flow matching sur ces coefficients, puis reconstruit des actions continues via expansion en base cosinus. Pour garantir la cohérence temporelle, la méthode ajoute une contrainte de type Sobolev sur la dérivée temporelle du premier ordre, ce qui pénalise les changements brusques et atténue les erreurs hautes fréquences. L'approche s'applique sans paramètres réseau supplémentaires, aussi bien aux politiques de flow matching autonomes qu'aux modèles vision-langage-action (VLA). Les résultats sont validés sur les benchmarks LapGym, LIBERO et évitement d'obstacles, ainsi qu'en déploiement réel sur un bras Franka. L'intérêt industriel est direct : la fragmentation des fréquences de contrôle est un problème concret lors de l'agrégation de données de démonstration provenant de robots différents (certains à 10 Hz, d'autres à 50 Hz), et les méthodes actuelles de diffusion policy ou de flow matching standard y sont explicitement vulnérables. Les actions temporellement incohérentes qui en résultent dégradent la stabilité du contrôle en boucle fermée, un facteur bloquant pour le déploiement en production. Le fait que FAFM améliore simultanément le taux de succès, la fluidité du mouvement, la robustesse aux biais mécaniques et la vitesse de convergence sans modifier l'architecture existante est une proposition de valeur claire pour les intégrateurs : pas de refonte du pipeline, pas de surcoût computationnel. La compatibilité avec les VLA est également notable, car ces modèles dominent les annonces récentes (pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) et souffrent précisément de ce type d'artefacts temporels à l'inférence. Le flow matching s'est imposé ces dix-huit derniers mois comme alternative crédible à la diffusion policy (Chi et al., 2023, Columbia), avec des temps d'inférence plus courts et une meilleure expressivité multimodale. Les travaux récents de Physical Intelligence (pi-0, pi-0.5) et de Figure AI ont largement adopté ce paradigme pour leurs politiques générales. FAFM s'inscrit dans une tendance de raffinement de ces fondations plutôt que de rupture : on optimise la stabilité et la généralisation inter-fréquences, deux verrous identifiés lors des premiers déploiements industriels à grande échelle. La validation sur Franka reste modeste en termes de diversité de tâches, et le code est disponible sous revue anonyme, ce qui signifie que la méthode n'est pas encore auditée par la communauté. Les prochaines étapes naturelles seraient une validation sur des plateformes humanoïdes multi-articulées et sur des datasets hétérogènes à grande échelle, là où la question des fréquences mixtes est la plus aiguë.

RecherchePaper
1 source
DADP : politique de diffusion adaptative au domaine
155arXiv cs.RO 

DADP : politique de diffusion adaptative au domaine

Des chercheurs ont publié le 19 juin 2026 la troisième version de DADP (Domain Adaptive Diffusion Policy), un framework de contrôle robotique conçu pour généraliser à des dynamiques physiques inconnues sans nécessiter de réentraînement. Le problème central adressé est la capacité d'une politique apprise en simulation ou dans un environnement donné à fonctionner dans un autre contexte aux propriétés mécaniques différentes, friction, masse, compliance des articulations, ce que l'on appelle l'adaptation zéro-shot. Les auteurs identifient un défaut structurel dans les approches existantes de domain representation learning : lorsqu'un modèle extrait sa représentation du domaine à partir d'un contexte temporel adjacent à l'étape courante, il mélange involontairement des informations statiques (les constantes du domaine physique) avec des propriétés dynamiques transitoires (la vitesse ou la posture instantanée). DADP répond par deux contributions techniques : d'abord le Lagged Context Dynamical Prediction, qui conditionne l'estimation d'état futur sur un contexte historique décalé dans le temps, augmenter ce délai force le modèle à filtrer les propriétés transitoires et à extraire uniquement les invariants du domaine, sans supervision explicite. Ensuite, les représentations de domaine ainsi disentangled sont injectées directement dans le processus génératif du diffusion model, en biaisant la distribution a priori et en reformulant la cible de diffusion. Les résultats sur des benchmarks de locomotion et de manipulation dépassent les méthodes antérieures sur ces axes combinés. L'intérêt pour les intégrateurs robotiques et les équipes R&D est double. Premièrement, DADP aborde directement le sim-to-real gap en proposant une séparation non supervisée entre ce qui appartient à la physique du robot (masse, friction) et ce qui relève de la trajectoire en cours, une distinction que les approches précédentes laissaient au réseau à résoudre implicitement, avec des résultats fragiles. Deuxièmement, l'injection de la représentation domaine dans le processus de diffusion plutôt qu'en simple conditionnement de politique représente un changement architectural notable : cela signifie que la politique génère des actions dont la distribution est intrinsèquement calibrée sur le domaine courant, et non pas simplement corrigée a posteriori. Pour les équipes travaillant sur des déploiements multi-sites ou sur des flottes hétérogènes de manipulateurs industriels, cela ouvre une voie pour réduire le coût de calibration par site. Il convient de nuancer : les benchmarks présentés restent des environnements simulés standardisés (MuJoCo-type), et aucune validation hardware sur un robot physique n'est revendiquée dans l'abstract, un gap classique entre publication académique et déploiement terrain. DADP s'inscrit dans un courant de recherche actif qui cherche à combiner les diffusion policies, popularisées par les travaux de Chi et al. (2023) sur le Diffusion Policy et désormais intégrées dans des systèmes comme pi-zéro de Physical Intelligence ou les pipelines GR00T de NVIDIA, avec des mécanismes d'adaptation contextuelle au domaine physique. Les approches concurrentes incluent les méthodes de domain randomization (entraînement sur une large distribution de dynamiques) et les architectures méta-RL comme PEARL ou MAML, qui supposent un accès à quelques épisodes d'adaptation. DADP se positionne en zéro-shot sans rollouts d'adaptation, ce qui est une contrainte opérationnelle réaliste pour des déploiements industriels où le temps de mise en service est limité. La présence d'un site de visualisation dédié (outsider86.github.io/DomainAdaptiveDiffusionPolicy) et l'itération en version 3 suggèrent une réponse active à la communauté ; une validation expérimentale sur hardware physique constituerait la prochaine étape logique pour ancrer ces résultats dans la réalité industrielle.

RecherchePaper
1 source
Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information
156arXiv cs.RO 

Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information

Une équipe de chercheurs a publié en juin 2026, via arXiv (arXiv:2606.19998), une méthode appelée Tri-Info (Triple Information-theoretic signals) pour détecter automatiquement les défaillances des modèles VLA (Vision-Language-Action) avant qu'ils ne causent des dommages irréversibles dans des environnements physiques. Testée sur six modèles VLA distincts et trois environnements de benchmark, Tri-Info atteint 83 % de précision sur des tâches en conditions réelles, là où les détecteurs existants s'effondrent au niveau du hasard. La méthode repose sur trois signaux dérivés de la théorie de l'information : la diversité des actions générées par le modèle, leur cohérence temporelle, et leur couplage aux transitions d'état observées dans l'environnement. Cruciale pour les déploiements industriels, Tri-Info ne nécessite aucun réentraînement pour fonctionner sur de nouvelles architectures ou dans de nouveaux environnements, y compris lors du passage simulation-vers-réel (sim-to-real). Ce résultat est directement pertinent pour les intégrateurs qui déploient des robots manipulateurs ou humanoïdes pilotés par des VLA comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). L'opacité de ces modèles constitue un risque opérationnel concret : un VLA peut échouer silencieusement, entraînant une collision, une chute d'objet ou l'interruption d'un cycle de production. Tri-Info ajoute une couche de supervision interprétable capable de distinguer trois classes de défaillances (manque de diversité, incohérence temporelle, découplage état-action), ce qui facilite le diagnostic post-incident. Sa transférabilité sans réentraînement est stratégiquement importante : elle permet d'intégrer la détection sur des systèmes déjà déployés sans modifier le pipeline existant. Ce travail s'inscrit dans une course à l'industrialisation des VLA accélérée depuis fin 2024 avec les sorties de Pi-0 et d'OpenVLA, et les travaux de Google DeepMind sur RT-2 et ses successeurs. Le sim-to-real gap reste l'un des principaux freins à leur généralisation, la plupart des systèmes de détection entraînés en simulation perdant leur efficacité en conditions réelles. Tri-Info est à ce stade un preprint non encore revu par les pairs, et ses performances n'ont pas été reproduites de manière indépendante. Si elles se confirment, la méthode pourrait s'imposer comme une brique de sécurité standard dans les pipelines de déploiement robotique fondés sur des VLA.

RechercheOpinion
1 source
Guava : un cadre efficace et universel pour la manipulation incarnée
157arXiv cs.RO 

Guava : un cadre efficace et universel pour la manipulation incarnée

Des chercheurs ont publié en juin 2026 sur arXiv (identifiant 2606.18363) Guava, un cadre de harness pour agents robotiques de manipulation. Le système repose sur trois ingrédients identifiés après une exploration systématique de l'espace de conception : des boucles itératives perception-raisonnement-action, des abstractions d'action sémantiques et des observations multimodales. À partir de ces principes, les auteurs ont entraîné un modèle open-source de 4 milliards de paramètres en utilisant moins de 2 000 trajectoires collectées entièrement en simulation, sans aucune donnée réelle. Les évaluations en environnement simulé et en conditions réelles montrent des performances comparables aux modèles propriétaires de pointe, avec une généralisation robuste à des objets non vus en entraînement, des instructions inédites et des tâches longues à plusieurs étapes. Le résultat le plus significatif est qu'un modèle compact peut atteindre des performances compétitives avec des systèmes propriétaires massifs à condition que l'architecture de harness soit bien conçue, et non que le modèle soit immense. Cela conteste directement l'hypothèse dominante selon laquelle les systèmes VLA (Vision-Language-Action) end-to-end nécessitent des millions de trajectoires réelles pour franchir le sim-to-real gap. L'approche par tool use découple le raisonnement de haut niveau des modules de perception et de contrôle, rendant le cadre agnostique au modèle sous-jacent, un avantage concret pour les intégrateurs industriels souhaitant substituer les composants sans réentraîner l'ensemble du système. Ce travail s'inscrit dans un débat structurant de la manipulation robotique qui oppose les VLA end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, aux approches modulaires par harness, qui misent sur la composabilité et le raisonnement émergent des LLM. L'approche rappelle SayCan (Google/Everyday Robots) ou Code as Policies, mais avec une validation sim-to-real plus explicite et sur modèle open-source. Le modèle 4B utilisé n'est pas nommé dans le papier, et aucun déploiement industriel ni partenariat commercial n'est mentionné : Guava demeure pour l'instant un résultat de recherche, sans timeline de productisation annoncée.

UELes laboratoires de recherche et intégrateurs robotiques européens peuvent s'appuyer sur ce cadre open-source pour développer des systèmes de manipulation compétitifs sans infrastructure de données réelles à grande échelle.

RechercheOpinion
1 source
Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée
158TechNode 

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Alibaba a publié mardi une suite robotique composée de trois modèles fondamentaux : Qwen-RobotNav, Qwen-RobotManip et Qwen-RobotWorld. Qwen-RobotNav étend les capacités vision-langage à la robotique mobile en unifiant quatre tâches au sein d'un même framework : suivi d'instructions, navigation orientée objectif, tracking de cible et conduite autonome. Qwen-RobotManip standardise l'espace état-action et représente le mouvement de l'effecteur terminal sous forme de poses incrémentielles dans le référentiel caméra, une approche conçue pour faciliter la généralisation multi-plateforme. Ce modèle a été entraîné sur plus de 38 100 heures de données entièrement open source. Qwen-RobotWorld, le troisième composant, fonctionne comme un world model généraliste : il prédit des états futurs physiquement cohérents via une interface en langage naturel, couvrant simultanément la navigation, la conduite et la manipulation depuis un seul modèle. L'approche modulaire mais unifiée est la proposition de valeur centrale de cette suite. Un world model unique opérant sur trois domaines d'action représente une architecture qui, si elle tient ses promesses en conditions réelles, réduirait significativement les coûts d'intégration pour les équipes robotiques industrielles. L'utilisation de données entièrement open source pour Qwen-RobotManip est un signal notable dans un secteur où les datasets propriétaires constituent souvent un avantage concurrentiel défensif : Alibaba positionne ainsi Qwen-Robot davantage comme une infrastructure partagée que comme un produit fermé. Réserve importante cependant : l'annonce ne s'accompagne d'aucun benchmark public (RLBench, LIBERO, CARLA) ni de déploiement physique documenté. Il s'agit d'une publication de modèles, pas d'un produit shipé. L'équipe Qwen d'Alibaba est reconnue pour ses modèles multimodaux (Qwen2.5-VL, QwQ), mais ce lancement marque son entrée explicite dans l'embodied AI. Le terrain est disputé : Google DeepMind pousse ses dérivés de RT-2, Physical Intelligence a publié Pi-0 et Pi-0.5, Hugging Face soutient l'initiative LeRobot, et NVIDIA propose GR00T N2 comme backbone pour les robots humanoïdes partenaires. Côté chinois, Unitree, Agibot et Zhiyuan Robot accélèrent eux aussi leurs pipelines VLA (vision-language-action). La prochaine étape pour Alibaba sera de démontrer des résultats sur des plateformes matérielles réelles ; faute de quoi, Qwen-Robot restera un framework académique parmi d'autres dans une course déjà très chargée.

UEImpact indirect sur l'écosystème européen : la suite open-source d'Alibaba accentue la pression concurrentielle sur les initiatives VLA portées par des acteurs à ancrage européen comme Hugging Face (LeRobot), sans déploiement physique documenté en Europe à ce stade.

IA physiqueOpinion
1 source
QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux
159arXiv cs.RO 

QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux

Des chercheurs publient QPILOTS (arXiv:2606.14801, juin 2026), une méthode permettant d'optimiser à l'inférence les politiques de diffusion et de flow-matching sans modifier leurs poids. Le problème central : appliquer l'apprentissage par renforcement basé sur la différence temporelle (TD-RL) à ces générateurs d'actions multi-étapes provoque des instabilités numériques lors du backpropagation à travers la chaîne de débruitage. QPILOTS laisse la politique originale intacte et l'oriente à chaque étape de débruitage via le gradient d'un critique de valeur Q. L'astuce clé : plutôt que d'évaluer le critique sur l'action intermédiaire bruitée (où ses prédictions sont peu fiables), la méthode projette cet état vers une estimation de l'action finale propre, puis calcule le gradient à ce point stable. Deux variantes sont proposées : QPILOTS-U utilise une approximation rapide en point unique, QPILOTS-M tire des échantillons postérieurs différentiables via un réseau auxiliaire appris. Sur un benchmark standard offline-to-online RL couvrant 50 tâches, QPILOTS atteint 90 % de taux de succès moyen, meilleure performance agrégée du comparatif. Appliquée à un modèle fondation Vision-Language-Action (VLA) pré-entraîné et gelé, la méthode surpasse ou égale les approches concurrentes sur six tâches de manipulation en simulation. L'enjeu est concret pour quiconque développe des politiques de manipulation basées sur la diffusion. Les solutions actuelles face au problème de gradient imposent chacune un compromis lourd : abandonner l'information de gradient, distiller la politique en un acteur one-step moins expressif, ou relancer un cycle de fine-tuning à chaque amélioration du critique. QPILOTS propose une quatrième voie compatible avec les modèles fondation gelés, ce qui le rend particulièrement pertinent dans un secteur où Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA) sont déployés comme bases pré-entraînées. Pouvoir piloter ces modèles via RL sans re-entraînement réduit drastiquement le coût d'adaptation à de nouvelles tâches, et apporte un argument concret au débat sur le "sim-to-real gap" des VLAs : le steering à l'inférence pourrait suffire là où le fine-tuning est prohibitif. QPILOTS s'inscrit dans la lignée des travaux sur les Diffusion Policies (Chi et al., 2023, Columbia) et des méthodes comme DDPO qui cherchent à coupler RL et processus de débruitage. Le terrain concurrent inclut les approches de distillation (simplifiantes) et les méthodes de reward-guided sampling déjà appliquées aux VLAs. À noter : cet article reste un preprint en simulation uniquement, sans validation sur hardware réel ni annonce de déploiement industriel. La robustesse des résultats à 90 % sur 50 tâches est encourageante, mais l'évaluation se limite à des environnements simulés, et les performances en conditions réelles, notamment la latence induite par l'étape de projection à chaque débruitage, restent à démontrer.

IA physiqueOpinion
1 source
La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques
160arXiv cs.RO 

La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques

Une étude publiée sur arXiv le 16 juin 2026 (réf. 2606.15587) remet en cause un postulat fondamental de l'apprentissage par imitation en robotique : les démonstrations expertes fluides ne sont pas nécessairement les meilleures données d'entraînement. Pour des tâches de manipulation fine (insertion, empilement, alignement), les chercheurs montrent qu'un opérateur habile compresse précisément les instants décisifs de correction dans une fenêtre temporelle très courte, noyant la politique apprise sous des mouvements de transit redondants et lui fournissant trop peu de supervision aux moments où la précision est déterminante. Expérimentalement, une politique entraînée sur des démonstrations fluides standard plafonne à 50,0 % de taux de succès sur ces tâches. Ce résultat a des implications directes pour les équipes qui constituent des datasets pour entraîner des modèles vision-langage-action (VLA) comme Pi-0 ou GR00T N2. Deux axes de correction sont testés. Au niveau des données, ralentir la capture autour des moments d'alignement et rééchantillonner les segments critiques améliore les performances, mais l'essentiel du gain vient de l'élargissement de la couverture des états de récupération, pas d'un simple rééquilibrage des frames existantes. Au niveau de la représentation, les auteurs introduisent STAIR (Spatio-Temporal feature As an Interface for Robot learning), un module compact qui s'intercale entre le backbone vision-langage et le réseau d'action, en distillant les dynamiques de mouvement à court horizon déjà enregistrées dans chaque trajectoire. Entraîné uniquement sur des données fluides, STAIR atteint 62,2 % de succès, contre 64,4 % pour les démonstrations délibérément ralenties. Ces travaux s'inscrivent dans une vague de recherche qui remet en question la stratégie de collecte de données pour l'imitation learning, notamment dans le sillage des politiques de diffusion (Diffusion Policy, ACT) et des architectures VLA à grande échelle. L'idée que "plus de données expertes = meilleure politique" est directement challengée : la learnability machine peut diverger de l'efficacité humaine. La prochaine étape logique est de valider STAIR sur des tâches de contact plus complexes (vis, connecteurs électroniques) et sur des robots physiques déployés en dehors de l'environnement de laboratoire, ce que le papier ne montre pas encore. À surveiller lors des soumissions de conférences de fin 2026 (CoRL, ICRA).

UELes équipes R&D européennes développant des modèles VLA pour la manipulation fine pourraient adapter leurs protocoles de collecte de données en ralentissant la capture sur les segments critiques d'alignement.

RechercheOpinion
1 source
IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement
161arXiv cs.RO 

IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement

Les modèles Vision-Language-Action (VLA) souffrent d'un défaut structurel bien documenté : en aplatissant les patches d'image en une séquence 1D de tokens, ils perdent les repères spatiaux 2D nécessaires à la manipulation précise d'objets. Des chercheurs ont publié sur arXiv (référence 2601.16207v2) IVRA, une méthode d'inférence légère et sans réentraînement qui corrige ce problème en exploitant des signaux d'affinité déjà présents dans l'encodeur visuel natif du modèle. Ces signaux sont injectés sélectivement dans une couche du modèle de langage où résident les caractéristiques au niveau des instances, réalignant les interactions entre tokens visuels et préservant mieux la structure géométrique sans modifier aucun paramètre. Appliqué à trois architectures distinctes, LLaRA, OpenVLA et FLOWER, IVRA a été évalué sur les benchmarks VIMA (manipulation 2D) et LIBERO (manipulation 3D), ainsi que sur des tâches en environnement physique réel. Sur VIMA en régime de faibles données, il améliore le taux de succès moyen de +4,2 % par rapport à la baseline LLaRA. Sur LIBERO 3D, les gains restent cohérents même proches de la saturation (96,3 % vers 97,1 %). L'intérêt industriel est direct : un intégrateur qui a déjà déployé un VLA peut appliquer IVRA à l'inférence sans réentraînement, sans capteur supplémentaire, sans encodeur externe. C'est un avantage immédiat en time-to-value pour des systèmes en production. Le fait que la méthode fonctionne même à 96,3 % de baseline suggère qu'elle améliore la précision géométrique locale plutôt que la compréhension globale de scène, précisément le point de défaillance des VLA sur des tâches de manipulation fine (saisie d'objets proches, tri par forme, assemblage). Pour la recherche, IVRA valide l'hypothèse que les encodeurs visuels embarqués contiennent des informations spatiales latentes exploitables sans supervision supplémentaire, une direction "training-free adapter" qui mérite davantage d'exploration. La perte de structure spatiale dans les VLA est connue depuis les premières publications sur RT-2 (Google DeepMind, 2023) et OpenVLA (Berkeley/Stanford, 2024). Les réponses habituelles consistent à modifier l'architecture ou à ajouter des flux de données supplémentaires (depth, point clouds), augmentant la complexité de déploiement. Physical Intelligence avec pi-0 et NVIDIA avec GR00T N2 misent sur des architectures propriétaires plus lourdes ; IVRA propose une correction orthogonale applicable sur des modèles ouverts, en compétition directe avec les méthodes de spatial token resampling et d'attention guidée comme RoboFlamingo. L'étape suivante logique serait une validation sur des benchmarks plus exigeants (RLBench, BridgeData v2) et sur des manipulateurs industriels à 6 DOF ou plus en conditions réelles, là où la précision spatiale est critique.

IA physiqueOpinion
1 source
X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA
162arXiv cs.RO 

X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.14752) les résultats de X-Tokenizer, une architecture légère de type encodeur-SRQ-décodeur conçue pour améliorer la couche d'interface entre le raisonnement visio-linguistique et le contrôle moteur continu des bras robotiques. Le système introduit une technique appelée Semantic Residual Quantization (SRQ), une variante asymétrique de la quantification vectorielle résiduelle classique : le premier niveau est entraîné via un mécanisme de Masked Action Modeling (MAM) pour former un "langage d'actions" discret capturant l'intention de mouvement à gros grain, tandis que les niveaux suivants restent orientés reconstruction pour préserver les détails fins. X-Tokenizer a été pré-entraîné sur 2,4 millions de trajectoires, soit 2,0 milliards de frames d'actions, couvrant des bras robotiques d'embodiments variés. Une fois gelé, il se branche comme signal de supervision dans un VLA hybride discret-continu. Les résultats rapportés sur RoboTwin 2.0 et sur des benchmarks réels montrent des performances de premier rang en agrégat, avec +13,5 % de grounding multimodal et +8,25 points sur les tâches long-horizon par rapport au tokenizer FAST, référence actuelle du domaine. L'enjeu central est ce qu'on appelle le "demo-to-deployment gap" dans les modèles Vision-Language-Action : des VLA comme pi-0, GR00T N2 ou OpenVLA apprennent à raisonner en langage naturel mais peinent à traduire ce raisonnement en commandes motrices précises et stables. Les tokenizers d'action existants se contentent de comprimer les trajectoires pour les reconstruire fidèlement, sans ancrer les codes discrets dans la sémantique du backbone visio-linguistique. Ce que démontre X-Tokenizer, c'est qu'il est possible de faire des tokens d'action des objets sémantiquement cohérents avec le reste du modèle, en ajoutant un alignement contrastif vers l'espace de représentation d'un modèle fondationnel et une prédiction de features visio-linguistiques sur la frame suivante. L'impact pour les intégrateurs et les chercheurs est direct : un tokenizer partagé, gelé et interchangeable entre embodiments réduit le coût de fine-tuning par robot tout en améliorant la robustesse sur les tâches multi-étapes. Du côté du contexte compétitif, la tokenisation d'actions est devenue un verrou clé dans la course aux VLA généralistes depuis 2024. FAST (Fourier Action Sequence Tokenizer, DeepMind) s'est imposé comme baseline de référence en représentation fréquentielle des trajectoires. Des approches comme ACT (Action Chunking with Transformers) ou GROOT ont montré des gains sur des tâches courtes, mais les tâches longues restent difficiles faute de supervision sémantique cohérente. X-Tokenizer se positionne explicitement comme une alternative à FAST sur ce point précis. À noter que les gains annoncés (+13,5 %, +8,25) sont mesurés sur des benchmarks spécifiques et sur une sélection de tâches ; la généralisation à des environnements industriels non structurés reste à démontrer. Aucune timeline de déploiement ni partenaire industriel n'est mentionné dans le papier, ce qui situe ce travail clairement dans la phase recherche, non dans celle du produit expédié.

IA physiqueOpinion
1 source
Pilotage de politique d'inférence par vision et toucher
163arXiv cs.RO 

Pilotage de politique d'inférence par vision et toucher

Des chercheurs ont publié sur arXiv (réf. 2606.14981, juin 2026) ViTaL, un framework de pilotage à l'inférence combinant vision et toucher pour affiner les politiques de manipulation robotique. Le principe : plutôt que de ré-entraîner un modèle génératif pré-entraîné, ViTaL intervient au moment de l'exécution en vérifiant et corrigeant les séquences d'actions candidates avant qu'elles ne soient jouées. Le système repose sur une optimisation bi-niveaux, un niveau haut visuel qui sélectionne le comportement global à longue portée, et un niveau bas tactile qui édite en diffusion la séquence retenue pour satisfaire les contraintes de contact locales. Un monde latent visuo-tactile appris permet d'évaluer des récompenses tactiles futures via un verifieur conditionné en texte, sans avoir besoin de capteur physique au moment de la prédiction. Sur trois tâches réelles de manipulation à contact riche (assemblage, insertion, dépose sous contrainte), ViTaL améliore le taux de succès global de 51 % par rapport à la politique de base, dépasse les approches unimodales (vision seule) d'au moins 33 %, et surpasse la fusion multimodale naïve d'au moins 20 %. Ces résultats pèsent dans un débat central de la robotique de manipulation : la vision seule suffit-elle à piloter des robots en environnement de contact ? ViTaL répond non, et quantifie l'écart. Pour les intégrateurs et les équipes R&D travaillant sur l'assemblage industriel ou la manipulation d'objets déformables, la démonstration que l'information tactile peut être injectée à l'inférence sans retraining complet est directement exploitable, elle ouvre une voie vers des politiques génériques adaptables à de nouveaux contextes de contact via du "steering" léger. L'édition par diffusion guidée par le toucher est particulièrement notable : elle permet de préserver le comportement global appris tout en rectifiant les micro-interactions, ce qui réduit le risque de régression comportementale souvent observé lors du fine-tuning. ViTaL s'inscrit dans la vague des approches "inference-time compute" appliquées à la robotique, popularisées par les travaux sur les VLA (Vision-Language-Action models) et les politiques de diffusion de type π0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'idée de vérifier les actions à l'exécution plutôt qu'au train-time est également explorée par des équipes comme Covariant et Figure AI, mais sans capteurs tactiles intégrés dans la boucle de correction. La spécificité de ViTaL est de traiter le retour tactile comme une source de supervision temporelle courte portée, complémentaire à la vision longue portée. L'article reste un preprint et les tâches testées sont de complexité modérée ; une validation sur des scénarios industriels réels (tolérance sub-millimétrique, variabilité de pièces) sera nécessaire pour confirmer la généralisation.

IA physiqueOpinion
1 source
Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA
164arXiv cs.RO 

Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2606.14375) une nouvelle méthode appelée Elastic Queries Reinforcement Learning (EQRL), conçue pour rendre l'exécution des modèles VLA (Vision-Language-Action) adaptative plutôt que rigide. Dans les systèmes actuels, ces modèles qui pilotent la manipulation robotique s'exécutent selon des plannings d'inférence fixes : même fréquence de requête, même budget de débruitage, même longueur de chunk d'actions, quelle que soit la complexité de l'état courant. EQRL introduit un adaptateur léger qui sélectionne dynamiquement, pour chaque requête, trois paramètres : l'entrée latente, le budget de débruitage, et la longueur du chunk à exécuter en boucle ouverte. La méthode entraîne un critique sur l'espace joint et dérive un signal de difficulté d'état via le désaccord entre un ensemble de critiques (critic ensemble disagreement), guidant le calcul vers les états difficiles sans modifier les poids du modèle VLA sous-jacent. Sur bancs de simulation et en manipulation sur robot réel, les auteurs rapportent une réduction du coût d'inférence amorti avec un taux de succès préservé ou amélioré. L'enjeu concret concerne directement le coût de déploiement des politiques fondées sur des modèles de diffusion, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Ces architectures souffrent d'un goulot d'étranglement identique : le nombre d'évaluations de fonction (NFE) du processus de débruitage est fixe, qu'on soit sur une prise de contact incertaine ou un simple transit en espace libre. EQRL démontre qu'il est possible d'allouer dynamiquement ce budget de calcul selon la difficulté estimée, sans retraining du modèle de base. Pour un intégrateur ou un COO, la promesse est directe : même capacité de manipulation, moins de GPU sur les états faciles, meilleure scalabilité sur flotte. Le travail s'inscrit dans une course à l'efficacité d'inférence pour les VLA, accélérée par la publication de Pi-0 fin 2024 et les modèles de diffusion successifs (Octo, OpenVLA, GR00T N2, Helix de Figure AI). Des approches parallèles comme FAST ou DiT-Policy attaquent le même problème sous d'autres angles : compression de trajectoire, distillation, ou batch adaptatif. EQRL se distingue en opérant au-dessus du modèle sans le modifier et en intégrant un signal de difficulté appris par RL. Les auteurs annoncent des résultats positifs en simulation et sur robot réel, mais les métriques précises et les conditions expérimentales restent à examiner dans le corps du papier : la validité des gains annoncés dépendra de la représentativité des benchmarks choisis.

UELes équipes R&D européennes développant ou déployant des politiques de manipulation sur modèles de diffusion (VLA) pourraient appliquer EQRL pour réduire leurs coûts GPU d'inférence sans retraining, mais aucun acteur français ou européen n'est directement impliqué.

RechercheOpinion
1 source
Exécution en temps réel avec des politiques autorégressives
165arXiv cs.RO 

Exécution en temps réel avec des politiques autorégressives

Un article de recherche déposé sur arXiv (référence 2606.13355) en juin 2026 démontre que les politiques autoregressives -- la famille de modèles qui génère les actions token par token, à la manière d'un LLM classique -- peuvent atteindre une exécution en temps réel sur des robots physiques. La méthode repose sur deux leviers combinés : l'ajustement de l'horizon de tokenisation (la granularité temporelle des séquences d'actions encodées) et le décodage contraint (constrained decoding), qui impose des bornes de latence strictes à chaque inférence. En rendant l'inférence asynchrone, le système garantit des trajectoires d'action fluides tout en maintenant une réactivité suffisante pour absorber les perturbations de l'environnement. Les auteurs montrent, sur des benchmarks simulés et en conditions réelles, que la politique autoregressive surpasse systématiquement son équivalent basé sur le flow-matching (variante des politiques de diffusion) tout en atteignant des vitesses de complétion de tâche nettement supérieures à celles obtenues en inférence synchrone. Le multi-trajectory decoding -- rendu possible par les garanties de latence -- permet en outre d'explorer plusieurs trajectoires candidates en parallèle pour maximiser la performance. Ce résultat est significatif car il remet en cause une hypothèse dominante dans la robotique d'apprentissage : celle selon laquelle les politiques de diffusion seraient structurellement mieux adaptées à l'exécution temps réel en raison de leur parallélisme d'échantillonnage. Les modèles VLA (Vision-Language-Action) autoregressifs, qui traitent séquentiellement pixels, instructions textuelles et commandes moteur dans un même réseau, souffraient d'un goulot d'étranglement de latence jugé rédhibitoire pour le déploiement sur robots industriels ou humanoïdes. Cette publication suggère que ce surcoût peut être absorbé par architecture -- sans sacrifier la performance ni la généralisation aux instructions. Pour un intégrateur ou un COO industriel évaluant des briques VLA, le message est pratique : les modèles autoregressifs offrent également une convergence plus rapide à l'entraînement et une meilleure généralisation aux nouvelles instructions, deux propriétés critiques pour les déploiements à petits volumes de données. Sur le plan du contexte, le débat autoregressif contre diffusion structure la recherche en politiques robotiques depuis la publication des diffusion policies (Chi et al., 2023), rapidement adoptées par des projets comme pi-0 de Physical Intelligence ou ACT. Les modèles VLA à architecture autoregressive, dont OpenVLA ou les variantes de GR00T N2 (NVIDIA), peinent en revanche à s'imposer en déploiement temps réel faute de latence acceptable. Ce preprint, qui n'est pas encore évalué par les pairs, repositionne cette famille comme compétitive pour l'exécution physique, à condition d'intégrer les deux mécanismes proposés dès la conception du pipeline d'inférence. Les prochaines étapes naturelles seront la validation sur des robots industriels à haute fréquence de contrôle (au-dessus de 50 Hz) et l'ouverture éventuelle du code.

💬 Le verrou de latence des VLA autoregressifs, c'était le seul argument solide qui restait pour privilégier les politiques de diffusion en robotique physique. Avec le décodage contraint plus l'ajustement de l'horizon de tokenisation, ils montrent que ce goulot était architectural, pas structurel. Bon, c'est encore un preprint, reste à voir si ça tient au-dessus de 50 Hz sur du vrai acier.

IA physiqueOpinion
1 source
EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots
166arXiv cs.RO 

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

EgoEngine, un framework décrit dans un preprint arXiv de juin 2026 (arXiv:2606.12604), automatise la transformation de vidéos humaines en vue égocentrique en données d'entraînement exploitables par des robots manipulateurs. Le système prend en entrée une vidéo RGB et produit deux sorties : une séquence où les mains humaines sont remplacées par un effecteur robotique tout en conservant le contexte de la scène et l'alignement temporel, et une trajectoire d'action exécutable sous contraintes de faisabilité cinématique. Le pipeline attaque deux verrous documentés dans la littérature : le visual gap (différence d'apparence entre humain et robot en manipulation) et l'action gap (incommensurabilité entre gestes humains et commandes articulaires d'un bras robotique). Les auteurs rapportent des résultats en simulation et sur robots réels, et affirment, avec la précaution habituelle "à leur connaissance", une première en apprentissage visuomoteur dextère en zero-shot depuis des vidéos égocentriques humaines, sans aucune démonstration préalable sur robot réel. Collecter des démonstrations robotiques à grande échelle pour la manipulation dextère reste l'un des principaux goulots d'étranglement du secteur, en coût et en temps opérateur. Un pipeline capable de valoriser des corpus vidéo égocentriques existants (EPIC-Kitchens, HOI4D, captations industrielles) sans robot disponible au moment de la collecte représenterait un raccourci significatif pour intégrateurs et équipes R&D. La revendication zero-shot est néanmoins à pondérer : les performances en manipulation dextère restent très sensibles à la fidélité du retargeting visuel et des trajectoires synthétisées, et les démonstrations sur robot réel dans les preprints de ce type sélectionnent rarement des scénarios représentatifs de la variabilité terrain. Ce travail s'inscrit dans un champ concurrentiel où NVIDIA (GR00T N2), Physical Intelligence (pi-0) et HuggingFace (Lerobot) développent chacun leurs stratégies de scalabilité des données robotiques. EgoEngine se positionne spécifiquement sur la manipulation dextère fine (doigts, pas seulement le poignet), segment où la sim-to-real gap est la plus difficile à combler et où aucun standard industriel de collecte n'existe encore. En tant que preprint non peer-reviewed, la prochaine étape critique sera une validation sur benchmarks standardisés comme DROID ou Open X-Embodiment pour confirmer la généralisation à des embodiments et tâches diversifiés.

IA physiquePaper
1 source
EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots
167arXiv cs.RO 

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

Une équipe de chercheurs a publié EmbodiSteer, un cadre d'inférence sans réentraînement conçu pour déployer des politiques visuomotrices généralistes sur des robots arbitraires sans adaptation préalable. Le problème qu'il résout est structurel : l'apprentissage par imitation à grande échelle (imitation learning) s'appuie aujourd'hui sur des données hétérogènes collectées sur des robots différents, ce qui pousse les architectures modernes à raisonner dans l'espace cartésien de l'effecteur terminal, un espace agnostique au corps. Cette abstraction est utile pour la généralisation, mais elle rend les politiques aveugles aux contraintes cinématiques propres à chaque robot, notamment la détection de collision avec le propre corps de la machine. EmbodiSteer corrige ce défaut au moment de l'inférence : il projette chaque pas de débruitagede diffusion depuis l'espace cartésien vers l'espace articulaire du robot cible via la cinématique directe et des mises à jour jacobiennes, puis applique un guidage de trajectoire tenant compte des collisions corps entier avant de rebasculer en cartésien pour l'étape suivante. Sur neuf robots simulés, le taux de collision chute de 46,1 % et le taux de succès augmente de 28,5 % par rapport à une exécution purement cartésienne. Sur deux robots physiques dans des scénarios très contraints, les gains montent respectivement à 90,0 % et 36,7 %. L'intérêt industriel de ce résultat réside dans ce qu'il évite : un réentraînement complet du modèle à chaque changement de plateforme matérielle. Pour un intégrateur qui déploie une politique généraliste (type pi-0, GR00T N2, ou toute VLA diffusion-based) sur plusieurs variantes d'un bras industriel, EmbodiSteer représente une couche d'adaptation plug-and-play à l'inférence, sans toucher aux poids. C'est une réponse directe au "sim-to-real gap" qui frappe les politiques cartésiennes lorsqu'elles rencontrent des obstacles inattendus dans le référentiel articulaire du robot réel. La méthode valide aussi une hypothèse importante : les politiques diffusion en espace cartésien ne sont pas intrinsèquement fragiles, elles manquent simplement d'un pont vers la géométrie du corps déployé, un pont que l'on peut construire sans données supplémentaires. EmbodiSteer s'inscrit dans un mouvement plus large vers les politiques universelles (cross-embodiment), dont les représentants notables incluent pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les travaux du Columbia Robotics Lab sur les transformers multi-robot. La plupart de ces architectures partagent le même talon d'Achille cartésien qu'EmbodiSteer cible. Le papier, déposé sur arXiv (2606.12965) en juin 2026, ne mentionne pas de partenaire industriel ni de calendrier de commercialisation : il s'agit d'une contribution académique, sans produit shipé ni déploiement annoncé. Le code et la page projet sont publics, ce qui facilite l'expérimentation par des tiers. La prochaine étape logique serait de tester le cadre sur des robots à configuration non standard, comme des bras à redondance élevée ou des humanoïdes complets, où le guidage jacobien pose des défis d'ambiguïté cinématique plus sérieux.

UELes intégrateurs robotiques européens déployant des politiques VLA sur plusieurs plateformes matérielles pourraient adopter EmbodiSteer comme couche d'adaptation plug-and-play, mais aucun acteur FR/EU n'est impliqué dans ces travaux.

💬 Une couche d'adaptation à l'inférence sans réentraînement, ça semble anodin, mais c'est exactement ce qui manque quand tu veux déployer une politique généraliste sur plusieurs bots différents sans exploser ton budget GPU. Les chiffres de simulation, je les prends avec des pincettes, mais 90% de réduction de collisions sur robot physique en conditions contraintes, c'est pas du flan. Le code est public, donc si t'es intégrateur robotique, t'as déjà ta prochaine expérimentation du vendredi.

IA physiqueOpinion
1 source
DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé
168arXiv cs.RO 

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Une équipe du groupe Intuitive Robots publie DAM-VLA (Decoupled Asynchronous Multimodal Vision-Language-Action), un modèle VLA déposé sur arXiv le 11 juin 2026 (2606.12105) qui remet en cause le paradigme d'horloge synchrone des architectures VLA actuelles. Le problème identifié est structurel : les modèles vision-langage-action héritent d'un préentraînement où toutes les modalités partagent la même fréquence de traitement. Or en manipulation physique, les capteurs proprioceptifs opèrent à plusieurs centaines de hertz, la vision évolue bien plus lentement, et les instructions langagières restent constantes sur l'ensemble d'un épisode. Oversampler la vision et sous-échantillonner la proprioception plafonne la qualité du contrôle. DAM-VLA maintient des tampons latents par modalité, chacun rafraîchi à la fréquence de son propre capteur et consulté en continu par la tête d'action via gated cross-attention, sans modifier le backbone préentraîné. Sur sept tâches de manipulation en contact réel (contact-rich), le modèle atteint 95,2 % de succès contre 40,95 % pour la meilleure baseline synchrone, tout en assurant un contrôle fluide à 100 Hz. Ce doublement du taux de succès sur des tâches contact-rich est un résultat conséquent. Il suggère que le sim-to-real gap dans les VLA est aussi un problème de temporalité : rater des transitions haptiques critiques lors d'une insertion ou d'un vissage dégrade le contrôle plus que la généralisation visuelle. Pour un intégrateur industriel, 100 Hz en sortie d'action passe le seuil minimal pour des tâches de précision en cellule automatisée. L'architecture ne modifiant pas le backbone, elle préserve la réutilisabilité des poids préentraînés, ce qui réduit le coût d'adoption pour les équipes déjà investies sur des bases VLA existantes. Les VLA déployés en production récente, Pi-0 de Physical Intelligence, OpenVLA et Octo, ainsi que les approches commerciales de Figure AI (Figure 03) ou NVIDIA (GR00T N2), opèrent sur le paradigme synchrone. DAM-VLA propose une troisième voie entre la boucle unifiée et le découpage hiérarchique dual-system. Quelques réserves s'imposent : il s'agit d'un preprint sans revue par les pairs confirmée, les sept tâches évaluées restent de portée laboratoire, et aucun déploiement industriel ni partenariat commercial n'est annoncé. Les étapes critiques, validation sur manipulateurs bi-bras et intégration de capteurs force-couple haute fréquence comme modalité principale, restent à démontrer hors contexte académique.

IA physiqueOpinion
1 source
La robotique ne connaîtra pas de moment Llama bien défini
169Robotics Business Review 

La robotique ne connaîtra pas de moment Llama bien défini

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome. La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service. Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

UEWayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

IA physiqueOpinion
1 source
Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA
170arXiv cs.RO 

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

Une équipe de chercheurs a publié en juin 2026 sur arXiv (arXiv:2606.10366) une étude systématique visant à quantifier et améliorer la corrélation entre évaluation en simulation et déploiement réel pour les politiques de type VLA (Vision-Language-Action). Ces politiques, qui combinent perception visuelle, compréhension du langage naturel et génération d'actions motrices, sont au coeur des robots généralistes actuels. L'étude couvre plusieurs plateformes de simulation, plusieurs politiques VLA, plusieurs familles de tâches manipulatoires, et plusieurs facteurs de perturbation contrôlés. Les métriques retenues sont la cohérence du classement des politiques entre simulation et réel, la corrélation de performance absolue, et les patterns d'échec induits par perturbation. Les auteurs examinent également à quel moment le fine-tuning d'une politique sur données simulées améliore réellement les performances en monde réel, et comment le volume de données post-entraînement influence cet alignement. Ce travail s'attaque à un verrou identifié de longue date dans la robotique apprise : les benchmarks en simulation, malgré des progrès significatifs en réalisme et diversité ces deux dernières années, ne sont pas encore adoptés comme proxies fiables pour l'évaluation hors-lab. En pratique, cela signifie que les équipes d'intégration et les labs reproduisent des évaluations coûteuses en monde réel à chaque itération de politique, faute de pouvoir faire confiance aux scores simulés. L'étude identifie quels signaux simulés restent alignés avec le déploiement réel et lesquels divergent, donnant aux praticiens une grille de lecture concrète pour calibrer leur utilisation de la simulation dans le pipeline de développement. Le problème du sim-to-real gap accompagne la robotique apprise depuis les travaux fondateurs sur le domain randomization (OpenAI, 2017-2019), mais il devient critique à mesure que les VLA cherchent à passer à l'échelle industrielle. Des acteurs comme Physical Intelligence (Pi-0), Google DeepMind (RT-X, GR00T N2 côté Nvidia), ou encore Figure AI avec Figure 03 s'appuient tous sur des pipelines simulation-réel pour accélérer l'entraînement. En proposant un cadre unifié pour mesurer, interpréter et améliorer l'utilité de la simulation pour les VLA, ce papier vise à fournir une référence méthodologique commune, à la fois pour les concepteurs de simulateurs et pour les praticiens. Les prochaines étapes logiques incluent l'intégration de ces recommandations dans des benchmarks publics existants tels que RoboVerse ou LIBERO.

UEImpact indirect : ce cadre méthodologique pourrait réduire les coûts d'évaluation réelle répétée pour les équipes R&D européennes travaillant sur des politiques VLA.

RechercheOpinion
1 source
Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation
171arXiv cs.RO 

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

Une équipe de recherche présente Efficient-WAM, un World-Action Model (WAM) d'un milliard de paramètres conçu pour la manipulation robotique en temps réel, dont les résultats sont publiés sur arXiv (2606.10040) en juin 2026. Les WAMs constituent une classe de modèles qui couplent la prédiction visuelle du futur avec la génération d'actions motrices : le robot "imagine" ce que va ressembler la scène dans quelques instants avant de décider quoi faire. Efficient-WAM ramène la latence d'inférence à environ 100 ms par chunk lors du déploiement physique, soit un gain de 30x par rapport aux WAMs existants. Pour y parvenir, trois leviers techniques sont combinés : un expert vidéo compact distillé depuis WAN-2.2-5B (modèle de génération vidéo à 5 milliards de paramètres), des représentations vidéo token-sparse, et un débruitage asymétrique qui alloue moins d'étapes d'échantillonnage à la branche vidéo qu'à la branche action. Les évaluations portent sur le benchmark RoboTwin 2.0 et des tâches de manipulation en conditions réelles. Le résultat central est contre-intuitif : Efficient-WAM maintient des performances d'action compétitives même si ses prédictions visuelles sont visiblement grossières, ce qui invalide l'hypothèse implicite que la fidélité photorealiste de l'imagination future est nécessaire au contrôle. Pour un intégrateur ou un responsable robotique, cela signifie que le goulot d'étranglement computationnel des WAMs n'est pas une fatalité architecturale mais un problème de design résolu ici par une re-priorisation : la vidéo future n'est plus un objectif visuel mais un signal de guidage compact pour la génération d'actions. À 100 ms par chunk, le modèle entre dans la fenêtre de faisabilité pour des boucles de contrôle sur manipulateurs industriels ou cobots, là où les WAMs précédents restaient confinés à la démonstration labo. Les WAMs s'inscrivent dans une compétition dense avec les Vision-Language-Action models (VLAs) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, qui traitent directement la génération d'actions sans passer par la prédiction vidéo explicite. L'argument des WAMs est que l'imagination du futur améliore la robustesse en dehors de la distribution d'entraînement, mais leur coût computationnel a jusqu'ici limité leur adoption. Efficient-WAM rééquilibre ce trade-off. La distillation depuis WAN-2.2-5B, un modèle de génération vidéo généraliste, suggère une stratégie de transfer learning inter-domaine qui pourrait s'étendre à d'autres architectures. Les prochaines étapes naturelles sont l'évaluation sur des plateformes humanoïdes complètes et des déploiements en environnements semi-structurés, deux dimensions absentes de ce papier.

IA physiqueActu
1 source
TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense
172arXiv cs.RO 

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Des chercheurs ont publié sur arXiv (référence 2606.11184) TacForeSight, un framework léger d'anticipation tactile guidée par la force pour la manipulation en contact riche. Le système repose sur deux composants : TacForceWM, un modèle du monde tactile qui prédit les dynamiques latentes tactiles à court horizon à partir de capteurs bi-doigts conditionnés par les signaux de force et de couple au poignet à haute fréquence, et une politique conditionnée par l'anticipation tactile (Predictive Tactile-Conditioned Policy) qui exploite ces prédictions comme priors de contact, modélise l'évolution tactile courante-vers-future via cross-attention, et fusionne les features visuo-tactiles via un module de gating adaptatif. Les expériences portent sur cinq tâches représentatives de manipulation sur robot réel et trois scénarios de perturbation en cours de manipulation, avec des résultats supérieurs aux baselines existantes dans tous les cas, notamment sous perturbations de contact dynamiques. Le code et les datasets seront mis à disposition publiquement sur tacforesight.github.io. L'apport technique central est de modéliser explicitement les rôles asymétriques de la force globale au poignet (basse résolution spatiale, haute fréquence) et du toucher local bi-doigts (haute résolution spatiale, dynamique plus lente), distinction que la plupart des méthodes d'imitation learning actuelles ignorent. En opérant entièrement dans un espace latent compact, le framework permet un raisonnement de contact proactif compatible avec le contrôle haute fréquence, là où les approches réactives échouent sous perturbations imprévues. Pour les intégrateurs industriels et les équipes travaillant sur l'assemblage ou le conditionnement robotisé, c'est une démonstration concrète que la fusion force+tactile dans un world model améliore la robustesse réelle sans alourdir l'inférence en temps réel. Ce travail s'inscrit dans une vague de recherche combinant world models et retour tactile pour la manipulation dextre, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur GR00T N2 de NVIDIA qui intègrent également des politiques tactile-aware. Aucun concurrent français ou européen direct n'est identifié sur ce créneau précis, bien que des acteurs comme Pollen Robotics ou Enchanted Tools s'appuient aussi sur la manipulation fine. Il s'agit ici d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenaire annoncé : les résultats, bien que prometteurs sur cinq tâches de laboratoire, devront être reproduits sur des géométries et conditions de contact plus variées avant de valider la généralisation à l'échelle industrielle.

UEImpact indirect : le code open-source prévu sur tacforesight.github.io pourrait être exploité par des équipes européennes travaillant sur la manipulation fine, comme Pollen Robotics ou les labos CEA-List, mais aucun acteur FR/EU n'est impliqué dans ce travail.

RecherchePaper
1 source
C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences
173arXiv cs.RO 

C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences

Des chercheurs ont publié sur arXiv en juin 2026 (référence 2606.08962) une méthode d'accélération appelée C³ache (Cross Inference Chunk Cache), ciblant les World Action Models (WAM), une classe de modèles robotiques qui génèrent des politiques d'action en modélisant la vidéo plutôt qu'en s'appuyant uniquement sur des démonstrations étiquetées. Contrairement aux politiques VLA (Vision-Language-Action) classiques, les WAM s'entraînent sur de la vidéo non labellisée abondante, ce qui améliore leur généralisation à de nouveaux mouvements et environnements, mais au prix d'un coût d'inférence élevé. Pour exécuter une tâche, un WAM enchaîne plusieurs blocs d'inférence successifs (chunks), chacun nécessitant un processus de débruitage coûteux. Les méthodes existantes réduisent ce coût en mettant en cache les calculs au sein d'un même chunk, mais ignorent une source de redondance plus large : la forte corrélation entre les résidus calculés à un même step de débruitage, d'un chunk au suivant, lorsque le robot exécute un comportement fluide. C³ache exploite cette corrélation en réutilisant ces résidus entre chunks consécutifs, sans aucun réentraînement du modèle. Les expériences sur benchmarks avec un backbone Fast-WAM montrent un gain allant jusqu'à 2,5× sur le temps d'inférence total mesuré en wall-clock, avec une dégradation négligeable du taux de succès aux tâches. Ce résultat a une portée concrète pour les équipes cherchant à déployer des robots autonomes à coût raisonnable. Le principal frein à l'adoption industrielle des WAM n'est pas la qualité des politiques générées, mais leur latence d'inférence : réduire ce coût par 2,5× sans modifier les poids du modèle constitue un levier de déploiement immédiat, sans pipeline de réentraînement ni risque de régression. La méthode valide aussi une hypothèse structurelle utile : les trajectoires robotiques lisses produisent des représentations internes stables d'un pas à l'autre, ce qui ouvre la voie à des stratégies de cache plus agressives au niveau système. Pour les intégrateurs et les équipes MLOps, C³ache se présente comme un composant directement intégrable à tout modèle WAM existant. Les WAM s'inscrivent dans une tendance initiée par des modèles comme pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, qui exploitent tous deux un objectif de génération vidéo pour apprendre à partir de données non étiquetées. La course à la réduction des coûts d'inférence pour ces architectures est intense : Google, Physical Intelligence et plusieurs laboratoires académiques explorent en parallèle la distillation, la quantification et le cache intra-chunk. C³ache se positionne comme une solution orthogonale et combinable avec ces approches. Les auteurs soulignent toutefois une limite importante : la corrélation inter-chunks supposée ne tient que pour des comportements robotiques fluides, et des mouvements brusques ou des transitions rapides pourraient dégrader les performances. Il s'agit pour l'instant d'un preprint non relu par les pairs, et les évaluations restent confinées à des benchmarks simulés ; les prochaines étapes naturelles incluent la validation sur robots physiques et l'intégration dans des pipelines embarqués à contraintes de latence strictes.

IA physiqueActu
1 source
ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives
174arXiv cs.RO 

ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives

Des chercheurs ont publié ActProbe (arXiv:2606.08508), un détecteur de défaillances léger pour les politiques robotiques génératives, ces systèmes qui produisent des séquences d'actions continues comme les politiques de diffusion ou les architectures ACT déployées sur des robots tels que Figure 03 ou entraînés avec pi-0. Plutôt que d'accéder aux états internes du modèle ou d'introduire un rééchantillonnage coûteux à l'exécution, ActProbe opère exclusivement sur les chunks d'actions émis lors d'un seul passage avant (forward pass). Deux signaux suffisent : l'erreur de cohérence temporelle (TCE), qui mesure l'incohérence entre deux chunks consécutifs, et l'amplitude du chunk courant (ACM). Ces métriques alimentent une architecture LSTM-MLP légère conditionnée par la tâche, produisant une probabilité de défaillance par étape. Sur un ensemble diversifié de benchmarks, ActProbe améliore le front de Pareto précision (F1)/précocité d'un gain en hypervolume de +12,7 % par rapport aux méthodes existantes, et affiche un avantage de +9,0 % en ROC-AUC sur des tâches non vues à l'entraînement. L'intérêt opérationnel tient à une contrainte réelle : les politiques commerciales comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ne donnent pas accès à leurs états internes. Un détecteur purement black-box est donc la seule option viable en déploiement industriel. ActProbe émet ses alertes avant que la défaillance ne soit visuellement reconnaissable, ce qui est critique pour interrompre une action irréversible avant qu'elle ne soit engagée. Côté fine-tuning par renforcement (PPO), le système réduit de 2,9 fois le nombre d'interactions nécessaires avec l'environnement, un gain direct lorsque chaque interaction implique un robot physique. Le transfert sur des tâches de saisie réelles non vues lors de l'entraînement valide la généralisation hors simulateur. ActProbe s'inscrit dans les travaux ciblant le fossé entre démonstration en laboratoire et déploiement à l'échelle, l'obstacle central à la commercialisation des robots généralistes depuis 2023. Les approches concurrentes, qu'elles reposent sur le monitoring d'incertitude interne ou sur des signaux côté observation, souffrent d'un manque d'accès aux internals ou d'une latence incompatible avec le temps réel. La prochaine étape logique serait l'intégration dans des boucles de contrôle réactives pour robots humanoïdes industriels, terrain où Figure AI, Apptronik et Agility Robotics accélèrent leurs déploiements en entrepôt en 2026. ActProbe reste à ce stade une publication académique préliminaire, sans produit ni partenariat industriel annoncé.

RechercheOpinion
1 source
Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel
175arXiv cs.RO 

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

Des chercheurs présentent dans un preprint arXiv (2606.08666, juin 2026) un système permettant aux robots de traiter les descriptions spatiales en langage naturel comme un signal capteur à part entière. Le coeur de la contribution est le Language Sensor Model (LSM), qui convertit chaque énoncé ("j'ai laissé mon sac à dos sur la table") et son graphe de scène en une distribution de probabilités 3D multimodale. Cette distribution encode simultanément l'ambiguïté référentielle ("quelle table parmi plusieurs") via des poids de mélange, et l'incertitude spatiale ("où exactement sur la table") via des covariances par composante. Le LSM s'intègre dans VL-Map (Vision-Language Metric-Semantic Mapping), un framework probabiliste qui fusionne ces prédictions linguistiques avec la perception embarquée dans une carte de croyance unifiée. Évalué sur le benchmark VLA-3D et sur un robot mobile réel, le LSM est le seul prédicteur dont les estimations de covariance restent dans le régime calibré, et produit environ 70 % de masse de probabilité supplémentaire sur la cible correcte par rapport au meilleur modèle de fondation testé. L'enjeu pour les intégrateurs est direct : les robots déployés en environnement humain (logistique, soins, assistance) reçoivent constamment des instructions verbales qui référencent des objets hors de leur champ perceptif. La cartographie métrique-sémantique classique ignore ce canal d'information ; les grands modèles multimodaux généralistes ne produisent pas d'estimations calibrées fusionnables dans un filtre bayésien. La calibration est un point critique souvent sous-estimé : un modèle non calibré surestime ou sous-estime sa confiance, rendant la fusion de capteurs instable et potentiellement dangereuse. Ce travail démontre que le langage peut jouer le rôle d'un vrai capteur réducteur d'incertitude, ce qui modifie le calcul architectural pour tout système de navigation ou manipulation en milieu non structuré. La contribution s'inscrit dans la lignée de la cartographie visuosémantique 3D (ConceptFusion, LERF, OpenScene), qui ancre des embeddings visuolinguistiques dans des représentations de scènes mais demeure passive vis-à-vis du langage conversationnel. Les approches VLA actuelles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA traitent le langage comme déclencheur d'actions, sans produire de distribution spatiale exploitable par un planificateur externe. Ce système s'y positionne orthogonalement : non pas un planificateur ni un annotateur, mais un capteur probabiliste intégrable à un pipeline SLAM existant. Les expériences décrites restent à un stade exploratoire, sans partenaire industriel ni calendrier de déploiement annoncés dans la publication.

RecherchePaper
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
176arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA
177arXiv cs.RO 

Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA

Des chercheurs ont entraîné des Sparse Autoencoders (SAE) sur les activations de couches cachées de modèles Vision-Language-Action (VLA) pour sonder mécanistiquement leurs représentations internes. Les SAE apprennent des dictionnaires épars sur ces activations, révélant des directions interprétables dans l'espace de représentation du modèle. L'équipe a identifié des features correspondant à des primitives de mouvement et à des concepts sémantiques, subdivisées selon une métrique proposée en deux catégories : les primitives générales transférables entre tâches, et les mémorisations épisodiques propres à un contexte particulier. Ces features se révèlent causalement pilotables : amplifier une feature générale induit des comportements cohérents avec sa sémantique, tandis que l'ablater dégrade significativement les performances du modèle. Les expériences ont été conduites sur le benchmark de simulation LIBERO et sur du matériel réel DROID, ce qui distingue ce travail de nombreuses contributions purement synthétiques. L'enjeu central est de comprendre quand et pourquoi un VLA généralise à de nouveaux objets, scènes ou instructions, une question que les benchmarks de performance bruts ne permettent pas de trancher. La distinction primitives-générales/mémorisations-épisodiques fournit aux développeurs un outil diagnostique pour évaluer ce qu'un modèle a réellement internalisé après entraînement, plutôt que de se fier à des métriques de réussite de tâche. Plus significatif encore, le steering par SAE ouvre une voie de contrôle orthogonale au prompting textuel : le robot peut être guidé dans des directions comportementales impossibles à exprimer via des instructions en langage naturel, sans réentraînement du modèle. Ce travail s'inscrit dans la continuité des recherches en interprétabilité mécanistique qui ont d'abord ciblé les grands modèles de langage, notamment les travaux publiés par Anthropic sur les SAE appliqués aux LLM, et tente de transposer cette méthodologie aux modèles agissants multimodaux. Les VLA dominent aujourd'hui la manipulation robotique généraliste, qu'il s'agisse de Pi-0 (Physical Intelligence), d'OpenVLA (UC Berkeley), de GR00T N2 (NVIDIA) ou des architectures de Google DeepMind, et tous font face au même déficit d'interprétabilité interne. La validation sur DROID, benchmark réel à forte diversité de scènes et de manipulations, renforce la portée des résultats au-delà du sim-to-real classique. Les suites naturelles incluent l'intégration de ces outils dans des pipelines de fine-tuning ciblé ou de sélection de données d'entraînement, voire dans des systèmes de supervision comportementale en production.

RechercheOpinion
1 source
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
178arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source
IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique
179arXiv cs.RO 

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Une équipe de chercheurs publie sur arXiv (identifiant 2606.05660, juin 2026) une revue systématique de la sécurité dans les systèmes d'IA incarnée (embodied AI) appliqués à la manipulation robotique à long horizon. Ce survey structure la littérature selon trois niveaux d'intervention : la sécurité au stade de la planification (planning-time), au niveau de la politique de contrôle (policy-time) et pendant l'exécution (execution-time). Les auteurs identifient quatre vecteurs de risque pouvant s'accumuler dans un même système en boucle fermée : le misgrounding sémantique (l'agent interprète mal l'instruction de haut niveau), la propagation d'erreur entre sous-tâches, la dérive d'exécution (execution drift) et les risques physiques liés aux contacts. Ils distinguent par ailleurs trois catégories de garanties dans la littérature existante : formelles, statistiques et heuristiques empiriques, et concluent que les preuves formelles font défaut à chaque couche. L'enjeu est direct pour les intégrateurs et les décideurs industriels. Un bras robotique déployé en entrepôt ou en ligne de production enchaîne des dizaines d'actions sur des horizons temporels étendus, et chaque sous-tâche peut propager silencieusement une erreur vers les suivantes. Or le survey révèle que la sécurité au niveau de la politique de contrôle, au coeur même des modèles VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est la couche la moins documentée empiriquement. Les mécanismes d'intervention déclenchés par l'incertitude (uncertainty-triggered intervention) restent immatures, et les benchmarks spécifiques à la sécurité en manipulation longue durée sont quasi-inexistants, ce qui rend toute validation rigoureuse avant déploiement aujourd'hui difficile. Ce travail paraît dans un contexte d'accélération industrielle : Figure AI, Boston Dynamics, Unitree et Physical Intelligence multiplient les démonstrations de manipulation dextère, souvent en conditions semi-contrôlées, alimentant un écart potentiel entre annonces marketing et réalité opérationnelle. Il convient de souligner que ce papier est une analyse critique de l'existant, pas un nouveau système ou algorithme. Ses recommandations prioritaires portent sur trois axes : des assurances cross-couche cohérentes de la planification jusqu'à l'exécution physique, des benchmarks dédiés à la sécurité en manipulation longue durée, et des protocoles de déploiement progressifs pour les agents robotiques en environnements réels. En creux, le constat est que les capacités du secteur progressent plus vite que les outils pour en évaluer la sécurité.

UEL'absence de benchmarks formels de sécurité pour la manipulation longue durée concerne directement les industriels européens déployant des bras robotisés, et pourrait alimenter les exigences de validation dans le cadre de l'AI Act pour les systèmes robotiques à haut risque.

RecherchePaper
1 source
OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples
180arXiv cs.RO 

OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples

Des chercheurs ont publié OSCAR (Omni-Embodiment Skeleton-Conditioned World Action Model), un modèle de monde vidéo conditionné par les actions, capable de généraliser à travers différentes morphologies de robots. Décrit dans un preprint arXiv (2606.04463), le système s'appuie sur deux éléments centraux : un pipeline de données à grande échelle qui agrège, filtre et déduplique des jeux de données robotiques et des séquences vidéo égocentrées humaines pour couvrir des tâches, scénarios et morphologies variés ; et un conditionnement par rendu de squelette cinématique 2D, représentation unifiée fonctionnant aussi bien pour des bras robotiques de morphologies différentes que pour des mains humaines. Le modèle de base Cosmos-Predict2.5-2B de NVIDIA a été fine-tuné sur un seul GPU GH200. OSCAR a ensuite été déployé pour évaluer des politiques de contrôle issues de RoboArena, plateforme de benchmark communautaire, et démontre une corrélation significative entre évaluations virtuelles et tests en conditions réelles. L'enjeu central est le sim-to-real gap dans l'évaluation des policies : les environnements de simulation classiques reproduisent mal la physique réelle, rendant les benchmarks peu prédictifs du comportement sur robot physique. OSCAR propose une alternative directe, générer des vidéos conditionnées par les trajectoires d'actions pour simuler l'exécution d'une politique sans déploiement matériel. Si la corrélation annoncée se confirme à plus grande échelle, cela réduirait significativement les coûts et les cycles d'itération pour les équipes développant des VLA (Vision-Language-Action models). La représentation par squelette 2D est également notable : en évitant une spécialisation par embodiment, elle adresse un blocage récurrent de la généralisation multi-robot. Le fine-tuning sur GPU unique, contre des baselines nécessitant des modèles plus grands ou davantage de ressources de calcul, améliore l'accessibilité de l'approche. Les video world models appliqués à la robotique constituent un domaine en forte compétition : UniSim, RoboDreamer et le World Model de 1X Technologies ont chacun tenté d'adresser la simulation vidéo pour l'entraînement ou l'évaluation de robots, avec des résultats limités en diversité de scénarios ou en généralisation inter-embodiment. Le recours au modèle Cosmos de NVIDIA comme base pré-entraînée positionne OSCAR dans l'écosystème robotique croissant de NVIDIA, qui comprend Isaac Lab et GR00T. Les auteurs ouvrent explicitement la perspective d'une évaluation purement virtuelle des politiques robots, une proposition qui intéresse directement les intégrateurs cherchant à réduire les cycles de test hardware. Les étapes naturelles seraient la validation sur des morphologies plus variées, des tâches de manipulation complexes, et un passage à l'échelle vers des configurations multi-GPU.

RechercheOpinion
1 source
Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés
181arXiv cs.RO 

Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés

Un preprint arXiv (identifiant 2606.04046, publié début juin 2026) présente SceneDiver, une méthode visant à réduire les hallucinations visuelles dans les modèles de vision-langage (VLM) et les modèles vision-langage-action (VLA) appliqués à la manipulation robotique et à la navigation incarnée. Le problème central : ces modèles peinent à distinguer les objets pertinents pour la tâche des distracteurs environnants, ce qui dégrade leurs décisions dans des scènes encombrées. SceneDiver adopte une approche grossière-à-fine en deux temps : construction d'abord d'un graphe de scène global pour saisir l'environnement dans sa totalité, puis décomposition itérative de la tâche en sous-problèmes via un cycle reconnaissance-compréhension-analyse. Pour les VLA, qui opèrent en contrôle réactif à faible latence, un adaptateur léger (lightweight adapter) distille cette capacité de focalisation sans pénaliser les temps d'inférence. Les auteurs rapportent une réduction substantielle des hallucinations sur les benchmarks standards d'IA incarnée, et publient le code en open source. Ce travail pointe un blocage fondamental pour le déploiement industriel des VLA : même des modèles performants en planification ou en contrôle moteur échouent face à des scènes encombrées parce qu'ils focalisent sur les mauvais objets. La solution naïve, pointer directement sur l'objet critique en une seule étape, s'avère insuffisante selon les auteurs, car identifier quoi regarder requiert d'abord une compréhension globale de la scène. Pour les intégrateurs, l'adaptateur léger proposé offre une voie d'amélioration de la robustesse sans nécessiter de ré-entraîner le modèle de base, ce qui constitue un argument pratique non négligeable. Ce goulot d'étranglement perceptuel est un sujet de recherche actif depuis que des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) ont commencé à être déployés hors laboratoire. Ces modèles restent fragiles face à la variabilité des environnements réels, ce que le secteur désigne comme le "demo-to-reality gap". SceneDiver demeure une contribution académique préliminaire, non encore évaluée par les pairs, et l'absence de détails précis sur les benchmarks utilisés dans le résumé rend la comparaison directe difficile avec d'autres approches comme OpenVLA ou SpatialVLM. La mise à disposition du code en open source est toutefois un signal positif pour la reproductibilité ; une validation sur matériel réel et une intégration dans des stacks comme LeRobot de Hugging Face constitueraient les prochaines étapes naturelles.

UEL'intégration potentielle dans LeRobot (HuggingFace, France) représente un bénéfice indirect pour l'écosystème open-source robotique européen.

RechercheOpinion
1 source
NVIDIA Isaac Sim : une simulation GPU accélérée et évolutive pour la robotique
182arXiv cs.RO 

NVIDIA Isaac Sim : une simulation GPU accélérée et évolutive pour la robotique

NVIDIA Isaac Sim s'est imposé comme une infrastructure centrale dans la recherche en robotique, et une étude de synthèse publiée sur arXiv (réf. 2606.03551) en propose la première analyse systématique. Contrairement aux simulateurs classiques comme Gazebo, PyBullet ou MuJoCo, Isaac Sim exploite l'accélération GPU pour permettre un entraînement parallèle à grande échelle et une modélisation physique haute fidélité. La plateforme intègre un pipeline de génération de données synthétiques qui pallie la rareté chronique des données d'entraînement de qualité, un verrou majeur pour le robot learning. Les auteurs analysent des études représentatives dans cinq grands domaines d'application et documentent les patterns d'usage dominants, notamment la génération de données et la simulation haute fidélité, sans se limiter à une liste de fonctionnalités marketing. L'enjeu industriel est significatif : la capacité à générer des données synthétiques crédibles et à entraîner des politiques en simulation massivement parallèle est aujourd'hui au coeur du débat sur le sim-to-real transfer. Pour les intégrateurs et les équipes R&D, une plateforme qui réduit le besoin de données réelles et compresse les cycles d'itération représente un avantage compétitif concret. Les auteurs pointent également les limites : la dépendance au matériel NVIDIA (GPU haut de gamme requis), des contraintes d'utilisabilité pratique, et des questions ouvertes autour de l'apprentissage en environnement ouvert (open-world learning), un domaine où aucun simulateur n'a encore apporté de réponse satisfaisante à l'échelle. Isaac Sim s'inscrit dans la stratégie plus large de NVIDIA dans la robotique, qui comprend le framework Isaac Lab, les modèles de fondation GR00T, et l'écosystème Omniverse. Face à lui, des alternatives open-source comme MuJoCo (DeepMind) ou Genesis gagnent du terrain, notamment pour leur accessibilité. L'étude identifie trois directions futures prioritaires : l'apprentissage physique en monde ouvert, les pipelines d'entraînement centrés sur la simulation, et la réduction des frictions d'adoption. Ces axes correspondent précisément aux blocages actuels pour industrialiser le déploiement de robots apprenants en dehors des labs.

UELes équipes R&D et laboratoires européens en robotique peuvent s'appuyer sur cette première analyse systématique pour arbitrer entre Isaac Sim et les alternatives open-source (MuJoCo, Genesis), notamment au regard de la dépendance au matériel NVIDIA haut de gamme.

InfrastructureOpinion
1 source
VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)
183arXiv cs.RO 

VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié VLA-Arena, un framework open-source de benchmark conçu pour évaluer les modèles Vision-Language-Action (VLA), ces politiques robotiques généralisées capables d'interpréter commandes en langage naturel et observations visuelles pour générer des actions motrices. La version 2 du preprint (arXiv 2512.22539v2) présente un protocole structuré autour de 170 tâches, organisées selon quatre dimensions orthogonales : sécurité (Safety), gestion des distracteurs (Distractor), extrapolation hors-distribution (Extrapolation) et planification longue portée (Long Horizon). Chaque tâche existe en trois niveaux de difficulté (L0 à L2), le fine-tuning étant exclusivement réalisé sur L0 afin de tester la capacité de généralisation. En parallèle, des perturbations linguistiques (W0-W4) et visuelles (V0-V4) s'appliquent indépendamment à chaque tâche, permettant une analyse découplée de la robustesse. Les auteurs publient également les datasets VLA-Arena-S/M/L ainsi qu'un leaderboard public. Les résultats de l'évaluation des VLA de l'état de l'art sont sévères et contre-intuitifs pour ceux qui suivent les démonstrations marketing du secteur. Les modèles testés exhibent une forte tendance à la mémorisation plutôt qu'à la généralisation réelle : leurs performances s'effondrent dès que la tâche sort légèrement de la distribution d'entraînement. La robustesse est asymétrique selon l'axe perturbé (visuel vs. linguistique), les contraintes de sécurité sont quasi-ignorées, et la composition de compétences pour les tâches longue portée reste hors de portée de tous les modèles testés. Pour les intégrateurs industriels et les équipes R&D qui envisagent de déployer des VLA en production, ces résultats constituent un signal d'alerte : le "sim-to-real gap" n'est pas résolu, et les capacités affichées en démo ne tiennent pas face à des conditions réelles variables. VLA-Arena arrive dans un contexte de prolifération rapide des VLA généralistes : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Google DeepMind (RT-2, Gemini Robotics) et OpenVLA font tous état de progrès importants, mais sur des benchmarks hétérogènes et souvent propriétaires, rendant toute comparaison directe impossible. L'absence d'un protocole d'évaluation standardisé est depuis longtemps identifiée comme le principal obstacle à la progression scientifique rigoureuse du domaine. VLA-Arena n'est pas encore un standard industriel adopté, mais sa publication en open-source avec toolchain complet (définition de tâche, évaluation automatisée, datasets) le positionne comme candidat sérieux. Les prochaines étapes dépendront de l'adoption par les équipes qui développent ces modèles, et d'une éventuelle intégration dans les pipelines de validation avant déploiement réel en atelier.

RechercheOpinion
1 source
De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles
184arXiv cs.RO 

De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles

Un article de synthèse publié sur arXiv (réf. 2604.04974, version 2) dresse un état de l'art structuré des méthodes permettant d'exploiter des vidéos temporelles non annotées en actions pour apprendre des interfaces de contrôle en manipulation robotique. Les auteurs ne s'appuient sur aucun label d'action : la vidéo seule, en captant comment les objets se déplacent, comment les contacts se déroulent et comment les scènes évoluent, constitue la source d'apprentissage. Le survey introduit une taxonomie centrée sur l'interface, organisée selon trois familles : les politiques vidéo-action directes, qui maintiennent l'interface implicite dans le réseau neuronal ; les méthodes à actions latentes, qui acheminent la structure temporelle via un espace intermédiaire compact appris ; et les interfaces visuelles explicites, qui prédisent des cibles interprétables (poses, waypoints, affordances) pour un contrôle aval découplé. Ce cadre de classification comble un vide méthodologique réel : la littérature traitait jusqu'ici ces trois familles de façon dispersée, sans analyser comment chacune ferme la boucle de contrôle, ce qui peut être vérifié avant exécution, et à quel stade les défaillances apparaissent. Pour les intégrateurs et les équipes R&D, cet angle est directement opérationnel : une interface latente est plus difficile à inspecter qu'une interface explicite à base de keypoints, ce qui modifie les stratégies de débogage et de déploiement. La synthèse inter-familles pointe un défi commun : la couche d'intégration robotique, les mécanismes qui relient les prédictions issues de la vidéo à un comportement robot fiable, reste le maillon faible indépendamment de la famille choisie. Ce survey s'inscrit dans une dynamique portée par les modèles VLA (Video-Language-Action) : RT-2 de Google DeepMind, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI exploitent tous, à des degrés divers, des données vidéo à grande échelle pour conditionner le contrôle moteur. Le fossé identifié dans le papier, entre prédiction vidéo et comportement physique fiable, correspond précisément au "sim-to-real gap" de cette nouvelle génération de modèles : une démonstration convaincante en vidéo ne garantit pas la robustesse en déploiement réel. Les auteurs proposent des pistes de recherche pour combler ce décalage, sans livrer de pipeline opérationnel, ce qui positionne ce travail comme une ressource de cartographie pour orienter la communauté plutôt que comme une solution clé en main.

RechercheOpinion
1 source
Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques
185arXiv cs.RO 

Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques

Des chercheurs ont publié le 2 juin 2026 sur arXiv (référence 2606.02274) un article décrivant Dexterity-BEV, un cadre méthodologique visant à corriger deux limitations structurelles des politiques de manipulation robotique basées sur des modèles de vision-langage (VLM) pré-entraînés à grande échelle. La première limitation : ces modèles héritent d'une représentation purement 2D de la vision par ordinateur, inadaptée à la nature intrinsèquement tridimensionnelle de la manipulation. La seconde : il n'existe pas d'alignement spatial cohérent entre les espaces d'entrée et de sortie des politiques, ni entre différents robots, configurations de caméras et jeux de données de trajectoires. Pour y remédier, les auteurs introduisent deux représentations inédites : l'aligned vertex map et le vertex spectrum, des cartes pixel-à-pixel qui élèvent les entrées RGB en coordonnées 3D via la calibration de caméra et la profondeur optionnelle. Ils proposent ensuite un cadre canonique Bird's-Eye-View (BEV), une vue du dessus invariante aux variations de pose de caméra, dans lequel les informations 3D de chaque vue et les actions du robot sont exprimées dans un repère commun. Un pipeline de traitement de données à grande échelle et un schéma d'alignement temporel pour des trajectoires provenant de robots hétérogènes, d'opérateurs humains et de datasets variés complètent l'approche. L'enjeu industriel est direct : les VLA (Vision-Language-Action models) de type π0, OpenVLA ou GR00T N2 souffrent précisément de ce décalage spatio-temporel quand on les déploie sur des robots différents de ceux utilisés à l'entraînement, ou avec des caméras repositionnées. Dexterity-BEV tente de combler ce gap sans abandonner la généralisation offerte par les VLM entraînés sur des données web. La vue BEV, empruntée à l'industrie automobile (perception de véhicules autonomes), est ici réinterprétée pour la manipulation, ce qui constitue un transfert conceptuel non trivial. Si les gains de généralisation annoncés se confirment à l'évaluation réelle, cela réduirait le coût de redéploiement d'une politique sur un nouveau site industriel ou une nouvelle configuration de cellule robotique, une friction majeure pour les intégrateurs. L'article s'inscrit dans une dynamique de recherche intense autour des politiques de manipulation end-to-end, portée par des laboratoires comme Physical Intelligence (π0), Google DeepMind (RT-2, GR00T), et des équipes académiques chinoises et américaines. L'approche BEV pour la robotique terrestre est par ailleurs explorée en parallèle par des groupes travaillant sur les robots mobiles et les AMR d'entrepôt. Les auteurs rendent disponibles le checkpoint pré-entraîné, le code source et le pipeline de données sur leur page projet, ce qui facilite la réplication et l'adoption par la communauté. Aucun partenariat industriel ni déploiement réel n'est mentionné : il s'agit à ce stade d'une contribution de recherche, pas d'un produit commercialisé.

RechercheOpinion
1 source
Le mensonge euclidien dans les politiques VLA, corrigé par score matching dans l'espace tangent
186arXiv cs.RO 

Le mensonge euclidien dans les politiques VLA, corrigé par score matching dans l'espace tangent

Une prépublication arXiv déposée le 2 juin 2026 (arXiv:2606.01847) identifie une erreur géométrique structurelle dans les politiques robotiques de type Vision-Language-Action (VLA) à base de diffusion, désormais l'approche dominante pour la manipulation dextère. Les auteurs nomment ce défaut l'"Euclidean Fallacy" : ces modèles représentent les poses 3D en coordonnées SE(3) comme de simples vecteurs plats dans R¹², traitant rotations et translations comme s'ils vivaient dans un espace euclidien ordinaire. Cette approximation engendre trois pathologies concrètes : une dérive de variété qui viole les contraintes SO(3) (les matrices de rotation générées ne restent plus orthogonales), une rupture d'équivariance sous changements de repère (le même objet vu depuis un angle différent produit des trajectoires incohérentes), et des trajectoires non géodésiques générant un surcoût cinématique inutile. Pour corriger cela, les chercheurs proposent le Lie Diffuser Actor (LDA), un framework de diffusion qui opère intrinsèquement sur SE(3) : le bruit est injecté via des équations différentielles stochastiques (SDE) invariantes à gauche, les scores sont prédits dans l'espace tangent, et les échantillons sont rétractés sur la variété via la carte exponentielle de Lie. Sur le benchmark CALVIN ABC→D, référence standard pour la généralisation en manipulation multi-tâches, LDA fait progresser la longueur de tâche moyenne de 3,27 à 3,51, soit un gain de 7,3%. Des expériences sur robot réel confirment que la méthode surpasse la ligne de base sur la majorité des tâches testées. L'enjeu dépasse la géométrie abstraite. Les politiques VLA, désormais au coeur des robots manipulateurs commerciaux et des travaux académiques les plus cités, souffrent d'un biais systématique qui s'aggrave dès que la diversité des poses augmente : variation de prise, rotation hors plan, scénarios multi-vue. En forçant le processus de diffusion à rester sur la variété SE(3) par construction plutôt que par régularisation post-hoc, LDA élimine la dérive sans coût d'inférence supplémentaire. L'équivariance garantie signifie concrètement qu'un intégrateur industriel peut monter une caméra dans n'importe quelle orientation sans requalifier le modèle, ce qui réduit un verrou majeur au déploiement en cellule flexible. Le gain de 7,3% sur CALVIN reste modeste en valeur absolue, mais le benchmark est conçu pour mesurer la généralisation hors distribution, ce qui lui confère plus de poids qu'une amélioration sur un jeu de test in-distribution. Ce travail s'inscrit dans la lignée des politiques de diffusion pour la robotique popularisées par Diffusion Policy (Chi et al., 2023) et intégrées ensuite dans pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, deux VLA de référence qui partagent la même représentation euclidienne incriminée. La correction géométrique proposée est orthogonale à l'architecture backbone et pourrait s'appliquer directement à ces systèmes. Côté compétiteurs académiques, des approches comme RiemannianFlow ou les travaux de Chirikjian sur la convolution sur groupes de Lie avaient posé des bases théoriques similaires, mais sans les intégrer dans un pipeline de diffusion end-to-end fonctionnel sur robot réel. L'étape suivante logique serait une validation sur des benchmarks plus exigeants (manipulation bimanuelle, tâches d'assemblage) et une intégration dans un des frameworks VLA open-source existants pour mesurer l'impact à plus grande échelle. Il s'agit pour l'instant d'une prépublication non encore soumise à révision par les pairs.

RechercheOpinion
1 source
Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA
187arXiv cs.RO 

Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA

Une équipe de chercheurs a publié début juin 2026 sur arXiv (2606.01095) un cadre diagnostique pour comparer deux grandes familles de politiques robotiques : les Vision-Language-Action (VLA) et les World-Action Models (WAM). La question posée est directe : la prédiction du futur, propre aux WAM, produit-elle des comportements réellement différents, ou n'ajoute-t-elle que du calcul superflu ? Les auteurs ont évalué sept politiques (VLA directes et WAM en configurations jointes, séquentielles et auxiliaires) sur les benchmarks LIBERO et RoboTwin2.0. Le protocole combine une analyse comportementale (cohérence des dynamiques d'action, progression vers l'objet cible, perturbations par distracteurs, coût d'inférence) et une analyse des représentations internes via des autoencodeurs épars, classifiant chaque représentation comme mémorisée, réactive ou prédictive. Les résultats contredisent l'usage courant du taux de réussite comme seul critère de comparaison : cette métrique masque des différences architecturales substantielles. Les WAM améliorent souvent le comportement au niveau objet et la sélectivité vers la cible, mais ces gains varient selon l'architecture et s'accompagnent d'un surcoût d'inférence. Les WAM séquentiels exhibent la structure prédictive la plus nette et la plus exploitable pour le contrôle. Les WAM auxiliaires compriment l'information future, les WAM joints l'enchevêtrent avec d'autres représentations, dans les deux cas, elle devient moins actionnable. Pour un intégrateur ou une équipe R&D, ce résultat est concret : un benchmark de succès seul ne suffit pas pour choisir une architecture, il faut auditer comportement et représentations internes. Les VLA, portées par Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA, ont prouvé leur robustesse croissante en sim-to-real mais restent aveugles aux états futurs de la scène. Les WAM, inspirés des architectures world-model comme Dreamer ou RSSM, visent à combler ce gap en intégrant une prédiction explicite du monde. Ce travail s'inscrit dans un courant académique cherchant à dépasser les métriques de surface : le cadre proposé est agnostique au modèle, applicable à d'autres politiques, et oriente les prochains travaux vers des architectures WAM qui préservent des représentations futures actionnables plutôt que de les noyer dans la capacité globale du réseau.

RechercheOpinion
1 source
RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA
188arXiv cs.RO 

RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA

Un article pré-publié sur arXiv (2606.02277, juin 2026) introduit RoboSemanticBench (RSB), un benchmark conçu pour tester si les modèles vision-langage-action (VLA) exploitent réellement la compréhension sémantique dans leurs prédictions de mouvement. Le protocole est délibérément simple : un robot reçoit une question à choix multiples, arithmétique ou de culture générale, observe des blocs physiques correspondant aux réponses candidates, et doit saisir le bloc associé à la bonne réponse. RSB propose deux configurations, à quatre et dix choix, couvrant l'arithmétique contrôlée, la compréhension mathématique de niveau primaire, ainsi que le raisonnement de bon sens et factuel. Les résultats obtenus sur plusieurs modèles VLA représentatifs sont sévères : si la majorité des politiques testées parviennent à saisir des blocs de manière fiable, le taux de sélection du bloc sémantiquement correct se situe, après correction du succès de préhension, à des niveaux proches du hasard, voire inférieurs. Ce résultat remet en question une hypothèse fondatrice de l'architecture VLA : l'idée que la compréhension sémantique acquise lors du pré-entraînement du backbone (modèle de langage ou vision-langage) se transfère naturellement vers la prédiction d'action. Ce que RSB révèle, c'est que le fine-tuning par imitation sur des distributions d'actions spécifiques à une tâche suffit à masquer ce transfert : les modèles apprennent des raccourcis visuels ou des associations instruction-action sans ancrer leurs gestes dans la signification réelle des instructions. Pour les intégrateurs et industriels qui déploient des systèmes VLA dans des environnements à haute variabilité sémantique (picking, tri, assemblage configurable), ce diagnostic a des implications directes : la performance en évaluation standard ne garantit pas une généralisation sémantique robuste en conditions réelles. Les modèles VLA ont connu une montée en puissance rapide depuis RT-2 (Google DeepMind, 2023), avec des successeurs comme OpenVLA, Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), tous reposant sur l'hypothèse que des backbones vision-langage pré-entraînés fournissent une compréhension du monde directement exploitable pour la manipulation robotique. RSB constitue le premier benchmark structuré autour de la dissociation entre compétence sémantique au niveau du backbone et compétence sémantique au niveau de l'action, une distinction que les évaluations classiques par taux de succès en manipulation ne capturent pas. Les auteurs ne proposent pas de correctif immédiat, mais leur protocole ouvre la voie à des méthodes de fine-tuning ou d'évaluation capables de préserver, voire de restaurer, la capacité sémantique dans la chaîne décision-action.

UELes équipes R&D et intégrateurs européens déployant des systèmes VLA en picking, tri ou assemblage configurable doivent réévaluer leurs métriques de validation : RSB démontre que le taux de succès en manipulation ne garantit pas la généralisation sémantique en conditions réelles.

RechercheActu
1 source
Les dynamiques prédites peuvent-elles exister dans le monde physique ?
189arXiv cs.RO 

Les dynamiques prédites peuvent-elles exister dans le monde physique ?

Un preprint déposé le 1er juin 2026 sur arXiv (identifiant 2606.00089) introduit le concept d'admissibilité physique pour les politiques de robotique apprise, qu'il s'agisse de modèles VLA (Vision-Language-Action), de diffusion policies ou d'Action Chunking Transformers. Ces systèmes génèrent des trajectoires d'état, des séquences d'actions et des plans en espace latent, mais le problème central est le suivant : un faible RMSE (Root Mean Square Error) de prédiction ne garantit pas qu'une proposition soit physiquement exécutable sur un robot réel. Les auteurs formulent une interface prédiction-contrôle qui évalue chaque proposition candidate via des conditions cinématiques, dynamiques et des horizons composés, avant toute exécution. Sur le benchmark Hugging Face LeRobot PushT, les résidus RMSE et dynamiques standardisés atteignent des AUC (aire sous la courbe ROC) de 0,982 et 0,972, la porte complète atteint 0,957, et le système bloque 87 à 89 % des propositions invalides tout en préservant un progrès de tâche moyen de 0,998. Point notable : les conditions cinématiques seules n'atteignent que 0,592 d'AUC. Pour les intégrateurs et les équipes qui déploient des politiques apprises sur du matériel réel, l'apport est concret : une couche de validation interposable entre la sortie d'un modèle et le contrôleur bas niveau, avec attribution de cause au rejet (dépassement de couple, violation de limites articulaires, incohérence cinématique). Ce n'est pas un certificat de succès de la tâche, mais un filtre qui réduit le fossé sim-to-real sans nécessiter de retraining. Le faible AUC des conditions cinématiques seules contredit une hypothèse parfois avancée dans le secteur : vérifier la cohérence géométrique ne suffit pas, les contraintes dynamiques sont indispensables pour filtrer les trajectoires non exécutables. Ce travail s'inscrit dans un contexte où des modèles comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) et les politiques de Figure affichent une généralisation croissante mais aussi des échecs caractéristiques au contact du déploiement réel. La question de la vérifiabilité formelle des sorties de politiques apprises est un axe de recherche actif dans plusieurs laboratoires, dont MIT, CMU et ETH Zurich. Ce preprint n'est pas encore évalué par les pairs et les expériences restent confinées à un benchmark de manipulation 2D relativement simple (PushT) ; la validation sur des manipulateurs industriels 6 DOF en boucle temps réel reste entièrement à démontrer.

RechercheOpinion
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
190arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

IA physiqueOpinion
1 source
Nvidia, Unitree et Sharpa s'associent pour concevoir un robot humanoïde capable d'effectuer un travail réel
191SCMP Tech 

Nvidia, Unitree et Sharpa s'associent pour concevoir un robot humanoïde capable d'effectuer un travail réel

L'accès web n'est pas disponible. Je vais rédiger le résumé à partir du texte fourni et de mes connaissances sur cet écosystème. --- Nvidia, Unitree Robotics et Sharpa ont dévoilé H2+, un design de référence pour robot humanoïde destiné à accélérer le développement industriel à l'échelle mondiale. L'annonce a été faite par Jensen Huang, PDG de Nvidia. H2+ intègre la chaîne complète de développement robotique : collecte de données, entraînement de politiques de contrôle (policy training) et déploiement en conditions réelles. Unitree Robotics, spécialiste chinois des robots humanoïdes à bas coût (G1, H1), apporte l'architecture mécanique, tandis que Sharpa, fabricant singapourien de mains robotiques, contribue la préhension dextère. Nvidia fournit la couche logicielle et matérielle, vraisemblablement via Isaac Sim, OSMO et le modèle de fondation GR00T N2. L'intérêt d'un design de référence commun est de réduire le temps de mise en marché pour les intégrateurs en évitant la redondance dans la phase de prototypage. En unifiant la stack sim-to-real sous un seul écosystème Nvidia, H2+ vise à fermer le gap entre démonstrations en laboratoire et déploiements opérationnels, un obstacle persistant dans la commercialisation des humanoïdes. C'est aussi un signal que Nvidia consolide son rôle d'infrastructure centrale dans la course aux humanoïdes, face à des constructeurs comme Boston Dynamics, Figure ou Agility Robotics qui développent leurs propres pipelines propriétaires. La collaboration reflète une tendance de fond : les grandes plateformes technologiques cherchent à s'imposer comme couche commune là où les fabricants de hardware se fragmentent. Nvidia avait déjà lancé GR00T N2 début 2025 pour standardiser l'entraînement des humanoïdes. Unitree, dont le G1 est commercialisé autour de 16 000 dollars, mise sur le volume et l'accessibilité. Les suites concrètes de H2+, pilotes industriels, disponibilité du SDK, partenaires intégrateurs, n'ont pas encore été précisées dans les informations disponibles.

HumanoïdesOpinion
1 source
ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces
192arXiv cs.RO 

ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces

Une équipe de chercheurs a publié le 29 mai 2026 un article préprint sur arXiv (2605.29438) présentant ElegantVLA, un cadre d'inférence adaptatif conçu pour accélérer les modèles de type Vision-Language-Action (VLA) sans modifier ni réentraîner le modèle de base. Le principe repose sur un ordonnanceur léger qui observe en temps réel la similarité des représentations temporelles, les signaux de mouvement du robot et la progression de l'épisode, puis alloue dynamiquement la charge de calcul entre l'encodeur visuel, le LLM et la tête d'action. Deux niveaux de granularité sont gérés : cinq modes de calcul Vision-LLM, allant de la recomputation complète à la réutilisation temporelle multi-pas, et trois modes de débruitage pour la génération d'actions, qui recyclent les états intermédiaires lors des phases de mouvement stable. Sur le modèle GR00T de NVIDIA sur six tâches réelles, ElegantVLA réduit la charge de calcul d'un facteur 2,18x et fait passer la fréquence de contrôle de 13,8 Hz à 26,3 Hz ; sur CogACT, le gain en vitesse atteint 3,77x. L'enjeu est direct pour les équipes qui cherchent à déployer des VLA en manipulation réelle : la fréquence de contrôle est un goulot d'étranglement critique dans les tâches nécessitant une réactivité fine, et doubler cette fréquence sans retoucher le modèle sous-jacent change fondamentalement le rapport coût-performance du déploiement. Le résultat contredit partiellement l'hypothèse dominante selon laquelle accélérer un VLA impose obligatoirement un compromis sur la qualité du raisonnement : en concentrant la puissance de calcul sur les phases sensibles aux objectifs, à l'image du contrôle moteur humain, le système préserve la précision là où elle compte. C'est un argument concret en faveur de l'inférence adaptative plutôt que des modèles distillés ou quantifiés à la hache. Les VLA généralistss comme GR00T (NVIDIA) ou CogACT (Microsoft Research) souffrent structurellement d'un coût d'inférence élevé dû à l'empilement d'un backbone vision-langage massif et d'une tête d'action itérative à chaque pas de contrôle. Les approches existantes d'accélération, élagage, distillation, cache KV statique, traitent tous les pas de contrôle de façon uniforme, ignorant que les besoins en raisonnement varient fortement au cours d'un épisode. ElegantVLA se positionne comme une surcouche plug-in compatible avec l'ensemble de l'écosystème VLA moderne, sans modifier les pipelines d'entraînement. La prochaine étape naturelle sera de valider l'approche sur des tâches longue durée et des environnements non structurés, là où la variabilité des phases est maximale et où le gain potentiel est le plus difficile à quantifier.

IA physiqueOpinion
1 source
RoboMemArena : un nouveau benchmark évalue systématiquement les capacités mémoire des robots
193Pandaily 

RoboMemArena : un nouveau benchmark évalue systématiquement les capacités mémoire des robots

Un consortium d'institutions chinoises de premier plan, l'HKUST (Guangzhou), l'Université Tsinghua, l'Université du Zhejiang, Westlake University et Shanghai Jiao Tong University, a publié RoboMemArena, présenté comme le premier benchmark dédié à l'évaluation des capacités mémorielles des robots dans des tâches de manipulation à long horizon. Le benchmark couvre quatre scénarios exigeant explicitement de la mémoire : transfert d'objets, occlusion de cibles, comptage d'actions et exécution de séquences. Il comprend 26 tâches à long horizon, 151 sous-tâches, 2 600 trajectoires de démonstration expertes, et des séquences dépassant en moyenne 1 000 étapes. Fait notable : 68,9 % des sous-tâches sont déclarées dépendantes d'états historiques. Le benchmark intègre également cinq tâches réelles, dont une séquence "préparer le petit-déjeuner à la manière humaine" (IHMB) dépassant 3 minutes d'exécution continue. Seule la méthode PrediMem, développée par l'équipe elle-même, a complété avec succès cette tâche. L'ensemble des ressources est open-source : dataset sur Hugging Face, code sur GitHub, leaderboard public, et article sur arXiv (2605.10921). Ce benchmark pointe une lacune réelle dans l'évaluation des robots embodied : la quasi-totalité des benchmarks existants mesurent la perception immédiate et le contrôle réactif, sans jamais tester la capacité à maintenir et exploiter un état historique. Pour les intégrateurs industriels et les équipes R&D, c'est un signal clair : les VLA (Vision-Language-Action models) et les architectures de politique actuelles ne sont pas évaluées sur ce qui compte dans les environnements réels, où un robot doit se souvenir qu'un objet a été déplacé trois minutes plus tôt. RoboMemArena fournit aussi des annotations multi-modales (sous-tâches, keyframes, observations visuelles alignées avec les états robot), ce qui le rend directement exploitable pour entraîner ou fine-tuner des modèles. Le contexte est celui d'une course active entre laboratoires asiatiques et occidentaux sur les capacités d'exécution longue durée des robots manipulateurs. Des travaux comme RoboAgent, RoboVLMs ou les benchmarks LIBERO ont posé des fondations, mais aucun ne ciblait explicitement la dépendance mémorielle. L'initiative est entièrement académique et ne mentionne pas de partenariat industriel. La prochaine étape naturelle serait l'intégration de ce benchmark dans les pipelines d'évaluation des grands modèles robotiques comme GR00T N2 (NVIDIA) ou OpenVLA, dont les performances sur des horizons longs restent peu documentées en conditions réelles.

UELes laboratoires européens en robotique (CEA-List, INRIA, ETH Zurich) peuvent exploiter directement ce benchmark open-source pour évaluer leurs architectures VLA sur des tâches à long horizon, comblant un manque critique dans leurs pipelines d'évaluation existants.

RecherchePaper
1 source
Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé
194arXiv cs.RO 

Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé

Une équipe de recherche publie sur arXiv (2605.26478, mai 2026) une méthode d'apprentissage par renforcement visuel appelée SDPG (Stochastic Decoupled Policy Gradient), capable d'entraîner des politiques visuomotrices end-to-end en quelques heures sur un seul GPU NVIDIA RTX 4080. La clé : estimer les gradients de politique via des perturbations stochastiques de trajectoires, plutôt que via des centaines d'environnements rendus en batch, réduisant drastiquement mémoire et temps de calcul. Sur les benchmarks visuels MuJoCo, référence standard pour l'évaluation des politiques de contrôle à entrées visuelles, SDPG surpasse les méthodes concurrentes sur les trois critères mesurés : temps d'entraînement, empreinte mémoire et récompenses obtenues. L'article inclut également un premier transfert sim-to-real démontré sur matériel physique, couvrant des tâches de manipulation dextère et de locomotion en terrain difficile. L'enjeu touche directement à l'accessibilité du RL visuel pour la robotique. Jusqu'ici, les méthodes on-policy visuomotrices exigeaient des clusters GPU pour rester compétitives, concentrant de fait la recherche dans quelques grands laboratoires. Ramener le coût d'entraînement à un seul GPU grand public ouvre potentiellement la voie aux équipes académiques moins dotées et aux startups. La publication simultanée d'une suite de benchmarks de robotique visuelle réaliste tente de combler un autre manque structurel : la fragmentation des protocoles d'évaluation dans le domaine. Le transfert sim-to-real annoncé reste cependant à confirmer à plus grande échelle, un résultat sur hardware physique dans un preprint n'équivalant pas à une validation industrielle. Ce travail s'inscrit dans une dynamique de démocratisation du RL pour la robotique. Des approches comme DrQ-v2 (DeepMind) ou DreamerV3 ont progressivement amélioré l'efficacité en entrées visuelles, mais restent lourdes pour les environnements réalistes. Les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) contournent entièrement la boucle RL via des architectures de fondation préentraînées. SDPG choisit une troisième voie : rester dans le paradigme RL pur tout en réduisant radicalement le coût computationnel. La prochaine étape observable sera l'adoption ou le rejet de leurs benchmarks par la communauté comme référence standard de comparaison.

UEL'accessibilité réduite à un seul GPU grand public pourrait bénéficier aux équipes académiques européennes moins dotées en infrastructure de calcul, réduisant leur dépendance aux clusters HPC pour la recherche en RL visuel.

RecherchePaper
1 source
Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils
195arXiv cs.RO 

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate. Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier. π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

💬 +23 points sur RoboTwin, c'est du solide. Séparer planificateur haut-niveau et exécuteurs VLA spécialisés, l'intuition était là depuis un moment, mais VLAs-as-Tools est le premier à boucler le pipeline complet avec les chiffres qui justifient. Bon, c'est de la simulation pure : aucune manip sur hardware réel dans le papier, et c'est là que les gains ont tendance à fondre.

IA physiqueOpinion
1 source
TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques
196arXiv cs.RO 

TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques

Une équipe du Weird Lab de l'Université de Washington a publié en mai 2026, sur arXiv (2605.12236), un cadre unifié baptisé TMRL (Timestep-Modulated Reinforcement Learning) pour accélérer le fine-tuning par apprentissage par renforcement (RL) de politiques robotiques pré-entraînées. Le système repose sur deux composantes : Context-Smoothed Pre-training (CSP), qui injecte du bruit de diffusion directe dans les entrées de la politique lors du pré-entraînement, et TMRL lui-même, qui apprend à moduler dynamiquement le pas de temps de diffusion pour contrôler explicitement l'exploration lors du fine-tuning. Les résultats présentés incluent des tâches de manipulation réelle complexes, avec un fine-tuning en conditions réelles achevé en moins d'une heure. Le cadre est compatible avec des entrées hétérogènes : états proprioceptifs, nuages de points 3D ou politiques VLA (Vision-Language-Action) basées sur des images. Le verrou technique adressé est structurel : le pré-entraînement par clonage comportemental (BC), dominant dans la robotique d'apprentissage, produit des distributions d'actions étroites centrées sur les démonstrations existantes, ce qui prive le RL aval de la couverture nécessaire pour explorer efficacement l'espace d'états. TMRL casse ce goulot en faisant du niveau de bruit de diffusion un paramètre entraînable : à fort timestep, la politique explore largement ; à faible timestep, elle exploite avec précision. Le résultat annoncé est une amélioration de l'efficacité en données lors du fine-tuning RL, ce qui est critique pour les déploiements réels où chaque essai coûte du temps machine et de l'usure mécanique. Les métriques précises de sample efficiency et les benchmarks utilisés ne sont pas détaillés dans l'abstract, ce qui rend l'évaluation indépendante difficile sans consulter l'article complet. Ce travail s'inscrit dans une dynamique active autour des politiques de diffusion pour la robotique, popularisées par π0 de Physical Intelligence et les travaux GR00T N2 de NVIDIA. Le problème exploration-exploitation en RL robotique réel reste un obstacle majeur à la commercialisation : les approches existantes comme la perturbation d'action aléatoire ou l'exploration guidée par curiosité peinent à passer à l'échelle sur du matériel réel. TMRL propose une solution intégrée au pipeline de diffusion existant, sans modifier l'architecture de la politique. Le code et les vidéos sont disponibles en open source, ce qui facilitera l'évaluation par la communauté ; les prochaines étapes probables incluent des évaluations sur plateformes humanoïdes et une intégration dans des frameworks comme LeRobot ou OpenVLA.

UELe cadre TMRL, open-source et compatible avec LeRobot (Hugging Face, France), pourrait directement accélérer le fine-tuning RL de politiques robotiques dans les labos et startups européens.

RechercheOpinion
1 source
Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle
197Interesting Engineering 

Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle

La division Robotics d'Hexagon AB, basée à Zurich, et l'entreprise autrichienne Fill Maschinenbau ont annoncé un partenariat pour déployer le robot humanoïde AEON dans les ateliers de Fill à Gurten, en Autriche. Ce pilote cible des tâches de conduite de machines (machine tending), d'inspection et de support opérationnel dans des environnements de production à haute mixité. Point notable : AEON n'est pas un robot bipède, mais adopte une locomotion sur roues complétée par des bras de manipulation, une fusion de capteurs multimodale et une intelligence embarquée sur puce NVIDIA Jetson Orin. Présenté en juin 2025, il avait effectué son premier déploiement industriel en décembre 2025 à l'usine BMW Group de Leipzig, unique référence terrain disponible à ce jour. Ce partenariat met en avant une approche simulation-first que les intégrateurs suivent de près. Hexagon revendique une réduction des cycles d'entraînement de plusieurs mois à quelques semaines grâce à NVIDIA Isaac Sim et Isaac Lab, qui permettent d'acquérir navigation, locomotion et manipulation en environnement virtuel avant tout déploiement réel. Le robot utilise également NVIDIA Isaac GR00T et les outils Mimic pour apprendre à partir de démonstrations humaines et générer des données de mouvement synthétiques. Si ces gains se confirment en production, ils apporteraient une réponse partielle au problème du sim-to-real gap, considéré comme l'un des principaux obstacles à l'industrialisation des humanoïdes. Prudence néanmoins : les deux déploiements cités restent à des stades pilotes, sans métriques publiées sur des cycles de production continus. Hexagon AB est un groupe suédois spécialisé en métrologie et intelligence industrielle, dont la division Robotics à Zurich s'est positionnée sur le segment humanoïde après des acteurs comme Figure AI (accord BMW signé dès 2024 pour le Figure 02), Boston Dynamics ou Agility Robotics (Digit, déployé chez Amazon). Les données spatiales collectées par AEON sont remontées vers Hexagon Reality Cloud Studio via HxDR et intégrées à NVIDIA Omniverse pour générer des jumeaux numériques industriels en temps réel, un positionnement qui ancre l'offre davantage dans l'écosystème PLM et métrologie d'Hexagon que dans la robotique mobile pure. Les prochaines étapes incluent une migration vers la puce NVIDIA IGX Thor pour renforcer les garanties de sécurité collaborative. En Europe, cette initiative rejoint les travaux de Wandercraft sur l'humanoïde de réhabilitation médicale et ceux d'Enchanted Tools sur des plateformes à usage hospitalier, signe d'un écosystème continental qui monte progressivement en maturité industrielle.

UELe partenariat entre Hexagon AB (Suède/Zurich) et Fill Maschinenbau (Autriche) pour déployer AEON en usine illustre la montée en maturité industrielle de l'écosystème européen des robots humanoïdes, aux côtés de Wandercraft et Enchanted Tools.

FR/EU ecosystemeOpinion
1 source
VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique
198arXiv cs.RO 

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VILAS (arXiv 2605.02037) est une plateforme de manipulation robotique modulaire à faible coût conçue pour déployer des modèles vision-language-action (VLA) sur du matériel accessible. Le système associe un bras collaboratif Fairino FR5, un préhenseur électrique Jodell RG52-50 et un module de perception à deux caméras, coordonnés via une architecture ZMQ unifiant téleopération, collecte de données et exécution de politiques dans un pipeline unique. Pour saisir des objets fragiles sans capteur de force dédié, les auteurs ont développé une extension de préhenseur souple fondée sur le kirigami, une technique de découpe structurée qui induit une déformation contrôlée sous charge compressive, garantissant un contact doux et répétable. Trois modèles VLA ont été comparés sur cette plateforme : pi0 et pi0.5 de Physical Intelligence, et GR00T N1.6 de NVIDIA, chacun fine-tuné depuis des checkpoints publics sur un jeu de démonstrations identique collecté via le pipeline de téleopération. La tâche de validation retenue est la saisie de raisins, cas représentatif de la manipulation d'objets déformables et fragiles. Ce préprint de recherche démontre que des politiques VLA compétitives peuvent être entraînées et déployées sur du matériel grand public, sans infrastructure coûteuse ni retour d'effort. Pour les intégrateurs et les équipes de R&D à budget contraint, c'est un signal clair : le goulot d'étranglement n'est plus le hardware mais le pipeline de données et le fine-tuning. La comparaison des trois modèles dans des conditions strictement identiques (même bras, même dataset, même tâche) constitue un benchmark pratique rare, la littérature évaluant généralement les VLA sur des plateformes propriétaires difficilement reproductibles. Le fait que GR00T N1.6, conçu initialement pour les humanoïdes de NVIDIA, soit ici testé sur un cobot bas de gamme éclaire aussi la portabilité réelle de ces modèles généralistes, au-delà des démonstrations sur hardware maison. Ce travail s'inscrit dans le mouvement de démocratisation de la robotique apprenante porté notamment par LeRobot de Hugging Face ou les travaux autour d'ACT (Action Chunking with Transformers). Le Fairino FR5 se positionne dans la gamme des cobots abordables, face au Lite6 d'UFactory ou au CR5 de Dobot. Pi0 et pi0.5 sont issus de Physical Intelligence (Pi), startup californienne fondée en 2023 et financée entre autres par Bezos Expeditions, tandis que GR00T N1.6 est le modèle de fondation robotique de NVIDIA présenté en 2025 pour ses partenaires humanoïdes. Les suites naturelles de cette plateforme incluent l'extension à des tâches bi-manuelles, l'élargissement du catalogue d'objets, et potentiellement la publication du dataset de démonstrations pour faciliter la reproductibilité.

IA physiqueOpinion
1 source
VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative
199arXiv cs.RO 

VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative

Une équipe de chercheurs a publié en mai 2026, via arXiv (2605.01194), VLA-ATTC, un framework visant à doter les modèles Vision-Language-Action (VLA) d'un mécanisme de délibération adaptatif à l'inférence. Les VLA, qui couplent perception visuelle, langage et génération d'actions pour piloter des robots manipulateurs, reposent jusqu'ici sur un mode d'exécution réflexif : rapide, mais aveugle face à l'ambiguïté. VLA-ATTC introduit un "embrayage cognitif" basé sur l'incertitude : lorsque le modèle détecte une situation complexe, il bascule vers une phase de calcul délibératif (test-time compute, TTC) dans laquelle un composant inédit, le Relative Action Critic (RAC), évalue des candidats d'actions par comparaisons par paires plutôt que par estimation absolue de valeur. Un pipeline automatisé génère les paires de préférence sans annotation manuelle. Sur le benchmark LIBERO-LONG, VLA-ATTC réduit le taux d'échec du modèle SOTA PI0.5 de Physical Intelligence de plus de 50 %. Le code et les poids seront publiés en open source. Ce résultat cible directement le "demo-to-reality gap" : les VLA actuels performent bien en conditions contrôlées mais échouent sur des tâches longues et ambiguës. Diviser par deux le taux d'échec sur LIBERO-LONG, un benchmark de manipulation séquentielle longue portée, sans retrainer le modèle de base est un gain concret pour les intégrateurs industriels. Le choix du RAC est également instructif : abandonner l'estimation de valeur absolue, instable en pratique, au profit d'un mécanisme relatif plus simple à apprendre suggère que la fiabilité des VLA peut progresser via du compute supplémentaire à l'inférence plutôt que par des cycles de fine-tuning coûteux. Les VLA constituent la ligne de front actuelle en robotique de manipulation. Pi-0 et Pi-0.5 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA (UC Berkeley) ont établi une course à la généralisation zero-shot, mais partagent le même défaut structurel : une inférence déterministe et non délibérative. L'approche TTC appliquée aux VLA s'inscrit dans un mouvement plus large, déjà visible chez les LLM avec o1, o3 et DeepSeek R1, qui cherche à "acheter" de la qualité de décision via du compute d'inférence supplémentaire. Pour les déploiements industriels en temps réel, la question restante sera de quantifier le surcoût de latence du mode TTC dans des environnements contraints, comme les lignes d'assemblage ou les cellules de picking à cadence élevée.

UEL'open-source annoncé pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur la manipulation VLA, mais aucune institution ou entreprise FR/EU n'est directement impliquée.

IA physiqueOpinion
1 source
Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)
200arXiv cs.RO 

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

Des chercheurs ont publié le 21 avril 2026 un article sur arXiv (2604.14732) présentant le modèle WAV (World-Value-Action), une architecture unifiée destinée à améliorer les capacités de planification des systèmes Vision-Language-Action (VLA). Les VLA sont des modèles qui ancrent la perception visuelle et les instructions en langage naturel dans des commandes motrices directes, une approche devenue centrale dans la robotique généraliste ces deux dernières années. Le problème ciblé par WAV est précis : la majorité des VLA actuels prédisent les actions de manière directe (un état visuel + une instruction = une action), sans modéliser les conséquences à long terme de leurs décisions. Le modèle WAV introduit à la place une représentation latente structurée des trajectoires futures, conditionnée sur les observations visuelles et les instructions. Un modèle de monde (world model) prédit les états futurs, tandis qu'une fonction de valeur de trajectoire (trajectory value function) évalue leur utilité à horizon long. La génération d'action est ensuite formulée comme une inférence dans cet espace latent, où le modèle concentre progressivement la masse de probabilité sur les trajectoires à haute valeur et dynamiquement réalisables. L'apport théorique central est démontré formellement : planifier directement dans l'espace des actions entraîne une décroissance exponentielle de la probabilité de trajectoires réalisables à mesure que l'horizon s'allonge, un obstacle fondamental pour toute tâche nécessitant plusieurs étapes enchaînées. L'inférence dans l'espace latent restructure la distribution de recherche vers des régions réalisables, ce qui rend la planification à long horizon tractable. En pratique, WAV surpasse les méthodes de l'état de l'art en simulation et dans des expériences réelles, avec des gains mesurables sur le taux de succès des tâches, la capacité de généralisation et la robustesse, notamment dans les scénarios compositionnels et à horizon long. Pour les intégrateurs industriels et les équipes de robotique, cela signifie potentiellement un meilleur comportement dans les tâches en plusieurs étapes, assemblage, manipulation séquentielle, sans avoir à pré-programmer des graphes de tâches explicites. Les VLA ont connu une accélération notable depuis fin 2023, avec des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) qui ont validé l'approche d'un modèle fondationnel pour la manipulation robotique. La plupart de ces architectures partagent le défaut que WAV cherche à corriger : l'absence de raisonnement causal sur les conséquences des actions. Des approches concurrentes comme SWIM (Sequential World Inference Models) ou les travaux de Dreamer appliqués à la robotique explorent des pistes similaires via des world models explicites, mais WAV tente d'intégrer planning implicite et génération d'action dans un seul cadre d'entraînement. Le code est disponible publiquement sur GitHub (Win-commit/WAV). Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, il s'agit pour l'instant d'une publication académique, sans produit shipped ni pilote annoncé.

RechercheActu
1 source