Aller au contenu principal

Dossier arXiv cs.RO — page 10

1981 articles · page 10 sur 40

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts
451arXiv cs.RO RecherchePaper

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts

Des chercheurs ont présenté VE2VF (Vision-Enabled to Vision-Free), un cadre d'apprentissage par renforcement (RL) pour la manipulation robotique en contact riche, publié en préprint sur arXiv (2605.29564). La méthode repose sur une distillation enseignant-élève conduite intégralement sur robot réel, sans simulation ni randomisation de domaine. Un module "enseignant" équipé de vision apprend d'abord la tâche, puis transfère sa politique à un "élève" n'utilisant que la pose, le twist et le wrench (position/orientation, vitesse et couple de force), sans aucun flux caméra. Sur le benchmark NIST d'assemblage, référence standardisée pour les tâches d'insertion de précision, le système atteint 95 % de taux de succès global après environ 50 minutes d'entraînement sur 3 tâches représentatives, et généralise à 8 variantes non vues lors de l'entraînement. Un fine-tuning par distillation permet d'atteindre 100 % de succès sur la variante la plus difficile. Ce résultat adresse un problème structurel en robotique industrielle: les politiques basées sur la vision surapprennent les conditions d'éclairage et de fond vues à l'entraînement, ce qui fragilise leur déploiement en environnement de production variable. En éliminant la vision à l'inférence tout en l'exploitant pendant l'apprentissage, VE2VF produit des politiques robustes aux perturbations visuelles sans coût supplémentaire en données. Plus significatif encore: atteindre cette généralisation en moins d'une heure d'entraînement réel suggère qu'on peut contourner le sim-to-real gap sans simulateur haute-fidélité ni dataset synthétique massif. Pour les intégrateurs déployant des cellules d'assemblage de précision, la combinaison rapidité d'adaptation et robustesse proprioceptive est directement actionnable. Le benchmark NIST Assembly Task Board est utilisé depuis plusieurs années comme terrain de comparaison inter-équipes en manipulation de précision, ce qui confère à ces résultats une lisibilité relative face aux travaux antérieurs. Les approches concurrentes combinent généralement simulation, randomisation de domaine et larges volumes de données synthétiques avant transfert sur robot réel. VE2VF se positionne comme une alternative ancrée dans le réel, avec une boucle human-in-the-loop permettant de superviser l'apprentissage en cours de session. Il s'agit à ce stade d'un préprint de recherche, non d'un système en production ni d'un produit commercialisé. Les suites naturelles incluent des tests sur d'autres plateformes matérielles et des tâches industrielles plus complexes, ainsi qu'une confrontation directe avec les approches de type VLA (Vision-Language-Action) qui ciblent elles aussi la généralisation en manipulation contact-riche à grande échelle.

1 source
Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots
452arXiv cs.RO 

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

Qwen-VLA, présenté en préprint arXiv par l'équipe Qwen d'Alibaba (arXiv:2605.30280, mai 2026), est un modèle de fondation incarné qui unifie dans un seul système la manipulation robotique, la navigation vision-et-langage et la prédiction de trajectoires. L'architecture étend la pile vision-langage de Qwen par un décodeur d'action basé sur un Diffusion Transformer (DiT), permettant de générer des actions continues en plus du raisonnement perceptif. L'entraînement joint combine trajectoires de manipulation réelles, démonstrations égocentrées humaines, données de simulation synthétique et jeux de données de navigation. Sur les benchmarks publiés, Qwen-VLA-Instruct atteint 97,9 % sur LIBERO, 86,1 %/87,2 % sur RoboTwin-Easy/Hard, 73,7 % sur Simpler-WidowX, et 69,0 % de taux de succès d'objectif sur R2R en navigation. En conditions réelles sur plateforme ALOHA, le modèle affiche 76,9 % de succès moyen hors-distribution (OOD) et 26,6 % en zéro-shot sur DOMINO, une tâche de manipulation dynamique. La contribution principale est le "embodiment-aware prompt conditioning" : des descriptions textuelles propres à chaque robot spécifient morphologie et conventions de contrôle, permettant théoriquement à un seul jeu de poids de s'adapter à plusieurs plateformes sans réentraînement dédié. Pour les intégrateurs et les COO industriels, c'est directement le problème du cross-embodiment qui freine les déploiements à l'échelle. Les scores OOD sont pertinents mais méritent d'être nuancés : ils portent sur des environnements de laboratoire, et les 76,9 % sur ALOHA concernent une plateforme à deux bras en contexte contrôlé, pas un robot industriel en conditions de production. La sélection des séquences de démonstration dans les preprints arXiv est notoirement favorable aux cas réussis. Qwen-VLA s'inscrit dans la course aux VLA généralistes, aux côtés de pi-0 de Physical Intelligence (spécialisé manipulation, 400 M$ levés), GR00T N2 de NVIDIA (cross-embodiment annoncé en 2025) et OpenVLA d'UC Berkeley. Son décodeur DiT le rapproche des approches diffusion-based de pi-0, par opposition aux méthodes token-based. Qwen étant déjà un modèle ouvert d'Alibaba largement adopté dans des stacks vision-langage, son extension à l'action physique offre aux équipes de recherche et d'intégration un point d'entrée solide pour le fine-tuning multi-tâche multi-robot. Aucun déploiement commercial n'est annoncé à ce stade : c'est un travail de recherche, pas un produit lancé.

UELes équipes de recherche et d'intégration robotique européennes peuvent exploiter ce modèle ouvert Alibaba pour du fine-tuning multi-robot multi-tâche, mais aucun partenariat ni déploiement européen n'est annoncé.

IA physiqueOpinion
1 source
VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA
453arXiv cs.RO 

VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (référence 2605.29605) VLAConf, un framework de détection de confiance pour les modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le principe repose sur un module léger ("confidence head") branché sur les représentations internes d'un VLA préentraîné et figé, capable de calculer en un seul passage (single forward pass) un score d'anomalie à chaque étape de la trajectoire. Le système intègre également un mécanisme de "step-conditioned modeling" qui encode la phase d'exécution le long du rollout. Les performances sont évaluées sur le benchmark LIBERO, référence académique pour la manipulation multi-tâches, et validées sur robot physique. L'enjeu est direct pour le déploiement industriel des VLA : anticiper l'échec d'une tâche avant qu'il ne survienne est une condition nécessaire pour les applications à risque, de la chaîne de montage au laboratoire pharmaceutique. Les méthodes existantes souffrent de deux limitations majeures. Les approches par ensembles requièrent des échantillonnages répétés qui pénalisent fortement le temps d'inférence. Les méthodes basées sur les probabilités de tokens d'action sont incompatibles avec les espaces d'action continus, ce qui exclut de facto les VLA les plus récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). VLAConf contourne ces deux obstacles en un seul forward pass, sans modifier l'architecture du modèle hôte, ce qui lui confère une portabilité inter-architectures notable. Les auteurs revendiquent une nette supériorité sur les baselines en termes de qualité du signal de confiance et d'efficacité à l'inférence, bien que les marges précises ne soient pas détaillées dans le résumé disponible. Les VLA connaissent une accélération marquée depuis 2024 : pi-0 de Physical Intelligence, OpenVLA (Berkeley) et GR00T N2 de NVIDIA ont chacun proposé des approches pour généraliser la manipulation en monde ouvert. La robustesse à l'échelle reste cependant le principal frein au déploiement commercial, et la confiance calibrée en constitue une composante critique. VLAConf se positionne comme une brique d'infrastructure transversale, là où ses prédécesseurs restaient cantonnés aux sorties discrètes. Le code source est rendu public. Ce travail est académique, sans partenariat commercial annoncé.

IA physiqueOpinion
1 source
POINav : évaluation et amélioration de l'arrivée aux derniers mètres en navigation vision-langage réelle
454arXiv cs.RO 

POINav : évaluation et amélioration de l'arrivée aux derniers mètres en navigation vision-langage réelle

Des chercheurs ont publié POINav, un benchmark et un cadre applicatif destinés à résoudre le problème dit des "derniers mètres" dans la navigation guidée par langage naturel vers des points d'intérêt (POI). POINav-Bench, présenté comme le premier benchmark dédié à l'évaluation en boucle fermée de ce type de navigation, s'appuie sur 11 zones commerciales reconstituées en 3D à partir de captures réelles via 3D Gaussian Splatting (3DGS), couvrant au total 126 398 m² et 163 POI distincts. Les auteurs publient également un jeu de données associé, POINav-Dataset, contenant 70 000 paires signalétique/entrée issues du monde réel, ainsi qu'un framework Brain-Action où un module "Brain" effectue un raisonnement ancré sur les POI pour guider un module "Action" chargé de prédire des waypoints continus exécutables sur robot physique. Ce travail s'attaque à un angle mort documenté des benchmarks existants en Vision-Language Navigation (VLN) : la granularité trop grossière des objectifs et l'écart sim-to-real dû aux scènes générées synthétiquement. En reconstruisant des environnements commerciaux réels avec annotations de traversabilité et trajectoires de référence, POINav-Bench offre un protocole d'évaluation plus représentatif des conditions opérationnelles. Pour les intégrateurs et les équipes R&D robotique, c'est pertinent : la navigation vers un POI précis (une caisse, une porte spécifique, un poste de travail) reste un verrou concret dans les déploiements AMR et humanoïdes en environnement non structuré. Le problème des "derniers mètres" est bien identifié dans la communauté VLN depuis plusieurs années, mais les benchmarks de référence comme R2R ou VLN-CE restaient limités par leurs environnements simulés. La reconstruction par 3DGS, popularisée depuis 2023, permet ici de contourner ce biais sans mobiliser des flottes de capteurs industriels. Les concurrents directs sur ce segment incluent NavMesh-based evaluation pipelines et les travaux récents autour de EmbodiedScan ou ScanQA. L'article ne mentionne ni partenaires industriels ni timeline de déploiement, il s'agit d'une contribution académique publiée sur arXiv. Les prochaines étapes naturelles seraient une validation sur plateforme physique, les expériences rapportées restant pour l'instant confinées au cadre de simulation reconstruite.

💬 Le problème des derniers mètres, toute équipe robotique qui a essayé de déployer un AMR dans un vrai entrepôt l'a vécu. Ce que POINav apporte, c'est un benchmark sur des environnements réels reconstruits en 3DGS, pas des salles simulées propres qui ne ressemblent à rien sur le terrain. Ça reste académique pour l'instant, mais les 70 000 exemples de signalétique réelle dans le dataset, c'est le genre de ressource qui manquait.

IA physiquePaper
1 source
Ce que les VLA gelés savent déjà du succès : sondage des structures de type valeur dans les politiques fondation pour robots
455arXiv cs.RO 

Ce que les VLA gelés savent déjà du succès : sondage des structures de type valeur dans les politiques fondation pour robots

Des chercheurs ont publié sur arXiv (identifiant 2605.28527) une étude démontrant que les politiques VLA (Vision-Language-Action) encodent spontanément des informations sur le succès des tâches dans leurs représentations gelées, sans jamais avoir été explicitement entraînées à estimer une récompense ou une probabilité de réussite. En appliquant des sondes linéaires légères sur les features extraites de modèles comme OpenVLA, Pi0.5, DINOv2 et CLIP, l'équipe a reconstruit des cibles Monte-Carlo d'issue à partir de trajectoires mixtes, succès et échecs mêlés, sur le benchmark de manipulation LIBERO-Goal. Les sondes entraînées sur Pi0.5 atteignent environ 92 % de précision dans des comparaisons par paires de trajectoires, même sous des contrôles stricts conçus pour éliminer les raccourcis par tâche ou par pas de temps. Les modèles de vision seuls comme DINOv2 et CLIP suivent également cette tendance, contrairement aux baselines construites sur la progression de la tâche, le temps restant ou la proprioception. L'implication pratique est directe et ne nécessite aucun ré-entraînement : la sonde peut servir de sélecteur à l'inférence, filtrant des préfixes d'action échantillonnés pour ne retenir que ceux jugés les plus prometteurs. Sur la tâche push-plate, le taux de succès grimpe de 26,7 % sous décodage glouton à 44,3 % avec ce mécanisme de sélection ; un second gain positif est observé sur wine-rack. Les auteurs sont honnêtes sur les limites : les gains ne sont pas universels et impliquent un surcoût de calcul à l'inférence. Mais le résultat de fond est solide et contredit une hypothèse largement répandue dans le domaine, à savoir que les politiques d'imitation sont structurellement aveugles à la qualité de leur propre comportement. Ce travail s'inscrit dans la trajectoire des grands modèles de politiques robotiques apparus entre 2024 et 2025, notamment Pi0 puis Pi0.5 de Physical Intelligence, et OpenVLA issu de Stanford, qui ont établi les VLAs comme architecture dominante en manipulation. La question de l'auto-évaluation des politiques, soit la capacité d'un modèle à estimer sa propre probabilité de succès sans supervision externe, est un verrou central pour réduire le reality gap et progresser vers des boucles d'apprentissage autonomes sur robot réel. D'autres groupes explorent des pistes concurrentes comme les world models ou l'RL en ligne avec retours humains rares ; cette étude suggère qu'une partie de la solution est peut-être déjà encodée dans les poids existants, gratuitement.

RechercheOpinion
1 source
HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste
456arXiv cs.RO 

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste

Des chercheurs ont publié sur arXiv (arXiv:2605.26638) HyperSim, un framework bout-en-bout conçu pour transférer des politiques de manipulation robotique de la simulation vers le monde réel. La méthode repose sur trois piliers : la synthèse d'environnements haute fidélité visuelle, la génération de trajectoires adversariales, et un co-entraînement mixte simulation/réel. Validée sur 400 exécutions de tâches en conditions réelles, HyperSim atteint des taux de succès sim-to-real de 80 % avec le modèle ACT et 95 % avec π₀ (le modèle VLA de Physical Intelligence). Les politiques entraînées avec des trajectoires adversariales affichent par ailleurs un taux de complétion supérieur de 35 % sous perturbations physiques dynamiques, par rapport aux baselines sans ce module. Ces résultats adressent directement l'un des verrous les plus cités dans le déploiement de robots manipulateurs industriels : le sim-to-real gap, c'est-à-dire la dégradation de performance entre une politique entraînée en simulation et son comportement réel. Un taux de 95 % avec π₀ sur des tâches de manipulation représente un niveau de robustesse rarement publié à cette échelle d'évaluation (400 runs, trois métriques granulaires). Pour les intégrateurs et les équipes R&D, cela valide concrètement l'hypothèse que la donnée synthétique, lorsqu'elle est correctement augmentée et diversifiée, peut substituer en grande partie la collecte physique coûteuse. À noter cependant : l'article ne détaille pas les types de tâches ni les objets testés, ce qui limite l'interprétation de la généralité des résultats. La problématique sim-to-real est au cœur des efforts de plusieurs équipes concurrentes : Google DeepMind (avec RoboVerse et ses pipelines de données synthétiques), Physical Intelligence (dont le modèle π₀ est justement l'un des deux benchmarks utilisés ici), et des laboratoires académiques comme Stanford et CMU. HyperSim se distingue par son approche intégrée plutôt que modulaire, cherchant à traiter simultanément le gap visuel et le gap dynamique. La prochaine étape naturelle, non précisée dans le preprint, serait de tester la généralisation à des plateformes humanoïdes ou des scénarios multi-objet en environnement non structuré.

UELes laboratoires européens en manipulation robotique (CEA-List, INRIA) pourraient intégrer ce framework pour réduire leur dépendance aux démonstrations physiques coûteuses, sans implication institutionnelle directe.

RecherchePaper
1 source
SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot
457arXiv cs.RO 

SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot

Des chercheurs du MIT ont publié SOLE-R1 (Self-Observing LEarner), un modèle de raisonnement vidéo-langage conçu pour fonctionner comme signal de récompense exclusif dans l'apprentissage par renforcement (RL) en robotique, sans aucun accès à des récompenses terrain, indicateurs de succès, démonstrations ou réglages spécifiques à la tâche. Soumis sur arXiv (2503.28730v2), le système prend en entrée uniquement des observations vidéo brutes et un objectif en langage naturel, puis génère à chaque pas de temps un raisonnement spatiotemporel de type chain-of-thought (CoT) pour estimer de façon dense la progression de la tâche. Entraîné sur un pipeline de synthèse massif de trajectoires vidéo annotées temporellement, SOLE-R1 combine fine-tuning supervisé et RL depuis des récompenses vérifiables. Évalué sur quatre environnements de simulation distincts et en setting réel, il réussit 24 tâches de manipulation inédites en apprentissage zéro-shot depuis une initialisation aléatoire. L'enjeu central que résout SOLE-R1 est celui du reward hacking : aujourd'hui, utiliser un VLM généraliste comme évaluateur RL expose le système à des erreurs perceptuelles sous observabilité partielle ou changement de distribution, que la politique apprenante exploite rapidement au lieu de résoudre réellement la tâche. SOLE-R1 surpasse nettement des comparatifs forts - Robometer, RoboReward, ReWiND, mais aussi GPT-5 et Gemini-3-Pro - sur la robustesse à ce phénomène. Pour les intégrateurs et ingénieurs robotique, c'est un signal concret que le goulot d'étranglement du RL sur robot réel (définir une fonction de récompense dense et fiable) peut être délégué à un modèle de raisonnement vidéo entraîné spécifiquement, sans instrumentation matérielle supplémentaire. SOLE-R1 s'inscrit dans un courant actif qui cherche à remplacer les récompenses codées à la main par des superviseurs fondationnels (EUREKA d'NVIDIA, VLM-RM, SuSIE). La différence revendiquée ici est le raisonnement CoT temporel explicite par pas de temps, contre des évaluations épisodiques ou des scores scalaires instantanés. Le projet est encore au stade preprint sans déploiement industriel annoncé, mais les modèles, données et code sont publiés en open access sur la page anonyme du MIT. Les prochaines étapes naturelles seraient la validation sur des plateformes commerciales (Figure, Unitree, Boston Dynamics Spot) et l'extension à des tâches longue-horizon en environnement non structuré, deux gaps que l'article ne comble pas encore.

RechercheOpinion
1 source
Exploiter un potentiel variable : quand le contrôle réactif suffit aux comportements multi-objectifs
458arXiv cs.RO 

Exploiter un potentiel variable : quand le contrôle réactif suffit aux comportements multi-objectifs

Une équipe de chercheurs a publié en mai 2026 (arXiv:2605.27314) une approche qui réhabilite le contrôle réactif pour des tâches multi-objectifs, domaine où cette famille de méthodes est traditionnellement jugée inadaptée. Le principe repose sur un modèle du monde sous forme de graphe, étendu par des projections dans l'espace nul (nullspace projections) : lorsque deux objectifs entrent en conflit, les gradients de plus faible priorité sont projetés dans le nullspace du gradient de plus haute priorité, les priorités étant calculées en continu en fonction de l'état courant du système. Les auteurs valident l'approche sur deux scénarios : navigation autour d'obstacles non-convexes, et poussée planaire (planar pushing) d'objets non-convexes. Sur cent configurations de poussée, la méthode atteint 100 % de réussite, contre 0 % pour la descente de gradient classique (steepest-descent) et environ 55 % pour une diffusion policy entraînée sur démonstrations. La même formulation est transférée directement sur un robot réel, intégrant des contraintes perceptuelles et cinématiques via le même mécanisme. Le résultat le plus saillant pour les praticiens est la comparaison avec la diffusion policy : un modèle génératif entraîné sur données, considéré comme l'état de l'art sur les tâches de manipulation déstructurées, plafonne à 55 % là où cette méthode purement réactive, sans démonstration ni réentraînement, atteint 100 %. Cela contredit directement la thèse selon laquelle les approches data-driven supplantent systématiquement les méthodes classiques en manipulation. Pour un intégrateur industriel, le signal est clair : le coût d'acquisition de données et les pipelines d'entraînement ne sont pas toujours nécessaires pour des tâches de saisie ou de manipulation d'objets à géométrie complexe. La légèreté computationnelle du contrôle réactif le rend également compatible avec des architectures embarquées à ressources limitées. Le contrôle réactif par champs de potentiel remonte aux travaux d'Oussama Khatib (1986), et les projections dans l'espace nul sont un pilier de la robotique à priorité de tâches (travaux de Siciliano, Chaumette). Ce papier ne réinvente pas ces fondamentaux mais résout leur point de défaillance historique : les minima locaux dus à des encodages statiques des objectifs. Face à cet axe purement classique, les approches concurrentes combinent apprentissage par renforcement, imitation learning (ACT, diffusion policy), et plus récemment les VLA (Vision-Language-Action models comme pi0 ou GR00T N2 de NVIDIA). Les auteurs ne précisent pas de roadmap industrielle, mais la capacité de transfert sim-to-real sans retraining est un argument fort pour des pilotes rapides. La prochaine étape naturelle serait l'extension à la manipulation 3D et aux objets articulés.

RecherchePaper
1 source
Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique
459arXiv cs.RO 

Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique

Des chercheurs ont publié sur arXiv (arXiv:2409.20473v3) un cadre méthodologique permettant, pour la première fois, de quantifier la contribution individuelle de chaque capteur tactile à la performance d'une politique d'apprentissage par renforcement profond (DRL) appliquée à la manipulation dextère. L'étude cible la Shadow Hand, une main robotique à 24 degrés de liberté équipée de 92 capteurs tactiles. En deux étapes, les auteurs réduisent ce réseau dense à 14 capteurs tout en conservant plus de 90 % de la performance initiale sur trois tâches de manipulation standardisées (bloc, oeuf, stylo). La première phase, empirique, écrête le nombre de capteurs de 92 à 21 en maintenant 93 % des performances. La seconde phase, plus fine, combine une régression par processus gaussiens (GPR) et une régression Lasso pour classer l'importance fonctionnelle de chaque capteur restant. Le résultat le plus saillant contredit l'intuition habituelle en robotique : les capteurs du doigt médius contribuent négativement à l'apprentissage, dégradant activement la politique DRL plutôt que de l'améliorer. À l'inverse, le pouce, l'annulaire et l'auriculaire concentrent l'essentiel de l'information utile au contrôle de contact. Pour les intégrateurs et les équipes de R&D en manipulation robotique, cela signifie qu'une réduction drastique du nombre de capteurs n'est pas seulement possible sans sacrifier les performances, elle peut même les améliorer en éliminant des signaux redondants ou antagonistes. Des expériences de transfert zéro-shot sur deux nouveaux objets et une validation croisée sur l'Allegro Hand et la Leap Hand confirment que ces classements d'importance se généralisent au-delà de la plateforme d'entraînement. La problématique de placement de capteurs tactiles reste largement non résolue dans la littérature, en l'absence de méthodes systématiques comparables à celles développées pour la vision. Ce travail s'inscrit dans un contexte où plusieurs laboratoires et entreprises, dont Sanctuary AI, Agility Robotics ou encore OpenAI avec Dexterous Manipulation, investissent massivement dans la manipulation fine comme prochain verrou de la robotique humanoïde. Les concurrents directs sur la Shadow Hand incluent des frameworks basés sur le sim-to-real (IsaacGym, MuJoCo), qui peinent encore à modéliser fidèlement le retour tactile dense. Les auteurs proposent leurs critères de déploiement comme des guidelines quantitatifs applicables à d'autres morphologies robotiques, ouvrant la voie à des configurations capteurs optimisées dès la phase de conception mécanique plutôt qu'a posteriori.

RecherchePaper
1 source
SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions
460arXiv cs.RO 

SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions

SpecPrune-VLA est une méthode d'élagage (pruning) des modèles Vision-Langage-Action (VLA) publiée sur arXiv (arXiv:2509.05614v3, version révisée). Les VLA sont les architectures neuronales qui transforment images et instructions en langage naturel en commandes motrices pour robots manipulateurs. Sans réentraînement requis, la méthode opère à deux niveaux : un élagage statique par action, combinant historique global et attention locale pour réduire les tokens visuels traités à chaque étape, et un élagage dynamique couche par couche selon l'importance estimée de chaque couche du réseau. Un troisième composant, un contrôleur léger, classifie chaque action en "grossière" ou "fine" selon la vitesse de l'effecteur terminal, et ajuste l'agressivité du pruning en conséquence. Résultats annoncés : facteur d'accélération de 1,57x en simulation LIBERO et 1,70x sur tâches réelles, avec dégradation négligeable du taux de succès. L'enjeu est directement industriel. Les modèles VLA tels que pi-0 et pi-0.5 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA sont progressivement déployés dans des cellules de manipulation robotique, mais leur latence d'inférence reste un verrou pour l'embarqué temps réel. Les méthodes d'accélération existantes, focalisées sur la seule information locale à chaque step, provoquent des chutes de taux de succès supérieures à 20%, ce qui est rédhibitoire pour des environnements de production. SpecPrune-VLA exploite la cohérence spatiale et temporelle inhérente aux tâches robotiques : des frames consécutives se ressemblant fortement, des tokens visuels redondants peuvent être supprimés sans sacrifier la précision motrice. L'absence de réentraînement abaisse significativement la barrière d'adoption pour les intégrateurs. Le gain de 1,70x sur tâches réelles est un résultat solide, même si les conditions expérimentales précises (type de robot, nature des tâches, payload) ne sont pas détaillées dans le résumé publié. Le pruning de tokens dans les transformers est une technique mature côté LLMs (SnapKV, DuoAttention), mais son application aux VLA soulève des défis spécifiques liés à la nature temporelle et multimodale des entrées, et au fait que les erreurs motrices se cumulent sur des horizons longs. Les principaux acteurs qui investissent dans la réduction de la latence d'inférence VLA sont NVIDIA avec Isaac GR00T, Physical Intelligence avec ses modèles pi, et Figure AI avec son architecture Helix. Aucun acteur français ou européen n'est mentionné dans ces travaux. La publication en version v3 sur arXiv signale des révisions substantielles depuis la soumission initiale, mais l'acceptation dans une conférence ou un journal n'est pas encore confirmée, ce qui invite à nuancer la portée des résultats annoncés en attendant une évaluation par les pairs.

💬 1,70x sur du matériel réel sans réentraîner, c'est le genre de résultat qui va donner des idées aux intégrateurs qui bloquent sur la latence depuis des mois. La distinction grossière/fine selon la vitesse de l'effecteur, c'est malin : ça montre qu'ils ont pensé à la dynamique réelle du robot, pas juste au benchmark simulé. Bon, c'est encore v3 sur arXiv, pas de validation en conférence pour l'instant, faut garder ça en tête.

IA physiqueOpinion
1 source
Étude de l'effet d'un retrofit à actionnement élastique en série sur des actionneurs boîte noire
461arXiv cs.RO 

Étude de l'effet d'un retrofit à actionnement élastique en série sur des actionneurs boîte noire

Des chercheurs ont publié sur arXiv (référence 2605.24127, mai 2026) les résultats d'une étude portant sur le retrofit d'un élément élastique en série (SEA, Series Elastic Actuation) sur un actionneur dit "boîte noire", c'est-à-dire un actionneur commercial dont les paramètres internes sont inaccessibles. L'élément élastique torsionnel a été dimensionné par analyse en éléments finis (FE analysis), aboutissant à une raideur de 2 155,4 Nm/rad. Le résultat principal est une amélioration de la bande passante en contrôle d'effort en boucle ouverte, passant de 10,32 Hz pour le moteur seul à 30,32 Hz avec le module SEA intégré, soit un gain de 2,93x. En boucle fermée, le module surpasse un capteur d'effort commercial de 7,63%, pour un coût matière de seulement 25 GBP. Ce résultat a une portée directe pour les intégrateurs robotiques confrontés à des actionneurs industriels standard dont ils ne maîtrisent pas la couche logicielle basse. Les actionneurs rigides à faible jeu mécanique sont omniprésents en robotique industrielle précisément parce qu'ils garantissent répétabilité et précision, mais ils sont inadaptés dès que la tâche exige du contrôle d'effort ou une compliance face à des contacts incertains. Le principe SEA, qui insère un ressort entre le moteur et la charge pour mesurer les efforts via la loi de Hooke, est connu depuis les travaux de Gill Pratt au MIT dans les années 1990, mais son application reste généralement cantonnée aux plateformes conçues pour l'accepter dès l'origine. Ce travail démontre qu'un retrofit peu coûteux peut débloquer la mesure d'effort haute fidélité sans remplacer l'actionneur existant. L'approche s'inscrit dans un courant de recherche actif autour de la compliance en actionnement, qui irrigue aussi bien les robots humanoïdes (Boston Dynamics Atlas, Agility Digit, Figure 02) que les exosquelettes et cobots collaboratifs. Les concurrents directs de cette approche incluent le quasi-direct drive (QDD), popularisé par MIT Cheetah et repris chez nombre de fabricants chinois (Unitree, Fourier Intelligence), ainsi que les capteurs d'effort six axes montés en poignet. La limite principale du SEA reste la réduction de bande passante, que ce travail atténue mais ne supprime pas entièrement. Les prochaines étapes logiques concerneraient des validations sur tâches manipulatoires réelles et une caractérisation de la durée de vie mécanique de l'élément élastique retrofit dans des cycles répétitifs.

RecherchePaper
1 source
SFG-ROS : un framework de perception multi-agents dense adaptatif aux ressources
462arXiv cs.RO 

SFG-ROS : un framework de perception multi-agents dense adaptatif aux ressources

Des chercheurs de la Hochschule Esslingen (Allemagne) ont publié en mai 2026 sur arXiv un framework logiciel nommé SFG-ROS, conçu pour déployer des flottes hétérogènes de robots en perception collaborative multi-agents. Le système cible un problème bien documenté de ROS 2 : lorsque plusieurs robots échangent simultanément des flux denses de capteurs (LiDAR, caméras stéréo de profondeur), le middleware standard génère une saturation réseau rapide, des collisions de namespaces et une charge CPU qui croît avec le nombre d'abonnés. SFG-ROS propose trois mécanismes correctifs. D'abord, un routage de trafic piloté par schéma qui isole les flux haute fréquence intra-agent du réseau global via un schéma de nommage pleinement qualifié et un routage Fast DDS ciblé. Ensuite, un pipeline de décodage centralisé à la demande qui externalise la décompression des données capteur vers un noeud dédié, supprimant le traitement redondant côté consommateurs. Enfin, un pipeline de conteneurisation agnostique au matériel qui s'adapte dynamiquement aux accélérateurs hétérogènes, du poste de développement jusqu'au déploiement terrain sans reconfiguration. Les tests menés sur une flotte mixte de robots à roues et de robots marchants montrent que SFG-ROS borne le trafic réseau en O(1) quelle que soit la taille de la flotte, et réduit la pénalité CPU par abonné de 72,3 % par rapport à ROS 2 standard, sans dégradation de latence mesurée. Ce résultat de 72,3 % de réduction CPU est significatif pour les intégrateurs industriels qui opèrent des flottes mixtes en conditions réelles : il signifie concrètement qu'ajouter un nouveau robot consommateur de données ne fait pas croître linéairement la charge de traitement sur les noeuds existants. La propriété O(1) sur le réseau est peut-être encore plus critique : elle autorise des déploiements à grande échelle sans redimensionnement de l'infrastructure réseau, ce qui change le calcul économique des entrepôts automatisés multi-AMR ou des chantiers robotisés. L'approche agnostique au matériel répond à une friction fréquente en intégration : les pipelines ROS 2 sont souvent reconfigurés manuellement à chaque changement de plateforme (Jetson, GPU server, CPU embarqué). SFG-ROS automatise ce pont, ce qui réduit le temps de mise en service. Toutefois, les résultats proviennent d'un preprint non encore évalué par les pairs, et les conditions expérimentales exactes (taille de flotte testée, volume de données par canal, latence cible) ne sont pas détaillées dans le résumé disponible, ce qui limite la transposabilité directe des chiffres à d'autres configurations. SFG-ROS est publié sous licence permissive par l'Institut für Intelligente Systeme de la Hochschule Esslingen, une école d'ingénieurs allemande active en robotique embarquée et systèmes cyber-physiques. Le projet s'inscrit dans une tendance plus large de l'écosystème ROS 2 à combler les limites de scalabilité de DDS pour les flottes denses, tendance où l'on retrouve aussi des travaux de l'Université de Bonn, d'Apex.AI ou encore des efforts de standardisation du ROS 2 TSC autour de la qualité de service DDS. Du côté des alternatives, des frameworks propriétaires comme LCM (Lightweight Communications and Marshalling) ou les middlewares internes de Boston Dynamics et ANYbotics offrent des garanties similaires mais sans interopérabilité ouverte. SFG-ROS se positionne comme une couche d'orchestration open-source au-dessus de ROS 2 existant, ce qui abaisse la barrière à l'adoption. Le code est accessible sur iis-esslingen.github.io/sfg-ros, et la prochaine étape logique serait une validation sur des flottes de taille industrielle (dizaines d'agents) avec des benchmarks de latence publiés sous charge réelle.

UEPublié sous licence permissive par une école d'ingénieurs allemande, SFG-ROS est directement exploitable par les intégrateurs européens de flottes multi-robots (entrepôts AMR, chantiers robotisés) pour scaler leurs déploiements ROS 2 sans redimensionner l'infrastructure réseau.

InfrastructureOpinion
1 source
TacO : évaluation comparative des capteurs tactiles pour la manipulation d'objets
463arXiv cs.RO 

TacO : évaluation comparative des capteurs tactiles pour la manipulation d'objets

Des chercheurs ont publié sur arXiv (réf. 2605.21976) un cadre d'évaluation systématique baptisé TacO, conçu pour comparer les capteurs tactiles sur des tâches de manipulation robotique concrètes. Quatre modalités ont été mises à l'épreuve : capteurs visuels (à base de caméra et d'élastomère), acoustiques, magnétiques et résistifs, testés sur trois scénarios représentatifs de l'assemblage industriel : pick-and-place avec masse inconnue, réorientation d'objet en main, et insertion de connecteur. Pour chaque tâche, des politiques de manipulation distinctes ont été entraînées, puis évaluées selon les propriétés intrinsèques de chaque capteur : résolution spatiale, détection du cisaillement (shear sensing), représentation tactile, et friction du matériau de contact. L'ensemble des capteurs, du code, des données et des configurations matérielles sera rendu public sur le site du projet. Ce travail remet en cause une hypothèse structurante de la communauté robotique : que le toucher améliore systématiquement les performances de manipulation. TacO montre au contraire que l'utilité de l'information tactile dépend fortement de la modalité du capteur, des propriétés mécaniques des matériaux et de la nature exacte de la tâche. Cette nuance a des implications directes pour les intégrateurs et les équipes R&D : choisir un capteur tactile sans référence à la tâche cible relève du pari. Pour les COO et décideurs industriels qui évaluent des solutions de manipulation complexe (assemblage, insertion, tri de pièces), TacO fournit un étalon comparatif là où n'existait jusqu'ici que du consensus non quantifié. Il faut noter que les métriques de performance détaillées par tâche ne sont pas divulguées dans le préprint, ce qui limite l'interprétation sans accès au papier complet. Le besoin de ce benchmark s'inscrit dans une dynamique plus large : le succès des approches vision-language-action (VLA) et de l'apprentissage par démonstration a repoussé les limites du manipulation standard, mais ces méthodes butent sur les tâches à contact riche, où le retour visuel seul ne suffit pas. Plusieurs capteurs font figure de références sectorielles -- GelSight et DIGIT pour le tactile visuel, ReSkin pour le magnétique, des matrices résistives pour la pression -- mais aucune comparaison tête-à-tête rigoureuse ne permettait aux équipes de justifier leur choix. TacO comble ce vide méthodologique. Les prochaines étapes naturelles incluent l'extension à des tâches bi-manuelles, à des environnements moins contrôlés, et l'intégration de ces résultats dans les pipelines d'entraînement de politiques généralisées comme Pi-0 ou GR00T N2.

UELes équipes R&D et intégrateurs européens travaillant sur la manipulation à contact riche pourront s'appuyer sur ce benchmark open-source pour justifier objectivement leurs choix de capteurs tactiles, comblant un vide méthodologique jusqu'ici non quantifié.

RecherchePaper
1 source
PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration
464arXiv cs.RO 

PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration

Une équipe de chercheurs présente PGDG (Physically Grounded Data Generation), un cadre qui permet d'entraîner une politique de manipulation bimanuelles robuste à partir d'une seule démonstration humaine. Déposé sur arXiv en mai 2026 (réf. 2605.21710), le système attaque un problème structurant du behavior cloning : tout écart par rapport à la trajectoire apprise plonge le robot dans des états hors distribution, sans signal de récupération disponible dans les données d'entraînement. PGDG génère automatiquement, sans annotation humaine supplémentaire, un ensemble compact de trajectoires physiquement plausibles couvrant ces comportements de récupération manquants. Il alterne entre un échantillonneur ancré en physique et un curateur de données qui oriente progressivement l'exploration vers les modes sous-représentés, complété par un reétiquetage d'actions correctives sur les états risqués. Sur la tâche RotateBox-Pitch, manipulation bimanuelles par contact, le taux de succès passe de 38 % à 93 % en simulation et de 35 % à 82 % en transfert zéro-shot vers le robot réel. Appliqué au fine-tuning de GR00T, le modèle de fondation vision-langage-action de NVIDIA, la méthode améliore le taux de succès de 46 % à 77 %. Le résultat le plus notable pour les intégrateurs est le transfert zéro-shot : la politique entraînée exclusivement sur données synthétiques fonctionne directement sur le robot physique, sans adaptation terrain. Ce résultat valide empiriquement que la génération ancrée en physique peut combler le sim-to-real gap pour les tâches en contact, historiquement le talon d'Achille de la manipulation dextère. La compatibilité avec GR00T (un VLA) ouvre également une voie pour enrichir les modèles de fondation à faible coût de collecte : une démonstration unique remplace les centaines typiquement requises en téléopération, ce qui modifie le calcul économique pour tout projet de déploiement à grande variété de configurations. Ce travail s'inscrit dans la course à l'efficacité des données en robotique manipulatrice. L'augmentation spatiale classique, premier concurrent direct, est systématiquement surpassée sur les quatre tâches testées. Les approches alternatives misent soit sur la collecte massive comme ACT/ALOHA (des milliers de démonstrations), soit sur le pré-entraînement multi-tâche à grande échelle comme pi-0 de Physical Intelligence. PGDG se distingue par son paradigme "une démonstration suffit", potentiellement attractif dès que la diversité des pièces ou des configurations rend la collecte par tâche prohibitive. La validation reste pour l'instant en environnement laboratoire ; une évaluation sur des tâches industrielles réelles constituerait la prochaine étape logique.

💬 Une démo au lieu de mille, et le robot fonctionne directement sur le physique sans adaptation terrain. Le sim-to-real sur de la manipulation par contact, c'était le blocage structurel depuis des années, et là ils sortent 82% en zéro-shot sur le robot réel, c'est pas un résultat qu'on voit souvent. Reste à tenir hors labo.

IA physiqueOpinion
1 source
Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques
465arXiv cs.RO 

Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques

Des chercheurs ont publié sur arXiv (2605.21935, mai 2026) un système de cartographie dynamique baptisé MIF (Multi-modal Interactive Field), conçu pour permettre aux robots humanoïdes de naviguer et de manipuler des objets dans des environnements réels en constante évolution. Testé sur un Unitree G1, le système améliore le taux de relocalisation dans un bureau non-statique de 12 % à 94 %, tout en réduisant l'empreinte mémoire sémantique de 91,4 % grâce à la distillation de features. MIF repose sur trois composantes couplées : un champ d'apparence basé sur le 3D Gaussian Splatting (3DGS) conscient de l'incertitude pour atténuer le flou induit par la marche bipède, un champ spatial maintenant une mémoire topologique de la scène, et un champ géométrique qui calcule une pose d'interaction sûre (Interaction Pose Safety, IPS) avant chaque manipulation. Un score de détection de discordance distingue les fausses alarmes dues aux oscillations du robot des changements persistants réels, et ne met à jour que les zones localement incohérentes. L'enjeu pratique est direct : les systèmes de cartographie sémantique existants (semantic maps, scene graphs) supposent généralement des trajectoires caméra stables et des environnements statiques, deux hypothèses qu'un humanoïde en mouvement viole en permanence. Passer de 12 % à 94 % de succès en relocalisation sur un robot réel dans un bureau avec personnes en mouvement constitue un résultat concret, pas une démo en laboratoire contrôlé. Pour un intégrateur ou un COO industriel évaluant des humanoïdes pour des tâches de pick-and-place, la capacité à maintenir une carte cohérente sous perturbation locomotrice est un prérequis opérationnel non négociable que la plupart des démos actuelles ne valident pas. Le contexte de ce travail s'inscrit dans l'essor du 3DGS comme alternative aux NeRF pour la représentation de scènes en temps réel, une technique popularisée en 2023 et dont l'adaptation à la robotique mobile reste un sujet de recherche actif. L'Unitree G1 est l'une des plateformes humanoïdes commerciales les plus accessibles du marché (autour de 16 000 dollars), ce qui rend ce type de validation plus reproductible que sur des robots propriétaires comme l'Atlas de Boston Dynamics ou le Figure 02. Le code et la page projet sont publiés (ziya-jiang.github.io/MIF-homepage), signal d'une recherche ouverte à la reproduction. Les prochaines étapes naturelles seraient une validation à plus grande échelle et une intégration dans des pipelines de manipulation end-to-end, terrain sur lequel Physical Intelligence (Pi-0) et les équipes GR00T de NVIDIA travaillent en parallèle.

HumanoïdesPaper
1 source
Analyse des capacités incarnées dans les modèles de langage multimodaux par évaluation et diagnostic par compétences
466arXiv cs.RO 

Analyse des capacités incarnées dans les modèles de langage multimodaux par évaluation et diagnostic par compétences

Une équipe de chercheurs a publié BEAR (Benchmark for Embodied Abilities and Reasoning), un cadre d'évaluation qui décompose les tâches robotiques en 14 compétences atomiques pour diagnostiquer les failles des grands modèles de langage multimodaux (MLLMs) embarqués. Le benchmark regroupe 4 469 échantillons entrelacés image-vidéo-texte couvrant 6 catégories, de la perception bas niveau jusqu'à la planification de haut niveau. Soumis à 20 MLLMs dont GPT-5, il révèle deux résultats principaux : les capacités perceptuelles constituent le principal goulot d'étranglement derrière les échecs de raisonnement, et les modèles présentent une modélisation spatiotemporelle instable qui restait invisible dans les benchmarks précédents. En réponse, les auteurs proposent BEAR-Agent, un agent multimodal augmenté d'outils de raisonnement visuel et spatial, qui obtient une amélioration relative de 17,5 % sur GPT-5 par rapport au modèle de base, avec des gains confirmés en simulation et en robotique réelle. L'intérêt de ce travail tient à la granularité du diagnostic. Les benchmarks existants mesurent si un agent réussit une tâche sans expliquer pourquoi. BEAR révèle que les modèles n'échouent pas d'abord sur le raisonnement abstrait, mais sur la perception : identifier des objets dans une scène, interpréter une séquence vidéo, localiser un élément dans l'espace. Ce résultat contredit l'hypothèse répandue selon laquelle les LLMs auraient comblé le déficit de compréhension scénique grâce à leur préentraînement massif. La découverte sur l'instabilité spatiotemporelle est particulièrement significative pour les intégrateurs déployant des VLA (Vision-Language-Action models) en environnement industriel : elle suggère que les performances observées en démonstration vidéo curatée ne reflètent pas la fiabilité opérationnelle réelle. Ce preprint arXiv (version 2, 2025) s'inscrit dans un effort plus large pour structurer l'évaluation des agents embarqués, là où des benchmarks comme EgoSchema ou OpenEQA traitent la compréhension incarnée sans diagnostiquer les sous-compétences. BEAR se distingue par ses expériences en environnements robotiques réels, contrairement aux approches purement simulées comme EmbodiedScan. Aucun acteur français ou européen n'est directement impliqué dans cette publication académique, qui émane vraisemblablement d'équipes universitaires asiatiques ou nord-américaines au vu de la page projet associée. La prochaine étape logique serait l'adoption de BEAR comme protocole standard dans les pipelines d'évaluation VLA avant tout déploiement physique.

RecherchePaper
1 source
WestWorld : un modèle du monde de trajectoires évolutif intégrant des connaissances pour systèmes robotiques variés
467arXiv cs.RO 

WestWorld : un modèle du monde de trajectoires évolutif intégrant des connaissances pour systèmes robotiques variés

Une équipe de chercheurs a publié WestWorld (arXiv:2603.14392), un modèle de monde trajectoire conçu pour opérer sur des systèmes robotiques hétérogènes. Préentraîné sur 89 environnements complexes couvrant une large variété de morphologies en simulation et en conditions réelles, le modèle cible deux lacunes récurrentes dans la littérature : la difficulté de passer à l'échelle face à un grand nombre de dynamiques système distinctes, et l'absence d'intégration des connaissances sur les structures physiques des robots. La validation réelle a été conduite sur un quadrupède Unitree Go1, où WestWorld a démontré des performances stables en locomotion. Le code source est disponible sur GitHub. L'architecture repose sur un mécanisme baptisé Sys-MoE (system-aware Mixture-of-Experts), qui route dynamiquement des experts spécialisés selon le système robotique fourni en entrée, via un embedding système appris. Un embedding structurel complémentaire aligne les représentations de trajectoires avec les informations morphologiques du robot, permettant au modèle de tenir compte du fait qu'un bras articulé, un quadrupède et une plateforme mobile n'obéissent pas aux mêmes contraintes physiques. Les résultats affichent des gains significatifs en prédiction de trajectoire zero-shot et few-shot face aux baselines compétitives, ainsi qu'une amélioration des performances sur le contrôle model-based downstream pour différentes plateformes robotiques. La scalabilité tient sur un spectre large d'environnements, ce qui constitue l'argument central de la contribution. La publication s'inscrit dans une tendance forte : appliquer aux robots les world models issus du monde des agents RL et des LLMs multimodaux, à l'image de Dreamer, UniSim, ou des frameworks VLA (Vision-Language-Action) orientés manipulation. WestWorld se distingue par son ambition généraliste multi-morphologie, là où la majorité des approches concurrentes restent spécialisées sur une famille de robots. L'usage du Unitree Go1 comme banc de test réel est pertinent mais reste un cas relativement balisé dans la littérature, ce qui nuance la portée de la démonstration sim-to-real. Les prochaines étapes logiques seront d'évaluer le transfert sur des morphologies plus complexes, humanoïdes notamment, là où les défis de généralisation sont encore ouverts.

RecherchePaper
1 source
Explications contrefactuelles temporelles des décisions d'arbres de comportement
468arXiv cs.RO 

Explications contrefactuelles temporelles des décisions d'arbres de comportement

Une équipe de chercheurs a publié sur arXiv (référence 2509.07674, version 2) une méthode automatisée de génération d'explications contrefactuelles temporelles pour les robots pilotés par des arbres de comportement (behaviour trees, BT). Le système répond en temps réel aux questions de type "pourquoi le robot a-t-il fait X plutôt que Y ?" en construisant automatiquement un modèle causal à partir de la structure du BT et de la connaissance du domaine applicatif, puis en interrogeant ce modèle pour produire un ensemble d'explications contrefactuelles diversifiées. Les auteurs affirment surpasser les méthodes existantes, qui soit ne répondent pas aux questions contrastives avec des explications causales, soit ne garantissent pas la cohérence et la précision des réponses sur une large gamme de structures de BT et d'états système. Les arbres de comportement sont largement utilisés dans les systèmes robotiques industriels et de service pour piloter la prise de décision, des manipulateurs aux robots mobiles autonomes (AMR) en passant par les plateformes humanoïdes. La question de l'explicabilité (XAI) y est critique pour les intégrateurs et les équipes de sécurité fonctionnelle : comprendre pourquoi un robot a choisi une séquence d'actions plutôt qu'une autre est indispensable pour la certification, la maintenance et l'acceptation par les opérateurs. Cette méthode propose le premier mécanisme de causalité contrefactuelle automatique dédié aux BT, comblant un angle mort identifié dans la littérature XAI robotique. Les arbres de comportement ont progressivement remplacé les automates finis (FSM) dans de nombreux systèmes robotiques depuis le milieu des années 2010, grâce à leur modularité et leur lisibilité. Les travaux antérieurs sur l'explicabilité des BT se limitaient à des justifications post-hoc non causales ou à des méthodes génériques issues de LIME, SHAP ou des réseaux causaux structuraux (SCM). La validation présentée repose sur des structures de BT synthétiques et des états variés, sans déploiement industriel annoncé à ce stade. Les prochaines étapes naturelles incluent la validation en environnement réel et l'intégration dans des interfaces opérateur, un enjeu croissant en Europe avec l'AI Act et les normes cobotiques (ISO 10218) qui renforcent les exigences de traçabilité des décisions autonomes.

UELes exigences de traçabilité de l'AI Act et des normes cobotiques (ISO 10218) rendent cette méthode d'explicabilité causale directement pertinente pour les intégrateurs robotiques européens soumis à certification.

RecherchePaper
1 source
SubTGraph : synthèse d'environnements souterrains à grande échelle avec variabilité topologique contrôlable pour la validation de l'autonomie robotique
469arXiv cs.RO 

SubTGraph : synthèse d'environnements souterrains à grande échelle avec variabilité topologique contrôlable pour la validation de l'autonomie robotique

SubTGraph est un framework open-source publié en preprint sur arXiv (ref. 2605.20917) par des chercheurs de l'université technologique de Luleå (LTU-RAI, Suède), conçu pour générer automatiquement des environnements souterrains synthétiques à grande échelle destinés à la validation de robots autonomes. Le système s'appuie sur un algorithme de Dijkstra piloté par une matrice de coûts paramétrée par l'utilisateur, qui assemble des tuiles topométriques issues du DARPA World Generator pour produire des scènes variées : mines opérationnelles, grottes naturelles et tubes de lave, y compris des configurations inspirées des tubes martiaux. La librairie est disponible sur GitHub (github.com/LTU-RAI/SubTGraph) et s'accompagne d'une base de données de 150 mondes souterrains distincts. Trois cas d'usage ont été investigués : la segmentation sémantique structurelle comparée à des vérités terrain topométriques, la planification de trajectoires multi-agents pour identifier des tendances algorithmiques, et le SLAM LIO (Lidar-Inertial Odometry) soumis à des conditions sévères pour cartographier les cas d'échec. Le problème central que SubTGraph adresse est un angle mort documenté dans la littérature : la quasi-totalité des articles en robotique souterraine valident leurs algorithmes sur deux ou trois environnements au maximum, rendant les conclusions statistiquement fragiles. Les sites réels (mines actives, grottes) sont difficiles d'accès, dangereux et impossibles à contrôler expérimentalement. La disponibilité d'une infrastructure de benchmarking à grande échelle, avec variabilité topologique contrôlable (niveaux, textures, géométrie), ouvre la voie à des évaluations statistiques rigoureuses des stacks d'autonomie couvrant perception, planification et localisation. Pour les intégrateurs travaillant sur l'inspection minière ou l'exploration planétaire, c'est un accélérateur de validation concret, réduisant la dépendance aux campagnes terrain coûteuses. SubTGraph s'inscrit directement dans l'héritage du DARPA Subterranean Challenge (2018-2021), compétition majeure qui a structuré la recherche en robotique souterraine et produit le World Generator sur lequel ce framework s'appuie. L'intérêt pour ces environnements est dual : automatisation minière (acteurs comme Sandvik, Epiroc, Hexagon Mining) et exploration planétaire (tubes de lave lunaires et martiens, dans la trajectoire des programmes NASA et ESA). Face aux simulateurs généralistes comme Gazebo ou Isaac Sim, SubTGraph se différencie par une génération procédurale spécifiquement calibrée sur les contraintes topologiques souterraines. Les suites logiques incluent l'intégration de modèles de capteurs réalistes et le transfert sim-to-real pour la navigation en environnements dégradés (poussière, faible luminosité, connectivité radio limitée).

UEDéveloppé par l'université de Luleå (Suède, UE), ce framework bénéficie directement aux acteurs européens de l'automatisation minière (Sandvik, Epiroc) et à l'ESA pour la validation de robots d'exploration planétaire.

RecherchePaper
1 source
DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique
470arXiv cs.RO 

DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique

Des chercheurs ont publié DISC (Decoupling Instruction from State-Conditioned Control via Policy Generation), une architecture de politique de manipulation robotique conditionnée par le langage, déposée sur arXiv (2605.20856) en mai 2026. L'approche repose sur un hyperréseau qui génère l'intégralité des paramètres d'une politique visuomotrice spécifique à la tâche à partir de la seule instruction textuelle. La politique générée n'accède jamais directement au langage : sa compréhension de la tâche provient exclusivement des poids produits par l'hyperréseau. Sur les benchmarks LIBERO-90 et Meta-World, DISC surpasse l'ensemble des architectures couplées évaluées, et dépasse pi-0 (Physical Intelligence) malgré l'absence de tout préentraînement sur données externes. Le code est disponible publiquement sur GitHub. Ce résultat touche à un problème structurel bien documenté dans le domaine des VLA (Vision-Language-Action models) : l'"observation leakage", c'est-à-dire la tendance des réseaux couplés à apprendre des raccourcis scène-à-action qui contournent le grounding linguistique. En pratique, cela signifie qu'un modèle peut réussir une tâche en exploitant des corrélations visuelles parasites plutôt qu'en comprenant l'instruction. DISC élimine ce chemin de fuite par construction, et non par régularisation post-hoc. Le fait de surpasser pi-0 sans préentraînement est notable : pi-0 est entraîné sur des volumes de données multi-robots à grande échelle, ce qui rend la comparaison significative pour les équipes qui cherchent à calibrer le retour sur investissement du préentraînement massif versus des architectures mieux conçues. L'hyperréseau apprend également un manifold de paramètres structuré sémantiquement, ce qui permet une adaptation few-shot à partir de très peu de démonstrations et une robustesse aux reformulations d'instructions. Les architectures de politiques conditionnées par le langage sont au coeur de la course aux robots généralistes depuis 2023, avec des travaux fondateurs comme RT-2 (Google DeepMind), OpenVLA, et pi-0 de Physical Intelligence qui ont structuré le débat autour du préentraînement à grande échelle. DISC propose une alternative architecturale plutôt que scalaire : résoudre le problème de couplage instruction-état en amont, plutôt que de le noyer dans des données. Côté concurrents directs, les approches hyperréseau pour la génération de politiques restent peu explorées en robotique de manipulation, ce qui laisse DISC dans un espace relativement dégagé pour l'instant. Les prochaines étapes naturelles seraient une validation sur hardware physique à plus grande échelle (les expériences réelles mentionnées dans le papier restent limitées à un benchmark à contexte visuel partagé) et une évaluation de la latence de génération des paramètres en conditions de déploiement industriel, deux points que le papier ne documente pas encore précisément.

RechercheOpinion
1 source
DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA
471arXiv cs.RO 

DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (arXiv:2605.19294) une méthode baptisée DEFLECT, Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning, pour corriger un défaut structurel des politiques VLA (Vision-Language-Action) déployées en production. Le problème ciblé est l'inférence asynchrone : pendant qu'un modèle VLA calcule le prochain chunk d'actions, le robot exécute déjà le chunk précédent, conditionné sur une observation capturée plusieurs cycles de contrôle plus tôt. Ce décalage entre prédiction et exécution est bénin à faible latence, mais catastrophique dès que l'inférence s'étire : sur le benchmark Kinetix, le taux de succès s'effondre de 89 % à moins de 1 % quand le cycle d'inférence couvre jusqu'à sept pas de contrôle. DEFLECT apporte un gain de +6,4 points de succès dans ce régime haute latence (5 à 7 pas), +4,6 points sur un VLA réel à la latence maximale testée, avec des améliorations cohérentes sur deux tâches physiques : un pick-and-place bimanuel sur convoyeur et un jeu réactif de type whack-a-mole. L'intérêt industriel de DEFLECT tient à sa nature d'affinement post-entraînement entièrement offline, conçu comme une mise à niveau quasi plug-in sur les stacks VLA asynchrones existants. La méthode construit des paires d'actions contrefactuelles (fraîche vs. périmée) à partir d'une politique de référence gelée, puis les note via un estimateur implicite de ratio de vraisemblance par flow-matching, sans étiquettes humaines, sans modèle de récompense, et sans rollouts en ligne. Ce profil d'intégration est stratégique : les équipes qui déploient aujourd'hui des VLA en environnement industriel, où la latence réseau, la charge GPU et la fréquence de contrôle sont rarement synchronisées, peuvent théoriquement appliquer DEFLECT sans refaire de collecte de données ni de fine-tuning supervisé. La robustesse au délai est un frein réel à la commercialisation des politiques généralisées, et c'est la première approche qui quantifie explicitement l'ampleur de l'effondrement avant de le corriger. Les politiques VLA ont émergé comme paradigme dominant depuis RT-2 (Google DeepMind, 2023) et sont au coeur des systèmes de Physical Intelligence (pi0), de Figure AI (Helix), et de Boston Dynamics. Le problème de l'inférence asynchrone est documenté dans plusieurs travaux depuis 2024, mais les solutions proposées jusqu'ici impliquaient généralement un entraînement en ligne coûteux ou des architectures modifiées. DEFLECT se positionne comme une couche de correction légère, applicable à posteriori, ce qui facilite son adoption dans des pipelines déjà stabilisés. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat commercial dans cette version arXiv, il s'agit d'un résultat de recherche, pas d'un produit shipped. Les prochaines étapes probables incluent des évaluations sur des benchmarks standardisés comme LIBERO ou Open-X Embodiment, et potentiellement une intégration dans des frameworks VLA open-source.

IA physiqueOpinion
1 source
TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle
472arXiv cs.RO 

TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle

Une équipe de chercheurs a publié TwinRL (arXiv:2602.09023), un framework de post-entraînement qui couple un jumeau numérique reconstruit par smartphone avec du reinforcement learning (RL) en monde réel pour affiner des modèles Vision-Language-Action (VLA) en manipulation robotique. La méthode se déroule en trois phases successives : un warm-up par fine-tuning supervisé (SFT), un warm-up RL dans le jumeau numérique, puis du RL directement sur robot. Sur quatre tâches de manipulation testées, TwinRL atteint un taux de succès proche de 100 % en configuration distributionnelle et hors-distribution, avec une convergence 30 % plus rapide que les méthodes de RL réel existantes. Élément frappant : seulement 20 minutes d'interaction physique sur robot sont nécessaires pour obtenir ces résultats, contre des heures ou journées typiques pour les approches concurrentes. L'importance de ce résultat tient à un verrou bien connu du secteur : les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) généralisent bien mais restent coûteux à affiner, car ils dépendent de démonstrations expertes massives et leur exploration en RL réel est lente et peu couvrante. Les auteurs montrent expérimentalement que l'espace d'exploration du RL en ligne reste structurellement contraint par la distribution de trajectoires issue du SFT initial, ce qui explique les plafonds de performance observés dans la littérature. TwinRL contourne ce problème en utilisant le jumeau numérique non pas comme outil d'augmentation de données, mais comme guide actif d'exploration : il identifie les configurations difficiles et dirige les rollouts humains là où le robot échoue, réduisant drastiquement le temps on-robot. Pour un intégrateur ou un COO industriel, cela signifie que le déploiement de robots polyvalents pourrait ne plus nécessiter des semaines de collecte de données en production. Ce travail s'inscrit dans une vague de recherches cherchant à résoudre le sim-to-real gap sans recourir à des simulateurs coûteux : ici, la reconstruction du jumeau numérique part de simples captures smartphone, ce qui abaisse significativement la barrière d'entrée. Les approches concurrentes incluent le RL en simulation pure (souvent peu transférable), la distillation de politiques, et les méthodes de curriculum learning. TwinRL se distingue par son pipeline hybride et son usage ciblé de l'humain dans la boucle. Aucune date de déploiement industriel ni partenariat commercial n'est annoncé, il s'agit d'un résultat de recherche académique, mais la faible exigence en temps robot ouvre des perspectives concrètes pour des cellules de manipulation flexible dans l'industrie manufacturière ou logistique.

RechercheOpinion
1 source
COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés
473arXiv cs.RO 

COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés

Des chercheurs ont publié sur arXiv (arXiv:2605.17144) une méthode d'inférence baptisée COAST, Contrastive Conceptor Activation Steering, conçue pour améliorer les performances des modèles Vision-Language-Action (VLA) sans nécessiter aucun réentraînement. Le constat de départ est documenté mais rarement quantifié aussi clairement : malgré un pré-entraînement massif sur des corpus web (images, texte, vidéo), les VLA échouent fréquemment sur des tâches robotiques élémentaires. COAST construit ce qu'on appelle des "conceptors", des opérateurs linéaires qui projettent les données vers les composantes principales d'une distribution cible. En pratique, on fournit au système quelques trajectoires de succès et d'échecs pour une tâche donnée ; COAST en extrait des sous-espaces d'activation critiques pour le succès, puis oriente les états latents du modèle vers ces sous-espaces au moment de l'inférence. Testée sur trois architectures distinctes, VLA à flow-matching, VLA autorégressif et Diffusion Policy, la méthode améliore le taux de succès absolu de plus de 20 points en simulation et de plus de 40 points sur robot réel. Ces chiffres sont significatifs parce qu'ils suggèrent que les VLA actuels encodent déjà une connaissance pertinente pour la tâche dans leurs représentations internes, mais qu'un goulot d'étranglement dans le décodage de l'action empêche cette connaissance de se traduire en comportement fiable. COAST contourne ce problème sans toucher aux poids du modèle, ce qui le rend compatible avec n'importe quel VLA déployé. Autre observation structurelle importante : les modes d'échec partagent une géométrie commune entre tâches différentes, alors que les représentations de succès restent largement spécifiques à chaque tâche. Cette asymétrie permet de réutiliser des conceptors calibrés sur une tâche pour améliorer les performances sur une tâche nouvelle, sans recalibration. Le travail s'inscrit dans un courant plus large de recherche sur le pilotage des représentations internes (activation steering), initialement développé dans le domaine de l'interprétabilité mécanistique des LLM. Côté robotique, les VLA de référence incluent Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, tous confrontés à ce même écart entre performance en démo et robustesse en déploiement réel. COAST ne rivalise pas avec ces modèles mais s'y greffe en post-traitement. Les auteurs n'annoncent pas de déploiement industriel ; il s'agit pour l'instant d'une contribution de recherche, dont la prochaine étape naturelle serait une validation sur des tâches longue-horizon et sur des plateformes humanoïdes à haute dimensionnalité.

💬 +40 points sur robot réel sans retraining, c'est le genre de résultat qui me fait relire le papier deux fois. L'idée centrale est solide : les VLA encodent déjà ce qu'il faut savoir, c'est le passage vers l'action motrice qui bloque, et COAST règle ça en orientant les activations internes au bon endroit. Bon, on est encore loin du déploiement industriel, mais si tu bosses avec Pi-0 ou GR00T en ce moment, cette méthode se greffe directement sur ce que t'as.

IA physiqueOpinion
1 source
Fusion multimodale tactile en IA incarnée : tour d'horizon des paradigmes vision, langage et contact
474arXiv cs.RO 

Fusion multimodale tactile en IA incarnée : tour d'horizon des paradigmes vision, langage et contact

Une équipe de chercheurs publie sur arXiv (2605.17336v1) un état de l'art de la fusion tactile multimodale dans les systèmes d'intelligence incarnée, couvrant les travaux jusqu'au premier trimestre 2026. L'article recense les approches qui combinent capteurs tactiles, vision et modèles de langage (LLM), et propose une taxonomie hiérarchique selon deux axes : les jeux de données multimodaux (Tactile-Vision, Tactile-Language, Tactile-Vision-Language) et les méthodes, regroupées en trois piliers : perception et reconnaissance (prédiction de saisie, identification d'objets), génération cross-modale (traduction bidirectionnelle entre données tactiles, visuelles et textuelles), et interaction multimodale (contrôle par retour d'effort, manipulation guidée par le langage). Le survey recense également le matériel de captation tactile représentatif et les métriques d'évaluation en usage dans les benchmarks actuels. Ce travail arrive à un moment critique : le toucher reste la grande modalité sensorielle non unifiée dans les pipelines robotiques modernes. Les systèmes de manipulation actuels, qu'il s'agisse de bras industriels ou d'humanoïdes comme Figure 03, Optimus ou GR00T N2, s'appuient massivement sur la vision et les VLA (Vision-Language-Action models), mais le retour tactile reste sous-exploité, souvent réduit à des capteurs force/couple rudimentaires. La perception tactile fournit pourtant des informations irremplaçables sur la géométrie de contact, les propriétés des matériaux et la dynamique d'interaction que la caméra seule ne peut pas restituer, ce qui en fait probablement la prochaine frontière pour réduire les taux d'échec en manipulation fine (assemblage, tri de pièces déformables, objets fragiles). Le domaine a connu une accélération depuis 2020 grâce aux capteurs visuotactiles comme GelSight (MIT) et DIGIT (Meta/FAIR), qui convertissent la déformation de surface en image RGB et permettent d'appliquer les architectures de vision standard au toucher. Des laboratoires comme Stanford, CMU et plusieurs groupes chinois (Shanghai AI Lab, Tsinghua) ont produit l'essentiel des datasets référencés. En Europe, des acteurs comme Shadow Robot et Wandercraft travaillent sur l'intégration du retour haptique dans des systèmes commerciaux. La fragmentation des datasets et des protocoles d'évaluation reste le principal frein à la montée en échelle, et les auteurs identifient la création de benchmarks unifiés et de modèles fondation tactiles comme les prochains jalons structurants du domaine.

UEWandercraft (France) est cité parmi les acteurs travaillant sur l'intégration du retour haptique dans des systèmes commerciaux, mais ce survey académique n'a pas d'impact opérationnel direct sur la France/UE à court terme.

RecherchePaper
1 source
Pas ce que vous avez demandé : attaques typographiques dans la manipulation par robots ménagers
475arXiv cs.RO 

Pas ce que vous avez demandé : attaques typographiques dans la manipulation par robots ménagers

Des chercheurs ont mis en ligne sur arXiv (référence 2605.18593) une étude démontrant que de simples autocollants portant du texte imprimé suffisent à détourner les robots ménagers qui utilisent CLIP comme moteur de perception. Dans un environnement de simulation Habitat configuré avec le benchmark HomeRobot, l'attaque a atteint un taux de succès (ASR) de 67,8% sur un pool de 59 épisodes contrôlés, montant à 70,0% parmi les épisodes où le robot accomplissait normalement sa tâche sans perturbation. L'architecture évaluée repose sur une configuration découplée qui expose un encodeur CLIP gelé aux autocollants adversariaux, tout en maintenant un ancrage géométrique via DETIC. Sans optimisation perceptuelle préalable, sans contrôle des angles de vue ni de l'occlusion, le robot saisit physiquement le mauvais objet et le dépose dans la zone cible désignée. L'apport majeur de ce travail réside dans la démonstration que l'erreur de perception se propage à travers la carte sémantique 3D persistante du robot jusqu'à produire ce que les auteurs appellent des "défaillances cinétiques" - des actions physiques erronées entièrement pilotées par un état sémantique empoisonné. C'est la première évaluation du cycle Sense-Plan-Act complet d'un manipulateur ménager face à des attaques typographiques, là où les travaux antérieurs se limitaient à des benchmarks 2D statiques ou à des tâches de navigation. Pour un intégrateur ou un COO envisageant des déploiements de robots de service, ce résultat révèle un vecteur d'attaque dont le coût d'exécution est quasi nul : une étiquette imprimée. Cela remet en question la robustesse sécuritaire des pipelines VLA (Vision-Language-Action) modulaires qui délèguent la perception à des modèles open-vocabulary non durcis. Les attaques typographiques sur CLIP sont documentées depuis 2021, mais ce travail représente le premier transfert vers la manipulation physique, la tâche commercialement la plus pertinente pour les robots de service. CLIP reste omniprésent dans les stacks d'agents incarnés open-vocabulary, de HomeRobot à des architectures de type SayPlan ou PerAct. Des alternatives comme SigLIP ou Florence pourraient offrir une résistance différente, mais aucun benchmark comparatif n'est fourni dans cette étude. Il n'y a pas de déploiement réel ni de partenaire industriel annoncé : il s'agit d'un preprint publié en mai 2025, en simulation uniquement. La suite logique passe par la validation sur hardware réel et l'évaluation de défenses, notamment la redondance perceptuelle, le filtrage sémantique ou la détection d'anomalies textuelles dans le champ de vision.

UELes intégrateurs européens déployant des robots de service basés sur CLIP doivent intégrer ce vecteur d'attaque à coût quasi nul dans leurs audits de sécurité avant tout déploiement commercial.

RechercheOpinion
1 source
Autonomie robotique à seuil de confiance : quand l'incertitude est-elle vraiment utile ?
476arXiv cs.RO 

Autonomie robotique à seuil de confiance : quand l'incertitude est-elle vraiment utile ?

Des chercheurs ont déposé sur arXiv (2605.18045) une étude systématique sur l'autonomie à seuil de confiance, mécanisme par lequel un robot décide d'agir de façon autonome ou de déléguer à une politique de repli selon son niveau d'incertitude prédictive. L'équipe a comparé trois familles de méthodes d'estimation de l'incertitude (heuristiques softmax, MC Dropout, ensembles de modèles) sur trois benchmarks de reconnaissance d'activité temporelle, avant de valider les résultats dans une simulation embarquée multi-seed mesurant taux de collision et coût opérationnel. Les auteurs critiquent les métriques standard comme l'ECE (erreur de calibration attendue) et l'AUROC : ces indicateurs ne testent pas directement si l'incertitude modifie la décision agir/déléguer. Ils proposent en remplacement une évaluation par corrélation de rang de Spearman, tests d'équivalence par bootstrap, et accord act/defer. Le résultat central contredit une hypothèse fréquente dans la robotique de déploiement : une fois un seuil de compétence minimal atteint par le modèle de base, les trois méthodes produisent des comportements de gating quasi-identiques. C'est le choix du seuil de décision qui pèse le plus sur les résultats d'exécution, bien davantage que la sophistication de la méthode d'incertitude choisie. En pratique, un proxy simple (softmax) suffit pour le gating sélectif dès lors que le modèle est compétent. Revers de la médaille : la détection sémantique hors-distribution fine-grained reste proche du hasard même avec des ensembles de modèles. Les systèmes actuels ne savent pas identifier une situation véritablement inédite, ce qui représente un angle mort critique pour les robots opérant en environnements non contrôlés. Ce travail s'inscrit dans le champ de l'autonomie partagée (shared autonomy), question centrale pour les robots collaboratifs et les AMR industriels. Les méthodes comparées (MC Dropout, Gal et Ghahramani 2016 ; ensembles, Lakshminarayanan 2017) font figure de références établies dans le domaine. Les résultats relativisent les arguments commerciaux en faveur des estimateurs bayésiens avancés pour le déploiement terrain, un sujet directement pertinent pour des acteurs comme Boston Dynamics, Figure AI, Apptronik ou Intrinsic (Alphabet), dont les systèmes doivent décider en temps réel quand solliciter un opérateur humain. Les auteurs annoncent comme prochaines étapes l'extension à des modalités sensorielles plus riches et à des scénarios de décalage de covariable plus agressifs, pour tester la robustesse des conclusions hors du cadre benchmarké.

RecherchePaper
1 source
Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF
477arXiv cs.RO 

Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF

Des chercheurs ont publié en mai 2026 Dexora, un système VLA (Vision-Language-Action) open-source conçu nativement pour la manipulation bimane et bi-main à haut nombre de degrés de liberté (DoF). Contrairement aux architectures existantes, limitées soit au contrôle de pinces doubles (faible DoF), soit à la manipulation dextère d'un seul bras, Dexora adresse simultanément les deux problèmes. Le pipeline de téléopération repose sur un exosquelette dorsal pour capturer la cinématique grossière des bras, couplé à un suivi markerless des doigts via Apple Vision Pro pour le mouvement fin des mains. Ce dispositif pilote à la fois un robot physique dual-arm dual-hand et un jumeau numérique identique sous MuJoCo. Le corpus d'entraînement atteint 100 000 trajectoires simulées (6,5 millions de frames) et 10 000 épisodes téléopérés en conditions réelles (2,92 millions de frames). Pour filtrer le bruit inévitable des démonstrations humaines, un discriminateur offline attribue des pondérations par clip avant l'entraînement d'une politique diffusion-transformer. En benchmark, Dexora obtient 66,7 % de succès sur les tâches dextères contre 51,7 % pour les meilleures alternatives comparées, et 90 % sur les tâches de base. Des résultats de généralisation hors distribution et cross-embodiment sont également reportés. Ce travail comble un angle mort réel de l'écosystème VLA actuel : les mains à haute dextérité (typiquement 16 à 22 DoF par main) ne se prêtent pas aux heuristiques utilisées pour les pinces, et les méthodes end-to-end génériques se sont jusqu'ici heurtées à la complexité de la téléopération bimanuelle simultanée. Le gain de 15 points sur les baselines dextères est significatif, même si les benchmarks utilisés restent internes et les conditions expérimentales peu détaillées dans l'abstract, ce qui mérite vérification à la lecture du papier complet. L'ouverture du code, des données et des poids est le point différenciant le plus structurant : elle abaisse la barrière d'entrée pour les laboratoires et les intégrateurs qui cherchent à entraîner des politiques sur leurs propres plateformes dextères sans repartir de zéro. La publication s'inscrit dans une course accélérée à la dextérité fine pour les bras robotiques, où Physical Intelligence (pi0), OpenVLA et plusieurs équipes académiques ont multiplié les releases VLA depuis 2024. Aucun acteur européen n'est directement impliqué dans ce travail, mais des start-ups comme Enchanted Tools (France) ou Shadow Robotics (UK, désormais indépendant de OpenAI) suivent des trajectoires adjacentes sur les mains dextères. Le recours à l'Apple Vision Pro comme capteur de téléopération markerless est un choix pragmatique mais dépendant d'un hardware grand public non industriel, dont la robustesse en environnement de production reste à démontrer. Il s'agit d'un preprint arXiv, pas d'un produit livré : aucun déploiement industriel ni pilote n'est annoncé à ce stade.

UEDes laboratoires et start-ups européens spécialisés dans la manipulation dextère (ex : Enchanted Tools, Shadow Robotics) pourront s'appuyer sur le code, les données et les poids open-source de Dexora pour accélérer leurs propres politiques, sans qu'aucun partenariat ou déploiement en Europe ne soit annoncé.

💬 Le vrai saut, c'est l'open source : code, poids, et les 100 000 trajectoires d'entraînement disponibles. Jusqu'ici chaque équipe qui voulait attaquer la manipulation bimanuelle repartait de zéro, parce que personne ne partageait de base réutilisable à cette granularité de DoF. Reste à voir ce que ça vaut en dehors des benchmarks internes.

IA physiqueOpinion
1 source
PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes
478arXiv cs.RO 

PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes

Une équipe de chercheurs a présenté PRIME (Physically-consistent Robotic Inertial and Motion Estimation), une méthode d'estimation de mouvement pour robots à pattes et humanoïdes publiée sur arXiv en mai 2026 (arXiv:2605.17681). Là où les pipelines conventionnels basés sur des filtres de Kalman étendus (EKF) ou la capture de mouvement externe ne reconstruisent que la cinématique, PRIME formule le problème comme une estimation MAP (Maximum A Posteriori) qui raffine simultanément les données proprioceptives brutes et les commandes des actionneurs pour produire une trajectoire dynamiquement cohérente. L'algorithme estime conjointement les forces de contact frictionnelles et les paramètres inertiels du robot (masses, centres de masse, moments d'inertie), via une modélisation différentiable de la dynamique de contact avec contraintes de complémentarité lissées et un modèle de friction d'Anitescu. Les validations ont été conduites sur des robots quadrupèdes et sur l'humanoïde Unitree G1, lors de séquences de locomotion à contacts multiples en déploiement réel. Le problème abordé est structurel : les pipelines de perception robotique actuels ignorent les forces de contact et les paramètres inertiels effectifs du système, ce qui entraîne des reconstructions qui violent régulièrement la dynamique des corps rigides, en particulier lors des phases de contact. Cette incohérence dégrade la qualité des données d'entraînement et limite la robustesse des contrôleurs en boucle fermée. PRIME produit des reconstructions de mouvement annotées en forces et contacts directement depuis des robots en déploiement terrain, sans infrastructure de laboratoire. Pour les équipes qui développent des modèles de fondation robotiques ou des architectures Visual-Language-Action (VLA), cette capacité représente une source de données haute qualité exploitable à grande échelle, là où la rareté d'annotations dynamiques fiables reste un goulot d'étranglement reconnu. L'estimation d'état pour robots à pattes est un problème ancien, historiquement traité par EKF couplés à la proprioception, la capture de mouvement restant cantonnée aux laboratoires. PRIME se distingue en proposant une solution embarquée et déployable en conditions réelles, sans dépendance à une infrastructure externe. L'humanoïde Unitree G1, commercialisé autour de 16 000 dollars et très présent dans la recherche académique mondiale, sert de banc de validation représentatif. Dans un contexte où Boston Dynamics, Figure AI, Agility Robotics, 1X et Unitree accumulent des données de déploiement pour alimenter leurs pipelines d'apprentissage, PRIME propose une brique méthodologique transversale pour enrichir ces corpus avec des annotations dynamiques fiables. Les applications naturelles incluent l'imitation learning, le transfert sim-to-real et l'entraînement de modèles de fondation à partir de données terrain.

UELes équipes de recherche européennes en locomotion robotique (INRIA, LAAS-CNRS) pourraient exploiter PRIME pour enrichir leurs pipelines d'entraînement sans infrastructure de laboratoire, mais aucun acteur ou institution européen n'est directement impliqué.

RecherchePaper
1 source
Apprentissage par renforcement efficace pour les VLA par masquage probabiliste de séquences
479arXiv cs.RO 

Apprentissage par renforcement efficace pour les VLA par masquage probabiliste de séquences

Une équipe de chercheurs propose dans un preprint arXiv (2605.16154, mai 2026) une modification algorithmique baptisée Probabilistic Chunk Masking (PCM), conçue pour réduire le coût computationnel de l'entraînement par renforcement (RL) des politiques vision-langage-action (VLA). Testée sur trois benchmarks LIBERO, PCM atteint les mêmes taux de réussite finale que l'algorithme GRPO standard tout en réduisant le temps d'entraînement d'un facteur 2,38x en temps réel, les mises à jour de gradient de 4,8x, et la mémoire d'activation de pointe de 60 %. Elle y parvient en ne rétropropageant que moins de 20 % des chunks de trajectoire, sans recourir à un modèle de récompense ni à un critic appris. Le résultat le plus structurant de ce travail n'est pas le speedup lui-même, mais la remise en cause d'une hypothèse dominante dans la communauté : l'idée que le goulot d'étranglement du RL pour VLA se situe dans la collecte de rollouts (via simulateurs ou world models). Les mesures des auteurs montrent que le calcul de gradient représente 78 % du temps CPU par étape, contre seulement 21 % pour la collecte. GRPO distribue uniformément le signal d'apprentissage sur toute la trajectoire, y compris les phases que le modèle maîtrise déjà après pré-entraînement et fine-tuning supervisé. PCM corrige cela en concentrant le budget de gradient sur les phases où les rollouts réussis et échoués divergent réellement, proxy mesurable de la variance de gradient par phase. Pour les équipes qui entraînent des VLA sur robot physique avec des budgets GPU contraints, ce type d'optimisation change concrètement ce qui est faisable en interne. Le contexte immédiat est l'essor du post-training RL pour VLA, une tendance portée notamment par Physical Intelligence avec π0, par les travaux OpenVLA, et par l'adaptation de GRPO (initialement développé par DeepSeek pour les LLM) à la manipulation robotique. PCM s'insère comme brique orthogonale à ces approches : elle ne modifie ni l'architecture ni le schéma de récompense, ce qui facilite son intégration dans des pipelines existants. Le papier reste un preprint académique sans déploiement annoncé, mais sa reproductibilité sur LIBERO et l'absence de composants supplémentaires en font un candidat sérieux pour être adopté rapidement par les laboratoires qui expérimentent le RL sur VLA.

UELes laboratoires européens travaillant sur l'entraînement RL de politiques VLA (INRIA, CEA-List) pourraient bénéficier de cette optimisation pour réduire leurs coûts GPU, mais aucun acteur européen n'est directement impliqué dans ce preprint.

RechercheOpinion
1 source
frax : cinématique et dynamique robotique rapide en JAX
480arXiv cs.RO 

frax : cinématique et dynamique robotique rapide en JAX

Une équipe de chercheurs a publié frax, une bibliothèque open-source de cinématique et dynamique de corps rigides pour la robotique, construite sur JAX, le framework d'autodifférenciation de Google. Documentée dans l'article arXiv:2604.04310, la librairie cible une lacune précise : la plupart des bibliothèques existantes excellent soit en exécution CPU à faible latence, soit en débit GPU massif, mais rarement les deux à la fois. frax propose une interface unifiée en Python pur, opérationnelle sur CPU, GPU et TPU sans modification de code. Sur CPU, les temps de calcul descendent à quelques microsecondes, compatibles avec des boucles de contrôle à l'échelle du kilohertz, à parité avec des implémentations C++ optimisées. Sur GPU, la même implémentation vectorisée atteint plus de 100 millions d'évaluations de dynamique par seconde en parallélisant des milliers d'instances simultanément. Les performances ont été validées sur deux plateformes de référence : le bras manipulateur Franka Panda et l'humanoïde Unitree G1. L'impact pour les équipes de robotique est double. Le support natif de l'autodifférenciation via JAX ouvre la voie à des méthodes d'optimisation basées sur les gradients directement dans la boucle de simulation, ce qui accélère le model-based reinforcement learning et le trajectory optimization sans nécessiter d'implémentations séparées. Le fait d'atteindre des temps de cycle CPU comparables au C++ depuis un code Python pur représente également un gain de friction considérable pour les intégrateurs, entre le stade prototype et le déploiement. La scalabilité GPU à 100 millions d'évaluations par seconde est particulièrement pertinente pour le sim-to-real, où l'entraînement massif en simulation parallèle est devenu la norme dans les pipelines de robot learning modernes. frax s'inscrit dans un écosystème JAX en expansion pour la robotique, aux côtés de Brax (Google DeepMind) et MuJoCo XLA (mjx). Les auteurs ne prétendent pas remplacer ces outils, mais proposer une alternative axée sur la polyvalence multi-matériel et la simplicité d'usage. La bibliothèque C++ Pinocchio, développée par le Gepetto team du LAAS-CNRS à Toulouse en partenariat avec l'INRIA, reste une référence pour les systèmes embarqués temps réel, mais frax vise explicitement le segment recherche et apprentissage. La bibliothèque est disponible en open-source, et les prochaines étapes attendues incluent l'intégration avec des pipelines RL existants et l'extension à la dynamique de contact.

UEfrax s'inscrit dans l'écosystème des outils de simulation robotique aux côtés de Pinocchio (LAAS-CNRS/INRIA, Toulouse), et pourrait accélérer les pipelines de robot learning dans les laboratoires français et européens travaillant sur le sim-to-real.

RecherchePaper
1 source
Des quadrillages aux entrepôts : adapter la planification multi-agents légère en un coup pour les robots à guidage automatique
481arXiv cs.RO 

Des quadrillages aux entrepôts : adapter la planification multi-agents légère en un coup pour les robots à guidage automatique

Une équipe de chercheurs a publié le 21 mai 2026 (arXiv:2605.15799) un nouveau cadre algorithmique baptisé MAWPF (Multi-Agent Warehouse Pathfinding), conçu pour adapter les méthodes classiques de planification multi-agents (MAPF) aux véhicules guidés automatisés (AGV) à transmission différentielle réellement déployés en entrepôt. Contrairement aux formulations MAPF standards qui supposent une grille 2D à quatre connexions avec des déplacements unitaires, MAWPF intègre quatre contraintes physiques réalistes : les agents ne peuvent effectuer que des mouvements rectilignes ou des rotations sur place, les rotations ont un coût multi-étapes (non unitaire), les phases d'accélération et de décélération sont modélisées explicitement, et les collisions par l'arrière entre robots suiveurs sont interdites. Les auteurs ont adapté et comparé quatre algorithmes sous-optimaux représentatifs issus de la littérature MAPF : PP (Prioritized Planning), LNS2 (Large Neighborhood Search 2), PIBT (Priority Inheritance with Backtracking) et LaCAM. Les benchmarks montrent que PP et LNS2 peinent à résoudre des instances à grand nombre d'agents, tandis que les approches basées sur PIBT offrent une meilleure scalabilité, au prix d'un coût de solution plus élevé. Ce travail comble un écart concret entre la recherche en planification combinatoire et les contraintes opérationnelles des entrepôts automatisés, où les AGV à transmission différentielle dominent le marché (flottes Locus Robotics, 6 River Systems, Exotec Skypod). Le fait que les rotations et la cinématique soient désormais intégrées dans le modèle de collision élimine une source fréquente d'échec au déploiement, le "sim-to-real gap" cinématique, sans abandonner la tractabilité de la recherche combinatoire discrète. Pour un intégrateur ou un COO, cela signifie que les algorithmes de planification peuvent être qualifiés sur des métriques proches du comportement réel des véhicules, réduisant les ajustements coûteux en production. Le MAPF classique, formalisé depuis les années 2010 avec des algorithmes comme CBS (Conflict-Based Search) et ses variantes, a longtemps été critiqué pour son manque de réalisme physique. Des travaux récents comme MAPF avec agents de taille variable ou avec contraintes temporelles ont ouvert cette direction, mais la cinématique différentielle restait peu traitée. Sur le plan concurrentiel, Amazon Robotics et Waymo Via investissent dans des approches d'optimisation de flotte propriétaires, tandis que des startups comme Exotec (France) ou Autostore misent sur des architectures matérielles contraintes qui simplifient le problème de planification. La prochaine étape naturelle serait l'extension à la planification lifecycle (avec objectifs de livraison dynamiques) et des tests sur des entrepôts physiques instrumentés, non encore annoncés par les auteurs.

UELes intégrateurs de flottes AGV en Europe, et notamment Exotec (France, Skypod), peuvent s'appuyer sur ce cadre MAWPF pour qualifier leurs planificateurs sur des métriques cinématiques réalistes, réduisant les coûteux ajustements de production liés au sim-to-real gap différentiel.

IndustrielPaper
1 source
Any3D-VLA : améliorer la robustesse des modèles VLA grâce à des nuages de points diversifiés
482arXiv cs.RO 

Any3D-VLA : améliorer la robustesse des modèles VLA grâce à des nuages de points diversifiés

Les modèles VLA (Vision-Language-Action) qui pilotent aujourd'hui les robots manipulateurs reposent quasi-exclusivement sur des images 2D comme entrée visuelle. Une équipe de chercheurs publie sur arXiv (arXiv:2506.00807v2) Any3D-VLA, une architecture d'entraînement qui intègre explicitement des nuages de points 3D pour améliorer la robustesse spatiale de ces modèles. L'approche fusionne trois sources de nuages de points hétérogènes, données de simulation, capteurs de profondeur réels (LiDAR, RGB-D), et estimation par modèle monoculaire, avec les représentations 2D existantes, dans un pipeline d'entraînement unifié. Les expériences couvrent à la fois des environnements simulés et des déploiements réels, et montrent des gains de performance mesurables sur des tâches de manipulation. L'intérêt technique est double. D'abord, le papier démontre empiriquement que "lever" l'entrée visuelle en nuage de points produit des représentations complémentaires aux features 2D, plutôt que redondantes, ce qui valide une hypothèse souvent discutée dans la communauté VLA. Ensuite, Any3D-VLA s'attaque directement aux deux verrous pratiques qui ont jusqu'ici freiné l'adoption du 3D dans ce domaine : la rareté des données 3D annotées et le domain gap lié aux différences de calibration entre environnements et aux biais d'échelle de profondeur. En traitant ces deux obstacles dans un seul framework, le travail suggère une voie vers des VLA plus robustes au sim-to-real transfer, un problème central pour le déploiement en conditions industrielles réelles. Les VLA sont au cœur d'une course intense depuis la publication de RT-2 (Google DeepMind, 2023) et l'essor de modèles comme Pi-0 (Physical Intelligence), OpenVLA, ou RoboVLMs. La plupart restent limités par leur dépendance aux caméras RGB standard, ce qui crée des angles morts en cas d'occlusion ou de scènes encombrées. Any3D-VLA ne propose pas encore un produit déployé : il s'agit d'une contribution de recherche avec code et page projet publics. La prochaine étape logique serait une intégration dans des pipelines de fine-tuning utilisés par des acteurs comme Physical Intelligence ou les équipes robotique de Figure AI, qui cherchent précisément à réduire le nombre de démonstrations réelles nécessaires grâce à un meilleur transfert depuis la simulation.

RechercheOpinion
1 source
VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique
483arXiv cs.RO 

VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique

Une équipe de chercheurs propose VER (Vision Expert Transformer), une architecture visuelle publiée sur arXiv sous l'identifiant 2510.05213 (version révisée), dédiée à l'apprentissage de politiques robotiques. Le principe central repose sur une phase de préentraînement durant laquelle plusieurs modèles fondamentaux de vision (VFMs) sont distillés dans une bibliothèque d'experts visuels unifiée. Une fois cette bibliothèque constituée, seul un réseau de routage léger, représentant moins de 0,4 % des paramètres totaux, est ajusté pour chaque tâche aval, sélectionnant dynamiquement les experts pertinents selon la nature de la manipulation à effectuer. L'architecture introduit également une méthode de routage par patch baptisée "Patchwise Expert Routing with Curriculum Top-K Annealing", qui affine progressivement la granularité de la sélection d'experts au fil de l'entraînement. Évalué sur 17 tâches robotiques variées combinées à plusieurs têtes de politique, VER atteint des performances état de l'art sur l'ensemble des benchmarks testés. L'intérêt de cette approche pour les intégrateurs et les chercheurs en robotique tient à deux apports distincts. Les VFMs individuels sont par nature spécialisés : chacun excelle dans un domaine précis (sémantique visuelle, géométrie, correspondance de textures) mais échoue à généraliser sur la diversité des tâches de manipulation. La distillation multi-modèles avec routage dynamique permet d'exploiter des représentations complémentaires sans repartir d'un entraînement complet, réduisant considérablement les coûts de calcul lors de l'adaptation à un nouveau domaine. Par ailleurs, les visualisations produites montrent que VER concentre ses activations sur les régions critiques de la scène, comme l'objet manipulé ou le point de saisie, tout en supprimant les activations parasites en arrière-plan, un problème connu qui dégrade la robustesse des politiques visuelles dans des environnements industriels encombrés. Ce travail s'inscrit dans la dynamique récente d'intégration des modèles fondamentaux dans les pipelines de contrôle robotique, aux côtés d'architectures comme Octo, OpenVLA ou pi-0 de Physical Intelligence, toutes confrontées au gap entre préentraînement généraliste et déploiement sur robot physique. Les approches concurrentes de type VLA (Vision-Language-Action) partagent cet objectif de réduction du coût d'adaptation domaine-vers-robot, mais impliquent généralement un réentraînement bien plus lourd. VER se distingue par la fraction infime de paramètres ajustés lors du fine-tuning, ce qui le rend potentiellement compatible avec des contraintes matérielles embarquées. Les codes et visualisations sont accessibles sur la page projet des auteurs. À ce stade, il s'agit d'un résultat académique pur : aucun partenariat industriel ni calendrier de déploiement commercial n'est mentionné.

💬 0,4 % des paramètres à ajuster pour adapter le modèle à une nouvelle tâche robotique, c'est le chiffre qui change tout dans cette approche. Là où les VLA classiques comme OpenVLA ou pi-0 demandent un réentraînement costaud, VER distille plusieurs modèles de vision en amont et laisse un routage minuscule faire le tri à l'inférence, ce qui rend l'adaptation embarquée enfin envisageable sans cluster de GPUs. Résultat académique pur pour l'instant, mais ce type de travail finit généralement en prod 18 mois plus tard.

IA physiqueActu
1 source
Exploration des goulots d'étranglement dans la navigation VLM-LLM : l'impact de la compréhension de scènes 3D sur la navigation sans apprentissage préalable
484arXiv cs.RO 

Exploration des goulots d'étranglement dans la navigation VLM-LLM : l'impact de la compréhension de scènes 3D sur la navigation sans apprentissage préalable

Des chercheurs ont publié le 20 mai 2026 sur arXiv (arXiv:2605.14801) une étude quantifiant un goulet d'étranglement structurel dans les systèmes de navigation zéro-shot pilotés par VLM-LLM (Vision-Language Model couplé à un Large Language Model). Le paradigme analysé repose sur une architecture à deux étages : un VLM construit des graphes de scène 3D en extrayant objets, relations spatiales et sémantique de l'environnement, tandis qu'un LLM prend les décisions de haut niveau (planification topologique) et pilote un navigateur réactif rapide via coordonnées spatiales et boîtes englobantes. Les auteurs ont modélisé des bornes supérieures statistiques du taux de succès pour ces deux sous-systèmes, les ont validées sur les modèles 3D de l'état de l'art, et ont identifié un phénomène de saturation perceptive : au-delà d'un certain seuil de précision 3D, les gains de navigation deviennent marginaux, voire nuls. Ce résultat remet en cause une hypothèse implicite du secteur : que progresser en perception 3D se traduit mécaniquement en meilleure navigation incarnée. L'étude montre que les modèles de perception actuels optimisent la précision au niveau pixel, ce qui entre directement en conflit avec les contraintes temps-réel d'un robot naviguant dans un environnement dynamique. Pour les intégrateurs et les équipes de R&D robotique, cela signifie que sur-investir en qualité de segmentation ou de reconstruction 3D fine ne se justifie pas pour la navigation autonome : la ressource limitante n'est pas la résolution perceptive, mais la pertinence sémantique des objets détectés et la fiabilité des boîtes englobantes pour l'exécution motrice. C'est un signal fort pour réorienter les efforts vers des vocabulaires visuels navigation-centrés plutôt que vers la précision géométrique exhaustive. La navigation zéro-shot par VLM-LLM est un axe de recherche actif depuis 2022, porté notamment par des travaux sur les agents incarnés dans des simulateurs comme Habitat ou R2R (Room-to-Room). Cette approche vise à s'affranchir des coûts massifs de collecte de données supervisées qui pèsent sur les architectures imitation-learning classiques. Dans le paysage concurrent, des équipes chez Google DeepMind, Meta AI et des laboratoires universitaires (Stanford, CMU) explorent des variantes similaires, certaines intégrant des modèles VLA (Vision-Language-Action) de bout en bout comme Pi-0 ou GR00T N2. Cette étude ne présente pas de déploiement terrain, mais ses bornes analytiques pourraient guider la conception de benchmarks plus pertinents et orienter l'entraînement des prochaines générations de modèles de perception 3D spécialisés navigation.

RechercheOpinion
1 source
Vers l'intelligence des mains dextériques en robotique : un état de l'art
485arXiv cs.RO 

Vers l'intelligence des mains dextériques en robotique : un état de l'art

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.13925) une revue systématique de l'état de l'art des mains robotiques dextres, couvrant l'ensemble de la chaîne de recherche : mécanique et actionnement, perception tactile, méthodes de contrôle et d'apprentissage, jeux de données et protocoles d'évaluation. Le papier structuré en quatre axes examine les compromis fondamentaux entre capacité de force, compliance mécanique, bande passante de contrôle et complexité d'intégration. Il recense les principales architectures de transmission (câbles, tendons, engrenages), les modalités sensorielles embarquées (capteurs de force, peau artificielle, vision tactile type GelSight), et retrace l'évolution chronologique des paradigmes de contrôle : du contrôle impédanciel classique vers les approches par apprentissage par renforcement, imitation, et plus récemment les Visual-Language-Action models (VLA) appliqués à la manipulation en contact riche. L'intérêt principal de cette synthèse pour les équipes R&D et les intégrateurs industriels est qu'elle tente de résoudre un problème structurel du domaine : l'hétérogénéité des hypothèses expérimentales rend les comparaisons entre travaux quasi impossibles. Les auteurs pointent explicitement que les résultats publiés varient selon l'embodiment de la main, la configuration sensorielle, le type de tâche et le protocole d'évaluation retenu, ce qui obscurcit la trajectoire réelle du secteur. En consolidant datasets, pratiques de benchmarking et métriques d'évaluation dans un cadre commun, le survey fournit une grille de lecture pour juger si les progrès annoncés relèvent d'avancées méthodologiques réelles ou d'artefacts de setup. C'est particulièrement utile dans un contexte où les démos vidéo soigneusement sélectionnées et les claims "sim-to-real solved" se multiplient sans validation robuste sur des tâches industrielles répétables. Ce travail s'inscrit dans une vague de consolidation académique portée par l'essor des mains humanoïdes commerciales : Figure (main intégrée sur Figure 02 et 03), Tesla Optimus, Agility Robotics ou encore les systèmes de Sanctuary AI ont tous relancé l'intérêt pour la manipulation dextre après deux décennies de progrès limités post-DLR Hand et Shadow Hand. Côté recherche, les laboratoires Carnegie Mellon, Stanford, ETH Zurich et, en Europe, des acteurs comme Enchanted Tools (France) et des spin-offs universitaires allemands poussent des approches hybrides hardware-learning. Le survey identifie comme chantiers ouverts prioritaires : la généralisation hors distribution (objets inconnus, matériaux déformables), la robustesse sensorielle en conditions industrielles dégradées, et la co-optimisation hardware-software encore trop rare. Aucun calendrier de publication étendue n'est annoncé ; le preprint est disponible en accès libre sur arXiv.

UELe survey cite explicitement Enchanted Tools (France) et des spin-offs universitaires allemands comme acteurs actifs sur la manipulation dextre hybride hardware-learning, en faisant une ressource de référence directement pertinente pour les équipes R&D françaises du secteur.

RecherchePaper
1 source
QuickLAP : apprentissage rapide des préférences langage-action pour systèmes semi-autonomes
486arXiv cs.RO 

QuickLAP : apprentissage rapide des préférences langage-action pour systèmes semi-autonomes

Des chercheurs du MIT CLEAR Lab ont publié QuickLAP (Quick Language-Action Preference Learning), un cadre bayésien conçu pour apprendre les préférences d'un utilisateur en combinant deux types de retours : les corrections physiques (gestes, ajustements de trajectoire) et les instructions en langage naturel. L'article, déposé sur arXiv (2511.17855v2), présente des résultats obtenus dans un simulateur de conduite semi-autonome. L'approche utilise un LLM pour extraire, à partir d'énoncés libres, deux signaux distincts : un masque d'attention sur les caractéristiques de la fonction de récompense (quels critères comptent) et un vecteur de déplacement de préférence (dans quelle direction). Ces signaux sont intégrés avec les corrections physiques via une règle de mise à jour en forme fermée, sans nécessiter d'optimisation itérative à chaque cycle. Les résultats quantitatifs sont notables : QuickLAP réduit l'erreur d'apprentissage de la récompense de plus de 70 % par rapport à des baselines utilisant uniquement le retour physique ou des fusions multimodales heuristiques. Une étude utilisateur menée avec 15 participants confirme que le système est perçu comme plus compréhensible et collaboratif, et que le comportement appris est préféré à celui des baselines. Pour les intégrateurs de systèmes semi-autonomes (robotique d'assistance, véhicules autonomes, cobots industriels), cela pointe vers une voie concrète pour réduire la charge de supervision humaine : au lieu d'imposer des interfaces de correction rigides, le système réconcilie des feedbacks ambigus en temps réel. La combinaison LLM + inférence bayésienne contourne l'ambiguïté classique des corrections gestuelles seules. Le problème adressé est bien identifié dans la littérature sur l'apprentissage par renforcement interactif (IRL, RLHF, preference learning). Les approches précédentes traitaient soit le langage (via RLHF ou instruction following), soit le retour physique (DAgger, kinesthetic teaching), rarement les deux de façon cohérente. QuickLAP se positionne dans la lignée des travaux sur les VLAs et les reward models multimodaux, avec un angle applicatif sur les systèmes à supervision humaine partielle. Le code est disponible sur GitHub (MIT-CLEAR-Lab/QuickLAP). Les prochaines étapes naturelles seraient une validation sur robot physique et des expériences dans des domaines au-delà de la conduite, comme la manipulation ou la navigation en entrepôt.

RechercheOpinion
1 source
Mise en cache adaptative par blocs pour accélérer les politiques de diffusion
487arXiv cs.RO 

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (2506.13456) BAC, pour Block-wise Adaptive Caching, une méthode d'accélération de l'inférence pour Diffusion Policy. Le principe : mettre en cache les features d'action intermédiaires générées lors des étapes répétitives de débruitage (denoising), puis les réutiliser sélectivement selon un schéma adaptatif au niveau de chaque bloc du transformeur. Résultat annoncé : jusqu'à 3x de speedup à l'inférence, sans dégradation des performances en génération d'action. BAC est training-free et compatible avec les architectures Diffusion Policy à base de transformeur ainsi qu'avec les modèles vision-language-action (VLA). Les expériences couvrent plusieurs benchmarks robotiques standards, sans déploiement matériel réel annoncé dans ce papier. L'enjeu est direct pour le déploiement industriel : Diffusion Policy est l'une des approches les plus solides pour le contrôle visuomoteur de robots manipulateurs, mais son coût computationnel élevé la rend impraticable en contrôle temps-réel embarqué. Un facteur 3x sans re-training représente un gain opérationnel concret, il suffit d'intégrer BAC sur un modèle existant déjà entraîné. Deux mécanismes y contribuent : un Adaptive Caching Scheduler qui identifie les pas de temps optimaux pour rafraîchir le cache en maximisant la similarité globale des features, et un Bubbling Union Algorithm qui corrige la propagation d'erreurs entre blocs FFN (Feed-Forward Network), principale limite des approches naïves de caching. Diffusion Policy, introduite par Chi et al. en 2023, s'est imposée comme référence pour la manipulation précise, mais son inférence multi-step la pénalise face aux politiques autorégressives ou MLP sur les contraintes de latence. Les techniques d'accélération des modèles de diffusion conçues pour la génération d'images (DDIM, DeepCache) ne se transfèrent pas directement à la robotique en raison de divergences architecturales et de la nature séquentielle des données d'action, c'est précisément le gap que BAC prétend combler. La méthode est compatible avec les VLA récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui lui confère un périmètre d'application large sur l'écosystème actuel. La validation reste cependant limitée aux benchmarks simulés ; une confirmation sur hardware réel en conditions d'inférence embarquée sera nécessaire pour évaluer l'impact opérationnel réel.

RecherchePaper
1 source
Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion
488arXiv cs.RO 

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

Une équipe de chercheurs a publié le 19 mai 2025 sur arXiv (ref. 2605.13778) un cadre d'inférence baptisé Realtime-VLA FLASH, conçu pour réduire drastiquement la latence des modèles de type dVLA (diffusion-based vision-language-action). Le problème de départ est précis : chaque cycle d'inférence complète d'un dVLA prend typiquement 58,0 ms, ce qui est incompatible avec un replanning haute fréquence en conditions réelles. FLASH introduit un modèle "brouillon" léger qui génère des propositions d'actions, vérifiées en parallèle par l'Action Expert du modèle principal, composant dédié à la validation des séquences motrices. Un mécanisme de fallback "phase-aware" bascule automatiquement sur l'inférence complète lorsque la proposition brouillon est jugée insuffisamment fiable. Sur le benchmark LIBERO, la latence moyenne par tâche descend à 19,1 ms, soit une accélération de 3,04x, avec des cycles spéculatifs aussi rapides que 7,8 ms. Les auteurs valident également l'approche sur une tâche réelle de tri sur tapis convoyeur, environnement latency-critical par nature. L'intérêt industriel est direct : le goulot d'étranglement des VLA diffusion n'était pas leur capacité à généraliser, mais leur incapacité à répondre à la fréquence de contrôle des robots physiques (typiquement 10-50 Hz). Descendre sous les 20 ms de latence moyenne ouvre la voie à un déploiement sur des manipulateurs industriels ou des robots mobiles opérant en environnement dynamique. Ce que FLASH prouve concrètement, c'est que le "reality gap" des dVLA est au moins partiellement un problème d'architecture d'inférence, pas uniquement de données ou de sim-to-real. La méthode préserve les performances sur LIBERO sans compromis visible sur la fiabilité, ce qui est l'argument le plus solide de la publication, à condition que les auteurs rendent publics leurs taux de succès détaillés par tâche, absents du résumé. Les dVLA sont devenus un axe central de la robotique généraliste depuis les travaux de Physical Intelligence sur pi0 (2024) et de NVIDIA sur GR00T N2, qui reposent tous deux sur des architectures diffusion pour la génération d'actions. OpenVLA et d'autres approches autorégressives contournent ce problème différemment, au prix d'une expressivité moindre sur les tâches de manipulation fine. FLASH se positionne comme une surcouche d'optimisation compatible avec les dVLA existants, sans nécessiter de réentraînement complet du modèle principal, ce qui en fait un candidat naturel pour les équipes travaillant sur pi0 ou des architectures dérivées. Les prochaines étapes attendues sont une validation sur des systèmes à plus haute dynamique (robots bimanes, manipulation dextre) et une mesure de la dégradation sur des distributions out-of-distribution, point encore non traité dans cette version préprint.

UELes équipes de R&D européennes travaillant sur des architectures dVLA (dérivées de pi0 ou GR00T N2) pourraient intégrer FLASH comme couche d'optimisation sans réentraînement, mais aucun acteur ou institution français ou européen n'est impliqué dans la publication.

💬 Le vrai blocage des VLA diffusion, c'était pas leur capacité à généraliser, c'était les 58 ms par cycle d'inférence, trop lents pour du contrôle robot en temps réel. FLASH colle un modèle brouillon en avant-poste pour proposer l'action, le modèle principal vérifie en parallèle, et tu descends à 19 ms sans retoucher les poids. Ce que j'y lis surtout, c'est qu'une bonne partie du reality gap était un problème d'ingénierie d'inférence, pas de données ou de sim-to-real.

IA physiqueOpinion
1 source
Quels sont les facteurs limitants de la navigation vision-langage ?
489arXiv cs.RO 

Quels sont les facteurs limitants de la navigation vision-langage ?

Une équipe de chercheurs publie StereoNav (arXiv:2605.13328, mai 2026), un framework Vision-Language-Action (VLA) conçu pour la navigation robotique guidée par instructions en langage naturel, domaine désigné sous le terme Vision-and-Language Navigation (VLN). Sur les benchmarks standards R2R-CE et RxR-CE, le système atteint des taux de succès (SR) de 81,1 % et 67,5 %, avec des scores SPL (Success weighted by Path Length) de 68,3 % et 52,0 % respectivement, positionnant StereoNav en état-de-l'art sur RGB égocentrique. Ces performances sont obtenues avec nettement moins de paramètres et de données d'entraînement que les approches concurrentes fondées sur la mise à l'échelle. Des déploiements physiques sur robot dans des environnements non structurés réels confirment une amélioration substantielle de la fiabilité de navigation. La contribution centrale de StereoNav est de remettre en cause le paradigme dominant du scaling: les auteurs soutiennent que le vrai goulot d'étranglement pour combler le sim-to-real gap ne réside pas dans la taille des modèles ou le volume de données d'entraînement, mais dans l'absence d'un ancrage spatial robuste (spatial grounding) et de représentations cross-domaines stables. Ils introduisent en réponse des Target-Location Priors, représentations visuelles persistantes invariantes entre simulation et déploiement réel, qui stabilisent la navigation même lorsque les instructions verbales sont vagues ou incomplètes. La vision stéréo complète le dispositif en construisant une représentation unifiée sémantique et géométrique, résistante aux perturbations visuelles fréquentes en environnement industriel: flou de mouvement, variations d'éclairage, changements de perspective. Pour un intégrateur ou un COO industriel, le signal est clair: atteindre ces performances sans modèles XXL réduit significativement les coûts de déploiement et d'inférence. La VLN s'appuie historiquement sur le benchmark Room-to-Room (R2R) introduit en 2018, mais le passage du simulateur Matterport3D au monde physique restait un défi largement ouvert. StereoNav entre en compétition directe avec des VLA généralistes misent sur l'échelle paramétrique: pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI. L'architecture proposée choisit une voie opposée, fondée sur l'efficience et les priors géométriques explicites plutôt que la capacité brute. Il s'agit à ce stade d'un résultat académique sans déploiement commercial annoncé, mais les expériences physiques documentées dépassent le registre de la démonstration en laboratoire et constituent une base sérieuse pour des pilotes industriels à venir.

UEL'approche architecture légère de StereoNav pourrait réduire les coûts de déploiement VLA pour les intégrateurs industriels européens, sans nécessiter d'infrastructure de calcul massive.

💬 Le vrai goulot d'étranglement de la navigation robot, c'est pas la taille du modèle. StereoNav le démontre proprement : meilleures perfs sur les benchmarks standards, moins de paramètres, et des déploiements physiques qui tiennent en dehors du labo. Reste à voir si ça tient à l'échelle industrielle, mais l'argument contre le scaling aveugle a enfin des chiffres derrière.

IA physiqueOpinion
1 source
Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique
490arXiv cs.RO 

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (preprint 2605.11832, mai 2026) une méthode adressant deux limites structurelles des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique : l'ambiguïté de profondeur issue des capteurs monoculaires, et l'inefficacité de l'apprentissage d'actions par régression classique. La première contribution, le G3T (Geometry-Guided Gated Transformer), exploite un modèle de diffusion multi-vues pré-entraîné pour synthétiser des représentations latentes de nouvelles perspectives, alignées sous contrainte géométrique 3D, avec filtrage adaptatif du bruit d'occlusion. La seconde, l'Action Manifold Learning (AML), remplace la régression sur des cibles non structurées, bruit ou champ de vitesse, approches dominantes depuis Diffusion Policy (2023), par une prédiction directe sur la variété des actions valides. Testée sur les benchmarks LIBERO et RoboTwin 2.0, ainsi que sur des tâches en robot réel, la méthode affiche des taux de succès supérieurs aux baselines état de l'art actuelles. L'enjeu est précis : la quasi-totalité des déploiements industriels de manipulateurs n'embarquent qu'une caméra RGB, sans LiDAR ni stéréovision. Sans profondeur fiable, les VLA peinent à estimer distances et tailles relatives, ce qui dégrade directement la précision de préhension en conditions réelles. Le G3T propose de contourner ce manque sans ajout matériel, maintenant les contraintes hardware à un niveau réaliste pour l'intégration. L'AML, de son côté, questionne un paradigme issu des travaux sur la diffusion en robotique : prédire directement sur la variété d'actions valides pourrait réduire la variance d'entraînement et accélérer la convergence. Les résultats semblent valider l'hypothèse, bien qu'un preprint reste à soumettre à peer-review pour être pleinement crédité, les métriques annoncées sont issues des propres expériences des auteurs, sans reproductions indépendantes publiées à ce stade. Ce travail s'inscrit dans la course aux VLA généralistes ouverte par RT-2 (Google DeepMind, 2023), avec pour concurrents directs OpenVLA (UC Berkeley), π0 de Physical Intelligence et GR00T N2 de NVIDIA. RoboTwin 2.0, l'un des benchmarks retenus, cible spécifiquement la manipulation bi-manuelle de précision, parmi les scénarios les plus exigeants du domaine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; l'impact concret dépendra des reproductions indépendantes et d'une éventuelle intégration dans des frameworks ouverts comme LeRobot (Hugging Face). Le code et la page projet sont annoncés disponibles publiquement.

RechercheOpinion
1 source
RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme
491arXiv cs.RO 

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Une équipe de chercheurs présente RIO (Robot I/O), un framework Python open source publié en mai 2026 (arXiv:2605.11564), conçu pour standardiser les flux de travail en apprentissage robotique multi-plateformes. RIO propose des composants modulaires couvrant le contrôle robot, la téleopération, la mise en forme des données, la configuration des capteurs et le déploiement de politiques d'action (policies). Le framework a été validé sur trois morphologies distinctes, bras unique, bimanuel et humanoïde, sur quatre plateformes matérielles combinant divers préhenseurs et caméras. À partir de données collectées par téleopération via RIO, l'équipe a affiné des VLA (Vision-Language-Action models) de pointe, dont π0.5 (Physical Intelligence) et GR00T N2 (NVIDIA), sur des tâches domestiques : saisir-et-déposer, plier du linge et récurer un bol. Le problème central que RIO adresse est structurel et bien documenté dans la communauté : le code robotique est massivement spécifique à chaque configuration matérielle, ce qui rend le partage de données, de modèles et de pipelines entre équipes extrêmement coûteux en temps de reconfiguration. Ce verrou ralentit concrètement la progression vers des capacités cross-embodiment, c'est-à-dire des robots généralistes capables de s'adapter à différentes morphologies sans recodage complet. En proposant des abstractions qui découplent la logique de contrôle du matériel sous-jacent, RIO réduit ce surcoût et ouvre la possibilité de mutualiser des datasets entre utilisateurs disposant de plateformes hétérogènes. Pour les équipes de R&D, cela signifie que des données collectées sur un bras Franka pourraient alimenter l'entraînement d'un humanoïde, sous réserve que les abstractions tiennent à l'échelle réelle. La course aux VLA généralistes s'est accélérée depuis 2024 avec π0 de Physical Intelligence, GR00T de NVIDIA, Helix de Figure AI et OpenVLA de la communauté open source, chacun souffrant du même écueil d'intégration matérielle. RIO s'inscrit dans un courant de standardisation analogue à ce que ROS a accompli pour le middleware, mais centré sur la couche données et déploiement de policies. Des projets concurrents comme RLDS (Google DeepMind), LeRobot (Hugging Face) ou le protocole DROID tentent également de résoudre cette fragmentation. RIO se distingue par sa légèreté et son focus explicite sur le déploiement VLA multi-morphologie. Aucun partenariat industriel ni déploiement commercial n'est annoncé : il s'agit d'une publication académique avec mise en open source intégrale, site de référence à robot-i-o.github.io.

UELes laboratoires européens de robotique travaillant sur le cross-embodiment ou le fine-tuning de VLA pourraient adopter RIO pour mutualiser données et pipelines entre plateformes hétérogènes, réduisant le coût de reconfiguration.

IA physiqueActu
1 source
Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée
492arXiv cs.RO 

Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée

Des chercheurs ont publié en mai 2026 (arXiv:2605.11479) un cadre pour l'évaluation hors-ligne de politiques robotiques de manipulation. Le problème : estimer la performance d'une politique sans la déployer en environnement réel à chaque itération. Les systèmes de manipulation modernes cumulent trois obstacles majeurs : récompenses rares (sparse rewards), progression non monotone vers l'objectif (le robot recule avant de réussir), et rollouts d'évaluation de longueur finie. Cette dernière contrainte génère un biais de troncature qui invalide les méthodes classiques fondées sur l'équation de Bellman, conçues pour un horizon infini. Les auteurs proposent un opérateur de Bellman basé sur la liveness (vivacité, issue de la vérification formelle), reformulant l'évaluation comme un problème de complétion de tâche et produisant une fonction de valeur conservative à point fixe garanti par contraction. Les expériences portent sur deux tâches simulées (une politique VLA - Vision-Language-Action - et une diffusion policy), ainsi qu'un pliage de tissu à partir de démonstrations humaines. La méthode surpasse TD(0) et Monte Carlo sur tous les benchmarks, à la fois en fidélité à la progression réelle et en réduction du biais. L'enjeu est concret pour les équipes de déploiement : les rollouts physiques sont lents et coûteux, et une évaluation hors-ligne biaisée contamine les décisions de sélection de modèle. Le biais de troncature est particulièrement insidieux dans les tâches longues : un bras robotique qui récupère après un glissement peut scorer négativement même s'il complète la tâche. La formulation liveness encode la progression vers l'objectif y compris lors de comportements non monotones, sans horizon infini artificiel. Ce type de métrique calibrée est directement utile pour valider des politiques VLA comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA), souvent évaluées sur des rollouts courts et sélectifs avant déploiement en atelier. Ce travail s'inscrit dans une problématique active du robot learning : évaluer des politiques sans simulation parfaite ni horizon infini. TD(0), Monte Carlo et importance sampling peinent sur les tâches longues à récompenses éparses, régime typique de la manipulation dextre. Plusieurs équipes adressent l'évaluation hors-ligne, notamment autour du dataset DROID (Berkeley/Stanford) et chez Physical Intelligence, mais sans traitement explicite du biais de troncature. La preuve de contraction de l'opérateur liveness ouvre des pistes vers des pipelines de sélection automatique de politiques et vers la validation à grande échelle avant passage en production.

IA physiquePaper
1 source
DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA
493arXiv cs.RO 

DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA

Une équipe de chercheurs a publié DreamAvoid (arXiv:2605.11750), un framework d'inférence conçu pour réduire les échecs dans les modèles Vision-Language-Action (VLA) lors de tâches de manipulation fine. Le problème est bien documenté : les VLA, entraînés quasi exclusivement sur des démonstrations réussies, accumulent des erreurs mineures pendant les phases critiques d'une tâche (saisie, insertion, positionnement précis) qui s'amplifient jusqu'à rendre toute récupération impossible. DreamAvoid introduit trois composants exécutés à l'inférence : un Dream Trigger qui détecte l'entrée en phase critique, un Action Proposer qui échantillonne plusieurs candidats d'action auprès du VLA, et un Dream Evaluator qui simule à court horizon les futurs correspondants, les évalue, et sélectionne l'action optimale. Ce dernier est entraîné sur un mélange succès/échecs/cas limites via un paradigme dit "autonomous boundary learning". Les évaluations portent sur des tâches de manipulation réelles et des benchmarks de simulation avec une amélioration du taux de succès global, sans que les auteurs ne publient de chiffres précis dans le résumé, ce qui rend la comparaison quantitative impossible en l'état. L'apport clé est architectural : DreamAvoid agit uniquement à l'inférence, ce qui permet de le greffer sur n'importe quel VLA existant sans réentraînement complet. Pour les intégrateurs industriels, c'est un point non trivial : la fragilité en manipulation fine (assemblage, vissage, conditionnement) reste l'un des principaux freins au déploiement réel des bras manipulateurs génériques. Cibler spécifiquement les phases critiques, plutôt que l'ensemble de la trajectoire, limite par ailleurs le surcoût computationnel à l'inférence. Ce travail contredit partiellement l'hypothèse dominante selon laquelle augmenter massivement les données de succès suffit à rendre les VLA robustes : une conscience explicite de l'échec, même injectée post-entraînement, apporte un gain tangible. Le contexte est celui d'une compétition intense entre VLA généralistes incluant Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA de l'UC Berkeley, tous partageant cette fragilité structurelle documentée dans des travaux comme RT-2 et ALOHA. DreamAvoid s'inscrit dans une lignée de méthodes de planification augmentée à l'inférence, proche des approches world model comme SWIM ou de MCTS appliqué à la robotique. Le code est disponible publiquement sur GitHub (github.com/XianzheFan/DreamAvoid). Les suites probables incluent une évaluation sur des benchmarks standardisés tels que RLBench ou LIBERO, et potentiellement une intégration dans des pipelines d'entraînement continu où les échecs détectés par le Dream Evaluator alimentent automatiquement les données négatives futures.

IA physiqueOpinion
1 source
VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale
494arXiv cs.RO 

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Des chercheurs proposent VEGA (Visual Encoder Grounding Alignment), publié sur arXiv (2605.10485) en mai 2026, un cadre d'alignement destiné à corriger un défaut structurel des modèles vision-langage-action (VLA) : leurs encodeurs visuels, préentraînés sur des images 2D, manquent de perception géométrique 3D. VEGA aligne la sortie de l'encodeur visuel du VLA directement avec les features spatiales de DINOv2-FiT3D, une variante de DINOv2 (Meta) affinée via supervision par 3D Gaussian Splatting multi-vues. L'alignement repose sur un projecteur léger entraîné par perte cosinus en parallèle de la prédiction d'action standard, puis éliminé à l'inférence pour ne pas alourdir le runtime. Sur benchmarks de simulation et tâches réelles de manipulation, VEGA établit un nouvel état de l'art parmi les méthodes d'ancrage spatial implicite. L'enjeu opérationnel est direct : la manipulation fine exige une compréhension géométrique de la scène, pas uniquement sémantique. Les approches existantes alignaient déjà les VLA avec des modèles 3D-aware, mais au niveau des tokens LLM, là où spatial et linguistique sont déjà mélangés, limitant la généralisation. En remontant l'alignement à l'encodeur visuel, VEGA évite cette contamination sémantique et produit un ancrage plus interprétable. Pour un intégrateur ou un fabricant de bras manipulateurs, le ratio est favorable : gain de précision spatiale sans surcoût à l'inférence, et compatibilité avec des architectures VLA existantes sans refonte. Cette contribution s'inscrit dans la course aux VLA comme couche de contrôle universelle : Physical Intelligence (π0, π0.5), Google DeepMind et NVIDIA (GR00T N2), Figure AI (Helix) ou Unitree reposent tous sur des architectures de ce type. La faiblesse du raisonnement 3D dans les VLA reste un frein documenté au passage démo-vers-déploiement, et plusieurs équipes y travaillent via sim-to-real et foundation models 3D. VEGA choisit une voie minimaliste : pas de pipeline 3D à l'inférence, juste un alignement ciblé à l'entraînement. Aucun déploiement industriel ni partenariat commercial n'est mentionné, c'est une contribution académique, mais sa légèreté architecturale la rend directement intégrable dans des projets en cours.

IA physiqueOpinion
1 source
StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique
495arXiv cs.RO 

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

Une équipe de chercheurs a présenté StereoPolicy, un cadre d'apprentissage de politiques visuomotrices déposé sur arXiv (2605.09989) qui exploite des paires d'images stéréoscopiques synchronisées pour améliorer la précision des robots manipulateurs. Contrairement aux approches dominantes basées sur la vision monoculaire, StereoPolicy traite chaque image indépendamment via des encodeurs visuels 2D pré-entraînés, puis fusionne les représentations au sein d'un module baptisé Stereo Transformer. Cette architecture extrait implicitement des indices de disparité et de correspondance spatiale, sans nécessiter de reconstruction 3D explicite ni de calibration de caméra. Évalué sur trois benchmarks de simulation, RoboMimic, RoboCasa et OmniGibson, le système surpasse systématiquement les baselines RGB, RGB-D, nuage de points et multi-vues. Les auteurs ont également validé l'approche sur des robots réels, dans des configurations de manipulation tabulaire et de manipulation bimane mobile. L'intérêt principal de StereoPolicy réside dans sa modularité: le framework s'intègre directement avec des politiques à base de diffusion et des politiques VLA (vision-language-action) pré-entraînées, ce qui en fait un composant additionnel plutôt qu'une refonte architecturale. Pour les intégrateurs et les équipes robotique, cela signifie que des systèmes existants basés sur des modèles comme Pi-0 ou GR00T pourraient bénéficier de la perception stéréo sans repartir de zéro. La vision monoculaire, omniprésente dans les déploiements actuels, souffre d'une absence d'indices de profondeur fiables dans les scènes encombrées ou géométriquement complexes, un problème que la stéréo adresse naturellement à faible surcoût matériel. Ce résultat renforce l'hypothèse que les représentations 2D pré-entraînées, aussi puissantes soient-elles, restent limitées sans ancrage géométrique explicite. StereoPolicy s'inscrit dans la dynamique actuelle de l'imitation learning robotique, portée par des travaux comme ACT, Diffusion Policy et les VLA multimodaux. La plupart des systèmes en production s'appuient encore sur des caméras monoculaires ou des capteurs RGB-D de type RealSense ou ZED, qui ajoutent complexité et coût. Les caméras stéréo passives, technologie mature présente depuis des décennies en vision par ordinateur, avaient été quelque peu éclipsées par la montée en puissance des encodeurs 2D profonds. Ce papier, une préprint arXiv, pas encore un produit déployé, rouvre la question de leur rôle dans les pipelines modernes d'apprentissage par imitation. Les prochaines étapes naturelles seront d'évaluer StereoPolicy dans des environnements industriels réels et de tester sa robustesse aux variations d'éclairage et de texture, deux limites classiques de la vision stéréo passive.

RechercheOpinion
1 source
Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental
496arXiv cs.RO 

Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental

Une équipe de chercheurs a publié sur arXiv (référence 2604.14484) une analyse théorique des politiques de clonage comportemental (behavior cloning, BC) sur robots à commande en position. L'étude démontre que les erreurs d'action, modélisées comme variables sous-gaussiennes indépendantes, se propagent via la dynamique en boucle fermée d'un contrôleur PD pour produire des erreurs de position gouvernées par une matrice proxy X∞(K). La probabilité d'échec sur l'horizon T se factorise en un indice d'amplification Γ_T(K) dépendant des gains et en la perte de validation augmentée d'un terme de généralisation. Pour le système PD scalaire du second ordre, la variance stationnaire admet la forme fermée X∞(α,β) = σ²α/(2β), strictement monotone en rigidité (α) et en amortissement (β) sur l'ensemble de l'orthant stable. Quatre régimes canoniques sont classés : le mode conforme-suramorti (CO) minimise les erreurs ; le mode rigide-sous-amorti (SU) les maximise ; les deux cas intermédiaires restent dépendants de la dynamique propre du système. L'implication opérationnelle est directe : la perte d'entraînement ou de validation ne prédit pas la fiabilité en boucle fermée. Un modèle bien calibré peut échouer en déploiement si les gains du contrôleur PD amplifient les erreurs résiduelles de la politique apprise. Ce cadre analytique fournit aux intégrateurs robotiques un outil de dimensionnement concret : choisir des gains conformes-suramortis réduit statistiquement le risque d'échec de tâche, indépendamment de la qualité des démonstrations. Ce résultat remet en question une hypothèse largement répandue dans la communauté du robot learning, selon laquelle améliorer les données ou l'architecture du modèle suffit à améliorer les performances en conditions réelles. Ce travail prolonge les recherches de Bronars et al. sur l'atténuation d'erreurs dépendante des gains en offrant une extension non-asymptotique à horizon fini, qui manquait dans la littérature. Si les propriétés asymptotiques de stabilité des contrôleurs PD sont bien établies, leur traduction en bornes probabilistes finies sur l'échec de tâche restait ouverte. La contribution est directement applicable aux architectures BC modernes, notamment les VLA (Vision-Language-Action models) déployés sur des manipulateurs et des humanoïdes chez des acteurs comme 1X Technologies, Figure AI, Boston Dynamics ou Sanctuary AI. La discrétisation ZOH (Zero-Order Hold) est traitée explicitement, ancrant les résultats dans les implémentations numériques réelles plutôt que dans la seule analyse en temps continu.

UELes laboratoires et équipes R&D européens (INRIA, CEA-List, start-ups BC/VLA) déployant des politiques apprises sur manipulateurs ou humanoïdes peuvent appliquer directement ce cadre analytique pour calibrer leurs gains PD et réduire statistiquement les échecs en déploiement réel.

RecherchePaper
1 source
SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel
497arXiv cs.RO 

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Une équipe de recherche associée à DreamVu a publié début mai 2026 SABER (Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation), un corpus de données d'action robotique centré sur les environnements de grande distribution, présenté dans l'arXiv 2605.09613. Le jeu de données a été constitué à partir de plus de 100 heures de captures naturelles dans plusieurs supermarchés réels, sans mise en scène, sans script et sans télé-opération de robot. Deux flux de capteurs ont été utilisés simultanément : une caméra égocentrique montée sur la tête enregistre les manipulations fines des mains à hauteur d'interaction, tandis que la caméra 360° ALIA de DreamVu observe l'ensemble de la scène sous angle exocentrique. Le corpus final comprend 44 800 échantillons d'entraînement répartis en trois représentations d'action : 25 000 séquences d'actions latentes encodées selon le schéma LAPA, 18 600 trajectoires de postures de main dextre recalées dans l'espace articulaire robot, et 1 200 séquences de mouvement corps entier synchronisées retargétées vers une morphologie humanoïde. Appliqué au modèle de fondation robotique GR00T N1.6 de NVIDIA via une recette de post-entraînement multi-tâche à backbone partagé, SABER atteint un taux de succès moyen de 29,3 % sur dix tâches de manipulation en grande distribution, soit 2,19 fois la performance de la baseline de fine-tuning (13,4 %). Ces résultats, bien que modestes en valeur absolue (moins d'un tiers de succès), apportent un argument concret au débat sur le "data gap" qui freine la généralisation des VLA (Vision-Language-Action models) hors de leurs distributions d'entraînement. Les modèles de fondation robotique généralistes comme GR00T ou Pi-0 de Physical Intelligence peinent à performer sur des tâches de manipulation en contexte retail, non par défaut d'architecture, mais parce que ces environnements sont structurellement absents de leurs corpus de préentraînement. La télé-opération pour combler ce vide est onéreuse, logistiquement contrainte et difficile à passer à l'échelle. SABER propose une alternative : capturer des comportements humains naturels en magasin, puis retargéter les trajectoires vers l'espace articulaire du robot, sans jamais déployer ce dernier pendant la phase de collecte. Le gain 2x sur la baseline valide l'hypothèse que la qualité et la spécificité domaine des données comptent autant que l'architecture du modèle, une position qui nuance la course aux paramètres observée depuis 2024. DreamVu, startup spécialisée dans les caméras omnidirectionnelles de précision, s'appuie sur sa caméra ALIA pour se positionner comme fournisseur d'infrastructure de collecte de données pour la robotique incarnée, un segment en pleine structuration. Sur le plan concurrentiel, SABER entre en tension directe avec des initiatives comme Open-X Embodiment (Google DeepMind), DROID, ou les datasets propriétaires de Figure AI et Apptronik, mais se distingue par son ancrage sectoriel retail et l'absence de robot pendant la collecte. GR00T N1.6, le modèle testé, est la version publiée par NVIDIA en 2025 dans le cadre de son projet Isaac GR00T, qui vise à fournir une fondation pré-entraînée pour humanoïdes. Le dataset et le code sont disponibles publiquement sur dreamvu.ai/saber, ce qui ouvre la voie à des réplications et extensions vers d'autres verticales (logistique, pharmacie, restauration rapide) où la manipulation fine en environnement non contrôlé reste un verrou non résolu.

IA physiqueOpinion
1 source
VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action
498arXiv cs.RO 

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

Publiée en mars 2026 sur arXiv (référence 2603.22003v3), VP-VLA est une architecture à deux systèmes qui dissocie raisonnement de haut niveau et exécution motrice dans les modèles Vision-Language-Action. Le problème adressé est structurel : les VLA actuels effectuent un unique passage en avant (forward pass) censé gérer simultanément l'interprétation d'instructions, l'ancrage spatial et le contrôle moteur de bas niveau, ce qui dégrade la précision spatiale et la robustesse hors distribution. VP-VLA sépare ces responsabilités via une interface de prompts visuels : un "Planificateur Système 2" décompose les instructions en sous-tâches et localise objets et positions cibles, puis rend ces ancres spatiales directement dans l'espace RGB natif sous forme de réticules et boîtes englobantes. Un "Contrôleur Système 1", entraîné avec un objectif auxiliaire d'ancrage visuel, génère ensuite les trajectoires de bas niveau à partir de ces prompts. En simulation et en environnement réel, VP-VLA surpasse les baselines end-to-end QwenOFT (basé sur les modèles Qwen d'Alibaba) et GR00T-N1.6 (NVIDIA), les deux références industrielles les plus avancées du moment. L'intérêt architectural tient à l'évitement du mismatch de modalité que créent les représentations intermédiaires denses -- masques d'affordance, cartes de contrôle spécialisées -- qui obligent les modèles à jongler entre espaces de représentation hétérogènes. En substituant des annotations légères directement dans l'espace RGB natif, VP-VLA maintient une cohérence de modalité tout au long du pipeline. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela se traduit concrètement par une meilleure robustesse aux configurations non vues à l'entraînement et une précision spatiale accrue sur les tâches de manipulation. La séparation explicite planification/exécution faciliterait aussi la mise à jour ou le remplacement indépendant de chaque composant, un avantage non négligeable en contexte de déploiement itératif. VP-VLA s'inscrit dans un mouvement plus large de déconstruction des VLA monolithiques, après RT-2, OpenVLA, et les architectures GR00T de NVIDIA. La publication en version v3 indique des révisions successives, signe probable d'une soumission à une conférence de premier rang (IROS 2026, CoRL 2026 ou RSS 2026). Le choix de GR00T-N1.6 et QwenOFT comme baselines positionne explicitement VP-VLA face aux approches portées par des acteurs industriels majeurs. Aucun déploiement physique industriel ni partenariat de production n'est annoncé à ce stade : les expériences réelles restent en environnement de laboratoire. La page projet ouverte (visualprompt-vla.github.io) laisse présager une publication du code, ce qui favoriserait une adoption rapide et une validation indépendante par la communauté robotique.

UELes laboratoires européens actifs en VLA (INRIA, CEA-List) pourraient bénéficier d'une architecture open-source plus robuste hors distribution si le code est publié, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

IA physiqueOpinion
1 source
IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste
499arXiv cs.RO 

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement. L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers. Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

UELa traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

RecherchePaper
1 source
Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres
500arXiv cs.RO 

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

Une équipe de chercheurs a publié le 10 mai 2026 sur arXiv un travail (2605.07381) remettant en cause une pratique répandue dans l'adaptation des modèles Vision-Language-Action (VLA) à des robots réels : la collecte de démonstrations aussi variées que possible. Leur étude formalise ce qu'ils appellent un "piège de la diversité", le fait que, sous un budget de données fixe et limité, multiplier les conditions uniques introduit un bruit d'estimation qui ne converge pas vers zéro, dégradant finalement la fiabilité de la politique apprise. Pour le quantifier, ils décomposent l'erreur de politique en deux composantes : un terme d'estimation lié à la densité des démonstrations, et un terme d'extrapolation lié à la couverture des conditions. Ils montrent qu'il existe un point optimal intérieur, c'est-à-dire non aux extrêmes, pour l'allocation des configurations uniques avec un budget contraint. Sur cette base, ils proposent l'Anchor-Centric Adaptation (ACA), un cadre en deux étapes : d'abord stabiliser un squelette de politique via des démonstrations répétées sur des ancres centrales, puis étendre sélectivement la couverture vers des zones à haut risque d'erreur via un "teacher-forced error mining" et des mises à jour résiduelles contraintes. Des expériences sur robot réel valident l'approche et montrent des taux de succès supérieurs à la stratégie diversifiée standard avec le même budget. Ce résultat a des implications directes pour les équipes qui tentent de déployer des VLA généralistes, tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, sur des plateformes matérielles spécifiques. Le coût de collecte de démonstrations physiques est élevé, et la pratique habituelle consistant à "maximiser la diversité" repose sur une intuition empruntée au machine learning classique qui ne tient pas ici. ACA suggère qu'un protocole structuré, ciblant d'abord la répétabilité sur des configurations critiques avant d'explorer les marges, peut réduire significativement les besoins en données tout en améliorant la robustesse. Cela touche directement le "reality gap" : les VLA entraînés en simulation ou en général échouent souvent à l'adaptation fine non pas par manque de couverture, mais par instabilité statistique sur les ancres critiques. Le travail s'inscrit dans un mouvement plus large de rationalisation du fine-tuning des VLA pour des applications industrielles, où chaque heure de télé-opération coûte cher. Les approches concurrentes incluent DAgger, des méthodes de résidual policy learning, et diverses stratégies de curriculum. Ce papier est un preprint non encore évalué par les pairs ; les expériences réelles décrites restent à reproduire indépendamment. Les prochaines étapes probables incluent une validation sur plusieurs plateformes (bras industriels, manipulateurs mobiles) et une intégration dans des pipelines de déploiement VLA existants.

RechercheOpinion
1 source