Aller au contenu principal

Dossier arXiv cs.RO — page 7

2027 articles · page 7 sur 41

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique
301arXiv cs.RO InfrastructureOpinion

Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique

Un groupe de chercheurs impliqués dans l'élaboration de la norme ISO/WD 26264-1 au sein du comité technique ISO/TC 299/WG 16 publie un préprint arXiv (2606.19769, juin 2026) posant que la standardisation des données constitue le prochain verrou critique pour les robots humanoïdes. Leur thèse centrale: le goulot d'étranglement n'est pas seulement la rareté des données, mais leur caractère non cumulatif, causé par des coûts de collecte élevés, des silos organisationnels et des protocoles d'évaluation incompatibles. Les auteurs identifient trois conditions pour qu'un jeu de données soit réutilisable: l'expérience physique doit rester liée au corps du robot, à la tâche et au contexte d'exécution; les flux multimodaux doivent partager synchronisation temporelle, repères de coordonnées, calibration et unités documentées; les données doivent enfin être versionnées et traçables pour s'accumuler entre projets et organisations. L'enjeu est direct pour les équipes qui entraînent des modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI. Sans grammaire commune (métadonnées, provenance, versioning), chaque acteur repart de zéro à chaque nouveau déploiement. Pour un intégrateur industriel, cela signifie concrètement que des données collectées sur un site ne peuvent pas réentraîner un modèle sur un autre, même avec du matériel identique. L'article recadre le "sim-to-real gap" non pas comme un problème de simulation, mais comme un déficit d'alignement des référentiels physiques entre jeux de données: les hypothèses de synchronisation et de cinématique, si elles ne sont pas documentées, rendent les flux non interopérables dès le départ. La norme proposée s'articule en deux couches: une infrastructure horizontale couvrant le cycle de vie, les métadonnées, la qualité, le versioning et la traçabilité, et des parties spécifiques par capacité (manipulation, locomotion, interaction humain-robot, cognition). Le contexte est celui d'un secteur ou Figure AI, Boston Dynamics, Tesla (Optimus Gen 3), Unitree et 1X accumulent des données de manière cloisonnée, tandis que des initiatives ouvertes comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace) posent des bases communes sans force normative. Le préprint est en phase WD (Working Draft) sans date de ratification annoncée: c'est une prise de position académique, pas une norme publiée ni un déploiement industriel.

UESi ratifiée, la norme ISO/WD 26264-1 structurera les pratiques de données des acteurs européens de la robotique humanoïde ; HuggingFace (Paris) est déjà cité comme contributeur aux bases ouvertes communes (LeRobot), sans force normative à ce stade.

1 source
Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices
302arXiv cs.RO 

Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.19586) un cadre d'augmentation de données baptisé Action-View Augmentation, conçu pour améliorer la robustesse des politiques visuomotrices dans les tâches de manipulation robotique. Le système repose sur un préhenseur parallèle portable équipé d'une unique caméra fisheye montée en configuration eye-in-hand, capable de capturer des démonstrations réelles en milieu non contrôlé. À partir d'une seule démonstration humaine, le framework génère automatiquement des séquences d'images fisheye visuellement réalistes ainsi que des trajectoires d'actions physiquement cohérentes. Pour reconstruire et éditer la scène 3D en y introduisant des objets inédits, les auteurs ont développé une nouvelle formulation de Gaussian Splatting adaptée aux champs de vision larges des optiques fisheye. Une optimisation de trajectoire produit ensuite des chemins fluides, sans collision et compatibles avec le rendu de nouvelles vues caméra. Les expériences menées en simulation et en environnement réel montrent une amélioration du taux de succès sur plusieurs tâches de manipulation, aussi bien dans des scènes identiques qu'en présence d'obstacles requérant un évitement de collision. L'enjeu central est la fragilité des politiques visuomotrices actuelles face aux observations hors-distribution : une légère variation de configuration initiale ou un obstacle imprévu suffit à provoquer un échec d'exécution catastrophique. Collecter suffisamment de données pour couvrir ces variations est coûteux et chronophage, ce qui constitue l'un des principaux freins à l'industrialisation de la manipulation robotique. Le titre du papier résume l'ambition : multiplier artificiellement la valeur d'une seule démonstration réelle pour entraîner des politiques plus robustes. L'adaptation du Gaussian Splatting aux optiques fisheye, jusqu'ici peu traitée dans la littérature robotique, élargit le champ d'application à des setups matériels légers et peu coûteux. Ce type d'approche répond directement au problème du sim-to-real gap en générant des données synthétiques ancrées dans une scène réelle reconstruite, plutôt qu'en simulateurs déconnectés du terrain. Ce travail s'inscrit dans la dynamique des politiques de manipulation end-to-end, où des systèmes comme pi-0 de Physical Intelligence ou les architectures à diffusion (Diffusion Policy, ACT) ont prouvé que l'imitation de démonstrations humaines peut générer des comportements complexes, mais restent gourmands en données. Le Gaussian Splatting, popularisé à partir de 2023, s'est progressivement imposé en robotique grâce à sa capacité à synthétiser des vues nouvelles de haute qualité à partir de captures réelles. L'approche eye-in-hand à caméra fisheye se distingue des setups multi-capteurs fixes, réduisant le matériel embarqué à un seul composant. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit exclusivement d'un résultat académique, sans partenariat industriel déclaré ni timeline commerciale. Les prochaines étapes naturelles concerneraient l'évaluation à plus grande échelle et l'intégration dans des pipelines de fine-tuning pour des politiques de type VLA (Vision-Language-Action).

RecherchePaper
1 source
Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences
303arXiv cs.RO 

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

Une équipe de recherche propose FAFM (Frequency-Aware Flow Matching), une méthode de génération d'actions robotiques présentée en préprint arXiv (2606.20135, juin 2026), qui reformule le problème du flow matching pour la manipulation robotique dans le domaine fréquentiel. Le principe : plutôt que de prédire directement des séquences d'actions discrètes (des "chunks"), FAFM applique une transformée en cosinus discrète (DCT) sur ces séquences pour les convertir en coefficients fréquentiels, effectue le flow matching sur ces coefficients, puis reconstruit des actions continues via expansion en base cosinus. Pour garantir la cohérence temporelle, la méthode ajoute une contrainte de type Sobolev sur la dérivée temporelle du premier ordre, ce qui pénalise les changements brusques et atténue les erreurs hautes fréquences. L'approche s'applique sans paramètres réseau supplémentaires, aussi bien aux politiques de flow matching autonomes qu'aux modèles vision-langage-action (VLA). Les résultats sont validés sur les benchmarks LapGym, LIBERO et évitement d'obstacles, ainsi qu'en déploiement réel sur un bras Franka. L'intérêt industriel est direct : la fragmentation des fréquences de contrôle est un problème concret lors de l'agrégation de données de démonstration provenant de robots différents (certains à 10 Hz, d'autres à 50 Hz), et les méthodes actuelles de diffusion policy ou de flow matching standard y sont explicitement vulnérables. Les actions temporellement incohérentes qui en résultent dégradent la stabilité du contrôle en boucle fermée, un facteur bloquant pour le déploiement en production. Le fait que FAFM améliore simultanément le taux de succès, la fluidité du mouvement, la robustesse aux biais mécaniques et la vitesse de convergence sans modifier l'architecture existante est une proposition de valeur claire pour les intégrateurs : pas de refonte du pipeline, pas de surcoût computationnel. La compatibilité avec les VLA est également notable, car ces modèles dominent les annonces récentes (pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) et souffrent précisément de ce type d'artefacts temporels à l'inférence. Le flow matching s'est imposé ces dix-huit derniers mois comme alternative crédible à la diffusion policy (Chi et al., 2023, Columbia), avec des temps d'inférence plus courts et une meilleure expressivité multimodale. Les travaux récents de Physical Intelligence (pi-0, pi-0.5) et de Figure AI ont largement adopté ce paradigme pour leurs politiques générales. FAFM s'inscrit dans une tendance de raffinement de ces fondations plutôt que de rupture : on optimise la stabilité et la généralisation inter-fréquences, deux verrous identifiés lors des premiers déploiements industriels à grande échelle. La validation sur Franka reste modeste en termes de diversité de tâches, et le code est disponible sous revue anonyme, ce qui signifie que la méthode n'est pas encore auditée par la communauté. Les prochaines étapes naturelles seraient une validation sur des plateformes humanoïdes multi-articulées et sur des datasets hétérogènes à grande échelle, là où la question des fréquences mixtes est la plus aiguë.

RecherchePaper
1 source
Fail-RAG : un cadre fondé sur la RAG pour l'identification des défaillances des robots
304arXiv cs.RO 

Fail-RAG : un cadre fondé sur la RAG pour l'identification des défaillances des robots

Des chercheurs ont publié sur arXiv (2606.19598, juin 2026) Fail-RAG, un framework de détection automatique de pannes pour robots industriels combinant RAG (Retrieval Augmented Generation) et modèles vision-langage (VLM). Le principe : des images de défaillances et leurs métadonnées contextuelles sont indexées dans une base vectorielle ; lors d'un incident, le système calcule la similarité entre l'événement observé et les entrées de cette base, puis soumet les cas les plus proches à un VLM qui analyse la situation en suivant un gabarit d'instructions structuré. Les expériences ont porté sur cinq types d'opérations courantes en logistique entrepôt, testées à la fois en simulation et en environnement physique, sur des bras robotiques fixes et un manipulateur mobile. Résultat mesuré : +25 points de précision en moyenne par rapport à l'utilisation directe d'un VLM généraliste sans couche RAG. Le gain de 25 points est significatif dans un contexte où les VLM "out-of-the-shelf" peinent à fiabiliser la détection de pannes en conditions réelles, notamment face à la diversité des échecs possibles dans des environnements dynamiques. Les méthodes à base de règles (classiques en automatisation industrielle) se révèlent fragiles dès que les tâches ou l'environnement évoluent, un problème structurel dans les entrepôts à forte variabilité. Fail-RAG répond à ce défaut en construisant une mémoire des défaillances passées plutôt qu'en codant des règles figées, ce qui le rend potentiellement plus robuste aux variantes nouvelles. C'est une approche pertinente pour les intégrateurs cherchant à réduire les arrêts non planifiés sans avoir à réentraîner un modèle complet à chaque nouveau type d'incident. Le contexte académique de ce travail est celui de la montée des robots généralistes et de l'IA incarnée dans les contextes manufacturiers, portée notamment par la pénurie de main-d'oeuvre en logistique. La recherche sur la détection de pannes par vision reste un chantier ouvert : des acteurs comme Boston Dynamics, Intrinsic (Google) ou les labos universitaires travaillant sur des VLA (Vision-Language-Action models) s'intéressent à des approches similaires de résilience autonome. Fail-RAG reste à ce stade un prototype de recherche avec validation expérimentale limitée en termes de diversité de scènes et d'équipements. Les prochaines étapes naturelles seraient un déploiement pilote chez un opérateur logistique et une évaluation sur des robots mobiles autonomes (AMR) à plus large échelle.

💬 25 points de précision en plus juste en ajoutant une mémoire des pannes passées, c'est le genre de résultat qui devrait faire réfléchir les intégrateurs robotiques avant de coder leur prochaine règle métier en dur. Le principe est simple mais efficace : plutôt que de réentraîner un modèle complet à chaque nouveau type d'incident, le système récupère les cas similaires et demande au VLM de trancher en contexte. Proto de recherche pour l'instant, mais l'architecture a du sens.

IA physiquePaper
1 source
Coordination par dépliage profond
305arXiv cs.RO 

Coordination par dépliage profond

Des chercheurs ont présenté Deep Coordinator, un framework de deep-unfolding (arXiv:2606.19920) qui automatise le réglage des hyperparamètres d'ADMM-DDP, un solveur distribué populaire pour la planification de trajectoires multi-robots. L'architecture déroule un nombre fixe d'itérations de l'algorithme en couches d'un réseau de neurones, des fonctions apprenables calculant dynamiquement les hyperparamètres suivants à partir de l'état courant de l'optimiseur. Sur des simulations de flottes de voitures et de quadrotors, Deep Coordinator produit des trajectoires de qualité équivalente entre 6,18 et 9,44 fois plus vite que les solveurs conventionnels, et maintient ces gains sur des flottes jusqu'à 8 fois plus grandes que celles vues à l'entraînement. L'intérêt industriel est direct : l'optimisation distribuée est scalable et structurellement transparente, mais son calibrage fin par configuration freine systématiquement l'adoption. Deep Coordinator serait le premier framework de deep-unfolding à adapter les paramètres de pénalité d'un optimiseur non-convexe en temps-solve. Les auteurs signalent en outre que l'approche supervisée classique produit des solutions dégénérées dans ce contexte, et proposent un schéma d'apprentissage non supervisé. Pour les opérateurs de flottes denses (entrepôts, inspection par drone), une accélération d'un facteur 6 à 9 sur la planification collaborative ouvre la voie à des déploiements temps réel difficiles à atteindre avec les solveurs actuels. Le deep-unfolding hybride structure algorithmique classique et apprentissage profond en mappant les itérations d'un solveur en couches de réseau de neurones. ADMM est un standard de l'optimisation distribuée depuis Boyd et al. (2011), très utilisé pour la coordination multi-robot. Les concurrents directs incluent le Multi-Agent Reinforcement Learning (MARL) et le MPC centralisé, dont les limites de scalabilité ou de généralisation sont documentées. La bonne généralisation à des systèmes 8x plus grands est prometteuse, mais les résultats restent simulés ; une validation sur hardware réel, notamment en environnements dynamiques, sera l'étape déterminante pour confirmer la valeur opérationnelle du framework.

RecherchePaper
1 source
VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP
306arXiv cs.RO 

VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP

Des chercheurs ont soumis sur arXiv (réf. 2606.19729) VOiLA, un framework de planification robotique qui apprend des modèles POMDP génériques via diffusion conditionnelle pour planifier sous incertitude partielle, sans nécessiter de modèles physiques codés manuellement. Les diffusion samplers sont distillés en générateurs feedforward compacts intégrés au planificateur VOPP, exploitant la parallélisation GPU pour réduire le coût d'échantillonnage de près de mille fois. Sur trois benchmarks standards, VOiLA atteint des performances égales ou supérieures à Recurrent Soft Actor Critic (RSAC) avec moins de 10 % de ses données d'entraînement. Sur robot physique, les modèles appris exclusivement en simulation permettent de réussir 10 tâches sur 10 en conditions réelles. Le résultat le plus saillant est ce taux de succès sim-to-real de 100 % : les modèles, entraînés sans aucune donnée réelle, fonctionnent en conditions physiques sans dégradation, validant directement la robustesse du transfert simulation-réalité. La frugalité en données est tout aussi notable : surpasser RSAC avec moins d'un dixième de ses données d'entraînement suggère que la structure imposée par les modèles de diffusion compense efficacement le manque de supervision. La généralisation à des configurations d'environnement inédites, documentée sur benchmarks, renforce la crédibilité de l'approche pour des déploiements industriels à conditions variables, là où les agents RL classiques montrent souvent leurs limites. La planification POMDP est un cadre théorique solide pour les agents en environnement partiellement observable, mais son adoption pratique a longtemps été freinée par la difficulté de construire des modèles fidèles. Les approches model-based comme DreamerV3 ou RSSM apprennent ces modèles sans intégrer de planification en ligne explicite calculable en temps réel. VOiLA comble ce fossé en combinant l'expressivité de la diffusion et la rapidité de la distillation pour rendre le POMDP tractable sur GPU, face à des concurrents directs comme RSAC, les planificateurs Monte Carlo Tree Search et les frameworks VLA. Aucun acteur français ou européen n'est impliqué dans ce travail, bien que des laboratoires comme l'INRIA ou le LAAS-CNRS pourraient directement exploiter ces résultats ; aucun partenariat industriel ni timeline de déploiement n'est annoncé dans ce preprint.

RecherchePaper
1 source
VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage
307arXiv cs.RO 

VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage

Des chercheurs présentent dans un preprint arXiv (2606.20056) VFILC, une méthode d'apprentissage par imitation pour robots qui résout le problème de l'extrapolation en fréquence de mouvement. Les approches classiques à base de réseaux de neurones pour les mouvements à vitesse variable se limitaient à interpoler dans la plage d'entraînement ou produisaient des trajectoires imprévisibles au-delà. VFILC combine VFIL (Variable-Frequency Imitation Learning), qui couple la fréquence d'échantillonnage du modèle à la fréquence de mouvement souhaitée, avec une commande par apprentissage itératif (ILC) dotée d'un terme feedforward et d'un terme feedback correcteur. Sur trois tâches de manipulation, les résultats montrent une réduction des erreurs de fréquence de 81 % sur une tâche d'essuyage et de 50 % sur une tâche de secouage, comparé à VFIL seul, lorsque le robot opère au double de la vitesse moyenne présente dans les données d'entraînement. Sur une tâche de malaxage riche en contacts, où la friction complexe perturbe le mouvement même en régime interpolé, VFILC améliore la précision de 27 % par rapport à VFIL seul. L'enjeu est la programmabilité par démonstration à des allures variables, cas courant en robotique manufacturière : adapter la cadence d'une tâche apprise sans recollecter de nouvelles démonstrations. Le fait que le composant ILC feedback corrige les erreurs de fréquence sans déstabiliser le comportement global est significatif pour les tâches à contact (essuyage, assemblage par insertion), où la dynamique réelle diverge du modèle nominal. Les réductions annoncées sont concrètes, mais les auteurs ne précisent pas le contexte de charge ni la durée des cycles, ce qui limite la comparabilité directe avec d'autres benchmarks de manipulation publiés. L'apprentissage par imitation est une approche de plus en plus adoptée pour programmer les robots manipulateurs sans modèle explicite, popularisée par des méthodes comme ACT (Action Chunking with Transformers, Stanford) ou Diffusion Policy. La gestion des vitesses variables y reste un angle mort : la plupart des méthodes supposent une fréquence de contrôle fixe. VFIL avait ouvert la voie en couplant fréquence d'échantillonnage et fréquence de mouvement, mais souffrait de son architecture en boucle ouverte. VFILC apporte la boucle de correction manquante via l'ILC, technique bien établie en contrôle industriel (presses, robots de soudage à répétition). La prochaine étape logique serait l'intégration dans des pipelines VLA (Vision-Language-Action) pour adapter dynamiquement la cadence sur commande en langage naturel, une direction que Physical Intelligence, CMU et ETH Zurich explorent activement.

RecherchePaper
1 source
One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras
308arXiv cs.RO 

One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras

Des chercheurs ont publié le 24 juin 2026 sur arXiv (2606.19897) ExS2D, un framework hiérarchique permettant à un robot bras unique d'exécuter des tâches bimanuelle sans aucune démonstration en configuration deux bras. Le système décompose d'abord des instructions textuelles en sous-tâches structurées, en capturant explicitement les dépendances temporelles entre elles. Un module de grounding traduit ensuite chaque sous-tâche en actions exécutables via une cartographie guidée par l'observation. Enfin, un coordinateur basé sur un grand modèle de langage multimodal (MLLM) orchestre l'allocation des actions entre les deux bras et planifie les trajectoires sans collision. En simulation, ExS2D réduit le nombre moyen d'étapes d'exécution de 54,4 % tout en maintenant un taux de succès comparable au baseline mono-bras. Des expériences sur robot réel portant sur quatre tâches distinctes confirment la fiabilité du système, entraîné uniquement sur quelques échantillons mono-bras en régime few-shot. L'enjeu principal ici est le coût de collecte des données bimanuelles, qui constitue l'un des principaux freins à la manipulation duale en robotique industrielle et service. Les systèmes comme ALOHA ou les plateformes de télé-opération bimanuelle nécessitent des configurations spécialisées et des opérateurs formés, rendant le passage à l'échelle difficile. ExS2D contourne ce goulot d'étranglement en réutilisant des démonstrations mono-bras existantes, potentiellement déjà disponibles dans les parcs robotiques en production. La réduction de 54,4 % des étapes d'exécution représente un gain de débit concret pour des lignes d'assemblage ou de tri, bien que les conditions expérimentales exactes (vitesse, complexité des objets, variabilité de la scène) ne soient pas détaillées dans l'abstract, ce qui invite à nuancer cette métrique avant toute extrapolation industrielle. La manipulation bimanuelle attire des investissements croissants de la part d'acteurs comme Figure AI (Figure 03), Physical Intelligence (pi0) ou Apptronik, tous confrontés au même problème de données. La tendance actuelle est d'utiliser des VLA (Vision-Language-Action models) entraînés sur de vastes corpus de démonstrations humaines, mais la collecte bimanuelle reste coûteuse même pour ces acteurs. ExS2D s'inscrit dans une direction complémentaire, celle du transfer learning structural depuis des données mono-bras, une approche qui pourrait intéresser les intégrateurs travaillant sur des cellules robotiques existantes en mono-bras. Il s'agit pour l'instant d'un travail académique sans déploiement commercial annoncé ; la prochaine étape logique serait une validation sur des tâches industrielles plus complexes et avec une plus grande variabilité d'objets.

RecherchePaper
1 source
RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel
309arXiv cs.RO 

RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel

Des chercheurs de Microsoft Research ont publié fin juin 2026 un framework baptisé Object-Centric Residual RL (arXiv:2606.18953), conçu pour améliorer la robustesse des modèles Vision-Language-Action (VLA) dans des tâches de manipulation physique précise. Le principe : entraîner une politique correctrice en simulation pure, basée non pas sur des images mais sur les poses des objets, puis la transférer directement sur un robot réel sans aucun fine-tuning supplémentaire. Sur un bras Franka Research 3 (FR3), la méthode fait passer le taux de succès moyen de 42 % à 76 % en zero-shot sur cinq tâches de manipulation, avec une politique résiduelle entraînée exclusivement en simulation, avec injection de bruit de pose et dropout. Le processus inclut également le rejeu des démonstrations de télé-opération en simulation pour entraîner un VLA "jumeau" simulé, auquel la politique résiduelle est ensuite couplée avant transfert zero-shot. L'enjeu est direct pour les intégrateurs et les équipes de déploiement robotique : les VLA actuels, qu'il s'agisse de Pi-0 (Physical Intelligence), d'OpenVLA ou des modèles RT de Google, généralisent bien à travers des tâches variées mais accumulent des erreurs d'exécution lors d'interactions physiques précises (pincements, insertions, assemblages) où la précision millimétrique est requise. Les approches concurrentes butent sur un trilemme classique : les méthodes à états privilégiés nécessitent une distillation coûteuse pour le déploiement, les méthodes basées image souffrent du fossé visuel sim-to-réel, et le RL en conditions réelles reste coûteux et risqué pour le matériel. En substituant les poses d'objets aux images comme espace d'observation, le framework crée une représentation compacte et cohérente entre simulation et réalité, suffisamment légère pour un transfert zero-shot fiable. Autre résultat notable : les rollouts améliorés peuvent être réutilisés pour ré-entraîner le VLA de base, ouvrant une boucle d'auto-amélioration sans télé-opération supplémentaire. Le sim-to-real gap est un problème structurel qui freine la commercialisation des robots polyvalents depuis plusieurs années, et les VLA n'y échappent pas malgré leurs capacités de généralisation linguistique. Cette publication s'inscrit dans une dynamique de recherche intense où Physical Intelligence (Pi-0, Pi-0 FAST), Figure AI et 1X Technologies tentent chacun de réduire cet écart par des voies différentes : données réelles massives, domain randomization, ou standardisation du hardware. Microsoft Research, moins visible sur le déploiement commercial que ces acteurs, confirme ici un axe de recherche sur la correction post-entraînement des fondations robotiques par RL simulé. La page projet est publiée en accès ouvert sur le site de Microsoft Research ; aucun partenariat industriel ni timeline de déploiement n'est mentionné dans la publication, qui reste pour l'heure une contribution académique.

💬 La précision millimétrique, c'est là où tous les VLA craquent en conditions réelles. Microsoft Research contourne le problème par le bon bout : en travaillant sur des poses d'objets plutôt que sur des images, le fossé visuel sim-to-real disparaît, et on monte de 42 % à 76 % de succès sur un Franka réel, zero-shot. Aucun partenaire industriel dans la publication pour l'instant, mais l'approche est solide.

IA physiqueOpinion
1 source
RSLCPP : simulations déterministes avec ROS 2
310arXiv cs.RO 

RSLCPP : simulations déterministes avec ROS 2

Une équipe de l'Université Technique de Munich (TUM) publie RSLCPP, une bibliothèque open-source en C++ conçue pour rendre les simulations robotiques sous ROS 2 entièrement déterministes. La contribution, présentée dans un article révisé sur arXiv (arXiv:2601.07052v2), s'attaque à un problème structurel de ROS : son architecture asynchrone et multi-processus rend les résultats de simulation non reproductibles d'une machine à l'autre, voire d'une exécution à l'autre sur le même matériel. L'équipe démontre que RSLCPP produit des résultats bit-à-bit identiques sur plusieurs architectures CPU, validés sur un benchmark synthétique et sur un système robotique réel. La bibliothèque est disponible en open-source sur GitHub (TUMFTM/rslcpp). Le problème que résout RSLCPP est fondamental pour quiconque utilise ROS 2 en simulation : lorsque les temps de calcul et les latences de communication varient, l'ordre d'exécution des callbacks n'est pas garanti, ce qui compromet la reproductibilité des résultats. Pour le benchmarking scientifique et l'intégration continue (CI/CD), où la répétabilité est essentielle, cela constitue un frein réel. RSLCPP impose un ordonnancement déterministe des callbacks en combinant les nœuds ROS existants dans une routine de simulation séquentielle, sans nécessiter de modification du code source. Ce dernier point est décisif : les équipes peuvent instrumenter leurs stacks ROS existantes sans refactoring, ce qui abaisse significativement le coût d'adoption. ROS 2, maintenu par Open Robotics, est devenu le standard de facto en robotique académique et industrielle. La non-reproductibilité des simulations est un problème connu depuis des années dans la communauté, que des simulateurs comme Gazebo ou Isaac Sim de NVIDIA ont partiellement adressé via leurs propres mécanismes internes. RSLCPP se distingue en opérant directement au niveau de l'exécuteur ROS 2, rendant l'approche indépendante du simulateur physique sous-jacent et donc plus portable. La prochaine étape logique serait l'intégration dans des pipelines CI robotiques pour valider des comportements algorithmiques sans variabilité matérielle, un besoin croissant à mesure que les équipes industrielles adoptent des pratiques DevOps pour le développement robotique.

UELes équipes de R&D robotique européennes utilisant ROS 2 bénéficient d'un outil open-source issu de TUM (Allemagne) pour fiabiliser leurs pipelines CI/CD de simulation sans refactoring de code existant.

InfrastructureOpinion
1 source
ZiMPedance : modélisation et contrôle ZMP intégrant l'impédance pour robots quadrupèdes transportant des charges
311arXiv cs.RO 

ZiMPedance : modélisation et contrôle ZMP intégrant l'impédance pour robots quadrupèdes transportant des charges

Des chercheurs ont publié une nouvelle méthode de contrôle pour quadrupèdes transportant des charges via des bras passifs à ressort, baptisée ZiMPedance. Le problème central : lorsqu'un quadrupède porte une charge suspendue à un bras passif (ressort et amortisseur, sans actionnement propre), la dynamique de cette interface génère des forces oscillatoires susceptibles de déstabiliser la locomotion. Les auteurs dérivent une formulation étendue du Zero Moment Point (ZMP), critère classique de stabilité en robotique de marche, intégrant explicitement les paramètres de raideur, d'amortissement et de masse de la charge. Cette formulation est ensuite incorporée dans un contrôleur prédictif (MPC) basé sur un modèle Single Rigid Body Dynamics augmenté des sous-systèmes passifs. En simulation, la méthode réduit les violations de stabilité par un facteur 10, de 7,0 % à 0,7 %, et abaisse l'effort en force de réaction au sol horizontale de 15 % par rapport à un contrôleur de référence. Les tests matériels ont utilisé une charge de 2 kg : le robot maintient une locomotion stable sous perturbations de type traction-relâchement là où le contrôleur nominal échoue. L'enjeu industriel est direct. Les bras passifs à ressort constituent une solution attractive pour équiper les quadrupèdes de capacités de transport sans alourdir la plateforme ni multiplier les actionneurs, contrairement aux manipulateurs actifs, plus lourds et plus coûteux. Le phénomène identifié ici, la résonance entre les configurations sous-amorties et les harmoniques de locomotion, représente un obstacle réel au déploiement en environnements non contrôlés. ZiMPedance démontre qu'il est possible de compenser ces effets par la modélisation plutôt que par le sur-actionnement, une approche directement transposable pour des cas d'usage logistiques, d'inspection industrielle ou de livraison de colis. Le même modèle permet en outre un suivi de position de l'effecteur via la dynamique passive, sans actionner le bras, ce qui ouvre des possibilités de contrôle indirect à faible coût énergétique. Ce travail s'inscrit dans la continuité des avancées MPC pour robots à pattes, un axe de recherche structurant depuis les développements autour de MIT Cheetah et ANYmal (ANYbotics). Dans le segment commercial, Boston Dynamics équipe Spot d'un bras actif à six degrés de liberté, Unitree propose des configurations payload sur ses quadrupèdes B1 et B2, et des acteurs européens comme Wandercraft ou Enchanted Tools explorent des architectures complémentaires pour la manipulation embarquée. Publié en preprint sur arXiv sous l'identifiant 2606.18883, ce travail n'a pas encore été soumis à révision par les pairs : les gains annoncés restent à valider en conditions de charge variable et sur terrain non structuré, hors cadre simulé.

UEMéthode potentiellement transposable pour des acteurs européens comme Wandercraft ou Enchanted Tools explorant la manipulation embarquée, mais aucun lien direct avec la France ou l'UE n'est documenté dans ce travail.

RecherchePaper
1 source
PAIWorld : un modèle fondation du monde en 3D cohérent pour la manipulation robotique
312arXiv cs.RO 

PAIWorld : un modèle fondation du monde en 3D cohérent pour la manipulation robotique

Des chercheurs ont soumis PAIWorld sur arXiv (2506.18375, juin 2026), un framework de modèle fondationnel de monde (world foundation model, WFM) conçu pour la manipulation robotique avec cohérence 3D multi-vues. L'architecture, construite sur un transformateur de diffusion (DiT), intègre trois composants : des blocs d'attention croisée géométriquement informés (Geometry-Aware Cross-View Attention), un encodage positionnel rotatif qui intègre directions de rayons caméra et poses extrinsèques (Geometric RoPE), et un module Latent 3D-REPA qui distille des représentations 3D à partir de modèles 3D figés. Sur les benchmarks publics, PAIWorld se classe premier sur le leaderboard WorldArena et deuxième sur l'AgiBot-Challenge2026, deux références communautaires pour les simulateurs de manipulation. Le problème que PAIWorld adresse est concret : les robots de manipulation utilisent typiquement plusieurs caméras simultanées (vue égocentrique, eye-to-hand, poignet), mais les modèles de monde existants se contentent de concaténer les tokens de chaque vue sans raisonnement géométrique, générant dérive d'objet entre vues, incohérence de profondeur et désalignement de texture. Ces artefacts dégradent l'entraînement de politiques dans les simulateurs et amplifient le sim-to-real gap, problème central pour tout industriel cherchant à transférer des comportements entraînés en simulation vers des robots physiques. En établissant un canal explicite de communication inter-vues combiné à un prior géométrique 3D, PAIWorld vise à améliorer la fidélité des simulateurs utilisés pour le post-entraînement de politiques multi-vues et la planification basée sur des modèles (model-based planning). Les world foundation models appliqués à la robotique constituent un axe de recherche en forte croissance en 2026, porté notamment par des travaux comme UniSim et Genie 2, ainsi que par les approches VLA (Vision-Language-Action) qui cherchent à intégrer simulation et apprentissage de politiques. L'AgiBot-Challenge2026, structuré autour de tâches de manipulation dextère, joue un rôle de référence communautaire croissant pour ces systèmes. Il s'agit d'une prépublication scientifique sans partenariat commercial ni déploiement industriel annoncé : les suites logiques restent l'évaluation sur des benchmarks de transfert sim-to-real avec des plateformes physiques et l'intégration dans des world action models complets.

RecherchePaper
1 source
Quantification de l'incertitude pour les modèles VLA à base de flux
313arXiv cs.RO 

Quantification de l'incertitude pour les modèles VLA à base de flux

Des chercheurs de la TU Munich ont publié sur arXiv (2606.18043) une méthode pour quantifier l'incertitude des modèles vision-langage-action (VLA) basés sur le flow matching, une classe de modèles qui combine un backbone vision-langage avec une tête génératrice d'actions entraînée sur de larges corpus de données robotiques. Leur approche, baptisée Velocity-Field Disagreement (VFD), exploite le désaccord entre les champs de vitesse d'un petit ensemble de modèles pour estimer l'incertitude épistémique, c'est-à-dire l'incertitude liée au manque de données d'entraînement plutôt qu'au bruit intrinsèque du signal. S'appuyant sur ces estimations, ils proposent SAVE, un cadre d'apprentissage actif multitâche guidé par l'incertitude, validé sur le benchmark LIBERO. Résultat clé : SAVE nécessite au moins 22 % de démonstrations expertes en moins que les baselines pour adapter un VLA à de nouvelles tâches. Ce résultat adresse un problème concret qui freine le déploiement industriel des VLAs : sans mécanisme de confiance, un robot ne sait pas quand il risque d'échouer, ce qui est rédhibitoire dans des environnements non-stationnaires comme une ligne de production évolutive. La détection de défaillance en temps réel qu'offre VFD permettrait d'intégrer un circuit de supervision humain ciblé plutôt que systématique, réduisant directement le coût opérationnel. La réduction de 22 % des démonstrations nécessaires à l'adaptation représente aussi un argument économique fort : collecter des données téléopérées reste la goulot d'étranglement principal du passage à l'échelle des VLAs en production. Les VLAs ont émergé comme paradigme dominant en manipulation robotique depuis les travaux de Physical Intelligence (pi-0, basé sur flow matching), Google DeepMind (RT-2, OpenVLA) et Hugging Face (LeRobot). La limitation identifiée ici -- l'absence de calibration des prédictions -- est connue du secteur mais rarement traitée directement. Le groupe LSY de la TU Munich, spécialisé en apprentissage pour systèmes autonomes, positionne ce travail comme une brique de fiabilité applicable à tout VLA flow-based existant, sans réentraînement complet. Le projet dispose d'un site dédié (tum-lsy.github.io/uq_vla/) et la prochaine étape logique serait une validation sur hardware réel, les expériences actuelles restant confinées au benchmark simulé LIBERO.

UELa TU Munich (institution européenne) publie une brique de fiabilité intégrable dans tout VLA flow-based sans réentraînement complet, ce qui pourrait réduire les coûts de supervision humaine et accélérer le déploiement industriel des VLAs dans les usines européennes.

RechercheOpinion
1 source
AnnotateAnything : annotation automatique d'objets 3D pour la manipulation robotique
314arXiv cs.RO 

AnnotateAnything : annotation automatique d'objets 3D pour la manipulation robotique

Des chercheurs ont publié sur arXiv le 17 juin 2026 un framework baptisé AnnotateAnything (arXiv:2606.17446) pour annoter automatiquement des assets 3D bruts et les rendre exploitables dans des pipelines d'entraînement robotique. Le système convertit des modèles 3D passifs en assets "manipulation-ready" enrichis de labels sémantiques, physiques et interactifs sans intervention humaine, en s'appuyant sur deux pipelines complémentaires : un module de raisonnement visio-linguistique (VLM) infère les sémantiques d'objet et les contraintes d'interaction ; un second pipeline de physique, massivement parallèle, ancre ces priors dans la géométrie de chaque asset pour générer automatiquement poses de préhension, contacts dextres, waypoints d'articulation, directions d'insertion, affordances de suspension et cibles de navigation. Un système de collecte de données de simulation asynchrone s'appuie ensuite sur ces annotations pour couvrir objets, tâches et morphologies robotiques variés. L'enjeu est central : les assets 3D bruts ne contenant que de la géométrie, annoter manuellement des bibliothèques à l'échelle reste coûteux et non scalable. AnnotateAnything automatise cette étape en combinant priors sémantiques VLM et optimisation géométrique pour produire des labels physiques exécutables. Les auteurs rapportent des gains en efficacité d'annotation, en efficacité de collecte et en taux de réussite de tâches face aux pipelines existants, des résultats à prendre avec précaution puisque les benchmarks comparatifs sont ceux des auteurs eux-mêmes. Le support natif du VQA robotique et du fine-tuning d'instructions visuelles ouvre une intégration directe dans des pipelines VLA (Vision-Language-Action), paradigme dominant pour l'apprentissage de politiques généralisables à l'échelle. Ce travail s'inscrit dans une vague de recherche sur la scalabilité des données synthétiques, aux côtés de MimicGen (NVIDIA), RoboGen ou UniSim, tous ciblant la réduction du sim-to-real gap par voie simulée. La pénurie d'annotations structurées dans les assets 3D existants est un problème documenté depuis plusieurs années, faute d'alternative viable aux approches manuelles. AnnotateAnything se positionne comme infrastructure de données en amont de tout pipeline de simulation, sans cibler un robot ou un déploiement industriel précis. Les auteurs annoncent la publication du code complet, des annotations et d'un benchmark, un engagement qui, s'il est tenu, pourrait en faire une ressource partagée par la communauté ; aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade.

RechercheActu
1 source
Apprentissage des résidus d'erreur de tâche pour le jonglage avec cinq balles sur robot réel
315arXiv cs.RO 

Apprentissage des résidus d'erreur de tâche pour le jonglage avec cinq balles sur robot réel

Des chercheurs ont obtenu un jonglage stable à trois, quatre et cinq balles sur des bras robotiques Barrett WAM anthropomorphiques, grâce à une méthode d'apprentissage résiduel guidée par l'erreur directionnelle de tâche (arXiv:2606.16978, juin 2026). Le résultat le plus saisissant tient en deux chiffres : le système converge dès la deuxième tentative. La première tente échoue, et à partir de là, l'erreur de tâche décroît de façon monotone, sans aucune chute supplémentaire. L'équipe compare plusieurs stratégies d'apprentissage résiduel sur deux axes orthogonaux : la richesse directionnelle du signal de supervision, et le degré d'engagement de l'a priori analytique. Les méthodes évaluées vont des mises à jour newtoniennes par Jacobien fixe à l'optimisation bayésienne composite (CBO), en passant par des méthodes de recherche stochastique. Le principal enseignement est que le goulot d'étranglement de l'apprentissage résiduel sur robots réels n'est pas la précision du modèle dynamique ni la fidélité de la simulation, mais bien la qualité informationnelle du signal de supervision. Un signal directionnel comme l'erreur de tâche vectorielle transporte bien plus d'information qu'une récompense scalaire standard, permettant une convergence avec un nombre très limité d'essais réels. Les deux axes se révèlent nécessaires conjointement : ni le signal directionnel seul, ni l'a priori informatif seul ne suffisent. Fait notable, la méthode la plus simple combinant les deux, la mise à jour newtonienne à Jacobien fixe, s'avère la plus fiable, devançant les approches plus sophistiquées. Ce résultat remet en cause l'hypothèse selon laquelle la complexité algorithmique serait le principal levier d'efficacité en échantillons sur hardware réel. Le Barrett WAM est une plateforme de référence pour la manipulation dynamique en recherche, mais son utilisation pour le jonglage à cinq balles reste rarissime, un exercice que les humains atteignent après des années d'entraînement. Ce travail s'inscrit dans un courant qui cherche à réduire drastiquement le nombre d'interactions réelles nécessaires à la spécialisation fine d'un contrôleur, en parallèle d'approches comme les politiques visuomotrices (VLA) ou le sim-to-real par apprentissage par renforcement développés chez DeepMind ou CMU. Le fait que la méthode opère à travers une stack de planification simple et idéalisée, sans calibration fine, ouvre des perspectives pour des déploiements industriels rapides sur robots aux dynamiques partiellement inconnues. Les prochaines étapes naturelles seraient l'extension à des objets non sphériques et la mise à disposition publique du code.

RecherchePaper
1 source
Suivi binaire pour la QA spatiale et la navigation avec des modèles vision-langage ouverts
316arXiv cs.RO 

Suivi binaire pour la QA spatiale et la navigation avec des modèles vision-langage ouverts

Une équipe de chercheurs publie sur arXiv (référence 2606.16902) un agent de localisation spatiale open-source baptisé BinTrack, conçu pour permettre à des robots de service de répondre à des questions du type « où puis-je trouver un pressing sur le chemin du retour ? » et de retourner une coordonnée métrique exploitable directement par les modules de navigation. Le système s'appuie sur un robot quadrupède réel déployé dans des rues publiques de Séoul pour constituer GangnamLoop, un nouveau benchmark multi-trajets en extérieur. BinTrack atteint une amélioration de précision allant jusqu'à 22,8 % par rapport aux autres implémentations open-source sur SpaceLocQA, le benchmark de référence du domaine, et égale les résultats des agents basés sur GPT-4o sur la catégorie « global », la plus difficile. Il offre par ailleurs un gain de vitesse d'inférence supérieur à 1,5x par rapport aux approches précédentes. L'intérêt principal de BinTrack pour les intégrateurs et les décideurs industriels tient à son architecture entièrement embarquée et déconnectée. Les approches existantes de Spatial Question Answering s'appuyaient sur des modèles fermés comme GPT-4o via des agents RAG (retrieval-augmented generation), ce qui implique une dépendance réseau, une latence de communication et des coûts d'API prohibitifs pour une flotte de robots en production. BinTrack remplace cela par une recherche binaire sur les segments de trajectoire entre deux repères spatiaux extraits de la requête, en exploitant l'ordre temporel du trajet. Ce faisant, le travail démontre qu'un modèle de vision-langage open-source peut rivaliser avec GPT-4o sur un benchmark spatial de référence, sans connexion cloud, une hypothèse que beaucoup dans le secteur considéraient non résolue à ce stade. GangnamLoop se distingue des benchmarks indoor habituels : il capture les mêmes lieux sous différentes conditions extérieures et croise le point de vue bas du robot quadrupède avec celui de son propriétaire humain, ce qui en fait un jeu de données plus réaliste pour la navigation piétonne en ville. La recherche spatiale embarquée reste un domaine peu exploré par rapport aux approches cloud-first ; des acteurs comme Boston Dynamics, Unitree ou les équipes robotique de Google DeepMind travaillent sur des problèmes connexes, mais rarement avec une contrainte d'inférence locale aussi explicite. Le code et les données de GangnamLoop sont disponibles publiquement sur GitHub, ce qui ouvre la voie à des évaluations indépendantes et à des intégrations dans des pipelines de navigation autonome en contexte réel.

RechercheOpinion
1 source
SimWeaver : transfert simulation-réel RGB sans entraînement pour la manipulation d'objets déformables
317arXiv cs.RO 

SimWeaver : transfert simulation-réel RGB sans entraînement pour la manipulation d'objets déformables

Une équipe de recherche présente SimWeaver (arXiv:2606.15338), un système capable d'entraîner des politiques VLA (Vision-Language-Action) en environnement simulé uniquement, puis de les déployer directement sur un robot réel sans aucun affinage sur données réelles. Entraîné sur seulement 200 démonstrations simulées par tâche, SimWeaver atteint plus de 80% de succès par tâche et 91% de taux moyen sur cinq tâches de manipulation d'objets déformables incluant la manipulation de sacs plastique et la saisie de tissu de soie, sans téleopération ni calibration spécifique à chaque tâche. Sur la tâche de saisie de soie, la politique sim-entraînée atteint 100% de succès sous des variations visuelles importantes, là où les baselines entraînées sur données réelles chutent entre 9% et 70%. Le coût par trajectoire est réduit de deux ordres de grandeur par rapport aux approches requérant des données terrain. Ce résultat est notable parce que le sim-to-real pour objets déformables en entrée RGB brute est resté largement non résolu jusqu'ici. La physique des corps mous (tissus, sacs, fils) est notoirement difficile à simuler fidèlement, et l'écart simulation-réalité se traduit généralement par des politiques qui échouent dès le déploiement. SimWeaver contourne ce problème avec une augmentation photométrique tenant compte du pipeline ISP (Image Signal Processor) de la caméra, ce qui réduit le fossé visuel sans nécessiter de données réelles. Pour un intégrateur ou un COO industriel travaillant sur des lignes de conditionnement, de tri textile ou de logistique e-commerce, la réduction du coût de collecte de données et l'absence de recalibration par tâche représentent un levier économique concret. Le problème de la manipulation déformable concentre depuis plusieurs années une part croissante de la recherche en robotique, portée par des applications telles que la préparation de commandes en entrepôt (Exotec, HAI Robotics) ou l'assemblage textile. Les approches précédentes mobilisaient soit des capteurs de profondeur, soit d'importantes campagnes de téleopération pour construire des datasets réels. SimWeaver s'appuie sur quatre modules complémentaires : un simulateur physique calibré (SimWeaver-Sim), un générateur d'assets à partir d'une seule image (SimWeaver-Asset), un synthétiseur de trajectoires déterministe topologie-aware (SimWeaver-Syn) et un protocole de transfer sim-to-real avec augmentation ISP (SimWeaver-Real). Le code et un sous-ensemble d'assets représentatifs seront publiés en open source, ce qui positionne ce travail comme une infrastructure potentielle pour la communauté. Aucun partenaire industriel ni timeline de déploiement commercial n'est mentionné à ce stade : il s'agit d'une contribution académique, pas d'un produit annoncé.

UELa publication open-source de SimWeaver pourrait bénéficier aux intégrateurs robotiques français et européens actifs dans la logistique e-commerce et le tri textile, en réduisant drastiquement le coût de collecte de données pour la manipulation d'objets déformables.

💬 Le sim-to-real sur des objets déformables, c'était le mur que tout le monde contournait faute de physique fiable. 100% de succès sur la soie en sim seul, là où les modèles entraînés sur données réelles tombent entre 9 et 70%, c'est le genre de résultat qui force à prendre ça au sérieux. Bon, c'est encore académique et sans partenaire industriel annoncé, mais le code sort en open source, alors on verra vite si ça tient hors benchmark.

IA physiqueOpinion
1 source
Préhension universelle pour humanoïdes
318arXiv cs.RO 

Préhension universelle pour humanoïdes

Des chercheurs ont publié HUG (Human Universal Grasping), un modèle de flow-matching qui génère des saisies robotiques diversifiées à partir d'une unique image RGB-D capturée par caméra stéréo. Pour l'entraîner, ils ont constitué 1M-HUGs, un dataset égocentrique de 1 million de frames (27,8 heures, 41 bâtiments) capturées via smart glasses, couvrant 6 707 instances d'objets distincts. Le modèle fusionne données RGB et profondeur pour prédire une saisie paramétrée par la translation et la rotation du poignet ainsi que la pose MANO de la main, retargetable zero-shot vers différentes mains robotiques. Sur HUG-Bench, un benchmark de 90 objets répartis en cinq catégories géométriques avec des maillages 3D à l'échelle métrique, HUG surpasse les baselines état de l'art de +23% et +34% sur 30 objets réels testés dans plusieurs environnements domestiques. L'argument central est méthodologique : plutôt que de passer par la télé-opération ou la démonstration robotique, les auteurs exploitent les données humaines natives, disponibles à très grande échelle et sans infrastructure spécialisée. La capacité de retargeting zero-shot vers des mains mécaniques hétérogènes est l'argument industriel clé : si elle tient hors conditions de lab, elle réduit significativement le coût d'adaptation d'un modèle de manipulation à un nouveau hardware. Ces résultats sont toutefois à nuancer : le papier est un preprint arXiv non encore évalué par les pairs, et les performances annoncées ont été mesurées sur un benchmark construit par les auteurs eux-mêmes, sans audit indépendant à ce stade. HUG s'inscrit dans une lignée de travaux sur la généralisation de la saisie incluant GraspNet, Contact-GraspNet et les approches par diffusion comme DexDiffuser, et adopte une logique de capture égocentrique proche des pipelines de Stanford (Mobile ALOHA) ou Berkeley (DROID dataset), qui visent à décorréler la collecte de données du hardware robotique cible. Le code, les données, le benchmark et les checkpoints sont publiés en open source sur grasping.io. Les prochaines validations logiques concerneraient des bras industriels (UR, Franka) sur des scénarios de bin-picking ou d'assemblage non structuré, où la généralisation de la saisie reste un verrou majeur pour l'intégration à grande échelle.

IA physiquePaper
1 source
ORCA : une plateforme open source pour la recherche en dextérité
319arXiv cs.RO 

ORCA : une plateforme open source pour la recherche en dextérité

Une équipe de chercheurs présente ORCA, une pile logicielle open-source dédiée à la manipulation dextre par mains anthropomorphes, publiée sur arXiv (2606.14561) en juin 2026. La plateforme unifie en une seule interface le contrôle bas niveau, la simulation, la téleopération depuis des dispositifs grand public, et le retargeting de main, c'est-à-dire la conversion des mouvements d'une main humaine vers les actionneurs d'une main robotique. ORCA s'intègre nativement avec LeRobot, le framework de robot learning open-source de Hugging Face devenu référence dans la communauté. Les auteurs ont validé le système sur une tâche de réorientation objet en main (in-hand reorientation), en collectant des démonstrations par téleopération via un casque VR grand public, en entraînant une politique autonome avec LeRobot, puis en évaluant les résultats dans un environnement entièrement reproductible. Aucun chiffre de performance quantifié (taux de succès, temps de cycle) n'est communiqué dans l'abstract. Ce travail s'attaque à un verrou structurel du domaine : les mains dextres restent quasi-absentes des benchmarks de robot learning, non par manque de hardware accessible, mais parce que les couches logicielles, simulation, téleopération, retargeting, sont dispersées dans des dépôts non maintenus, sans connexion aux pipelines de données et d'entraînement standards. Résultat, les chercheurs travaillant sur les pinces parallèles à deux doigts (two-finger grippers) bénéficient d'un écosystème mature, tandis que les équipes mains anthropomorphes repartent de zéro à chaque projet. ORCA propose une fondation partagée pour homogénéiser cet effort, permettant de réutiliser les mêmes datasets, les mêmes recettes d'entraînement et les mêmes protocoles d'évaluation entre plateformes dextres et non-dextres. C'est un pari d'infrastructure communautaire, pas une avancée algorithmique. Le contexte immédiat est la montée en puissance de LeRobot comme socle commun du robot learning open-source, accélérant la demande pour des intégrations matérielles homogènes. La recherche en manipulation dextre reste dominée par quelques labos bien équipés (Stanford, CMU, Berkeley), souvent sur des mains propriétaires comme la Dexterous Hand d'Allegro ou la Shadow Hand. Côté européen, Pollen Robotics (Bordeaux) et Enchanted Tools intègrent des mains polydigitales dans leurs plateformes, et pourraient bénéficier directement d'une couche d'abstraction standardisée comme ORCA. La prochaine étape naturelle serait l'adoption par la communauté LeRobot et l'extension à des tâches multi-objets ou de manipulation bimanuelle, domaines où les grippers classiques atteignent leurs limites mécaniques.

UEPollen Robotics (Bordeaux) et Enchanted Tools pourraient adopter ORCA directement pour accélérer leurs développements sur mains polydigitales, en bénéficiant d'une couche d'abstraction standardisée native avec LeRobot, le framework open-source de HuggingFace (entreprise française).

RecherchePaper
1 source
Attaques trojans sur les contrôleurs de réseaux de neurones pour systèmes robotiques
320arXiv cs.RO 

Attaques trojans sur les contrôleurs de réseaux de neurones pour systèmes robotiques

Des chercheurs ont publié sur arXiv (référence 2602.05121v2) une démonstration de faisabilité d'attaques par backdoor, dites attaques "Trojan", ciblant des contrôleurs neuronaux embarqués dans des systèmes robotiques. Le vecteur d'attaque étudié est un robot mobile à propulsion différentielle, dont le contrôleur de suivi de trajectoire et de stabilisation de pose est implémenté sous forme de réseau de neurones. Les auteurs ont conçu un module Trojan parallèle, léger, conçu pour être inséré dans le réseau principal sans modifier ses poids. Ce module reste inactif en fonctionnement normal, puis s'active dès qu'une condition de déclenchement très précise est détectée, définie conjointement par la pose courante du robot et ses paramètres objectifs. À l'activation, le module corrompt directement les commandes de vitesse des roues, provoquant des comportements non désirés, potentiellement dangereux. L'attaque est validée en simulation selon deux scénarios distincts. Ce travail met en lumière un risque souvent sous-estimé dans la robotique industrielle et les AMR (robots mobiles autonomes) : la chaîne d'approvisionnement en modèles neuronaux. Dès lors qu'un contrôleur est fourni par un tiers, entraîné sur une infrastructure externe, ou acquis via un pipeline de fine-tuning non audité, l'intégrateur ne peut pas garantir l'absence de modules cachés. La discrétion du Trojan, dormant jusqu'à un trigger très spécifique, le rend difficilement détectable par les tests fonctionnels classiques. Pour les COO industriels et les équipes sécurité, cela signifie que les approches de validation de modèles actuelles, orientées performance, sont insuffisantes face à des attaques intentionnelles. Les attaques par backdoor sur les réseaux de neurones sont documentées depuis 2017 dans le domaine de la classification d'images, mais leur transposition aux systèmes de contrôle robotique en temps réel est plus récente et plus critique : une erreur de classification est bénigne, une dérive de trajectoire sur un robot industriel peut provoquer des dommages matériels ou humains. Ce papier s'inscrit dans un corpus croissant qui questionne la robustesse des architectures VLA (Vision-Language-Action) et des contrôleurs neuronaux génériques. Les suites logiques sont des méthodes de détection (analyse spectrale des poids, tests adversariaux ciblés) et des protocoles de certification des modèles embarqués, un chantier encore largement ouvert pour les organismes de standardisation comme l'ISO ou l'IEC.

UELes intégrateurs européens d'AMR et robots industriels utilisant des contrôleurs neuronaux fournis par des tiers sont directement exposés à ce vecteur d'attaque ; les travaux de normalisation ISO/IEC sur la certification des modèles embarqués deviennent un chantier prioritaire pour le marché européen.

RechercheOpinion
1 source
Fibre de détection de contrainte et de toucher, peu coûteuse, facile à fabriquer et très flexible, pour la robotique
321arXiv cs.RO 

Fibre de détection de contrainte et de toucher, peu coûteuse, facile à fabriquer et très flexible, pour la robotique

Des chercheurs ont publié sur arXiv (réf. 2606.13352) la description d'une fibre conductrice multifonctionnelle pour la robotique, fabriquée uniquement avec des composants grand public : fil conducteur à 0,07 dollar par pied, tube en silicone à 0,94 dollar par pied et une aiguille à tricoter vendue 2 dollars. Un segment de 20 centimètres se produit en deux minutes sans équipement spécialisé. La fibre fonctionne soit en capteur de déformation résistif, soit en capteur capacitif selon sa configuration. Cinq applications ont été validées expérimentalement : déclenchement de prise d'un doigt assistif pneumatique, estimation de pose d'une sangle robotique gonflable, reconstruction de forme d'un solide flexible, activation par contact d'un bras industriel commercial, et suivi en champ proche d'une main en mouvement. Les capteurs capacitifs sont tricotés, ce qui leur confère une flexibilité mécanique élevée adaptée aux surfaces non rigides. Pour les intégrateurs et fabricants de robots, l'enjeu est direct : les capteurs de contact et d'élongation existants butent généralement sur au moins un verrou, coût matière, équipement de fabrication spécialisé ou temps de cycle trop long. Cette fibre contourne les trois obstacles simultanément. Elle ouvre une voie concrète vers une instrumentation dense et bon marché de surfaces souples, un prérequis pour la manipulation dextre et les interfaces physiques homme-machine. La démonstration du suivi de main sans marqueur visuel repositionne aussi ce type de capteur comme alternative crédible aux systèmes de vision dans les environnements occludés ou à faible éclairage, point non négligeable pour l'industrie. Les fibres conductrices intégrées dans des élastomères constituent un champ de recherche actif depuis une décennie, avec des contributions notables du Soft Robotics Toolkit de Harvard ou des équipes de l'EPFL sur les peaux électroniques. L'originalité de ces travaux tient à l'accent mis sur la réplicabilité sans laboratoire spécialisé, ce qui rapproche le dispositif d'un composant open hardware. Les auteurs abordent également les compromis liés à l'industrialisation à plus grande échelle et proposent une méthode de réparation après coupure de la fibre. Les applications naturelles incluent les gants haptiques et les préhenseurs à doigts souples, deux segments en forte croissance où aucun standard technologique ne s'est encore imposé.

UELa technologie open hardware décrite pourrait bénéficier aux équipes de robotique douce européennes et aux intégrateurs FR/EU de préhenseurs souples, mais aucun acteur européen n'est central dans cette publication arXiv.

RecherchePaper
1 source
μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA
322arXiv cs.RO 

μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA

Des chercheurs ont publié sur arXiv (arXiv:2606.12497) une étude d'isolation contrôlée baptisée muVLA, une famille de variantes du modèle OpenVLA-OFT augmentées de récurrence minimale. Le principe : injecter un petit ensemble de tokens mémoire apprenables dans le transformer, transportés d'un pas de temps au suivant et mis à jour par auto-attention, sans loss auxiliaire ni modification architecturale. L'entraînement se fait de bout en bout avec rétropropagation tronquée dans le temps (TBPTT), paramétrée par la largeur mémoire m et la longueur de troncature K, avec deux règles de mise à jour comparées -- gradients inter-pas ou EMA détachée. Sur le benchmark MIKASA-Robo, muVLA porte le taux de succès moyen sur cinq tâches d'entraînement de 0,42 à 0,84 dans la configuration la plus forte, et atteint 0,23 sur des tâches hors distribution contre 0,07 pour la baseline sans mémoire. Sur LIBERO, environnement à observabilité complète, la variante récurrente la plus forte atteint 96,2 % de succès moyen -- sans régression par rapport au modèle de base. Ce travail apporte une contribution méthodologique précise à un champ encombré d'ablations mal contrôlées. La quasi-totalité des VLA à mémoire existants couplent récurrence, retrieval, compression et objectifs hiérarchiques dans un seul système, rendant impossible d'attribuer les gains à un mécanisme isolé. muVLA démontre que la récurrence seule -- sans aucune machinerie additionnelle -- suffit à doubler le taux de succès sur des tâches à observabilité partielle, c'est-à-dire les situations où une partie de l'état pertinent a disparu du champ de vision. Pour les intégrateurs robotiques travaillant sur des cellules avec occlusions ou des séquences d'assemblage multi-étapes, c'est un signal clair : le goulot n'est pas la puissance brute du modèle de base, mais la capacité à maintenir un état latent persistant. Le résultat sur LIBERO indique également que l'ajout de mémoire ne dégrade pas les performances en pleine observabilité, ce qui lève un frein souvent cité à l'adoption de ces architectures en production. OpenVLA est un modèle open-source lancé fin 2024 par une collaboration Stanford/Berkeley/Toyota Research Institute, positionné comme alternative ouverte aux VLA propriétaires comme RT-2 (Google DeepMind) ou pi0 (Physical Intelligence). OpenVLA-OFT en est une variante fine-tunée pour l'exécution rapide. La question de la mémoire dans les VLA est activement travaillée par plusieurs équipes -- RoboVLMs, SpatialVLA, Helix (Figure AI) -- mais avec des architectures nettement plus lourdes. muVLA se distingue par sa minimalité revendiquée et son protocole d'isolation rigoureux, ce qui en fait un outil de calibration plus qu'un système prêt au déploiement. Les auteurs délimitent explicitement le "régime de suffisance" de la récurrence minimale : elle fonctionne pour les tâches où la structure mémoire requise est homogène entre entraînement et évaluation, et atteint ses limites dès que les tâches hors distribution exigent une structure mémorielle différente. Les prochaines étapes naturelles -- combinaison avec des mécanismes de retrieval ou de compression -- sont implicitement balisées par ces résultats.

RechercheOpinion
1 source
EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots
323arXiv cs.RO 

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

EgoEngine, un framework décrit dans un preprint arXiv de juin 2026 (arXiv:2606.12604), automatise la transformation de vidéos humaines en vue égocentrique en données d'entraînement exploitables par des robots manipulateurs. Le système prend en entrée une vidéo RGB et produit deux sorties : une séquence où les mains humaines sont remplacées par un effecteur robotique tout en conservant le contexte de la scène et l'alignement temporel, et une trajectoire d'action exécutable sous contraintes de faisabilité cinématique. Le pipeline attaque deux verrous documentés dans la littérature : le visual gap (différence d'apparence entre humain et robot en manipulation) et l'action gap (incommensurabilité entre gestes humains et commandes articulaires d'un bras robotique). Les auteurs rapportent des résultats en simulation et sur robots réels, et affirment, avec la précaution habituelle "à leur connaissance", une première en apprentissage visuomoteur dextère en zero-shot depuis des vidéos égocentriques humaines, sans aucune démonstration préalable sur robot réel. Collecter des démonstrations robotiques à grande échelle pour la manipulation dextère reste l'un des principaux goulots d'étranglement du secteur, en coût et en temps opérateur. Un pipeline capable de valoriser des corpus vidéo égocentriques existants (EPIC-Kitchens, HOI4D, captations industrielles) sans robot disponible au moment de la collecte représenterait un raccourci significatif pour intégrateurs et équipes R&D. La revendication zero-shot est néanmoins à pondérer : les performances en manipulation dextère restent très sensibles à la fidélité du retargeting visuel et des trajectoires synthétisées, et les démonstrations sur robot réel dans les preprints de ce type sélectionnent rarement des scénarios représentatifs de la variabilité terrain. Ce travail s'inscrit dans un champ concurrentiel où NVIDIA (GR00T N2), Physical Intelligence (pi-0) et HuggingFace (Lerobot) développent chacun leurs stratégies de scalabilité des données robotiques. EgoEngine se positionne spécifiquement sur la manipulation dextère fine (doigts, pas seulement le poignet), segment où la sim-to-real gap est la plus difficile à combler et où aucun standard industriel de collecte n'existe encore. En tant que preprint non peer-reviewed, la prochaine étape critique sera une validation sur benchmarks standardisés comme DROID ou Open X-Embodiment pour confirmer la généralisation à des embodiments et tâches diversifiés.

IA physiquePaper
1 source
Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)
324arXiv cs.RO 

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion
1 source
Exécution en temps réel avec des politiques autorégressives
325arXiv cs.RO 

Exécution en temps réel avec des politiques autorégressives

Un article de recherche déposé sur arXiv (référence 2606.13355) en juin 2026 démontre que les politiques autoregressives -- la famille de modèles qui génère les actions token par token, à la manière d'un LLM classique -- peuvent atteindre une exécution en temps réel sur des robots physiques. La méthode repose sur deux leviers combinés : l'ajustement de l'horizon de tokenisation (la granularité temporelle des séquences d'actions encodées) et le décodage contraint (constrained decoding), qui impose des bornes de latence strictes à chaque inférence. En rendant l'inférence asynchrone, le système garantit des trajectoires d'action fluides tout en maintenant une réactivité suffisante pour absorber les perturbations de l'environnement. Les auteurs montrent, sur des benchmarks simulés et en conditions réelles, que la politique autoregressive surpasse systématiquement son équivalent basé sur le flow-matching (variante des politiques de diffusion) tout en atteignant des vitesses de complétion de tâche nettement supérieures à celles obtenues en inférence synchrone. Le multi-trajectory decoding -- rendu possible par les garanties de latence -- permet en outre d'explorer plusieurs trajectoires candidates en parallèle pour maximiser la performance. Ce résultat est significatif car il remet en cause une hypothèse dominante dans la robotique d'apprentissage : celle selon laquelle les politiques de diffusion seraient structurellement mieux adaptées à l'exécution temps réel en raison de leur parallélisme d'échantillonnage. Les modèles VLA (Vision-Language-Action) autoregressifs, qui traitent séquentiellement pixels, instructions textuelles et commandes moteur dans un même réseau, souffraient d'un goulot d'étranglement de latence jugé rédhibitoire pour le déploiement sur robots industriels ou humanoïdes. Cette publication suggère que ce surcoût peut être absorbé par architecture -- sans sacrifier la performance ni la généralisation aux instructions. Pour un intégrateur ou un COO industriel évaluant des briques VLA, le message est pratique : les modèles autoregressifs offrent également une convergence plus rapide à l'entraînement et une meilleure généralisation aux nouvelles instructions, deux propriétés critiques pour les déploiements à petits volumes de données. Sur le plan du contexte, le débat autoregressif contre diffusion structure la recherche en politiques robotiques depuis la publication des diffusion policies (Chi et al., 2023), rapidement adoptées par des projets comme pi-0 de Physical Intelligence ou ACT. Les modèles VLA à architecture autoregressive, dont OpenVLA ou les variantes de GR00T N2 (NVIDIA), peinent en revanche à s'imposer en déploiement temps réel faute de latence acceptable. Ce preprint, qui n'est pas encore évalué par les pairs, repositionne cette famille comme compétitive pour l'exécution physique, à condition d'intégrer les deux mécanismes proposés dès la conception du pipeline d'inférence. Les prochaines étapes naturelles seront la validation sur des robots industriels à haute fréquence de contrôle (au-dessus de 50 Hz) et l'ouverture éventuelle du code.

💬 Le verrou de latence des VLA autoregressifs, c'était le seul argument solide qui restait pour privilégier les politiques de diffusion en robotique physique. Avec le décodage contraint plus l'ajustement de l'horizon de tokenisation, ils montrent que ce goulot était architectural, pas structurel. Bon, c'est encore un preprint, reste à voir si ça tient au-dessus de 50 Hz sur du vrai acier.

IA physiqueOpinion
1 source
Évaluation multimodale de la perception robotique en environnements naturels
326arXiv cs.RO 

Évaluation multimodale de la perception robotique en environnements naturels

Des chercheurs du CSIRO (Commonwealth Scientific and Industrial Research Organisation, Australie) ont publié en juin 2026 le benchmark WildCross, un jeu de données multi-modal destiné à évaluer les systèmes de perception robotique dans des environnements naturels non structurés. Le dataset comprend plus de 476 000 frames RGB séquentielles annotées avec profondeur semi-dense, normales de surface, pose 6DoF précise et sous-cartes lidar denses synchronisées. WildCross cible deux tâches clés : la reconnaissance de lieu (place recognition) et l'estimation de profondeur métrique, deux briques fondamentales pour la navigation autonome en extérieur. L'article, disponible en preprint sur arXiv (2606.11563), constitue une extension d'une publication précédente avec un focus particulier sur les expériences d'estimation de profondeur. Le benchmark révèle une faiblesse structurelle des modèles de vision actuels, notamment les vision foundation models (type DINOv2, SAM ou DepthAnything) : entraînés massivement sur des données urbaines structurées (routes, bâtiments, feux de signalisation), ils se dégradent significativement face aux textures répétitives, aux variations d'éclairage et à l'absence de repères géométriques nets caractéristiques des milieux forestiers, agricoles ou montagneux. Pour les intégrateurs en robotique de terrain (agriculture de précision, inspection d'infrastructures, opérations de recherche et sauvetage), cela confirme ce que les praticiens suspectent depuis longtemps : les benchmarks urbains comme KITTI ou NYUv2 ne prédisent pas les performances réelles sur le terrain. Le CSIRO Robotics est l'un des principaux laboratoires mondiaux sur la robotique en environnements difficiles, notamment via ses contributions au challenge DARPA Subterranean et au développement du robot Spot dans des mines australiennes. WildCross entre en compétition directe avec des initiatives comme RUGD, RELLIS ou le benchmark TartanAir sur la question du sim-to-real en outdoor, mais se distingue par l'intégration de lidar dense synchronisé permettant une vérité terrain de profondeur plus fiable. Le dataset et le code sont accessibles publiquement via csiro-robotics.github.io/WildCross. Les prochaines étapes annoncées incluent l'évaluation de modèles VLA (vision-language-action) sur ce corpus, ce qui pourrait élargir la portée du benchmark au-delà de la seule perception passive.

UELes équipes européennes en robotique de terrain (agriculture de précision, inspection d'infrastructures) peuvent utiliser ce benchmark open-source pour évaluer objectivement leurs modèles de perception en environnement non structuré, confirmant que les référentiels urbains classiques ne prédisent pas les performances réelles sur le terrain.

RecherchePaper
1 source
Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante
327arXiv cs.RO 

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

Des chercheurs ont publié le 12 juin 2026 un article sur arXiv (2606.12365) présentant l'Ambient Diffusion Policy, une méthode d'apprentissage par imitation conçue pour exploiter des données de démonstration sous-optimales en robotique. Le problème de fond est économique : collecter des données de haute qualité, spécifiques à une tâche, reste coûteux et chronophage, tandis que des datasets hétérogènes, bruités ou hors distribution sont abondants. La méthode introduit un nouvel axe de co-entraînement fondé sur le bruit : la contribution des données sous-optimales est restreinte aux seuls niveaux de bruit élevés et faibles dans le processus de diffusion, plutôt que sur l'ensemble des timesteps d'entraînement. Cette sélectivité permet d'extraire les caractéristiques utiles tout en neutralisant les signaux parasites. Testée sur six tâches couvrant quatre types de données dégradées (trajectoires bruitées, écart sim-to-réel, désalignement de tâche, mélanges de datasets à grande échelle), la méthode surpasse les baselines de co-entraînement existantes de jusqu'à 33% sur Open X-Embodiment, un dataset public de référence regroupant des données robotiques hétérogènes issues de multiples plates-formes. L'impact pour les intégrateurs et les équipes R&D est direct : l'un des goulots d'étranglement majeurs du déploiement de politiques de contrôle apprises n'est plus la quantité de données parfaites disponibles, mais la capacité à valoriser des données imparfaites déjà collectées. La justification théorique repose sur l'observation que les données d'action robotique suivent une loi de puissance spectrale, ce qui induit deux propriétés exploitables dans les Diffusion Policies : une hiérarchie global-to-local et une propriété de localité. Ces propriétés permettent de comprendre pourquoi les niveaux de bruit extrêmes encodent respectivement la structure globale du mouvement et les détails fins, et donc pourquoi la restriction de la contribution des données sous-optimales à ces deux régimes fonctionne. C'est un résultat notable : la méthode n'exige pas de filtrage préalable ni de pondération manuelle des sources, ce qui simplifie le pipeline d'ingestion de données. L'Ambient Diffusion Policy s'inscrit dans le sillage des Diffusion Policies (Chi et al., 2023, Columbia University), devenues une référence dans le contrôle robotique par imitation depuis leur démonstration sur des tâches de manipulation précise. Le co-entraînement sur données hétérogènes est un défi actif, notamment pour les grandes politiques généralistes comme RT-2, Octo ou OpenVLA, qui s'appuient sur Open X-Embodiment. L'approche "Ambient" s'inspire des travaux sur l'apprentissage par diffusion à partir de données corrompues (Gokaslan et al., 2023), ici réinterprétés pour le contexte robotique. Les concurrents directs incluent les méthodes de filtrage par récompense (IQL, AWR) et les approches de pondération implicite comme DWSL. La prochaine étape naturelle, non annoncée dans l'article, serait une intégration dans des pipelines de fine-tuning de politiques fondatrices (foundation policies) où la qualité des données de démonstration spécifiques au site de déploiement reste variable.

UELes équipes R&D robotique françaises et européennes travaillant sur des politiques d'imitation peuvent directement exploiter la méthode pour valoriser leurs datasets de démonstration hétérogènes existants, réduisant le coût de collecte de données haute qualité pour le déploiement industriel ou humanoïde.

IA physiquePaper
1 source
ros2probe : observabilité non intrusive et sélective au niveau noyau pour le middleware ROS 2
328arXiv cs.RO 

ros2probe : observabilité non intrusive et sélective au niveau noyau pour le middleware ROS 2

Une équipe de chercheurs a publié le 12 juin 2026 sur arXiv (arXiv:2606.10746v1) les travaux autour de ros2probe, un framework d'observabilité non-intrusif pour ROS 2, le middleware de facto de la robotique moderne. ROS 2 structure chaque robot comme un graphe de noeuds communicant via DDS (Data Distribution Service), un protocole publish/subscribe. Le problème fondamental des outils de monitoring existants : pour observer un topic, ils s'inscrivent eux-mêmes comme subscribers DDS, devenant ainsi partie intégrante du système qu'ils mesurent. ros2probe contourne cette contrainte en reconstituant l'état de communication complet à partir des paquets de découverte DDS, sans rejoindre le domaine, puis en appliquant un filtre noyau (in-kernel) ciblé sur les topics demandés. Sur trois plateformes matérielles (laptop x86, NVIDIA Jetson, Raspberry Pi), deux implémentations DDS distinctes et sept workloads robotiques, ros2probe maintient le graphe de découverte à moins de 0,5% d'un système non observé. Les outils classiques, eux, gonflent ce graphe jusqu'à 2,6 fois et perdent 38,5% des messages du subscriber réel en conditions de saturation. ros2probe n'en perd aucun, affiche un recall de 1,0 sur le reporting de perte, et réduit la consommation CPU de l'observateur jusqu'à 7x, la mémoire jusqu'à 28x. Ce résultat est significatif pour quiconque développe ou intègre des systèmes robotiques en production. L'effet sonde (probe effect) décrit ici n'est pas un artefact de mauvaise implémentation : il est inhérent au protocole DDS. Cela signifie que tout log de performance ou diagnostic collecté avec les outils standard (ros2 topic echo, rqt, rosbag2) modifie silencieusement le comportement du système mesuré, avec des pertes de messages qui peuvent atteindre plus d'un tiers en charge élevée. Sur les robots embarqués à ressources contraintes, Jetson ou Raspberry Pi, les outils existants peuvent tout simplement saturer le système. ros2probe démontre qu'une observabilité fidèle est techniquement possible sans ce compromis. ROS 2 a supplanté ROS 1 précisément pour son architecture distribuée et sa robustesse industrielle, mais cette architecture DDS a hérité d'une limitation structurelle pour le debug et le monitoring. L'approche de ros2probe s'appuie sur la capture passive au niveau noyau, proche des techniques eBPF utilisées dans l'observabilité Linux moderne, appliquée ici à la sémantique ROS 2. Aucun déploiement commercial ni partenariat industriel n'est mentionné dans l'article, qui reste une publication académique. Les prochaines étapes naturelles seraient une intégration dans les toolchains ROS 2 existants et une validation sur des robots de production, notamment dans des environnements multi-robots où l'inflation du graphe de découverte est encore plus critique.

UELes équipes robotiques européennes développant sur ROS 2, notamment sur plateformes embarquées contraintes comme Jetson ou Raspberry Pi, bénéficieraient d'un outil de monitoring fiable sans dégradation des performances, un gain concret pour la R&D robotique française et européenne.

InfrastructureActu
1 source
Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes
329arXiv cs.RO 

Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes

Des chercheurs ont publié Co-GLANCE (arXiv:2606.09919), un système embarqué de perception active et de prise de décision pour équipes robotiques hétérogènes opérant en extérieur non structuré. Le problème central adressé est l'incertitude perceptuelle liée aux occlusions : selon la position d'un robot, certaines zones de la scène restent invisibles ou ambiguës, et aucun agent isolé ne dispose d'un point de vue suffisant pour une compréhension fiable. Co-GLANCE distille les capacités de raisonnement sémantique d'un vision-language model (VLM) dans un modèle embarqué end-to-end qui réalise simultanément la segmentation des occlusions et l'allocation des robots les plus adaptés pour résoudre ces zones d'incertitude. Pour quantifier cette incertitude de façon statistiquement garantie, le système combine la prédiction conforme (conformal prediction) et l'abstention sélective sur les sorties de segmentation, d'allocation et de détection. Comparé aux baselines VLM cloud, Co-GLANCE améliore la précision de segmentation des occlusions de 25% et l'allocation robotique de 36%, tout en réduisant la latence d'inférence par image d'un facteur 350. Un dataset air-sol est également publié en open source. Ce résultat est significatif pour les intégrateurs et les décideurs industriels déployant des flottes multi-robots sur des chantiers, des sites miniers ou des opérations de surveillance. L'élimination de la dépendance au cloud pour l'inférence VLM lève un verrou majeur : latence, connectivité intermittente et coûts d'API. Le gain de 350x en latence n'est pas un chiffre de laboratoire anecdotique, il rend la perception active temps-réel praticable sur du matériel embarqué contraint. La combinaison conformal prediction + abstention sélective apporte des garanties de couverture statistique, ce qui est rare dans les systèmes robotiques terrain : les incertitudes sont exploitables (elles déclenchent des actions), pas seulement affichées. Les travaux sur la coordination multi-robots hétérogènes air-sol s'inscrivent dans un champ actif depuis plusieurs années, avec des groupes comme MIT CSAIL, Stanford, ETH Zurich et CMU comme références principales. La tendance forte est le passage des VLM cloud-only vers des modèles distillés edge-capable, que l'on retrouve aussi dans des travaux comme OpenVLA ou octo. Co-GLANCE se positionne spécifiquement sur l'allocation robotique sous incertitude, un angle moins couvert que la simple navigation ou manipulation. Les prochaines étapes probables incluent des validations sur des flottes plus larges et des environnements dégradés (nuit, pluie), ainsi que l'intégration dans des stacks ROS2 existants. Le code et le dataset sont disponibles sur co-glance.github.io.

RecherchePaper
1 source
Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA
330arXiv cs.RO 

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

Une équipe de chercheurs a publié en juin 2026 sur arXiv (arXiv:2606.10366) une étude systématique visant à quantifier et améliorer la corrélation entre évaluation en simulation et déploiement réel pour les politiques de type VLA (Vision-Language-Action). Ces politiques, qui combinent perception visuelle, compréhension du langage naturel et génération d'actions motrices, sont au coeur des robots généralistes actuels. L'étude couvre plusieurs plateformes de simulation, plusieurs politiques VLA, plusieurs familles de tâches manipulatoires, et plusieurs facteurs de perturbation contrôlés. Les métriques retenues sont la cohérence du classement des politiques entre simulation et réel, la corrélation de performance absolue, et les patterns d'échec induits par perturbation. Les auteurs examinent également à quel moment le fine-tuning d'une politique sur données simulées améliore réellement les performances en monde réel, et comment le volume de données post-entraînement influence cet alignement. Ce travail s'attaque à un verrou identifié de longue date dans la robotique apprise : les benchmarks en simulation, malgré des progrès significatifs en réalisme et diversité ces deux dernières années, ne sont pas encore adoptés comme proxies fiables pour l'évaluation hors-lab. En pratique, cela signifie que les équipes d'intégration et les labs reproduisent des évaluations coûteuses en monde réel à chaque itération de politique, faute de pouvoir faire confiance aux scores simulés. L'étude identifie quels signaux simulés restent alignés avec le déploiement réel et lesquels divergent, donnant aux praticiens une grille de lecture concrète pour calibrer leur utilisation de la simulation dans le pipeline de développement. Le problème du sim-to-real gap accompagne la robotique apprise depuis les travaux fondateurs sur le domain randomization (OpenAI, 2017-2019), mais il devient critique à mesure que les VLA cherchent à passer à l'échelle industrielle. Des acteurs comme Physical Intelligence (Pi-0), Google DeepMind (RT-X, GR00T N2 côté Nvidia), ou encore Figure AI avec Figure 03 s'appuient tous sur des pipelines simulation-réel pour accélérer l'entraînement. En proposant un cadre unifié pour mesurer, interpréter et améliorer l'utilité de la simulation pour les VLA, ce papier vise à fournir une référence méthodologique commune, à la fois pour les concepteurs de simulateurs et pour les praticiens. Les prochaines étapes logiques incluent l'intégration de ces recommandations dans des benchmarks publics existants tels que RoboVerse ou LIBERO.

UEImpact indirect : ce cadre méthodologique pourrait réduire les coûts d'évaluation réelle répétée pour les équipes R&D européennes travaillant sur des politiques VLA.

RechercheOpinion
1 source
Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation
331arXiv cs.RO 

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

Une équipe de recherche présente Efficient-WAM, un World-Action Model (WAM) d'un milliard de paramètres conçu pour la manipulation robotique en temps réel, dont les résultats sont publiés sur arXiv (2606.10040) en juin 2026. Les WAMs constituent une classe de modèles qui couplent la prédiction visuelle du futur avec la génération d'actions motrices : le robot "imagine" ce que va ressembler la scène dans quelques instants avant de décider quoi faire. Efficient-WAM ramène la latence d'inférence à environ 100 ms par chunk lors du déploiement physique, soit un gain de 30x par rapport aux WAMs existants. Pour y parvenir, trois leviers techniques sont combinés : un expert vidéo compact distillé depuis WAN-2.2-5B (modèle de génération vidéo à 5 milliards de paramètres), des représentations vidéo token-sparse, et un débruitage asymétrique qui alloue moins d'étapes d'échantillonnage à la branche vidéo qu'à la branche action. Les évaluations portent sur le benchmark RoboTwin 2.0 et des tâches de manipulation en conditions réelles. Le résultat central est contre-intuitif : Efficient-WAM maintient des performances d'action compétitives même si ses prédictions visuelles sont visiblement grossières, ce qui invalide l'hypothèse implicite que la fidélité photorealiste de l'imagination future est nécessaire au contrôle. Pour un intégrateur ou un responsable robotique, cela signifie que le goulot d'étranglement computationnel des WAMs n'est pas une fatalité architecturale mais un problème de design résolu ici par une re-priorisation : la vidéo future n'est plus un objectif visuel mais un signal de guidage compact pour la génération d'actions. À 100 ms par chunk, le modèle entre dans la fenêtre de faisabilité pour des boucles de contrôle sur manipulateurs industriels ou cobots, là où les WAMs précédents restaient confinés à la démonstration labo. Les WAMs s'inscrivent dans une compétition dense avec les Vision-Language-Action models (VLAs) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, qui traitent directement la génération d'actions sans passer par la prédiction vidéo explicite. L'argument des WAMs est que l'imagination du futur améliore la robustesse en dehors de la distribution d'entraînement, mais leur coût computationnel a jusqu'ici limité leur adoption. Efficient-WAM rééquilibre ce trade-off. La distillation depuis WAN-2.2-5B, un modèle de génération vidéo généraliste, suggère une stratégie de transfer learning inter-domaine qui pourrait s'étendre à d'autres architectures. Les prochaines étapes naturelles sont l'évaluation sur des plateformes humanoïdes complètes et des déploiements en environnements semi-structurés, deux dimensions absentes de ce papier.

IA physiqueActu
1 source
FiberTune : préserver les résidus visuels des fibres d'action dans le fine-tuning des modèles VLA
332arXiv cs.RO 

FiberTune : préserver les résidus visuels des fibres d'action dans le fine-tuning des modèles VLA

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.08653) une méthode de fine-tuning baptisée FiberTune, visant à corriger un défaut structurel des politiques VLA (vision-language-action) lors de leur adaptation supervisée. Le constat de départ est précis : lorsqu'on fine-tune un modèle VLA sur des démonstrations d'actions, l'optimisation ne contraint que les directions de l'espace de features qui influencent directement les actions prédites. Les directions visuelles orthogonales à ces actions, dites "fibres d'action locales", restent libres de se dégrader silencieusement, phénomène formalisé ici comme "effondrement des résidus visuels". FiberTune y répond avec une approche en trois temps : une sonde d'action en ligne estime les directions features prédictives d'action, ces directions sont filtrées des représentations intermédiaires de tokens visuels, et les résidus ainsi filtrés sont alignés sur un teacher visuel gelé avec régularisation du rang effectif. Testé sur six configurations de simulation couvrant deux benchmarks (CALVIN ABC-to-D pour les tâches longue-horizon, et un second non nommé explicitement) et deux architectures, pi_0.5 de Physical Intelligence et OpenVLA-OFT, FiberTune affiche des gains systématiques, notamment +10,7 points de pourcentage en SR(5) sur CALVIN ABC-to-D. Sur robot physique (bras SO-101, tâche pick-and-place), le taux de succès passe de 72,7 % à 78,1 %. Ces résultats intéressent particulièrement les intégrateurs qui cherchent à adapter des fondations VLA génériques à leurs process sans réentraîner depuis zéro. L'absence d'overhead à l'inférence est un argument concret pour le déploiement embarqué. Plus fondamentalement, FiberTune illustre que le fine-tuning action-supervisé seul peut dégrader la représentation perceptuelle du modèle sur des tâches complexes ou longue-horizon, un point qui contredit l'intuition simple "plus de données de démonstration = meilleure politique". La cohérence des gains sur six settings distincts renforce la crédibilité de l'hypothèse des fibres d'action, même si les améliorations restent modestes et que les conditions expérimentales (sélection des vidéos de démonstration, paramètres de simulation) ne sont pas entièrement détaillées dans le résumé disponible. Le contexte est celui de la course au fine-tuning efficace des VLA grand public : pi0 (Physical Intelligence, plus de 400 millions de dollars levés) et OpenVLA (Stanford/Berkeley) sont les deux architectures de référence testées ici. CALVIN ABC-to-D est devenu le benchmark standard pour évaluer la généralisation séquentielle des politiques manipulatrices. FiberTune s'inscrit dans un spectre de méthodes concurrentes allant de LoRA adaptatif aux approches de distillation comportementale. Il s'agit pour l'instant d'un preprint non peer-reviewed ; aucun déploiement industriel ni partenariat n'est annoncé à ce stade.

RechercheOpinion
1 source
C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences
333arXiv cs.RO 

C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences

Des chercheurs ont publié sur arXiv en juin 2026 (référence 2606.08962) une méthode d'accélération appelée C³ache (Cross Inference Chunk Cache), ciblant les World Action Models (WAM), une classe de modèles robotiques qui génèrent des politiques d'action en modélisant la vidéo plutôt qu'en s'appuyant uniquement sur des démonstrations étiquetées. Contrairement aux politiques VLA (Vision-Language-Action) classiques, les WAM s'entraînent sur de la vidéo non labellisée abondante, ce qui améliore leur généralisation à de nouveaux mouvements et environnements, mais au prix d'un coût d'inférence élevé. Pour exécuter une tâche, un WAM enchaîne plusieurs blocs d'inférence successifs (chunks), chacun nécessitant un processus de débruitage coûteux. Les méthodes existantes réduisent ce coût en mettant en cache les calculs au sein d'un même chunk, mais ignorent une source de redondance plus large : la forte corrélation entre les résidus calculés à un même step de débruitage, d'un chunk au suivant, lorsque le robot exécute un comportement fluide. C³ache exploite cette corrélation en réutilisant ces résidus entre chunks consécutifs, sans aucun réentraînement du modèle. Les expériences sur benchmarks avec un backbone Fast-WAM montrent un gain allant jusqu'à 2,5× sur le temps d'inférence total mesuré en wall-clock, avec une dégradation négligeable du taux de succès aux tâches. Ce résultat a une portée concrète pour les équipes cherchant à déployer des robots autonomes à coût raisonnable. Le principal frein à l'adoption industrielle des WAM n'est pas la qualité des politiques générées, mais leur latence d'inférence : réduire ce coût par 2,5× sans modifier les poids du modèle constitue un levier de déploiement immédiat, sans pipeline de réentraînement ni risque de régression. La méthode valide aussi une hypothèse structurelle utile : les trajectoires robotiques lisses produisent des représentations internes stables d'un pas à l'autre, ce qui ouvre la voie à des stratégies de cache plus agressives au niveau système. Pour les intégrateurs et les équipes MLOps, C³ache se présente comme un composant directement intégrable à tout modèle WAM existant. Les WAM s'inscrivent dans une tendance initiée par des modèles comme pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, qui exploitent tous deux un objectif de génération vidéo pour apprendre à partir de données non étiquetées. La course à la réduction des coûts d'inférence pour ces architectures est intense : Google, Physical Intelligence et plusieurs laboratoires académiques explorent en parallèle la distillation, la quantification et le cache intra-chunk. C³ache se positionne comme une solution orthogonale et combinable avec ces approches. Les auteurs soulignent toutefois une limite importante : la corrélation inter-chunks supposée ne tient que pour des comportements robotiques fluides, et des mouvements brusques ou des transitions rapides pourraient dégrader les performances. Il s'agit pour l'instant d'un preprint non relu par les pairs, et les évaluations restent confinées à des benchmarks simulés ; les prochaines étapes naturelles incluent la validation sur robots physiques et l'intégration dans des pipelines embarqués à contraintes de latence strictes.

IA physiqueActu
1 source
Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)
334arXiv cs.RO 

Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié début juin 2026 (arXiv:2606.09749) une méthode de filtrage de sécurité sans entraînement pour les modèles VLA (Vision-Language-Action) en manipulation robotique. La technique repose sur une découverte clé : un petit nombre de têtes d'attention internes au modèle localise de manière fiable l'objet que la politique de contrôle cherche à atteindre. Ces têtes sont exploitées à chaque pas de contrôle pour identifier la cible active, traiter le reste de la scène comme obstacles, et alimenter un filtre CBF (Control Barrier Function) garantissant l'évitement de collisions. Couplée à un tracker léger en temps réel, l'approche gère également les obstacles mobiles. Sur le benchmark SafeLIBERO étendu aux scénarios dynamiques, la méthode surpasse de 43 % en moyenne une baseline oracle disposant de l'état complet du simulateur. L'enjeu est concret pour les intégrateurs de systèmes robotiques déployant des VLA en environnement non contrôlé. Les filtres de sécurité existants interrogent un VLM pour identifier les obstacles, un processus trop lent pour la boucle de contrôle, limité à une initialisation en début d'épisode et incapable de traquer des obstacles en mouvement. L'approche proposée contourne ce goulot en réutilisant les signaux perceptuels déjà présents dans le modèle, sans latence supplémentaire significative. Concrètement, un VLA déjà déployé comme Pi-0, OpenVLA ou RoboFlamingo pourrait être doté d'un filtre de sécurité dynamique sans re-fine-tuning ni surcoût matériel, réduisant le demo-to-reality gap sur les lignes de production avec opérateurs humains à proximité. Ce travail s'inscrit dans la dynamique des VLA depuis 2023, portée par RT-2 (Google DeepMind), OpenVLA, Pi-0 (Physical Intelligence) et d'autres architectures fondées sur des modèles de langage. La sécurité et la garantie de comportement sont restées en retrait face à la course aux performances end-to-end, mais deviennent critiques pour les déploiements industriels réels, notamment en Europe où la réglementation sur les systèmes autonomes se renforce. La méthode CBF est mathématiquement établie en théorie du contrôle ; son intégration sans entraînement dans des pipelines VLA existants constitue un résultat notable. Limite à signaler : les évaluations restent pour l'instant en environnement simulé, et l'extension à des scènes avec occlusions partielles ou robots multiples reste à démontrer.

UELa méthode pourrait accélérer la certification de VLA en environnements industriels européens soumis à la réglementation sur les systèmes autonomes (AI Act), en fournissant un mécanisme de sécurité formellement vérifiable sans surcoût matériel.

IA physiqueOpinion
1 source
Commande prédictive avec impédance pour l'interaction physique humain-robot : rejet prédictif des perturbations et sécurité des limites articulaires
335arXiv cs.RO 

Commande prédictive avec impédance pour l'interaction physique humain-robot : rejet prédictif des perturbations et sécurité des limites articulaires

Des chercheurs présentent dans un preprint arXiv (2606.08281, soumis en juin 2026) une architecture de contrôle en deux couches baptisée Impedance MPC, conçue pour les robots collaboratifs soumis à des contacts humains non planifiés. Le cœur du système repose sur une première couche qui annule analytiquement la gravité, les forces de Coriolis et l'inertie en espace de tâche, réduisant la dynamique résiduelle à un double intégrateur à matrice de transition constante. Une seconde couche résout un problème d'optimisation quadratique convexe à 30 variables à 100 Hz, en exploitant cette structure constante pour précalculer la matrice de réponse libre une seule fois. Un filtre de Kalman augmenté estime l'état de perturbation persistante, garantissant formellement une erreur statique nulle. Les tests ont été conduits sur un Franka FR3 à 7 degrés de liberté : sous une force soutenue de 15 N, l'erreur statique descend à moins de 0,05 mm, contre 44,8 mm pour un contrôle d'impédance classique, soit une réduction supérieure à 800. Le suivi de quatre trajectoires circulaires 3D reste sous le millimètre. Ce résultat touche un problème structurel bien connu des intégrateurs de cobots : le contrôle d'impédance classique accumule une erreur de position proportionnelle à la force appliquée divisée par la raideur de tâche, et les correcteurs intégraux capables de la résorber déstabilisent facilement le système au-delà d'un budget de gain étroit. L'Impedance MPC contourne cette contrainte en incorporant la prédiction de perturbation directement dans la loi de commande, sans sacrifier la compliance ni la sécurité aux butées articulaires, assurée par un potentiel de barrière inverse dans l'espace nul. Pour un COO ou un intégrateur industriel, cela signifie un cobot capable de tenir sa trajectoire même sous charge humaine prolongée, sans recours à des gains agressifs risquant l'instabilité. L'impédance mécanique comme paradigme de contrôle pour la collaboration homme-robot remonte aux travaux de Neville Hogan dans les années 1980 ; son couplage avec le MPC est une direction active depuis une décennie, notamment pour les manipulateurs série. Le Franka FR3, successeur du Panda, est devenu la plateforme de référence pour les publications en contrôle cobot grâce à son interface de couple en temps réel à 1 kHz. Sur ce segment, les concurrents incluent Universal Robots (UR10e), KUKA LBR iisy, et ABB YuMi, tous confrontés au même compromis compliance-précision. L'approche proposée reste pour l'instant au stade preprint sans déploiement industriel annoncé ; les prochaines étapes naturelles sont la validation sur tâches d'assemblage réelles et le passage à des robots à dynamique plus complexe (bases mobiles, humanoïdes légers).

UELes résultats pourraient bénéficier aux intégrateurs cobots européens (KUKA, ABB) confrontés au compromis compliance-précision, en ouvrant la voie à des robots collaboratifs plus précis sous charge humaine prolongée sans sacrifier la sécurité articulaire.

RecherchePaper
1 source
ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives
336arXiv cs.RO 

ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives

Des chercheurs ont publié ActProbe (arXiv:2606.08508), un détecteur de défaillances léger pour les politiques robotiques génératives, ces systèmes qui produisent des séquences d'actions continues comme les politiques de diffusion ou les architectures ACT déployées sur des robots tels que Figure 03 ou entraînés avec pi-0. Plutôt que d'accéder aux états internes du modèle ou d'introduire un rééchantillonnage coûteux à l'exécution, ActProbe opère exclusivement sur les chunks d'actions émis lors d'un seul passage avant (forward pass). Deux signaux suffisent : l'erreur de cohérence temporelle (TCE), qui mesure l'incohérence entre deux chunks consécutifs, et l'amplitude du chunk courant (ACM). Ces métriques alimentent une architecture LSTM-MLP légère conditionnée par la tâche, produisant une probabilité de défaillance par étape. Sur un ensemble diversifié de benchmarks, ActProbe améliore le front de Pareto précision (F1)/précocité d'un gain en hypervolume de +12,7 % par rapport aux méthodes existantes, et affiche un avantage de +9,0 % en ROC-AUC sur des tâches non vues à l'entraînement. L'intérêt opérationnel tient à une contrainte réelle : les politiques commerciales comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ne donnent pas accès à leurs états internes. Un détecteur purement black-box est donc la seule option viable en déploiement industriel. ActProbe émet ses alertes avant que la défaillance ne soit visuellement reconnaissable, ce qui est critique pour interrompre une action irréversible avant qu'elle ne soit engagée. Côté fine-tuning par renforcement (PPO), le système réduit de 2,9 fois le nombre d'interactions nécessaires avec l'environnement, un gain direct lorsque chaque interaction implique un robot physique. Le transfert sur des tâches de saisie réelles non vues lors de l'entraînement valide la généralisation hors simulateur. ActProbe s'inscrit dans les travaux ciblant le fossé entre démonstration en laboratoire et déploiement à l'échelle, l'obstacle central à la commercialisation des robots généralistes depuis 2023. Les approches concurrentes, qu'elles reposent sur le monitoring d'incertitude interne ou sur des signaux côté observation, souffrent d'un manque d'accès aux internals ou d'une latence incompatible avec le temps réel. La prochaine étape logique serait l'intégration dans des boucles de contrôle réactives pour robots humanoïdes industriels, terrain où Figure AI, Apptronik et Agility Robotics accélèrent leurs déploiements en entrepôt en 2026. ActProbe reste à ce stade une publication académique préliminaire, sans produit ni partenariat industriel annoncé.

RechercheOpinion
1 source
Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA
337arXiv cs.RO 

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA

Une équipe de chercheurs propose RL-Co (RL-based sim-real Co-training), un framework d'entraînement combinant simulation et données réelles via l'apprentissage par renforcement pour les modèles VLA (Vision-Language-Action). Publié sur arXiv (ref. 2602.12628, version 4), le travail s'articule en deux étapes : une phase de préchauffage par fine-tuning supervisé (SFT) sur un mélange de démonstrations réelles et simulées, suivie d'un fine-tuning par RL en simulation avec une perte supervisée auxiliaire sur données réelles pour ancrer la politique et prévenir l'oubli catastrophique. Évalué sur quatre tâches de manipulation sur table en conditions réelles, RL-Co affiche une progression de +24% du taux de succès sur l'architecture OpenVLA et de +20% sur π0.5, développé par Physical Intelligence, par rapport à un entraînement supervisé classique sur données réelles uniquement. L'intérêt de cette approche dépasse les chiffres de performance bruts. La quasi-totalité des méthodes actuelles de co-entraînement sim-réel traite la simulation comme une source statique de démonstrations, sans exploiter les interactions en boucle fermée que ces environnements rendent possibles à grande échelle. RL-Co brise cette limite en tirant parti de l'exploration dynamique en simulation, ce qui se traduit par une meilleure généralisation aux variations de tâches non vues à l'entraînement et une efficacité accrue sur les données réelles, réduisant concrètement le besoin en démonstrations coûteuses sur robot physique. Pour les intégrateurs et les équipes R&D, c'est une voie d'entraînement plus économique sans compromis sur les performances terrain. Le défi du transfert simulation-réel reste l'un des obstacles structurants au déploiement de robots généralistes. Les modèles VLA ont connu une accélération notable depuis 2024, portée par OpenVLA (Stanford/UC Berkeley, open-source), la série π0/π0.5 de Physical Intelligence, fondée par d'anciens chercheurs de Google DeepMind et Stanford, et les travaux de Google DeepMind autour de RT-2 et ses successeurs. RL-Co s'inscrit dans une tendance de fond visant à remplacer la supervision pure par des boucles d'interaction actives dans des simulateurs de plus en plus fidèles. La prochaine étape naturelle sera l'extension à des tâches plus complexes et à des environnements moins structurés que la table de laboratoire, condition nécessaire pour valider l'approche à l'échelle industrielle.

💬 La vraie limite du sim-réel jusqu'ici, c'est qu'on traitait la simulation comme une banque de démonstrations statiques. RL-Co casse ça : le modèle explore en boucle fermée dans le simulateur, et ça se voit avec +24% sur OpenVLA et +20% sur π0.5 en conditions réelles. La table de labo c'est pas une chaîne de prod, mais c'est clairement la bonne direction pour réduire le besoin en données robotiques coûteuses.

IA physiqueOpinion
1 source
IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique
338arXiv cs.RO 

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Une équipe de chercheurs publie sur arXiv (identifiant 2606.05660, juin 2026) une revue systématique de la sécurité dans les systèmes d'IA incarnée (embodied AI) appliqués à la manipulation robotique à long horizon. Ce survey structure la littérature selon trois niveaux d'intervention : la sécurité au stade de la planification (planning-time), au niveau de la politique de contrôle (policy-time) et pendant l'exécution (execution-time). Les auteurs identifient quatre vecteurs de risque pouvant s'accumuler dans un même système en boucle fermée : le misgrounding sémantique (l'agent interprète mal l'instruction de haut niveau), la propagation d'erreur entre sous-tâches, la dérive d'exécution (execution drift) et les risques physiques liés aux contacts. Ils distinguent par ailleurs trois catégories de garanties dans la littérature existante : formelles, statistiques et heuristiques empiriques, et concluent que les preuves formelles font défaut à chaque couche. L'enjeu est direct pour les intégrateurs et les décideurs industriels. Un bras robotique déployé en entrepôt ou en ligne de production enchaîne des dizaines d'actions sur des horizons temporels étendus, et chaque sous-tâche peut propager silencieusement une erreur vers les suivantes. Or le survey révèle que la sécurité au niveau de la politique de contrôle, au coeur même des modèles VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est la couche la moins documentée empiriquement. Les mécanismes d'intervention déclenchés par l'incertitude (uncertainty-triggered intervention) restent immatures, et les benchmarks spécifiques à la sécurité en manipulation longue durée sont quasi-inexistants, ce qui rend toute validation rigoureuse avant déploiement aujourd'hui difficile. Ce travail paraît dans un contexte d'accélération industrielle : Figure AI, Boston Dynamics, Unitree et Physical Intelligence multiplient les démonstrations de manipulation dextère, souvent en conditions semi-contrôlées, alimentant un écart potentiel entre annonces marketing et réalité opérationnelle. Il convient de souligner que ce papier est une analyse critique de l'existant, pas un nouveau système ou algorithme. Ses recommandations prioritaires portent sur trois axes : des assurances cross-couche cohérentes de la planification jusqu'à l'exécution physique, des benchmarks dédiés à la sécurité en manipulation longue durée, et des protocoles de déploiement progressifs pour les agents robotiques en environnements réels. En creux, le constat est que les capacités du secteur progressent plus vite que les outils pour en évaluer la sécurité.

UEL'absence de benchmarks formels de sécurité pour la manipulation longue durée concerne directement les industriels européens déployant des bras robotisés, et pourrait alimenter les exigences de validation dans le cadre de l'AI Act pour les systèmes robotiques à haut risque.

RecherchePaper
1 source
OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples
339arXiv cs.RO 

OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples

Des chercheurs ont publié OSCAR (Omni-Embodiment Skeleton-Conditioned World Action Model), un modèle de monde vidéo conditionné par les actions, capable de généraliser à travers différentes morphologies de robots. Décrit dans un preprint arXiv (2606.04463), le système s'appuie sur deux éléments centraux : un pipeline de données à grande échelle qui agrège, filtre et déduplique des jeux de données robotiques et des séquences vidéo égocentrées humaines pour couvrir des tâches, scénarios et morphologies variés ; et un conditionnement par rendu de squelette cinématique 2D, représentation unifiée fonctionnant aussi bien pour des bras robotiques de morphologies différentes que pour des mains humaines. Le modèle de base Cosmos-Predict2.5-2B de NVIDIA a été fine-tuné sur un seul GPU GH200. OSCAR a ensuite été déployé pour évaluer des politiques de contrôle issues de RoboArena, plateforme de benchmark communautaire, et démontre une corrélation significative entre évaluations virtuelles et tests en conditions réelles. L'enjeu central est le sim-to-real gap dans l'évaluation des policies : les environnements de simulation classiques reproduisent mal la physique réelle, rendant les benchmarks peu prédictifs du comportement sur robot physique. OSCAR propose une alternative directe, générer des vidéos conditionnées par les trajectoires d'actions pour simuler l'exécution d'une politique sans déploiement matériel. Si la corrélation annoncée se confirme à plus grande échelle, cela réduirait significativement les coûts et les cycles d'itération pour les équipes développant des VLA (Vision-Language-Action models). La représentation par squelette 2D est également notable : en évitant une spécialisation par embodiment, elle adresse un blocage récurrent de la généralisation multi-robot. Le fine-tuning sur GPU unique, contre des baselines nécessitant des modèles plus grands ou davantage de ressources de calcul, améliore l'accessibilité de l'approche. Les video world models appliqués à la robotique constituent un domaine en forte compétition : UniSim, RoboDreamer et le World Model de 1X Technologies ont chacun tenté d'adresser la simulation vidéo pour l'entraînement ou l'évaluation de robots, avec des résultats limités en diversité de scénarios ou en généralisation inter-embodiment. Le recours au modèle Cosmos de NVIDIA comme base pré-entraînée positionne OSCAR dans l'écosystème robotique croissant de NVIDIA, qui comprend Isaac Lab et GR00T. Les auteurs ouvrent explicitement la perspective d'une évaluation purement virtuelle des politiques robots, une proposition qui intéresse directement les intégrateurs cherchant à réduire les cycles de test hardware. Les étapes naturelles seraient la validation sur des morphologies plus variées, des tâches de manipulation complexes, et un passage à l'échelle vers des configurations multi-GPU.

RechercheOpinion
1 source
Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés
340arXiv cs.RO 

Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés

Un preprint arXiv (identifiant 2606.04046, publié début juin 2026) présente SceneDiver, une méthode visant à réduire les hallucinations visuelles dans les modèles de vision-langage (VLM) et les modèles vision-langage-action (VLA) appliqués à la manipulation robotique et à la navigation incarnée. Le problème central : ces modèles peinent à distinguer les objets pertinents pour la tâche des distracteurs environnants, ce qui dégrade leurs décisions dans des scènes encombrées. SceneDiver adopte une approche grossière-à-fine en deux temps : construction d'abord d'un graphe de scène global pour saisir l'environnement dans sa totalité, puis décomposition itérative de la tâche en sous-problèmes via un cycle reconnaissance-compréhension-analyse. Pour les VLA, qui opèrent en contrôle réactif à faible latence, un adaptateur léger (lightweight adapter) distille cette capacité de focalisation sans pénaliser les temps d'inférence. Les auteurs rapportent une réduction substantielle des hallucinations sur les benchmarks standards d'IA incarnée, et publient le code en open source. Ce travail pointe un blocage fondamental pour le déploiement industriel des VLA : même des modèles performants en planification ou en contrôle moteur échouent face à des scènes encombrées parce qu'ils focalisent sur les mauvais objets. La solution naïve, pointer directement sur l'objet critique en une seule étape, s'avère insuffisante selon les auteurs, car identifier quoi regarder requiert d'abord une compréhension globale de la scène. Pour les intégrateurs, l'adaptateur léger proposé offre une voie d'amélioration de la robustesse sans nécessiter de ré-entraîner le modèle de base, ce qui constitue un argument pratique non négligeable. Ce goulot d'étranglement perceptuel est un sujet de recherche actif depuis que des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) ont commencé à être déployés hors laboratoire. Ces modèles restent fragiles face à la variabilité des environnements réels, ce que le secteur désigne comme le "demo-to-reality gap". SceneDiver demeure une contribution académique préliminaire, non encore évaluée par les pairs, et l'absence de détails précis sur les benchmarks utilisés dans le résumé rend la comparaison directe difficile avec d'autres approches comme OpenVLA ou SpatialVLM. La mise à disposition du code en open source est toutefois un signal positif pour la reproductibilité ; une validation sur matériel réel et une intégration dans des stacks comme LeRobot de Hugging Face constitueraient les prochaines étapes naturelles.

UEL'intégration potentielle dans LeRobot (HuggingFace, France) représente un bénéfice indirect pour l'écosystème open-source robotique européen.

RechercheOpinion
1 source
VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)
341arXiv cs.RO 

VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié VLA-Arena, un framework open-source de benchmark conçu pour évaluer les modèles Vision-Language-Action (VLA), ces politiques robotiques généralisées capables d'interpréter commandes en langage naturel et observations visuelles pour générer des actions motrices. La version 2 du preprint (arXiv 2512.22539v2) présente un protocole structuré autour de 170 tâches, organisées selon quatre dimensions orthogonales : sécurité (Safety), gestion des distracteurs (Distractor), extrapolation hors-distribution (Extrapolation) et planification longue portée (Long Horizon). Chaque tâche existe en trois niveaux de difficulté (L0 à L2), le fine-tuning étant exclusivement réalisé sur L0 afin de tester la capacité de généralisation. En parallèle, des perturbations linguistiques (W0-W4) et visuelles (V0-V4) s'appliquent indépendamment à chaque tâche, permettant une analyse découplée de la robustesse. Les auteurs publient également les datasets VLA-Arena-S/M/L ainsi qu'un leaderboard public. Les résultats de l'évaluation des VLA de l'état de l'art sont sévères et contre-intuitifs pour ceux qui suivent les démonstrations marketing du secteur. Les modèles testés exhibent une forte tendance à la mémorisation plutôt qu'à la généralisation réelle : leurs performances s'effondrent dès que la tâche sort légèrement de la distribution d'entraînement. La robustesse est asymétrique selon l'axe perturbé (visuel vs. linguistique), les contraintes de sécurité sont quasi-ignorées, et la composition de compétences pour les tâches longue portée reste hors de portée de tous les modèles testés. Pour les intégrateurs industriels et les équipes R&D qui envisagent de déployer des VLA en production, ces résultats constituent un signal d'alerte : le "sim-to-real gap" n'est pas résolu, et les capacités affichées en démo ne tiennent pas face à des conditions réelles variables. VLA-Arena arrive dans un contexte de prolifération rapide des VLA généralistes : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Google DeepMind (RT-2, Gemini Robotics) et OpenVLA font tous état de progrès importants, mais sur des benchmarks hétérogènes et souvent propriétaires, rendant toute comparaison directe impossible. L'absence d'un protocole d'évaluation standardisé est depuis longtemps identifiée comme le principal obstacle à la progression scientifique rigoureuse du domaine. VLA-Arena n'est pas encore un standard industriel adopté, mais sa publication en open-source avec toolchain complet (définition de tâche, évaluation automatisée, datasets) le positionne comme candidat sérieux. Les prochaines étapes dépendront de l'adoption par les équipes qui développent ces modèles, et d'une éventuelle intégration dans les pipelines de validation avant déploiement réel en atelier.

RechercheOpinion
1 source
NVIDIA Isaac Sim : une simulation GPU accélérée et évolutive pour la robotique
342arXiv cs.RO 

NVIDIA Isaac Sim : une simulation GPU accélérée et évolutive pour la robotique

NVIDIA Isaac Sim s'est imposé comme une infrastructure centrale dans la recherche en robotique, et une étude de synthèse publiée sur arXiv (réf. 2606.03551) en propose la première analyse systématique. Contrairement aux simulateurs classiques comme Gazebo, PyBullet ou MuJoCo, Isaac Sim exploite l'accélération GPU pour permettre un entraînement parallèle à grande échelle et une modélisation physique haute fidélité. La plateforme intègre un pipeline de génération de données synthétiques qui pallie la rareté chronique des données d'entraînement de qualité, un verrou majeur pour le robot learning. Les auteurs analysent des études représentatives dans cinq grands domaines d'application et documentent les patterns d'usage dominants, notamment la génération de données et la simulation haute fidélité, sans se limiter à une liste de fonctionnalités marketing. L'enjeu industriel est significatif : la capacité à générer des données synthétiques crédibles et à entraîner des politiques en simulation massivement parallèle est aujourd'hui au coeur du débat sur le sim-to-real transfer. Pour les intégrateurs et les équipes R&D, une plateforme qui réduit le besoin de données réelles et compresse les cycles d'itération représente un avantage compétitif concret. Les auteurs pointent également les limites : la dépendance au matériel NVIDIA (GPU haut de gamme requis), des contraintes d'utilisabilité pratique, et des questions ouvertes autour de l'apprentissage en environnement ouvert (open-world learning), un domaine où aucun simulateur n'a encore apporté de réponse satisfaisante à l'échelle. Isaac Sim s'inscrit dans la stratégie plus large de NVIDIA dans la robotique, qui comprend le framework Isaac Lab, les modèles de fondation GR00T, et l'écosystème Omniverse. Face à lui, des alternatives open-source comme MuJoCo (DeepMind) ou Genesis gagnent du terrain, notamment pour leur accessibilité. L'étude identifie trois directions futures prioritaires : l'apprentissage physique en monde ouvert, les pipelines d'entraînement centrés sur la simulation, et la réduction des frictions d'adoption. Ces axes correspondent précisément aux blocages actuels pour industrialiser le déploiement de robots apprenants en dehors des labs.

UELes équipes R&D et laboratoires européens en robotique peuvent s'appuyer sur cette première analyse systématique pour arbitrer entre Isaac Sim et les alternatives open-source (MuJoCo, Genesis), notamment au regard de la dépendance au matériel NVIDIA haut de gamme.

InfrastructureOpinion
1 source
De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles
343arXiv cs.RO 

De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles

Un article de synthèse publié sur arXiv (réf. 2604.04974, version 2) dresse un état de l'art structuré des méthodes permettant d'exploiter des vidéos temporelles non annotées en actions pour apprendre des interfaces de contrôle en manipulation robotique. Les auteurs ne s'appuient sur aucun label d'action : la vidéo seule, en captant comment les objets se déplacent, comment les contacts se déroulent et comment les scènes évoluent, constitue la source d'apprentissage. Le survey introduit une taxonomie centrée sur l'interface, organisée selon trois familles : les politiques vidéo-action directes, qui maintiennent l'interface implicite dans le réseau neuronal ; les méthodes à actions latentes, qui acheminent la structure temporelle via un espace intermédiaire compact appris ; et les interfaces visuelles explicites, qui prédisent des cibles interprétables (poses, waypoints, affordances) pour un contrôle aval découplé. Ce cadre de classification comble un vide méthodologique réel : la littérature traitait jusqu'ici ces trois familles de façon dispersée, sans analyser comment chacune ferme la boucle de contrôle, ce qui peut être vérifié avant exécution, et à quel stade les défaillances apparaissent. Pour les intégrateurs et les équipes R&D, cet angle est directement opérationnel : une interface latente est plus difficile à inspecter qu'une interface explicite à base de keypoints, ce qui modifie les stratégies de débogage et de déploiement. La synthèse inter-familles pointe un défi commun : la couche d'intégration robotique, les mécanismes qui relient les prédictions issues de la vidéo à un comportement robot fiable, reste le maillon faible indépendamment de la famille choisie. Ce survey s'inscrit dans une dynamique portée par les modèles VLA (Video-Language-Action) : RT-2 de Google DeepMind, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI exploitent tous, à des degrés divers, des données vidéo à grande échelle pour conditionner le contrôle moteur. Le fossé identifié dans le papier, entre prédiction vidéo et comportement physique fiable, correspond précisément au "sim-to-real gap" de cette nouvelle génération de modèles : une démonstration convaincante en vidéo ne garantit pas la robustesse en déploiement réel. Les auteurs proposent des pistes de recherche pour combler ce décalage, sans livrer de pipeline opérationnel, ce qui positionne ce travail comme une ressource de cartographie pour orienter la communauté plutôt que comme une solution clé en main.

RechercheOpinion
1 source
Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques
344arXiv cs.RO 

Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques

Des chercheurs ont publié le 2 juin 2026 sur arXiv (référence 2606.02274) un article décrivant Dexterity-BEV, un cadre méthodologique visant à corriger deux limitations structurelles des politiques de manipulation robotique basées sur des modèles de vision-langage (VLM) pré-entraînés à grande échelle. La première limitation : ces modèles héritent d'une représentation purement 2D de la vision par ordinateur, inadaptée à la nature intrinsèquement tridimensionnelle de la manipulation. La seconde : il n'existe pas d'alignement spatial cohérent entre les espaces d'entrée et de sortie des politiques, ni entre différents robots, configurations de caméras et jeux de données de trajectoires. Pour y remédier, les auteurs introduisent deux représentations inédites : l'aligned vertex map et le vertex spectrum, des cartes pixel-à-pixel qui élèvent les entrées RGB en coordonnées 3D via la calibration de caméra et la profondeur optionnelle. Ils proposent ensuite un cadre canonique Bird's-Eye-View (BEV), une vue du dessus invariante aux variations de pose de caméra, dans lequel les informations 3D de chaque vue et les actions du robot sont exprimées dans un repère commun. Un pipeline de traitement de données à grande échelle et un schéma d'alignement temporel pour des trajectoires provenant de robots hétérogènes, d'opérateurs humains et de datasets variés complètent l'approche. L'enjeu industriel est direct : les VLA (Vision-Language-Action models) de type π0, OpenVLA ou GR00T N2 souffrent précisément de ce décalage spatio-temporel quand on les déploie sur des robots différents de ceux utilisés à l'entraînement, ou avec des caméras repositionnées. Dexterity-BEV tente de combler ce gap sans abandonner la généralisation offerte par les VLM entraînés sur des données web. La vue BEV, empruntée à l'industrie automobile (perception de véhicules autonomes), est ici réinterprétée pour la manipulation, ce qui constitue un transfert conceptuel non trivial. Si les gains de généralisation annoncés se confirment à l'évaluation réelle, cela réduirait le coût de redéploiement d'une politique sur un nouveau site industriel ou une nouvelle configuration de cellule robotique, une friction majeure pour les intégrateurs. L'article s'inscrit dans une dynamique de recherche intense autour des politiques de manipulation end-to-end, portée par des laboratoires comme Physical Intelligence (π0), Google DeepMind (RT-2, GR00T), et des équipes académiques chinoises et américaines. L'approche BEV pour la robotique terrestre est par ailleurs explorée en parallèle par des groupes travaillant sur les robots mobiles et les AMR d'entrepôt. Les auteurs rendent disponibles le checkpoint pré-entraîné, le code source et le pipeline de données sur leur page projet, ce qui facilite la réplication et l'adoption par la communauté. Aucun partenariat industriel ni déploiement réel n'est mentionné : il s'agit à ce stade d'une contribution de recherche, pas d'un produit commercialisé.

RechercheOpinion
1 source
RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA
345arXiv cs.RO 

RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA

Un article pré-publié sur arXiv (2606.02277, juin 2026) introduit RoboSemanticBench (RSB), un benchmark conçu pour tester si les modèles vision-langage-action (VLA) exploitent réellement la compréhension sémantique dans leurs prédictions de mouvement. Le protocole est délibérément simple : un robot reçoit une question à choix multiples, arithmétique ou de culture générale, observe des blocs physiques correspondant aux réponses candidates, et doit saisir le bloc associé à la bonne réponse. RSB propose deux configurations, à quatre et dix choix, couvrant l'arithmétique contrôlée, la compréhension mathématique de niveau primaire, ainsi que le raisonnement de bon sens et factuel. Les résultats obtenus sur plusieurs modèles VLA représentatifs sont sévères : si la majorité des politiques testées parviennent à saisir des blocs de manière fiable, le taux de sélection du bloc sémantiquement correct se situe, après correction du succès de préhension, à des niveaux proches du hasard, voire inférieurs. Ce résultat remet en question une hypothèse fondatrice de l'architecture VLA : l'idée que la compréhension sémantique acquise lors du pré-entraînement du backbone (modèle de langage ou vision-langage) se transfère naturellement vers la prédiction d'action. Ce que RSB révèle, c'est que le fine-tuning par imitation sur des distributions d'actions spécifiques à une tâche suffit à masquer ce transfert : les modèles apprennent des raccourcis visuels ou des associations instruction-action sans ancrer leurs gestes dans la signification réelle des instructions. Pour les intégrateurs et industriels qui déploient des systèmes VLA dans des environnements à haute variabilité sémantique (picking, tri, assemblage configurable), ce diagnostic a des implications directes : la performance en évaluation standard ne garantit pas une généralisation sémantique robuste en conditions réelles. Les modèles VLA ont connu une montée en puissance rapide depuis RT-2 (Google DeepMind, 2023), avec des successeurs comme OpenVLA, Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), tous reposant sur l'hypothèse que des backbones vision-langage pré-entraînés fournissent une compréhension du monde directement exploitable pour la manipulation robotique. RSB constitue le premier benchmark structuré autour de la dissociation entre compétence sémantique au niveau du backbone et compétence sémantique au niveau de l'action, une distinction que les évaluations classiques par taux de succès en manipulation ne capturent pas. Les auteurs ne proposent pas de correctif immédiat, mais leur protocole ouvre la voie à des méthodes de fine-tuning ou d'évaluation capables de préserver, voire de restaurer, la capacité sémantique dans la chaîne décision-action.

UELes équipes R&D et intégrateurs européens déployant des systèmes VLA en picking, tri ou assemblage configurable doivent réévaluer leurs métriques de validation : RSB démontre que le taux de succès en manipulation ne garantit pas la généralisation sémantique en conditions réelles.

RechercheActu
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
346arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

IA physiqueOpinion
1 source
RoboTrustBench : évaluation de la fiabilité des modèles du monde vidéo pour la manipulation robotique
347arXiv cs.RO 

RoboTrustBench : évaluation de la fiabilité des modèles du monde vidéo pour la manipulation robotique

Une équipe de recherche a publié en juin 2026 RoboTrustBench (arXiv:2606.01600), un benchmark conçu spécifiquement pour évaluer la fiabilité des modèles vidéo du monde (video world models) appliqués à la manipulation robotique. Le jeu d'évaluation repose sur des épisodes réels issus du dataset DROID et comprend 1 207 paires instruction-image validées par des experts. Les modèles sont soumis à quatre scénarios progressivement contraignants : Normal (instructions valides et réalisables), Constraint-Sensitive (contraintes environnementales ou physiques), Counterfactual (états initiaux impossibles ou contradictoires) et Adversarial (instructions non sûres ou malveillantes). Le protocole d'évaluation s'articule autour de six dimensions et 13 critères fins, et mobilise à la fois des annotateurs humains et des MLLM (multimodal large language models) comme juges. Sept modèles vidéo représentatifs ont été évalués dans ce cadre. Les résultats révèlent une dissociation nette entre qualité visuelle et fiabilité opérationnelle : les modèles produisent des vidéos cohérentes en apparence, mais échouent sur le raisonnement sous contrainte, l'ancrage contrefactuel, les interactions physiques plausibles et, fait plus préoccupant, la suppression d'instructions non sûres. Pour les intégrateurs et les équipes robotique qui utilisent ces modèles comme simulateurs de planification ou comme oracles de vérification, cela signifie qu'une métrique de qualité vidéo seule ne peut pas servir de proxy de confiance. La capacité à rejeter une instruction dangereuse ou physiquement impossible est un prérequis de déploiement industriel que les architectures actuelles ne satisfont pas. Les video world models ont pris une place croissante dans la recherche en robotique depuis 2024, avec des travaux comme UniSim, DIAMOND ou Genie, qui les positionnent comme substituts légers de simulateurs physiques pour l'entraînement et la planification. DROID, le dataset sous-jacent de RoboTrustBench, est l'une des collections de trajectoires de manipulation réelles les plus utilisées en recherche académique. L'absence de benchmark centré sur la robustesse adversariale et les cas limites physiques était identifiée comme un angle mort du domaine. RoboTrustBench comble ce manque, mais la publication ne présente pas de modèle amélioré ni de solution : elle caractérise le problème et fournit l'infrastructure d'évaluation pour orienter les prochains travaux de fine-tuning ou d'alignement de ces modèles sur des critères de sûreté.

RecherchePaper
1 source
Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA
348arXiv cs.RO 

Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA

Une équipe de chercheurs a publié début juin 2026 sur arXiv (2606.01095) un cadre diagnostique pour comparer deux grandes familles de politiques robotiques : les Vision-Language-Action (VLA) et les World-Action Models (WAM). La question posée est directe : la prédiction du futur, propre aux WAM, produit-elle des comportements réellement différents, ou n'ajoute-t-elle que du calcul superflu ? Les auteurs ont évalué sept politiques (VLA directes et WAM en configurations jointes, séquentielles et auxiliaires) sur les benchmarks LIBERO et RoboTwin2.0. Le protocole combine une analyse comportementale (cohérence des dynamiques d'action, progression vers l'objet cible, perturbations par distracteurs, coût d'inférence) et une analyse des représentations internes via des autoencodeurs épars, classifiant chaque représentation comme mémorisée, réactive ou prédictive. Les résultats contredisent l'usage courant du taux de réussite comme seul critère de comparaison : cette métrique masque des différences architecturales substantielles. Les WAM améliorent souvent le comportement au niveau objet et la sélectivité vers la cible, mais ces gains varient selon l'architecture et s'accompagnent d'un surcoût d'inférence. Les WAM séquentiels exhibent la structure prédictive la plus nette et la plus exploitable pour le contrôle. Les WAM auxiliaires compriment l'information future, les WAM joints l'enchevêtrent avec d'autres représentations, dans les deux cas, elle devient moins actionnable. Pour un intégrateur ou une équipe R&D, ce résultat est concret : un benchmark de succès seul ne suffit pas pour choisir une architecture, il faut auditer comportement et représentations internes. Les VLA, portées par Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA, ont prouvé leur robustesse croissante en sim-to-real mais restent aveugles aux états futurs de la scène. Les WAM, inspirés des architectures world-model comme Dreamer ou RSSM, visent à combler ce gap en intégrant une prédiction explicite du monde. Ce travail s'inscrit dans un courant académique cherchant à dépasser les métriques de surface : le cadre proposé est agnostique au modèle, applicable à d'autres politiques, et oriente les prochains travaux vers des architectures WAM qui préservent des représentations futures actionnables plutôt que de les noyer dans la capacité globale du réseau.

RechercheOpinion
1 source
Le mensonge euclidien dans les politiques VLA, corrigé par score matching dans l'espace tangent
349arXiv cs.RO 

Le mensonge euclidien dans les politiques VLA, corrigé par score matching dans l'espace tangent

Une prépublication arXiv déposée le 2 juin 2026 (arXiv:2606.01847) identifie une erreur géométrique structurelle dans les politiques robotiques de type Vision-Language-Action (VLA) à base de diffusion, désormais l'approche dominante pour la manipulation dextère. Les auteurs nomment ce défaut l'"Euclidean Fallacy" : ces modèles représentent les poses 3D en coordonnées SE(3) comme de simples vecteurs plats dans R¹², traitant rotations et translations comme s'ils vivaient dans un espace euclidien ordinaire. Cette approximation engendre trois pathologies concrètes : une dérive de variété qui viole les contraintes SO(3) (les matrices de rotation générées ne restent plus orthogonales), une rupture d'équivariance sous changements de repère (le même objet vu depuis un angle différent produit des trajectoires incohérentes), et des trajectoires non géodésiques générant un surcoût cinématique inutile. Pour corriger cela, les chercheurs proposent le Lie Diffuser Actor (LDA), un framework de diffusion qui opère intrinsèquement sur SE(3) : le bruit est injecté via des équations différentielles stochastiques (SDE) invariantes à gauche, les scores sont prédits dans l'espace tangent, et les échantillons sont rétractés sur la variété via la carte exponentielle de Lie. Sur le benchmark CALVIN ABC→D, référence standard pour la généralisation en manipulation multi-tâches, LDA fait progresser la longueur de tâche moyenne de 3,27 à 3,51, soit un gain de 7,3%. Des expériences sur robot réel confirment que la méthode surpasse la ligne de base sur la majorité des tâches testées. L'enjeu dépasse la géométrie abstraite. Les politiques VLA, désormais au coeur des robots manipulateurs commerciaux et des travaux académiques les plus cités, souffrent d'un biais systématique qui s'aggrave dès que la diversité des poses augmente : variation de prise, rotation hors plan, scénarios multi-vue. En forçant le processus de diffusion à rester sur la variété SE(3) par construction plutôt que par régularisation post-hoc, LDA élimine la dérive sans coût d'inférence supplémentaire. L'équivariance garantie signifie concrètement qu'un intégrateur industriel peut monter une caméra dans n'importe quelle orientation sans requalifier le modèle, ce qui réduit un verrou majeur au déploiement en cellule flexible. Le gain de 7,3% sur CALVIN reste modeste en valeur absolue, mais le benchmark est conçu pour mesurer la généralisation hors distribution, ce qui lui confère plus de poids qu'une amélioration sur un jeu de test in-distribution. Ce travail s'inscrit dans la lignée des politiques de diffusion pour la robotique popularisées par Diffusion Policy (Chi et al., 2023) et intégrées ensuite dans pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, deux VLA de référence qui partagent la même représentation euclidienne incriminée. La correction géométrique proposée est orthogonale à l'architecture backbone et pourrait s'appliquer directement à ces systèmes. Côté compétiteurs académiques, des approches comme RiemannianFlow ou les travaux de Chirikjian sur la convolution sur groupes de Lie avaient posé des bases théoriques similaires, mais sans les intégrer dans un pipeline de diffusion end-to-end fonctionnel sur robot réel. L'étape suivante logique serait une validation sur des benchmarks plus exigeants (manipulation bimanuelle, tâches d'assemblage) et une intégration dans un des frameworks VLA open-source existants pour mesurer l'impact à plus grande échelle. Il s'agit pour l'instant d'une prépublication non encore soumise à révision par les pairs.

RechercheOpinion
1 source
Les dynamiques prédites peuvent-elles exister dans le monde physique ?
350arXiv cs.RO 

Les dynamiques prédites peuvent-elles exister dans le monde physique ?

Un preprint déposé le 1er juin 2026 sur arXiv (identifiant 2606.00089) introduit le concept d'admissibilité physique pour les politiques de robotique apprise, qu'il s'agisse de modèles VLA (Vision-Language-Action), de diffusion policies ou d'Action Chunking Transformers. Ces systèmes génèrent des trajectoires d'état, des séquences d'actions et des plans en espace latent, mais le problème central est le suivant : un faible RMSE (Root Mean Square Error) de prédiction ne garantit pas qu'une proposition soit physiquement exécutable sur un robot réel. Les auteurs formulent une interface prédiction-contrôle qui évalue chaque proposition candidate via des conditions cinématiques, dynamiques et des horizons composés, avant toute exécution. Sur le benchmark Hugging Face LeRobot PushT, les résidus RMSE et dynamiques standardisés atteignent des AUC (aire sous la courbe ROC) de 0,982 et 0,972, la porte complète atteint 0,957, et le système bloque 87 à 89 % des propositions invalides tout en préservant un progrès de tâche moyen de 0,998. Point notable : les conditions cinématiques seules n'atteignent que 0,592 d'AUC. Pour les intégrateurs et les équipes qui déploient des politiques apprises sur du matériel réel, l'apport est concret : une couche de validation interposable entre la sortie d'un modèle et le contrôleur bas niveau, avec attribution de cause au rejet (dépassement de couple, violation de limites articulaires, incohérence cinématique). Ce n'est pas un certificat de succès de la tâche, mais un filtre qui réduit le fossé sim-to-real sans nécessiter de retraining. Le faible AUC des conditions cinématiques seules contredit une hypothèse parfois avancée dans le secteur : vérifier la cohérence géométrique ne suffit pas, les contraintes dynamiques sont indispensables pour filtrer les trajectoires non exécutables. Ce travail s'inscrit dans un contexte où des modèles comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) et les politiques de Figure affichent une généralisation croissante mais aussi des échecs caractéristiques au contact du déploiement réel. La question de la vérifiabilité formelle des sorties de politiques apprises est un axe de recherche actif dans plusieurs laboratoires, dont MIT, CMU et ETH Zurich. Ce preprint n'est pas encore évalué par les pairs et les expériences restent confinées à un benchmark de manipulation 2D relativement simple (PushT) ; la validation sur des manipulateurs industriels 6 DOF en boucle temps réel reste entièrement à démontrer.

RechercheOpinion
1 source