Aller au contenu principal

Dossier Manipulation robotique — page 4

530 articles · page 4 sur 11

La manipulation robotique : pinces dextres, peau électronique, grasping, benchmarks de tâches fines, le goulot d'étranglement principal des humanoïdes.

L'œil mobile : améliore la généralisation spatiale des VLA grâce à une collecte de données hybride et dynamique
151arXiv cs.RO RechercheActu

L'œil mobile : améliore la généralisation spatiale des VLA grâce à une collecte de données hybride et dynamique

Le fil d'actualité de l'IA, voici l'article traduit et synthétisé. Une équipe de recherche publie sur arXiv (référence 2607.02322v1, soumis début juillet 2026) une étude intitulée "The Moving Eye", consacrée à la généralisation spatiale des modèles Vision-Language-Action (VLA). Le protocole expérimental repose sur une configuration à deux bras robotiques : l'un exécute la tâche de manipulation, l'autre sert de caméra mobile filmant la scène sous des angles variables. Les chercheurs comparent trois stratégies de collecte de données : vue fixe (Fixed), multi-fixe avec plusieurs points de vue statiques (Multi-Fixed), et vue mobile en mouvement continu (Moving Views). Les modèles testés couvrent le spectre actuel des architectures de manipulation robotique : ACT, les modèles à diffusion (Diffusion Policy), ainsi que les VLA Pi-0 et GR00T. Résultat central : une approche hybride, combinant mouvement continu de caméra et diversité de points de vue statiques, surpasse nettement les deux autres méthodes prises isolément. Cette étude s'attaque à un problème connu mais peu quantifié dans le secteur : le "shortcut learning", où un modèle VLA apprend des corrélations superficielles (pose relative fixe entre objets, ou entre caméra et base du robot) plutôt que la géométrie spatiale réelle de la tâche. Concrètement, un modèle entraîné avec des caméras fixes peut sembler performant en test mais échouer dès qu'on change la position de la caméra ou la disposition des objets, un écart démo-réalité que les intégrateurs industriels connaissent bien. L'article démontre que multiplier les points de vue fixes ne suffit pas à corriger ce biais, contrairement à une hypothèse répandue dans le secteur : seul le mouvement de caméra combiné à la diversité des vues réduit efficacement ces corrélations parasites, et ce gain se vérifie sur toutes les architectures testées, pas seulement sur les VLA les plus récents. Cette fragilité spatiale des VLA fait l'objet d'une attention croissante depuis la montée en puissance de modèles comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), présentés comme généralistes mais dont la robustesse hors distribution reste discutée. En proposant une méthode de collecte de données peu coûteuse en matériel (un simple bras robotique reconverti en caméra mobile) plutôt qu'une refonte architecturale, les auteurs ouvrent une piste concrète pour les équipes qui entraînent leurs propres politiques de manipulation, avant d'éventuels essais à plus grande échelle sur des tâches et robots variés.

1 source
Bridge-WA : prédire où et comment le monde change pour l'action robotique
152arXiv cs.RO 

Bridge-WA : prédire où et comment le monde change pour l'action robotique

Une équipe de chercheurs présente Bridge-WA, un nouveau framework "world-action" léger destiné aux modèles de manipulation robotique vision-langage-action (VLA), décrit dans un article publié sur arXiv (2607.02195v1) début juillet. Plutôt que de s'appuyer sur de lourds modèles génératifs du monde ou des séquences denses d'images futures pour anticiper les changements de scène, coûteux en calcul et souvent focalisés sur des détails visuels peu utiles au contrôle, Bridge-WA distille un "teacher" figé de prédiction des changements futurs en trois représentations compactes : des tokens de résultat visé, des cartes de changement pour identifier les zones d'intervention, et des cartes de flux de mouvement pour la direction locale des transitions. Un module appelé WorldBridge conditionne ensuite le transformer d'action sur ces trois priors via des mémoires d'attention multi-sources et des biais spatio-temporels, tandis que le modèle enseignant est retiré au moment de l'inférence. Les auteurs évaluent leur approche sur les benchmarks VLABench, RoboTwin2.0 et LIBERO-Plus, ainsi que sur des tests en robot réel, avec des gains en taux de réussite, en progression de tâche et en robustesse, particulièrement marqués face à des variations visuelles hors distribution. L'intérêt pour l'industrie robotique tient à la promesse d'un compromis efficacité-robustesse : obtenir les bénéfices d'un raisonnement sur l'évolution future de la scène sans payer le coût de génération d'images denses au déploiement, un frein connu pour l'intégration temps réel des modèles VLA. En filtrant les facteurs de nuisance comme le fond, l'éclairage ou les distracteurs pour se concentrer sur où et comment la scène va changer, l'approche s'attaque directement à l'écart généralisation/robustesse qui limite souvent le passage de la démonstration en labo au déploiement industriel. Le travail s'inscrit dans la lignée des modèles VLA à grande échelle qui cherchent à coupler perception, langage et action, un axe de recherche actif depuis l'essor de modèles génériques de manipulation. Comme il s'agit ici de résultats de recherche publiés par les auteurs eux-mêmes sur leurs propres benchmarks, sans déploiement industriel ni validation tierce à ce stade, la prudence reste de mise sur la portée réelle des gains annoncés. Le code et des visualisations sont mis à disposition sur le site du projet, ouvrant la voie à une reproduction indépendante des résultats.

IA physiqueActu
1 source
VLAFlow : un cadre d'entraînement unifié pour les modèles vision-langage-action via co-entraînement et alignement latent futur
153arXiv cs.RO 

VLAFlow : un cadre d'entraînement unifié pour les modèles vision-langage-action via co-entraînement et alignement latent futur

Des chercheurs présentent VLAFlow (Vision-Language-Action Flow), un framework unifié de flow-matching destiné à comparer objectivement les différents paradigmes d'entraînement des modèles vision-langage-action (VLA) en manipulation robotique. L'étude s'appuie sur OXEMix, un corpus hétérogène d'environ 5 000 heures de données combinant DROID, OpenX-Embodiment, OpenX-Augmented et RoboCOIN. Sous une architecture commune de type pi-0, avec le même backbone VLM, le même action expert et un espace d'action à 14 dimensions, les auteurs évaluent quatre approches strictement comparables : l'entraînement sur les seules actions (MindPI), le co-entraînement supervisé par le langage (MindLPI), l'alignement des représentations latentes futures (MindWPI), et leur combinaison (MindLWPI). Les tests sont menés sur trois bancs d'essai de référence : LIBERO, LIBERO-Plus et SimplerEnv. Pour les équipes qui entraînent des modèles VLA sur des données robotiques hétérogènes, l'apport principal n'est pas un nouveau produit mais une comparaison contrôlée rare dans un champ où architecture, données et protocole d'évaluation varient habituellement d'un papier à l'autre, rendant les résultats difficiles à départager. Les résultats montrent que l'entraînement action seule se dégrade quand les données proviennent de sources trop diverses, un signal utile pour qui envisage de simplement agréger des jeux de données multi-robots sans garde-fou. La supervision par le langage préserve la généralisation vision-langage, et l'alignement latent futur améliore la modélisation des transitions d'état et des relations action-résultat. La combinaison des deux signaux (MindLWPI) offre le transfert le plus stable sur l'ensemble des bancs d'essai, suggérant qu'un espace de méta-action combinant contraintes linguistiques et prédictives rend l'apprentissage par imitation plus robuste au passage à l'échelle. Ce travail s'inscrit dans la lignée des architectures pi-0 popularisées par Physical Intelligence, dans un paysage où Nvidia (GR00T N2), Figure (Helix) ou d'autres laboratoires développent également des modèles généralistes pour la manipulation robotique. Contrairement à des annonces produit, il s'agit ici d'une publication de recherche (preprint arXiv) centrée sur la méthodologie d'entraînement plutôt que sur un déploiement matériel. Les auteurs positionnent VLAFlow comme un socle reproductible pour de futures comparaisons de paradigmes, sans annoncer pour l'instant de calendrier de mise à disposition du code ou des poids du modèle.

RechercheActu
1 source
L'imagination du toucher : manipulation guidée par le toucher via des représentations tactiles imaginées
154arXiv cs.RO 

L'imagination du toucher : manipulation guidée par le toucher via des représentations tactiles imaginées

Des chercheurs présentent TacImag, un framework qui apprend à un robot à « imaginer » le toucher plutôt que de le mesurer physiquement. Le système prédit des signaux tactiles à partir de la vision et de la proprioception seules, en s'entraînant sur des démonstrations où vision et tactile réel sont enregistrés en parallèle. Une fois entraîné, TacImag guide les politiques de manipulation sans capteur tactile au moment du déploiement. L'équipe l'a évalué sur six tâches en simulation et quatre tâches réelles. Les résultats montrent que les champs de force imaginés améliorent les tâches sensibles au contact de 44,4% en moyenne, tandis que les images tactiles imaginées améliorent les tâches sensibles à la texture de 23,3%, un écart qui révèle que l'efficacité de la méthode dépend fortement du type de représentation choisi selon la tâche visée. Article publié sur arXiv (2607.01684v1). L'enjeu pratique est significatif pour l'industrie de la manipulation robotique : les capteurs tactiles restent fragiles, nécessitent un étalonnage régulier et alourdissent la maintenance, ce qui freine leur adoption à grande échelle chez les intégrateurs. En montrant qu'un robot peut bénéficier des avantages du toucher sans embarquer de matériel tactile en production, TacImag ouvre une voie pour réduire coûts et complexité tout en gardant les gains de performance sur les tâches de contact fin, comme l'insertion ou la manipulation d'objets fragiles. Point notable soulevé par les auteurs eux-mêmes : le système ne se contente pas de reconstituer une mesure tactile manquante. Il agit plutôt comme une forme de supervision consciente du contact, qui transforme des indices visuels d'interaction subtils en représentations plus facilement exploitables par les politiques d'apprentissage. Le travail s'inscrit dans la recherche sur la manipulation robotique riche en contacts, un domaine où le tactile est étudié depuis plusieurs années comme complément à la vision pour les gestes fins. Il s'agit ici d'une contribution académique, sans déploiement industriel ni produit commercial associé. Les auteurs suggèrent que la prochaine étape consistera à généraliser l'approche à des scénarios de contact plus divers et à l'intégrer dans des pipelines d'apprentissage de politiques plus larges, notamment les modèles vision-langage-action.

RecherchePaper
1 source
Politique de latence latente : apprendre des politiques visuomotrices robustes en restant dans la distribution
155arXiv cs.RO 

Politique de latence latente : apprendre des politiques visuomotrices robustes en restant dans la distribution

Une équipe de recherche publie sur arXiv (2508.05941v2, version révisée) un nouveau cadre baptisé Latent Policy Barrier, ou LPB, destiné à rendre plus robustes les politiques visuomotrices entraînées par apprentissage par imitation (behavior cloning). Le problème ciblé est bien connu des roboticiens : le covariate shift, c'est à dire le fait qu'un robot qui s'écarte même légèrement des trajectoires démontrées par un expert humain voit cette petite déviation s'amplifier jusqu'à provoquer un échec complet de la tâche. Pour y remédier, LPB s'inspire des fonctions barrières de contrôle (Control Barrier Functions) issues de la théorie du contrôle, et traite les représentations latentes des démonstrations expertes comme une frontière implicite séparant les états "dans la distribution", donc sûrs, des états hors distribution, potentiellement dangereux. Concrètement, l'architecture sépare deux rôles dans deux modules distincts : une politique de diffusion entraînée uniquement sur les données expertes pour l'imitation précise, et un modèle de dynamique entraîné à la fois sur les données expertes et sur des trajectoires sous optimales générées par la politique elle même. Au moment de l'inférence, ce modèle de dynamique prédit les futurs états latents et les optimise pour qu'ils restent dans la distribution experte. Les auteurs valident l'approche par des expériences en simulation et sur robot réel. Cette séparation entre qualité de l'imitation et récupération face aux écarts est significative pour l'industrie de la manipulation robotique, où la collecte de démonstrations reste le goulot d'étranglement principal. Les méthodes existantes pour limiter le covariate shift, correction humaine en boucle (type DAgger) ou augmentation synthétique des données, sont coûteuses en main d'œuvre, reposent sur des hypothèses fortes propres à chaque tâche, ou dégradent la qualité de l'imitation elle même. Si LPB tient ses promesses de robustesse et d'efficacité des données sans annotation supplémentaire, cela réduirait un coût réel pour les intégrateurs qui doivent aujourd'hui multiplier les démonstrations ou les interventions correctives pour fiabiliser un déploiement. Le travail s'inscrit dans la lignée des politiques de diffusion appliquées à la manipulation robotique, popularisées ces dernières années comme alternative aux politiques déterministes classiques, et emprunte au corpus des fonctions barrières utilisé en contrôle de sécurité pour véhicules et robots mobiles. Il se positionne face aux approches par correction humaine en boucle ou par augmentation de données synthétiques, qu'il cherche explicitement à remplacer. S'agissant d'une publication arXiv, il s'agit d'un résultat de recherche à ce stade, sans annonce de déploiement industriel ni de partenaire commercial identifié.

RecherchePaper
1 source
WorldSample : apprentissage par renforcement en boucle fermée sur robot réel avec modélisation du monde
156arXiv cs.RO 

WorldSample : apprentissage par renforcement en boucle fermée sur robot réel avec modélisation du monde

Voici l'article traduit et résumé : Des chercheurs présentent WorldSample, un framework d'apprentissage par renforcement (RL) pour robots réels qui combine rollouts physiques et modèle du monde génératif afin de réduire le coût des interactions réelles. Le système ferme une boucle "réel-synthétique" : à partir de trajectoires observées sur un robot physique, un modèle du monde post-entraîné génère des transitions synthétiques haute fidélité, limitant fortement les hallucinations visuelles typiques de ces modèles génératifs. Plutôt que de traiter ces données synthétiques comme de simples remplacements de l'expérience réelle, les auteurs introduisent le Policy-Paced Learning (PPL), un mécanisme de sélection et d'ordonnancement des échantillons qui équilibre l'apport de l'augmentation de données contre le risque de surestimation de la valeur et le bruit induit par les hallucinations résiduelles. Sur des tâches de manipulation robotique riches en contacts et exigeant une précision fine, WorldSample améliore le taux de réussite des politiques de 28% tout en réduisant de 59% le nombre d'étapes d'entraînement nécessaires, par rapport aux méthodes de référence. La fidélité visuelle du modèle du monde progresse également nettement : +19,4dB en PSNR et +0,47 en SSIM par rapport à un post-entraînement uniquement basé sur les démonstrations. L'enjeu dépasse la simple performance : le RL sur robot réel reste handicapé par le coût de chaque rollout physique, qui ne révèle qu'un seul chemin action-résultat parmi d'innombrables possibles. En générant des variations synthétiques crédibles autour de trajectoires réelles, WorldSample attaque directement ce goulot d'étranglement, un problème central pour tout acteur cherchant à déployer du RL au-delà du simple apprentissage par imitation, limité par la couverture des démonstrations disponibles. C'est aussi une réponse concrète au problème classique de la surestimation de valeur en RL offline et à l'écart de fidélité (sim-to-real) qui plombe habituellement les modèles du monde utilisés comme simulateurs d'entraînement. Le travail s'inscrit dans la lignée des recherches récentes sur les modèles du monde appliqués à la robotique, où la génération vidéo/action sert de simulateur bon marché pour compléter des données réelles rares. Contrairement aux approches purement génératives qui risquent d'halluciner des dynamiques physiques irréalistes, WorldSample ancre systématiquement sa génération sur des rollouts réels et régule l'usage des données synthétiques via PPL. L'article, publié sur arXiv (2607.02431, catégorie "new"), ouvre la voie à des extensions vers d'autres familles de tâches manipulatoires et à une meilleure compréhension du compromis entre volume d'augmentation synthétique et risque d'erreur cumulée en boucle fermée.

RecherchePaper
1 source
VT-WAM : modèle du monde et action visuo-tactile pour la manipulation à contacts riches
157arXiv cs.RO 

VT-WAM : modèle du monde et action visuo-tactile pour la manipulation à contacts riches

Des chercheurs présentent VT-WAM, un modèle de manipulation robotique combinant vision et toucher, décrit dans un article déposé sur arXiv (2607.02503v1) et accompagné d'un site dédié (vt-wam.github.io). Le système, un "Visual-Tactile World Action Model", apprend simultanément trois choses dans un même cadre de flow matching : prédire les images visuelles futures, prédire la déformation tactile future, et prédire l'action à exécuter. Deux mécanismes techniques soutiennent cette approche : une attention "Asymmetric Mixture-of-Transformers" (MoT) qui relie une première image de référence à la dynamique tactile dans le temps, et un module nommé AVTAG (Action-Visual-Tactile Attention Guidance) qui force le modèle à s'appuyer davantage sur le signal tactile pendant les phases de contact. Sur six tâches de manipulation en conditions réelles impliquant un contact physique important, VT-WAM atteint un taux de réussite moyen de 71,67%, contre des scores inférieurs de 26,67 points pour Fast-WAM et de 35,84 points pour OmniVTLA, deux modèles de référence utilisés en comparaison. L'enjeu dépasse la simple performance chiffrée : les politiques visuo-tactiles existantes se contentent généralement d'injecter le signal tactile brut dans la prédiction d'action, sans modéliser comment cette déformation évolue dans le temps. Or c'est précisément sur les tâches à fort contact (insertion, préhension d'objets déformables, gestion du glissement) que les modèles purement visuels ou de type VLA (vision-language-action) échouent le plus souvent, malgré des démonstrations impressionnantes en environnement contrôlé. Pour les intégrateurs industriels qui cherchent à automatiser des opérations d'assemblage fin, ce travail illustre une piste concrète pour combler l'écart entre démonstration et fiabilité réelle. Le papier s'inscrit dans la lignée des "world models" appliqués à la robotique, dont Fast-WAM constitue un prédécesseur direct servant de base de comparaison, aux côtés de familles de modèles VLA comme OmniVTLA. Il s'agit toutefois d'une publication académique, sans acteur industriel identifié ni date de déploiement annoncée : les résultats restent circonscrits à six tâches de laboratoire, et les auteurs eux-mêmes soulignent via leurs ablations que la modélisation de la dynamique tactile reste un problème ouvert plutôt qu'une solution définitivement close.

RecherchePaper
1 source
Titre traduit :
158arXiv cs.RO 

Titre traduit :

Une équipe de recherche présente ELMP (Efficient Learning for Motion Planning), une méthode d'apprentissage pour l'adaptation rapide des planificateurs de mouvement neuronaux (Neural Motion Planners, NMP) à de nouveaux environnements. Le problème identifié : recolter de nouvelles trajectoires expertes via des planificateurs globaux classiques pour chaque nouvel environnement coûte cher en calcul. ELMP contourne cette étape en optimisant directement la politique via une couche cinématique différentiable, avec des objectifs denses de collision, d'atteinte de cible et de fluidité, remplaçant ainsi la génération de données expertes par un simple échantillonnage de problèmes. Résultat : le coût d'adaptation par échantillon chute d'environ deux ordres de grandeur. Les auteurs ajoutent un mécanisme encodant explicitement la géométrie des outils via des nuages de points, pour généraliser à des chaînes cinématiques changeantes. Sur des benchmarks comparés à des baselines classiques et neuronales, ELMP atteint un taux de réussite moyen de 84,8%, avec une latence de démarrage à froid inférieure de plusieurs ordres de grandeur aux méthodes classiques. Sur des environnements inédits, le fine-tuning auto-supervisé fait passer le taux de réussite de 57,3% en zero-shot à 89,8%. La latence d'inférence reste de l'ordre de la milliseconde, et la méthode a été validée sur un bras robotique physique Franka Emika Panda. Ce travail s'attaque directement au goulot d'étranglement des planificateurs de mouvement neuronaux : leur dépendance à de vastes jeux de trajectoires expertes, coûteux à générer et à recollecter dès qu'un environnement ou un outil change. En réduisant le coût d'adaptation de deux ordres de grandeur tout en conservant une inférence milliseconde, ELMP rapproche les NMP d'un usage industriel réaliste, où les cellules robotiques changent fréquemment de configuration (nouvel outil, nouvelle disposition d'obstacles, nouvelle chaîne cinématique). Pour les intégrateurs et les équipes R&D en robotique manipulatrice, l'enjeu est concret : pouvoir redéployer un planificateur appris sur une nouvelle tâche sans repasser par des semaines de collecte de données ni par un planificateur global lent en temps réel. La validation sur un bras physique Panda, plutôt qu'uniquement en simulation, renforce la crédibilité du résultat, même si l'écart habituel entre benchmarks contrôlés et conditions industrielles réelles (encombrement, capteurs bruités, cadences de production) reste à vérifier à plus grande échelle. Les planificateurs de mouvement neuronaux se sont imposés ces dernières années comme alternative rapide aux méthodes classiques d'échantillonnage ou d'optimisation (RRT, CHOMP, planificateurs basés sur des solveurs), au prix d'un entraînement gourmand en données expertes générées hors ligne. ELMP s'inscrit dans une lignée de travaux cherchant à rendre ces modèles adaptables sans réentraînement lourd, en s'appuyant sur des gradients de politique analytiques et des couches différentiables plutôt que sur de l'apprentissage par renforcement classique ou de l'imitation pure. La comparaison directe avec des baselines classiques et neuronales situe la contribution dans le sillage des efforts récents pour combiner rapidité d'inférence et robustesse à la généralisation, un axe suivi par plusieurs laboratoires travaillant sur la manipulation robotique généraliste. Les prochaines étapes attendues incluent des tests sur des bras à davantage de degrés de liberté, des scénarios multi-outils plus complexes, et une évaluation en conditions de production réelles au-delà du cadre de laboratoire présenté ici.

RecherchePaper
1 source
Robots humanoïdes : une étude utilisateur compare perception et métriques techniques en interaction homme-robot multimodale
159arXiv cs.RO 

Robots humanoïdes : une étude utilisateur compare perception et métriques techniques en interaction homme-robot multimodale

Une étude universitaire portant sur 24 participants montre qu'un gain de 15 points de pourcentage en taux de réussite d'une tâche de préhension d'objets, de 75% à 90%, est perceptible par les utilisateurs lors d'une interaction directe avec un robot. Le système de référence combine Whisper pour la reconnaissance vocale, Florence-2 pour la détection d'objets en vocabulaire ouvert, LLaMA 3.1 pour l'extraction d'actions, et un contrôleur logique flou de type 2 intervalle pour l'exécution des mouvements. La configuration améliorée conserve le même contrôleur mais remplace les modules de perception et de langage par Grounding DINO couplé à SAM et par Qwen 3.5 9B. Dans une étude en sujets répétés, où chaque participant a testé les deux configurations sur la même tâche de saisie d'objets sur table, 17 personnes sur 24 (70,83%) ont préféré le système amélioré, un résultat statistiquement significatif (test binomial exact, p = 0,043). Les trois critères perceptuels évalués sur une échelle de Likert à 7 points, la vitesse ressentie, la fiabilité et la compétence globale, ont tous été notés significativement plus haut pour la version améliorée, avec des tailles d'effet allant de grandes à très grandes après correction de Holm (p < 0,001). L'intérêt de ces travaux dépasse le simple constat qu'un meilleur système est mieux perçu. Ils répondent à une question moins triviale qu'il n'y paraît pour l'industrie robotique: un gain mesuré sur des benchmarks techniques se traduit-il réellement en une différence que l'utilisateur final ressent au contact du robot? Pour les intégrateurs et décideurs qui arbitrent entre plusieurs piles perception-langage-contrôle, souvent sur la seule foi de métriques de laboratoire, cette étude fournit une preuve empirique que l'amélioration des modules de vision et de compréhension du langage a un effet direct sur la confiance et l'acceptabilité perçues, indépendamment du contrôleur moteur qui reste inchangé. Le travail s'inscrit dans une lignée de recherches en interaction homme-robot qui cherche à combler l'écart entre évaluation par benchmark et évaluation centrée utilisateur, un point de friction classique entre recherche en robotique et déploiement réel. L'architecture testée illustre aussi l'évolution rapide des briques génériques mobilisées dans les pipelines de manipulation, passant de Florence-2 et LLaMA 3.1 à des modules plus récents comme Grounding DINO, SAM et Qwen 3.5 9B, sans toucher à la couche de contrôle bas niveau. Les auteurs appellent à systématiser ce type d'évaluation utilisateur en complément des ablations techniques classiques pour tout futur pipeline de manipulation robotique.

RecherchePaper
1 source
Visualiser le contrôle d'impédance en réalité augmentée pour la téléopération : conception et évaluation utilisateur
160arXiv cs.RO 

Visualiser le contrôle d'impédance en réalité augmentée pour la téléopération : conception et évaluation utilisateur

Une équipe de recherche présente une interface de téléopération en réalité augmentée conçue pour compenser l'absence de retour haptique sur les manettes de contrôle bas coût. Le système affiche visuellement la pose cible du contrôleur d'impédance ainsi que son écart par rapport à la position réelle de chaque effecteur du robot, ce qui permet à l'opérateur de visualiser en temps réel les forces générées par le contrôleur sans matériel haptique coûteux. Les chercheurs ont testé cette visualisation lors d'une étude de manipulation bidextre impliquant 17 participants, chargés de repositionner une boîte à plusieurs reprises, avec et sans l'affichage AR. Résultat mesuré : le temps d'exécution baisse de 24% sur les tâches de levage où le contrôle de force est critique, mais aucun effet significatif n'apparaît sur les tâches de glissement, où la précision de force compte moins. Cette étude s'attaque à un problème concret pour l'industrie robotique : la téléopération de tâches riches en contacts (assemblage, manutention, manipulation fine) reste difficile quand l'interface ne renvoie que du mouvement, sans sensation de force. Or l'équipement haptique complet reste cher et peu répandu sur les plateformes de téléopération grand public, notamment les casques et manettes VR utilisés pour la collecte de données d'apprentissage ou le pilotage à distance de bras robotiques. Démontrer qu'un simple retour visuel en AR peut améliorer la performance sur les tâches sensibles à la force, sans capteurs haptiques additionnels, ouvre une voie low-cost pour fiabiliser la téléopération, un enjeu direct pour les entreprises qui collectent des données de démonstration destinées à l'entraînement de modèles de manipulation robotique. Le travail s'inscrit dans un courant de recherche plus large sur l'interaction homme-robot en téléopération, où la question du retour de force sans haptique reste ouverte depuis des années, notamment pour les architectures à contrôle d'impédance largement utilisées en manipulation à deux bras. En l'absence de details sur une application industrielle immédiate, il s'agit ici d'un résultat de recherche évalué en laboratoire, pas d'un produit déployé, mais qui fournit une piste méthodologique exploitable par les équipes développant des interfaces de téléopération pour la collecte de données ou l'opération à distance de robots manipulateurs.

RecherchePaper
1 source
Modélisation de représentations volumétriques pour l'apprentissage de politiques de manipulation : VolumeDP
161arXiv cs.RO 

Modélisation de représentations volumétriques pour l'apprentissage de politiques de manipulation : VolumeDP

Une équipe de recherche présente VolumeDP, une nouvelle architecture pour l'apprentissage par imitation en robotique manipulatrice, décrite dans une version révisée d'un article arXiv (2603.17720v2). Le problème visé est concret : la plupart des méthodes actuelles font correspondre directement des observations d'images 2D à des sorties d'action 3D, un décalage géométrique qui nuit au raisonnement spatial et fragilise la robustesse des politiques apprises. VolumeDP corrige ce défaut en raisonnant explicitement en trois dimensions : les features issues des images sont d'abord projetées dans une représentation volumétrique via un mécanisme d'attention croisée, puis un module apprenable sélectionne les voxels pertinents pour la tâche et les convertit en un ensemble compact de tokens spatiaux, ce qui réduit fortement le calcul sans perdre la géométrie utile à l'action. Un décodeur multi-tokens exploite ensuite l'ensemble de ces tokens pour prédire les actions, évitant l'agrégation destructrice qui réduit plusieurs indices spatiaux à un seul descripteur. Résultat chiffré : 88,8% de taux de réussite moyen sur le benchmark de simulation LIBERO, soit 14,8 points de mieux que la meilleure méthode concurrente, avec des gains également marqués sur ManiSkill et LIBERO-Plus. Des essais en conditions réelles confirment la généralisation à de nouvelles dispositions spatiales, de nouveaux points de vue caméra et de nouveaux environnements. Pour les équipes qui développent des politiques de manipulation robotique, ce travail illustre une limite structurelle des architectures VLA qui traitent la 3D comme un simple sous-produit d'un flux d'images : sans représentation spatiale explicite, la robustesse aux changements de caméra ou de décor s'effondre, un problème récurrent dès qu'on sort du laboratoire. VolumeDP montre qu'ajouter un raisonnement volumétrique explicite, plutôt que de compter uniquement sur l'échelle des données ou du modèle, améliore sensiblement la généralisation, ce qui nuance l'idée reçue selon laquelle scaler les VLA suffirait à résoudre le problème spatial. Le travail s'inscrit dans la lignée des méthodes d'apprentissage par imitation ayant précédemment tenté d'intégrer une composante 3D, comme les approches de type Diffusion Policy en 3D, mais en visant une représentation volumétrique plus efficiente en calcul. Il s'agit à ce stade d'une contribution académique, publiée sur arXiv avec code et vidéos disponibles sur une page projet dédiée, et non d'un produit ou d'un système déployé commercialement. Les benchmarks utilisés (LIBERO, ManiSkill) restent des environnements de recherche standard, ce qui laissera aux prochaines étapes le soin de confirmer la tenue de ces résultats sur des tâches industrielles plus complexes.

RecherchePaper
1 source
Robuste contrôle dans l'espace opérationnel avec bornes de perturbation conformes pour une manipulation redondante sûre
162arXiv cs.RO 

Robuste contrôle dans l'espace opérationnel avec bornes de perturbation conformes pour une manipulation redondante sûre

Des chercheurs proposent un nouveau cadre de contrôle pour bras robotiques redondants combinant modèle physique et apprentissage statistique, testé sur un manipulateur Franka Research 3 à 7 degrés de liberté. Le système associe un contrôleur par couple calculé en espace opérationnel (OSCTC) à un observateur d'état étendu (ESO) qui estime en temps réel les perturbations agissant sur la tâche, sans nécessiter de mesure complète de l'état du robot comme le font les approches par apprentissage résiduel. Pour garantir la sécurité, une fonction de barrière de contrôle (CBF) robuste borne les écarts autorisés, mais ce type de garantie exige normalement de connaître à l'avance l'amplitude maximale des perturbations, ce qui rend le système inutilement prudent en pratique. Les auteurs contournent cette limite avec de la prédiction conforme par fenêtre glissante, une méthode statistique sans hypothèse sur la distribution des données, qui réestime en continu cette borne. Résultat annoncé : une précision de suivi de trajectoire de l'ordre du millimètre et un contrôle sûr en temps réel cadencé à 1 kHz, y compris face à des perturbations variées appliquées pendant les essais. Pour l'industrie de la manipulation robotique, ce travail s'attaque à un compromis connu entre robustesse et précision : les contrôleurs purement basés modèle se dégradent dès que la dynamique réelle s'écarte du modèle théorique, tandis que les approches par apprentissage de résidus, plus adaptatives, manquent de garanties formelles et complexifient le déploiement. En combinant les deux logiques via une méthode d'incertitude calibrée statistiquement plutôt qu'un réseau de neurones supplémentaire, l'approche vise des applications où bras redondants et humains partagent le même espace de travail, un enjeu central pour la cobotique industrielle et l'intégration en environnement contraint. Ce résultat s'inscrit dans une lignée de recherches cherchant à rendre les garanties de sécurité robotique moins conservatrices sans sacrifier la rigueur théorique, un problème classique des CBF robustes qui, mal calibrées, paralysent le mouvement autant qu'elles le sécurisent. L'usage de la prédiction conforme, technique empruntée au machine learning statistique, plutôt que de l'apprentissage de résidus par réseau de neurones, marque une différence d'approche notable. Il s'agit pour l'instant d'un résultat expérimental publié sur arXiv (2607.00424), validé sur un seul bras robotique en laboratoire, sans indication de transfert vers un produit ou un déploiement industriel.

RecherchePaper
1 source
Position : les modèles vision-langage-action ne peuvent pas être vérifiés pour le raisonnement physique
163arXiv cs.RO 

Position : les modèles vision-langage-action ne peuvent pas être vérifiés pour le raisonnement physique

Position: Vision-Language-Action Models Cannot Be Verified to Perform Physical Reasoning Un article de position publié sur arXiv (2606.30686) remet en cause l'interprétation dominante des progrès des systèmes Vision-Language-Action (VLA), ces modèles de robotique construits sur des modèles vision-langage (VLM) pré-entraînés comme GR00T N2, Pi-0 ou Helix. Les auteurs décomposent une politique VLA en deux briques distinctes : le mapping sémantique, hérité de l'entraînement internet-scale, et la décision d'action physique, propre à l'exécution motrice. Leur démonstration centrale est que le taux de réussite de tâche, la métrique quasi universelle des benchmarks de manipulation robotique, ne permet pas de distinguer laquelle de ces deux briques est responsable d'une amélioration de score. Autrement dit, un gain de performance mesuré peut aussi bien refléter une meilleure généralisation sémantique, un simple recouvrement distributionnel avec les données d'entraînement, qu'une réelle généralisation physique, sans qu'aucun protocole actuel ne permette de trancher. Cette limite touche directement l'argument commercial central de la vague VLA actuelle: la promesse que des représentations apprises sur des corpus internet transfèrent vers la généralisation en environnement physique réel. Pour les intégrateurs et décideurs B2B qui évaluent des solutions humanoïdes ou des bras manipulateurs sur la base de benchmarks affichant des taux de réussite en hausse, ce papier suggère une prudence méthodologique: un score supérieur ne garantit pas une robustesse physique supérieure, et peut masquer un simple effet de mémorisation de distribution. Le concept de "narrative drift" que les auteurs pointent, où chaque nouveau système hérite et renforce l'interprétation optimiste du précédent sans isoler le mécanisme causal réel, résonne avec les critiques déjà formulées sur l'écart entre démonstrations vidéo sélectionnées et déploiements réels en usine. Les auteurs ne rejettent pas l'utilité des VLM en robotique, mais proposent une piste de recherche: des protocoles d'évaluation introduisant une variation contrôlée pour mesurer séparément la généralisation sémantique et la généralisation physique, sans nécessiter d'accès aux poids internes des modèles. Cette approche s'inscrit dans un débat plus large sur la fiabilité des benchmarks robotiques, alors que des laboratoires et startups, de Figure à Physical Intelligence, multiplient les annonces de performance sur des tâches de manipulation dont la reproductibilité en conditions réelles reste rarement vérifiée indépendamment.

RecherchePaper
1 source
Z-1 : apprentissage par renforcement efficace pour les modèles vision-langage-action
164arXiv cs.RO 

Z-1 : apprentissage par renforcement efficace pour les modèles vision-langage-action

Des chercheurs présentent Z-1, un framework de post-entraînement par apprentissage par renforcement (RL) pour les modèles Vision-Language-Action (VLA) à base de flow matching, décrit dans un article publié sur arXiv (2606.31846v1). Construit sur l'architecture π0.5 de Physical Intelligence, Z-1 s'appuie uniquement sur les démonstrations publiques RoboCasa pour la phase de fine-tuning supervisé (SFT), puis applique une stratégie de Group Relative Policy Optimization (GRPO) tâche par tâche sur 24 tâches standard du benchmark RoboCasa. Pour rendre cette optimisation en ligne plus stable et efficace, les auteurs combinent quatre techniques: construction de rollouts à préfixe partagé, branchement arborescent des trajectoires, calibration des récompenses tenant compte de la complétion des tâches, et entraînement conjoint sélectif du modèle vision-langage et de l'"Action Expert". Résultat: un taux de réussite moyen de 80,6% sur les 24 tâches, soit un gain de 13,2 points par rapport au modèle SFT de départ, et une performance supérieure aux meilleurs modèles publiés jusqu'ici. L'enjeu dépasse le simple gain de benchmark. La grande majorité des politiques VLA actuelles restent bridées par le behavior cloning ou le SFT sur données figées, une approche qui plafonne dès que le robot rencontre une situation absente des démonstrations. En montrant qu'un post-entraînement RL structuré peut améliorer significativement une politique flow-based sans données de démonstration privées supplémentaires, Z-1 apporte un argument concret en faveur du RL comme étape standard après le SFT, plutôt qu'une simple option de recherche. Pour les équipes qui entraînent des VLA pour la manipulation robotique, cela suggère une voie pour corriger les échecs récurrents d'une politique sans repasser par une collecte de données coûteuse. Le travail s'inscrit dans la lignée des modèles génération π (π0, π0.5 de Physical Intelligence) et fait écho aux efforts similaires chez GR00T N2 (NVIDIA) ou Helix (Figure AI), qui cherchent tous à faire passer les VLA du stade de la démonstration à celui d'une robustesse exploitable en conditions réelles. GRPO, popularisé dans l'entraînement de modèles de langage, est ici adapté aux contraintes du contrôle continu. Les auteurs présentent Z-1 comme une preuve de concept méthodologique, sans annoncer de déploiement matériel ni de calendrier commercial.

IA physiqueOpinion
1 source
TactX : apprentissage de représentations tactiles partagées entre capteurs variés
165arXiv cs.RO 

TactX : apprentissage de représentations tactiles partagées entre capteurs variés

Des chercheurs ont présenté TactX, un système d'apprentissage capable d'unifier les représentations tactiles issues de capteurs technologiquement incompatibles entre eux. Trois modalités de transduction radicalement différentes sont couvertes : résistive, magnétique et par vision. Concrètement, TactX projette les signaux bruts de chaque type de capteur dans un espace latent partagé grâce à des encodeurs spécifiques à chaque modalité, entraînés sur des données de contact appariées, c'est-à-dire des interactions physiques identiques capturées simultanément par plusieurs capteurs différents. Ce signal d'alignement naturel permet un entraînement conjoint qui rend l'espace latent cohérent quel que soit le matériel d'origine. Les auteurs valident l'approche sur quatre tâches de manipulation à contact riche : le pick-and-place, l'insertion de connecteurs (plug insertion), l'essuyage de surface et la réorientation d'objets. Résultat chiffré central de l'étude : une politique entraînée avec un seul type de capteur transfère en zero-shot vers des capteurs physiquement distincts via l'espace latent commun, faisant passer le taux de réussite moyen de 27,5% pour une politique vision seule à 45,9% avec TactX. L'enjeu dépassé ici est celui du couplage matériel, un frein connu à l'industrialisation de la manipulation robotique fine. Aujourd'hui, changer de capteur tactile sur une ligne de production ou un bras robotisé impose généralement de ré-entraîner intégralement la politique de contrôle, ce qui verrouille les intégrateurs sur un fournisseur unique et complique la maintenance ou l'évolution du parc matériel. Une représentation tactile transférable ouvre la voie à des politiques de manipulation réutilisables indépendamment du capteur physique installé, un argument direct pour les intégrateurs industriels qui doivent gérer des flottes hétérogènes ou remplacer des composants obsolètes sans tout refaire. Le gain observé (27,5% à 45,9%) reste toutefois modeste en valeur absolue: la démonstration prouve la faisabilité du transfert zero-shot plus qu'elle ne livre une solution mature et déployable en l'état. Ce travail s'inscrit dans une tendance de fond de la recherche en robotique tactile, où la fragmentation des technologies de capteurs (résistifs, capacitifs, magnétiques, ou à base de caméras comme GelSight) a longtemps freiné la mutualisation des données et des modèles, contrairement à la vision où des architectures génériques type ViT dominent largement. Le papier, publié en preprint sur arXiv, ne mentionne pas d'acteur industriel ni de partenariat de déploiement: il s'agit à ce stade d'une contribution académique testée en environnement contrôlé, sans indication de calendrier vers une intégration commerciale. Les prochaines étapes attendues pour ce type de recherche incluraient l'extension à davantage de familles de capteurs, des tests sur des tâches de manipulation plus complexes, et potentiellement une validation par des fabricants de capteurs tactiles ou des intégrateurs cherchant à réduire leur dépendance à un hardware spécifique.

RecherchePaper
1 source
Chronos : cadre à historique complet guidé par la physique pour la manipulation non markovienne à long horizon
166arXiv cs.RO 

Chronos : cadre à historique complet guidé par la physique pour la manipulation non markovienne à long horizon

Une équipe de recherche a publié fin juin 2026 sur arXiv (2606.30318) un framework appelé Chronos pour résoudre un problème fondamental des politiques de manipulation robotique : leur incapacité à mémoriser l'historique d'exécution d'une tâche. Chronos traite chaque observation passée, capteur proprioceptif et image, comme un token temporel aligné sur le pas de contrôle physique, et propage cet historique complet via un modèle d'espace d'états sélectif (SSM). Ce contexte causal conditionne un prior d'action multimodal appris par IMLE (implicit maximum likelihood estimation), raffiné par un pont de Schrödinger du second ordre qui prédit des champs d'accélération pour des trajectoires plus lisses. Sur RMBench, benchmark qui exige la mémorisation de la phase courante de la tâche, Chronos atteint 73,6 % de succès moyen contre 11,2 % pour pi0.5 de Physical Intelligence, soit +62,4 points et un facteur 6,6x, avec dix fois moins de paramètres. Il dépasse également le VLA à mémoire explicite Mem-0 de 22,8 points en utilisant 30x moins de paramètres. En conditions réelles, sur quatre tâches bras-droit/bras-gauche avec une unique caméra RGB, Chronos obtient 78 % de succès global et 72 % sur les sous-tâches mémoire-dépendantes, là où pi0.5 plafonne à 7 % global et 0 % sur ce sous-ensemble. Ces résultats remettent en cause une hypothèse courante dans les politiques d'imitation généralisées : que l'observation courante, complétée d'une courte fenêtre temporelle, suffit à conditionner l'action correcte. Pour des tâches à horizon long avec dépendance d'état, comme l'assemblage séquentiel ou le pick-and-place conditionnel, cette approximation markovienne génère des ambiguïtés résolues à tort. Chronos montre qu'élever l'historique complet au rang d'état latent de la politique améliore substantiellement la robustesse sim-to-real. La compacité du modèle est également un avantage concret pour les équipes qui déploient des politiques embarquées sur calculateurs edge. Ce travail s'inscrit dans une vague remettant en question l'architecture VLA post-RT-2, face à des modèles comme pi0.5 de Physical Intelligence et GR00T N2 de NVIDIA, qui dominent les benchmarks de manipulation générale avec des fenêtres d'attention bornées sans mémoire d'état explicite. L'approche SSM de Chronos se rapproche des architectures récurrentes linéaires de type Mamba appliquées au contrôle robotique. Les auteurs évaluent sur 16 tâches simulées et 4 tâches réelles, mais ne précisent ni plateforme matérielle cible ni calendrier de déploiement industriel, ce qui classe ce travail dans la catégorie recherche publiée et non produit disponible.

💬 73,6 % contre 11,2 % pour pi0.5, avec dix fois moins de paramètres. C'est le genre de résultats qui valide rétrospectivement ce que certains chercheurs suspectaient depuis un moment : l'hypothèse markovienne dans les politiques d'imitation tient mal dès que la tâche a de la longueur et de l'état. Reste à voir si ça tient quand on sort du labo, mais les 78 % en conditions réelles me donnent envie de creuser.

IA physiqueOpinion
1 source
ConCent : apprentissage centré sur le contact réel-vers-sim-vers-réel depuis une seule démonstration
167arXiv cs.RO 

ConCent : apprentissage centré sur le contact réel-vers-sim-vers-réel depuis une seule démonstration

Déposé sur arXiv fin juin 2026 (arXiv:2606.30268), ConCent (Contact-Centric Real-to-Sim-to-Real) est un framework d'apprentissage par renforcement conçu pour résoudre le transfert sim-to-real dans les tâches de manipulation robotique riche en contacts. L'approche part d'une seule démonstration réelle : à partir de celle-ci, elle extrait automatiquement la séquence d'événements de contact (quand, où et comment les contacts surviennent), puis optimise en simulation la géométrie des objets, approximés comme des groupes de primitives géométriques, pour que la dynamique locale reproduise fidèlement les transitions d'état observées. Cette séquence de contact devient un signal de récompense structuré qui guide la politique RL vers des régimes de contact physiquement plausibles, l'empêchant d'exploiter des artefacts irréalistes du simulateur. Aucune conception manuelle de fonction de récompense par tâche n'est nécessaire. Le noeud du problème que ConCent attaque est le reality gap sur les tâches à fort couplage mécanique (vissage, assemblage précis, manipulation d'objets déformables), où une légère différence de dynamique de contact suffit à invalider une politique entière. Contrairement aux approches par domain randomization ou aux pipelines nécessitant de larges corpus de données réelles, ConCent impose une contrainte structurelle : la politique ne peut progresser qu'en respectant les séquences de contact validées dans le monde réel. Les résultats présentés montrent une meilleure stabilité et robustesse du transfert face à des baselines RL non contraintes. L'absence de reward engineering par tâche représente un gain opérationnel concret pour les équipes souhaitant déployer de nouvelles tâches sans reconfiguration coûteuse. Le problème du sim-to-real pour la manipulation remonte aux travaux fondateurs sur la domain randomization (OpenAI Dactyl, 2019) et aux pipelines de learning from demonstration. Des approches récentes comme la simulation différentiable (DiffTaichi) ou les VLA de type pi0 (Physical Intelligence) et GR00T N2 (NVIDIA) s'attaquent au même reality gap, mais avec des architectures et des volumes de données très différents. ConCent se distingue en ancrant la dynamique simulée sur une démonstration réelle unique, sans calibration manuelle du simulateur. Il s'agit à ce stade d'un preprint académique sans déploiement industriel annoncé, les résultats étant validés en conditions de laboratoire. La suite logique serait une évaluation sur des cycles d'assemblage industriels réels et une comparaison directe avec des architectures VLA pour quantifier l'avantage de l'approche contact-centric à l'échelle.

RecherchePaper
1 source
Planification séquentielle par points d'ancrage pour la robotique
168arXiv cs.RO 

Planification séquentielle par points d'ancrage pour la robotique

Des chercheurs de la Case Western Reserve University ont publié SPARK (Sequential Planning via Anchored Robotic Keypoints), un système neurosymbolique de manipulation robotique sans entraînement supplémentaire. Sur LIBERO-PRO, benchmark évaluant la robustesse face aux changements de position et de tâche, SPARK atteint 43,7 % sur six configurations, soit plus du double de CaP-Agent0 (18,2 %) et des baselines Vision-Language-Action. L'architecture repose sur deux appels Gemini : le premier génère un arbre de comportement (behavior tree) typé composé de primitives précodées intégrant le contrôle bas niveau (mouvement, préhension, géométrie de profondeur) ; le second propose trois formulations textuelles alternatives par objet, que SAM3 évalue pour retenir la détection la plus confiante. Un mécanisme de récupération relance toute primitive échouée sur des objets re-détectés, sans nouvel appel LLM. Le système a été validé sur trois familles de robots (UR10e, Franka FR3, Franka bimanuels) pour neuf tâches à vingt essais chacune, avec une moyenne de 68 %. Le résultat central est architectural : SPARK identifie la perception comme le principal point de rupture des pipelines de manipulation, non la planification. Les formulations alternatives par objet apportent +27,7 points sur les tâches spatiales et +10,0 sur la suite objet ; la boucle de récupération ajoute +5,0 points globalement. Là où CaP-Agent0 re-interroge un LLM en repartant de zéro à chaque échec, SPARK ne replanifie que la détection, réduisant significativement le coût computationnel. Point stratégique : chaque essai produit automatiquement une trajectoire vérifiée et étiquetée, permettant à un planificateur training-free de générer les données dont les VLAs ont besoin sans téleopération humaine. SPARK s'inscrit dans le débat entre architectures VLA end-to-end (pi-0 de Physical Intelligence, RT-2 de Google DeepMind, OpenVLA de Berkeley) et approches hybrides symboliques. Les VLAs misent sur la généralisation apprise de données massives mais restent fragiles aux distributions non vues à l'entraînement, précisément ce que LIBERO-PRO mesure. SPARK démontre qu'une conception neurosymbolique rigoureuse peut surpasser des modèles foundation sur des configurations difficiles. La validation reste limitée à neuf tâches sur trois plateformes, sans timeline de déploiement industriel annoncée. La modularité du système -- détecteur, planificateur et contrôleur remplaçables indépendamment -- ouvre la voie à des intégrations sur de nouvelles plateformes sans réentraînement.

RecherchePaper
1 source
Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste
169arXiv cs.RO 

Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste

Des chercheurs ont publié sur arXiv (référence 2606.29384) Event-VLA, un framework combinant des caméras événementielles avec des modèles Vision-Language-Action (VLA) pour rendre la manipulation robotique robuste dans des conditions d'éclairage dégradées. L'approche repose sur l'intégration de flux d'événements, une modalité de capteur neuromorphique qui encode les variations de luminosité pixel par pixel avec une résolution temporelle de l'ordre de la microseconde, contrairement aux caméras RGB classiques qui acquièrent des images complètes à fréquence fixe. L'architecture introduit un mécanisme de routage par requêtes d'action : des requêtes apprenantes extraient la sémantique pertinente à la tâche depuis le raisonnement VLA, puis agrègent sélectivement les tokens événementiels via une cross-attention à portes (gated cross-attention), produisant des représentations d'action sensibles aux conditions lumineuses. Les expériences couvrent des scénarios de simulation et de déploiement réel en faible luminosité, voire en quasi-obscurité. Ce travail s'attaque à une faille structurelle des VLA actuels, Pi-0, OpenVLA, GR00T N2 ou Helix inclus, qui sont entraînés et évalués quasi-exclusivement dans des environnements d'intérieur bien éclairés et stables. Le sim-to-real gap se double ici d'un lighting-to-real gap rarement quantifié dans les benchmarks publiés. Event-VLA démontre qu'on peut greffer une modalité événementielle sans détruire les priors sémantiques RGB-langage préentraînés, ce qui est non trivial : la plupart des fusions multimodales naïves dégradent la performance en conditions normales pour gagner en robustesse marginale. Le fait que le gain soit mesuré sans régression sur éclairage standard constitue le résultat le plus solide à retenir pour les intégrateurs industriels envisageant des déploiements en entrepôt, en extérieur ou en environnement à éclairage variable. Les caméras événementielles (Prophesee, inivation, Sony IMX636) restent onéreuses et peu présentes dans les pipelines robotiques commerciaux, ce qui limite la portée immédiate du framework. Le travail s'inscrit dans un mouvement plus large d'hybridation sensorielle pour les VLA, en parallèle d'approches tactiles (GelSight) ou proprioceptives. Côté concurrent, Boston Dynamics, Figure et Agility travaillent sur la robustesse des politiques en conditions réelles mais publient peu sur la gestion de l'éclairage. Aucun acteur européen n'est mentionné dans ce papier. Les auteurs ne précisent pas de pipeline de déploiement à l'échelle ni de timeline industrielle : il s'agit d'un résultat de recherche, pas d'un produit shipé.

UEProphesee, fabricant français de caméras événementielles, est explicitement cité comme fournisseur matériel clé, ce qui positionne l'écosystème européen du capteur neuromorphique comme brique potentielle des futurs pipelines VLA industriels robustes.

IA physiqueActu
1 source
LIBERO-Safety : un benchmark complet pour la sécurité physique et sémantique des modèles vision-langage-action (VLA)
170arXiv cs.RO 

LIBERO-Safety : un benchmark complet pour la sécurité physique et sémantique des modèles vision-langage-action (VLA)

Des chercheurs ont publié LIBERO-Safety, un benchmark paramétrique conçu pour évaluer la sûreté physique et sémantique des modèles Vision-Language-Action (VLA) dans des scénarios de manipulation robotique. Le système génère de façon procédurale des situations critiques avec une stochasticité complète, en s'appuyant sur un pipeline de génération de données piloté par des poses-clés (keypose-driven), une alternative à la téléopération humaine, jugée trop coûteuse à passer à l'échelle. Le jeu de données résultant comprend 19 664 démonstrations strictement sans collision, avec une randomisation de domaine extensive. L'équipe a ensuite évalué de manière systématique huit modèles VLA et deux modèles fondateurs incarnés (embodied foundation models), couvrant plusieurs paradigmes d'entraînement contemporains. Le résultat central est une tension generalization-safety que les auteurs qualifient de critique : un entraînement sur des données très diversifiées produit des trajectoires plus sûres, mais la réussite des tâches reste fondamentalement plafonnée par une synthèse de trajectoires sous-optimale et un désalignement sémantique. Autrement dit, rendre un VLA plus prudent ne le rend pas automatiquement plus compétent, et inversement. Pour les intégrateurs industriels et les équipes produit qui espèrent déployer ces modèles en environnement non contrôlé, ce constat tempère les promesses des démonstrations récentes : les modèles VLA actuels ne garantissent pas une opération sûre sous contraintes strictes. C'est un signal fort que les métriques de performance sur tâche sont insuffisantes pour valider un déploiement réel. LIBERO-Safety s'inscrit dans la continuité du benchmark LIBERO (Lifelong Robot Learning), initialement développé pour évaluer le transfert de tâches. L'extension safety arrive dans un contexte d'accélération marquée des VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure ont tous été présentés cette année avec des capacités de manipulation généraliste convaincantes, mais sans évaluation de sûreté systématisée. LIBERO-Safety propose une infrastructure open-source pour combler ce vide, avec un pipeline scalable permettant à d'autres équipes de générer leurs propres datasets de sécurité. Les suites naturelles incluent l'intégration de ce benchmark dans les pipelines d'évaluation des grands labos de robotique, et potentiellement son adoption comme référentiel de validation pour des déploiements industriels en production.

RecherchePaper
1 source
MobileManiBench : simplifier la vérification des modèles pour la manipulation mobile
171arXiv cs.RO 

MobileManiBench : simplifier la vérification des modèles pour la manipulation mobile

Une équipe de chercheurs a publié MobileManiBench, un benchmark à grande échelle destiné à évaluer les modèles de type VLA (Vision-Language-Action) sur des tâches de manipulation robotique mobile, avant tout déploiement réel. Le système repose sur NVIDIA Isaac Sim et un pipeline de génération automatique par apprentissage par renforcement, qui produit des trajectoires annotées incluant instructions en langage naturel, images RGB-profondeur-segmentation multi-vues, et états synchronisés objet/robot. Le dataset résultant comprend 300 000 trajectoires, couvrant 630 objets répartis en 20 catégories, 5 compétences motrices (ouvrir, fermer, tirer, pousser, saisir), plus de 100 tâches distinctes exécutées dans 100 scènes réalistes. Deux plateformes mobiles sont représentées, un robot à pince parallèle et un robot à main dextère, chacun équipé de deux caméras synchronisées (tête et poignet droit). Le code, les datasets et les modèles sont publiés en open-source. L'enjeu central que MobileManiBench cherche à résoudre est le goulot d'étranglement des données de téléopération : les VLA actuels, dont pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, sont entraînés quasi-exclusivement sur des scènes de table statiques collectées par des opérateurs humains, ce qui limite leur généralisation à des environnements mobiles et encombrés. Un framework de vérification en simulation avant déploiement réel permettrait aux équipes R&D de filtrer les architectures non viables sans mobiliser des flottes de robots physiques ni des heures de téléopération coûteuses. La génération automatique à l'échelle de 300K trajectoires diversifiées ouvre également la voie à des études contrôlées sur l'efficacité des données et la généralisation, deux variables critiques pour les intégrateurs industriels qui évaluent le coût réel d'adoption d'un VLA. Cette publication s'inscrit dans un mouvement plus large de la communauté robotique vers les approches sim-to-real, portées notamment par NVIDIA (Isaac Lab, Isaac Sim) et des labos comme Stanford, CMU et le LAAS-CNRS côté français. La manipulation mobile reste plus difficile que la manipulation sur table fixe en raison de la complexité des coordinations base-bras et de la variabilité des angles de caméra, problèmes que MobileManiBench cherche précisément à circonscrire. Les résultats comparatifs publiés sur plusieurs VLA représentatifs fournissent une base de référence utile, même si les benchmarks en simulation pure sous-estiment souvent l'écart sim-to-real : les métriques annoncées devront être validées en conditions physiques pour devenir opérationnellement significatives.

UELe LAAS-CNRS est cité parmi les laboratoires moteurs du sim-to-real ; les équipes R&D françaises évaluant des VLA pour la manipulation mobile peuvent exploiter directement ce benchmark open-source pour réduire leurs coûts de validation avant déploiement physique.

RechercheOpinion
1 source
Web2Grasp : apprendre la préhension fonctionnelle à partir d'images web d'interactions main-objet
172arXiv cs.RO 

Web2Grasp : apprendre la préhension fonctionnelle à partir d'images web d'interactions main-objet

Des chercheurs ont présenté sur arXiv (réf. 2505.05517) Web2Grasp, une méthode qui permet à des mains robotiques multi-doigts d'apprendre des saisies fonctionnelles à partir d'images web montrant des interactions main-objet humaines (HOI, hand-object interaction). Un modèle de reconstruction 3D pré-entraîné extrait des maillages HOI depuis des images RGB brutes ; un filtrage géométrique couplé à une simulation physique dans IsaacGym élimine ensuite les saisies infaisables et ne conserve que celles résistant à une perturbation externe. En simulation, le système atteint 75,8 % de réussite sur des objets tirés du dataset web et généralise à des objets non vus lors de l'entraînement. En conditions réelles, testé sur les mains robotiques LEAP Hand et Inspire Hand, il affiche 77,5 % de réussite sur 12 objets incluant des géométries difficiles : seringue, flacon spray, couteau et pince longue (tongs). L'enjeu dépasse la simple prise en main : le "functional grasping" signifie que le robot saisit l'objet comme un humain l'utiliserait (couteau par le manche, spray par le corps), contrairement aux "power grasps" génériques qui dominent encore la littérature de manipulation robotique. La quasi-totalité des approches existantes nécessite des démonstrations en domaine spécifique, coûteuses à collecter objet par objet ; Web2Grasp court-circuite ce goulot en exploitant les images web comme supervision faible à coût quasi nul. Les 77,5 % en conditions réelles sur des formes atypiques sont encourageants, mais les conditions exactes d'évaluation (orientation initiale, variabilité d'éclairage, nombre d'essais par objet) ne sont pas précisées dans le résumé, ce qui invite à consulter le papier complet avant toute conclusion sur la robustesse industrielle. La préhension fonctionnelle reste un problème ouvert : les datasets annotés manuellement comme DexYCB ou ContactPose sont onéreux à produire à grande échelle. L'exploitation d'interactions "in the wild" s'inscrit dans la tendance des VLA (vision-language-action models) comme Pi-0 ou OpenVLA, qui cherchent à réduire la dépendance aux démonstrations robotiques coûteuses. Web2Grasp s'oppose directement à des approches comme DexGraspNet ou UniDexGrasp, ainsi qu'aux pipelines basés sur la téléopération (travaux Dex-Pilot, Apple Research), en supprimant entièrement le besoin de démonstrations effectuées sur robot. La suite logique serait l'intégration dans des pipelines de manipulation complets (pick-and-place, assemblage orienté tâche) ; le site projet actif à web2grasp.github.io indique que les développements se poursuivent.

RecherchePaper
1 source
L'injection directe d'un point 3D ancré dans la tête d'action débloque la généralisation spatiale et des tâches
173arXiv cs.RO 

L'injection directe d'un point 3D ancré dans la tête d'action débloque la généralisation spatiale et des tâches

Des chercheurs ont publié fin juin 2026 (arXiv:2606.27663) une méthode légère pour améliorer la généralisation des modèles Vision-Language-Action (VLA) en manipulation robotique. Le module proposé représente le signal d'ancrage spatial en 3D, calcule son déplacement relatif au préhenseur, et injecte l'embedding résultant directement dans la tête d'action via une normalisation de couche adaptative (AdaLN). Concrètement, c'est un MLP à deux couches qui n'exige aucune modification du backbone préentraîné ni du pipeline d'entraînement. Sur le benchmark LIBERO-PRO, appliqué à GR00T-N1.6 de NVIDIA, le taux de succès moyen passe de 31,2 à 77,5 points sous perturbation de tâche (+46,3 points) et de 28,1 à 60,2 points sous perturbation de position (+32,1 points). Des gains comparables sont mesurés sur π0.5 de Physical Intelligence, ce qui valide l'approche sur deux architectures distinctes. Les VLA souffrent de deux formes structurelles de fragilité à l'inférence : la généralisation spatiale, lorsqu'un objet cible se trouve à une position non vue à l'entraînement, et la généralisation de tâche, lorsqu'une instruction légèrement reformulée dans un contexte visuel familier fait chuter la politique. Les approches précédentes par prompting textuel ou visuel avec coordonnées 2D en pixels s'avèrent insuffisantes. Ce travail identifie le vrai levier : ni la richesse du prompt, ni l'ajout de capteurs, mais la représentation 3D de l'ancrage et son point d'injection en bout de chaîne, directement dans la tête d'action. Pour les intégrateurs industriels, cela signifie qu'un VLA déjà déployé peut théoriquement être augmenté de ce module sans réentraînement complet, ouvrant la voie à des adaptations sur des lignes de production à géométrie variable. Ce résultat s'inscrit dans une course intense à la généralisation en manipulation dextère. Physical Intelligence a sorti π0 puis π0.5 sur des données multi-tâches à grande échelle ; NVIDIA déploie GR00T N1.6 et prépare GR00T N2 pour des capacités humanoïdes. D'autres méthodes d'ancrage spatial comme SpatialVLA ou RoboPoint cherchaient déjà à résoudre ce problème via des coordonnées 2D ou des cartes de profondeur ; ce travail tranche le débat en faveur de la 3D injectée en bout de chaîne. À ce stade, c'est un résultat de recherche validé uniquement en simulation sur LIBERO-PRO ; le passage au réel, sur des robots physiques en environnement industriel, reste à démontrer.

💬 Deux couches de MLP bien placées, et ton VLA passe de 31 à 77% de succès sous perturbation de tâche. Le vrai insight du papier, c'est que le problème venait pas du manque de données ou de capteurs, mais de l'endroit où injecter le signal 3D dans la chaîne. Bon, c'est encore de la simulation, mais comme preuve de concept validée sur GR00T et π0.5 en même temps, c'est difficilement contestable.

IA physiqueOpinion
1 source
FailSafe : raisonnement et récupération face aux défaillances dans les modèles VLA
174arXiv cs.RO 

FailSafe : raisonnement et récupération face aux défaillances dans les modèles VLA

Une équipe de chercheurs a publié FailSafe, un système de génération automatique de scénarios d'échec et d'actions de récupération pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. Présenté dans un preprint arXiv (v3, 2026), le système s'appuie sur LLaVA-OneVision-7B, un modèle de 7 milliards de paramètres affiné pour détecter des pannes en cours de tâche et produire des actions correctives exécutables, donnant naissance à FailSafe-VLM. Les évaluations conduites dans le simulateur ManiSkill montrent que cette couche de récupération améliore en moyenne jusqu'à 22,6% les performances de trois architectures VLA de référence : Pi-0-FAST (Physical Intelligence), OpenVLA et OpenVLA-OFT. Le système se généralise à différentes configurations spatiales, angles de caméra, objets manipulés et morphologies de bras robotiques. L'enjeu est structurel : les datasets de manipulation robotique existants, simulés ou réels, se limitent presque exclusivement à des trajectoires correctes. Un robot entraîné sur ces données ne dispose d'aucun mécanisme pour se remettre d'une prise ratée, d'un objet déplacé ou d'une perturbation imprévue. FailSafe comble ce vide en générant automatiquement, à partir de tâches existantes et d'un planificateur de mouvement, des paires (échec, action de récupération) annotées et directement exploitables en fine-tuning. Pour les équipes R&D et les intégrateurs, c'est une brique scalable sans collecte de données humaines supplémentaire. Le gain de 22,6% reste toutefois un delta relatif sur plusieurs tâches en simulation, et les auteurs ne rapportent aucun test en conditions physiques réelles : le sim-to-real gap pour les scénarios d'échec eux-mêmes reste une question ouverte. Les VLA représentent la convergence des grands modèles de vision-langage avec la commande motrice basse-fréquence, un axe de recherche en forte croissance depuis 2023. Pi-0 de Physical Intelligence, OpenVLA développé par Berkeley et Stanford, et leurs variantes constituent aujourd'hui le benchmark dominant dans ce domaine. FailSafe se positionne non comme un nouveau modèle de base, mais comme une surcouche de robustesse greffable sur ces architectures existantes, une approche pragmatique qui évite de repartir de zéro. Les quelques datasets existants traitant de la détection d'échec se limitaient à des explications textuelles difficilement exploitables directement par un VLA, ce que FailSafe résout en produisant des actions exécutables. La prochaine étape logique sera une validation hors simulateur, notamment sur des manipulateurs industriels réels, pour confirmer si les scénarios synthétiques d'échec transfèrent effectivement au monde physique.

💬 Entraîner les VLA uniquement sur des trajectoires réussies crée un angle mort structurel : le modèle n'a jamais appris à se planter ni à se rattraper. FailSafe résout ça sans collecte humaine supplémentaire, et c'est là la vraie valeur ajoutée. Le +22,6% en simulateur, c'est encourageant, mais le sim-to-real sur des scénarios d'échec reste entier.

IA physiqueOpinion
1 source
Combiner supervision manuelle et par téléopération pour la manipulation riche en contacts via des experts guidés par l'état
175arXiv cs.RO 

Combiner supervision manuelle et par téléopération pour la manipulation riche en contacts via des experts guidés par l'état

Une équipe de chercheurs publie sur arXiv (réf. 2606.26603) une méthode hybride de collecte de données pour la manipulation robotique en contact, baptisée BRIDGE (Bi-modal Routing for Imitation Data via Gated Experts). L'approche combine deux modalités d'apprentissage par imitation: les systèmes portables de type UMI (Universal Manipulation Interface), qui permettent une collecte à grande échelle mais ne capturent que des "actions observées" depuis le démonstrateur humain, et la téléopération, qui fournit des "actions désirées" directement exploitables par le contrôleur robot, mais dont la collecte est coûteuse en temps. Sur trois tâches de manipulation riche en contacts, BRIDGE améliore le taux de succès jusqu'à 36,7% par rapport à une politique entraînée uniquement sur données portables. L'architecture repose sur un mélange d'experts en diffusion policy, routés dynamiquement selon la phase de tâche courante détectée à partir de l'état du robot. Le résultat le plus contre-intuitif mérite attention: mélanger naïvement des données portables et des démonstrations de téléopération dégrade les performances par rapport aux données portables seules. Ce n'est qu'en ségréguant explicitement les deux sources via un routeur conditionné sur l'état robot que le gain émerge. Pour les ingénieurs et intégrateurs en robotique industrielle, cela pointe une réalité souvent ignorée: la qualité de la supervision varie selon la phase de tâche, et une augmentation de données mal calibrée peut nuire à la politique apprise. En phase libre, les trajectoires portables sont valides; en phase de contact, le suivi de trajectoires observées à haute rigidité génère des forces de contact importantes et potentiellement dangereuses. BRIDGE résout ce mismatch sans exiger une téléopération complète de la tâche, réduisant significativement le coût de collecte tout en ciblant les segments réellement critiques. Le système UMI, issu des travaux de Cheng Chi et al. (Stanford/Columbia), s'est imposé comme référence pour la collecte scalable en manipulation; les diffusion policies, popularisées par ces mêmes travaux en 2023, forment le socle algorithmique de BRIDGE. Dans le panorama actuel de l'imitation learning, cette recherche se positionne face à des approches à grande échelle comme les VLA (pi-0 de Physical Intelligence, OpenVLA, GR00T N2 de NVIDIA), qui misent sur des volumes massifs de données hétérogènes. BRIDGE fait un pari différent: la qualité ciblée plutôt que l'échelle brute. Il s'agit d'une prépublication arXiv, non encore évaluée par les pairs, et les trois tâches testées restent des benchmarks de laboratoire. La généralisation à des environnements industriels réels, avec variabilité de pièces et contraintes de cycle time, reste entièrement à démontrer.

RecherchePaper
1 source
Clonage comportemental à grande échelle : données ouvertes, entraînement et évaluation
176arXiv cs.RO 

Clonage comportemental à grande échelle : données ouvertes, entraînement et évaluation

Une équipe de chercheurs a publié fin juin 2026 ABC, une infrastructure entièrement open-source dédiée à la manipulation robotique par behavior cloning. La pièce centrale est ABC-130K, actuellement le plus grand jeu de données de téléopération en accès libre : 3 500 heures de données réparties sur plus de 130 000 épisodes couvrant 195 tâches distinctes. En complément, les auteurs publient un setup matériel accessible, une infrastructure d'entraînement, un pipeline de simulation, et 400 heures supplémentaires de données de téléopération simulée. Les politiques entraînées sur ce corpus exécutent des tâches de dextérité fine comme le pliage de boîtes cartonnées ou l'extraction de cartes de crédit depuis un portefeuille. L'enjeu principal est celui de la reproductibilité et de l'équité dans la recherche en apprentissage par imitation. Jusqu'ici, les grandes équipes bénéficiaient d'un accès privilégié à des datasets propriétaires massifs, creusant l'écart avec les laboratoires académiques plus modestes. ABC propose une recette de co-entraînement simulation/réel corrélée qui permet de comparer les choix architecturaux (DiT, Diffusion Transformer, ou VLA, Vision-Language-Action) avant toute évaluation réelle coûteuse, ce qui représente un gain de temps et de budget substantiel pour les intégrateurs. La corrélation sim-to-real est cependant validée sur un périmètre limité de tâches de table-top et non sur des scénarios industriels complexes : les auteurs proposent un proxy fiable, pas une solution universelle. Le behavior cloning, qui consiste à apprendre une politique directement à partir de démonstrations humaines sans modéliser de fonction de récompense, a connu un regain d'intérêt depuis les travaux de Stanford sur Diffusion Policy en 2023 et l'émergence des architectures VLA comme pi0 de Physical Intelligence ou OpenVLA. Dans cet espace concurrentiel, où Physical Intelligence, Google DeepMind et 1X Technologies publient des datasets propriétaires ou des modèles partiellement ouverts, ABC se positionne comme une alternative entièrement libre visant à démocratiser la recherche en manipulation. Les suites naturelles incluent l'extension à des morphologies robotiques variées et à des tâches bi-manuelles, qui restent hors du périmètre actuel de la plateforme.

UELes laboratoires académiques européens (INRIA, CEA-List) et start-ups de manipulation peuvent exploiter directement ABC-130K et son pipeline sim-to-real open-source pour réduire l'écart de données avec les grandes équipes disposant de datasets propriétaires.

💬 130 000 épisodes de téléopération en open source, c'est le genre de ressource qu'on attendait depuis que Physical Intelligence a commencé à verrouiller ses données. L'écart entre les grandes équipes et les labos académiques en manipulation robotique, c'était un écart de données avant d'être un écart d'algorithmes, et ABC s'attaque frontalement à ça. La corrélation sim-to-real tient sur du tabletop, pas sur de l'industriel complexe, mais c'est déjà un proxy solide pour choisir son archi avant de dépenser sur du vrai matériel.

IA physiqueActu
1 source
Un jeu de données imprimable en 3D pour évaluer et comparer objectivement les capteurs tactiles
177arXiv cs.RO 

Un jeu de données imprimable en 3D pour évaluer et comparer objectivement les capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.25886, juin 2026) un jeu de données ouvert de textures imprimables en 3D, conçu spécifiquement pour évaluer et comparer les capteurs tactiles de manière reproductible. Le dataset comprend six motifs de surface générés paramétriquement à partir de combinaisons de fonctions sinusoïdales et de séries de Fourier, offrant une variation contrôlée en fréquence spatiale, amplitude et structure directionnelle. Ces textures ont été évaluées sur trois imprimantes 3D grand public et plusieurs types de filaments, en mesurant la variance des empreintes capturées par un capteur optique TacTip sous conditions de contact contrôlées. Des expériences de classification ont ensuite été menées avec des réseaux de neurones et des modèles PCA. Le problème que ce travail cherche à résoudre est fondamental pour la communauté de la robotique haptique : jusqu'ici, les benchmarks de perception tactile dépendaient des lectures d'un capteur spécifique interagissant avec des surfaces disponibles en laboratoire, rendant toute comparaison inter-capteurs structurellement biaisée. Ce dataset brise ce verrou en définissant les textures de manière mathématique plutôt que physique, ce qui permet leur fabrication indépendante dans n'importe quel laboratoire équipé d'une imprimante FDM. Les résultats montrent toutefois une limite importante : la généralisation intra-imprimante est robuste, mais la généralisation inter-imprimantes reste difficile en raison d'inconsistances géométriques liées à la qualité d'impression, notamment la netteté des pics et le phénomène de "stringing". Les imprimantes haut de gamme produisent des signatures tactiles significativement plus cohérentes. La perception tactile reste l'un des sens les moins standardisés en robotique, contrairement à la vision où des benchmarks comme YCB ou LINEMOD sont devenus des références universelles. Des plateformes comme le TacTip (Bristol Robotics Lab) ou le GelSight (MIT) ont chacune développé leurs propres protocoles d'évaluation, sans base commune. Ce dataset constitue, selon les auteurs, le premier benchmark tactile physiquement reproductible et ouvertement disponible. Les prochaines étapes naturelles concernent l'extension à des matériaux aux propriétés mécaniques variées (rigidité, élasticité) et l'intégration à des pipelines de manipulation robotique où la discrimination de texture conditionne la stratégie de saisie.

UELes laboratoires français et européens travaillant sur la perception haptique (INRIA, CEA-List, laboratoires universitaires) peuvent adopter ce benchmark ouvert pour standardiser leurs évaluations de capteurs tactiles, mais aucun acteur européen n'est directement impliqué dans ce travail.

RecherchePaper
1 source
DSP-SLAM++ : un cadre unifié pour le SLAM d'objets multi-classes haute fidélité en conditions réelles
178arXiv cs.RO 

DSP-SLAM++ : un cadre unifié pour le SLAM d'objets multi-classes haute fidélité en conditions réelles

Des chercheurs du laboratoire AUBVRL ont publié sur arXiv le 25 juin 2026 DSP-SLAM++, une extension du système DSP-SLAM conçue pour cartographier simultanément plusieurs classes d'objets en temps réel avec une fidélité géométrique élevée. Le système repose sur un pipeline de cartographie asynchrone, où le thread de mapping tourne indépendamment du thread de suivi, ce qui permet de traiter des séquences multi-classes à 25 Hz sans bloquer l'ensemble du pipeline. Couplé à une suite sensorielle fisheye monoculaire et LiDAR, DSP-SLAM++ réduit la latence maximale de traitement des objets jusqu'à 70 % par rapport à la baseline DSP-SLAM d'origine, tout en produisant des reconstructions 3D géométriquement complètes pour chaque objet détecté. Le code est disponible en open source sur GitHub (AUBVRL/DSP-SLAMpp). Ce résultat compte parce que le trilemme classique du SLAM orienté objets, choisir entre temps réel, support multi-classes et fidélité des modèles 3D, restait non résolu dans les systèmes existants. Un gain de 70 % sur la latence maximale (et non sur une latence moyenne, détail important) signifie que les cas extrêmes, ceux qui gelaient le thread de cartographie sur des scènes denses, sont maîtrisés. Pour un intégrateur qui équipe un véhicule autonome ou un bras de manipulation, c'est la différence entre un système testé en labo et un système opérationnel sur plateforme embarquée réelle. L'adaptation fisheye-LiDAR est également stratégique : ce binôme est devenu la configuration standard en robotique terrain et en conduite autonome niveau 2-3, là où les caméras rectilignes coûtent en champ de vue. DSP-SLAM, le prédécesseur direct, était lui-même une extension de SuperPoint SLAM publiée autour de 2021-2022 et avait démontré la viabilité des représentations implicites par réseaux de formes (DeepSDF-style) pour le SLAM objet, mais butait sur les performances en environnements multi-classes et multi-capteurs. Dans l'espace concurrent, on trouve EAO-SLAM, OrcVIO ou encore les approches NeRF-SLAM (iMAP, NICE-SLAM), qui privilégient la reconstruction de scènes complètes au détriment de la sémantique par objet. DSP-SLAM++ se positionne donc sur le créneau précis de la granularité objet à haute fidélité en temps réel, créneau directement utile pour la manipulation robotique (pick-and-place avec modèle 3D précis) et la détection d'obstacles typés en conduite autonome. Les prochaines étapes logiques incluent l'extension à des classes ouvertes via des fondations visuelles (SAM, DINO) et les tests sur plateformes embarquées contraintes comme Jetson Orin.

UELe code open source disponible sur GitHub est directement exploitable par les intégrateurs européens en robotique terrain et conduite autonome, sans dépendance commerciale envers un fournisseur tiers.

RecherchePaper
1 source
Action ControlNet : un adaptateur léger sensible aux délais pour un contrôle asynchrone fluide dans les modèles VLA
179arXiv cs.RO 

Action ControlNet : un adaptateur léger sensible aux délais pour un contrôle asynchrone fluide dans les modèles VLA

Des chercheurs ont mis en ligne le 25 juin 2026 sur arXiv (réf. 2606.25985) Action ControlNet (ACNet), un adaptateur léger pour modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. Le problème ciblé : les VLA génèrent des actions par blocs ("chunks"), mais leur latence d'inférence impose une exécution asynchrone, c'est-à-dire que le robot continue à bouger pendant que le modèle calcule le chunk suivant. La jonction entre deux chunks produit alors des discontinuités (jitter d'action, ruptures de trajectoire) qui dégradent les performances, particulièrement dans les tâches en contact (assemblage, insertion). ACNet insère un module adaptateur qui conditionne la prédiction du prochain chunk sur le "motion suffix" déjà exécuté, permettant une transition cohérente avec l'état réel du robot au moment du handoff. Le backbone préentraîné reste figé ; seul l'adaptateur est entraîné, avec peu de paramètres supplémentaires. La méthode est compatible avec les têtes d'action de type diffusion et flow matching. Les évaluations couvrent les simulateurs Kinetix et Meta-World MT50 (50 tâches variées) ainsi qu'un bras réel SO-ARM101 ; ACNet surpasse le chunk stitching direct en fluidité et robustesse sous délai d'inférence, et reste plus léger qu'un réentraînement complet "delay-conditioned". Ce résultat intéresse directement les équipes de déploiement robotique : il propose une correction modulaire de l'asynchronisme sans toucher aux modèles de base. Les VLA de grande taille, notamment Pi-0 (Physical Intelligence), OpenVLA et Octo, souffrent tous du même problème ; une solution par adaptateur plug-in réduit sensiblement le coût d'adaptation. La compatibilité déclarée avec les têtes diffusion et flow matching couvre la majorité des architectures VLA actuelles, ce qui élargit la portée pratique. Nuance à retenir : les tests réels se limitent à un seul bras manipulateur à effecteur unique ; la généralisation à des configurations multi-bras ou à charge variable en environnement industriel reste à démontrer, et les benchmarks simulés ne reproduisent pas la complexité des lignes de production. Le problème de latence d'inférence dans les VLA est documenté depuis RT-2 (Google DeepMind, 2023) et a motivé des travaux comme Diffusion Policy et ACT (Action Chunking with Transformers). Les solutions existantes exigeaient soit un réentraînement complet du modèle avec conditionnement sur le délai, soit une logique de runtime spécifique à chaque architecture, deux contraintes qui freinent l'adoption industrielle. ACNet se positionne comme une alternative plus légère et plus générique. Dans l'écosystème concurrent, Physical Intelligence, Figure AI (Figure 03), 1X Technologies et Agility Robotics travaillent tous sur des pipelines VLA haut débit pour leurs plateformes humanoïdes et manipulateurs ; une intégration dans des frameworks open-source comme Lerobot (Hugging Face) pourrait accélérer le passage de la démonstration au déploiement réel. Ce preprint ne mentionne ni partenariat industriel ni timeline commercial.

UEUne intégration potentielle dans Lerobot (Hugging Face, Paris) pourrait permettre aux équipes R&D robotique européennes d'adopter cette correction d'asynchronisme sans réentraîner leurs modèles VLA de base.

💬 Le jitter entre chunks dans les VLA, tout le monde le subit depuis RT-2, et les fixes existants exigeaient de réentraîner le modèle complet. ACNet contourne ça avec un adaptateur qui conditionne le chunk suivant sur ce que le bras a déjà bougé, sans toucher le backbone. Un seul bras testé en vrai, donc l'industrie attendra, mais si ça rentre dans Lerobot, c'est une correction plug-in que les équipes vont adopter vite.

IA physiqueActu
1 source
Mouvement primitif en robotique : une étude approfondie
180arXiv cs.RO 

Mouvement primitif en robotique : une étude approfondie

Publiée sur arXiv sous l'identifiant 2601.02379v2, une revue encyclopédique sur les movement primitives en robotique recense et compare l'ensemble des cadres théoriques développés ces trente dernières années pour représenter les trajectoires de contrôle de robots à partir de démonstrations humaines. Ces primitives de mouvement, blocs élémentaires de motion analogues aux phonèmes du langage, permettent à un système autonome de décomposer un geste complexe en segments réutilisables et recombinables. Les approches couvertes incluent les Dynamic Movement Primitives (DMP), formulés comme des systèmes dynamiques de type amortisseur-ressort, les Probabilistic Movement Primitives (ProMP) couplant statistiquement plusieurs démonstrations, et les extensions neuronales adaptées aux espaces d'état de haute dimension. La revue présente ces frameworks en ordre chronologique, évalue leurs forces et faiblesses, et identifie des applications concrètes : saisie d'objets, mouvements balistiques, enchaînements de tâches en manipulation robotique. Pour les praticiens (intégrateurs, équipes R&D en manipulation, COO industriels), cette synthèse positionne les primitives de mouvement comme une couche intermédiaire critique entre démonstration brute et politique généraliste de bout en bout. Elles permettent le transfert de compétences motrices sans rejeu complet des données d'entraînement et restent interprétables, contrairement aux architectures VLA (Vision-Language-Action) comme π0 de Physical Intelligence ou OpenVLA. La revue souligne en particulier des défis non résolus que ces dernières n'ont pas encore surmontés à l'échelle industrielle : segmentation automatique des démonstrations, passage à l'échelle en environnements non structurés, et couplage de contraintes en temps réel. Les primitives de mouvement ont émergé au début des années 2000 avec les travaux d'Auke Ijspeert, Jun Nakanishi et Stefan Schaal sur les DMP, puis étendues par Paraschos et al. avec les ProMP en 2013. Le champ s'est depuis fragmenté en nombreuses variantes sans synthèse unifiée. Face aux approches purement neuronales (ACT, Diffusion Policy) popularisées par les groupes de Sergey Levine et Chelsea Finn, les primitives se repositionnent comme solution modulaire et interprétable. Les auteurs identifient leur intégration dans des architectures de type foundation model pour la robotique comme prochaine étape structurante, un axe qui mobilise des acteurs aux États-Unis (Boston Dynamics AI Institute, CMU) comme en Europe (DLR, LAAS-CNRS).

UELAAS-CNRS est explicitement identifié comme un acteur européen clé sur l'intégration des primitives de mouvement dans les architectures foundation model pour la robotique, ce qui positionne la recherche française au cœur d'un axe stratégique face aux approches VLA purement neuronales.

RecherchePaper
1 source
TactSpace : apprendre un espace latent partagé enrichi par la physique pour le transfert sim-vers-réel tactile
181arXiv cs.RO 

TactSpace : apprendre un espace latent partagé enrichi par la physique pour le transfert sim-vers-réel tactile

Une équipe de recherche a publié sur arXiv (identifiant 2606.18959) TactSpace, un cadre d'apprentissage de représentations multi-modales conçu pour résoudre l'un des verrous majeurs de la manipulation robotique : le transfert sim-to-real des capteurs tactiles. Le problème est structurel : les simulateurs actuels sont incapables de reproduire fidèlement la mécanique de déformation et de transduction des capteurs tactiles physiques, rendant inutilisables en conditions réelles les politiques entraînées en simulation. TactSpace contourne ce problème en alignant des modalités tactiles hétérogènes dans un espace latent partagé, sans jamais avoir besoin de simuler le signal brut du capteur. Des encodeurs spécifiques à chaque modalité projettent des observations aussi différentes que la profondeur de pénétration simulée et la capacitance mesurée sur un capteur réel dans un embedding commun. L'entraînement combine des objectifs de reconstruction croisée et d'alignement contrastif. Évalué sur trois tâches, identification de formes d'indenteur, prédiction de force et reconstruction géométrique, le système entraîné exclusivement en simulation transfère directement sur des mesures réelles sans fine-tuning : zéro-shot. Les gains mesurés atteignent 16,7 % de réduction d'erreur en prédiction de force et 45,8 % en reconstruction de forme par rapport aux baselines. Ces résultats adressent un goulot d'étranglement critique pour l'ensemble de la robotique de manipulation dextre. Le tactile est indispensable pour les tâches d'assemblage fin, de tri délicat ou de manipulation d'objets déformables, segments où les bras industriels classiques butent faute de retour de contact fiable. Jusqu'ici, la difficulté à simuler correctement les capteurs tactiles forçait soit à collecter massivement des données réelles, coûteuses et lentes, soit à se passer du tactile. TactSpace propose une troisième voie : accepter que simulation et réalité restent physiquement dissemblables, et apprendre malgré tout des représentations invariantes aux modalités mais riches en information de contact. La publication accompagne le code d'une implémentation Warp-based du simulateur tactile pénalité intégrée à Isaac Lab, la plateforme de simulation physique de NVIDIA, ce qui ouvre la génération de données tactiles scalable à la communauté. Le contexte de cette recherche s'inscrit dans une effervescence autour des capteurs tactiles à haute résolution, portée notamment par GelSight (MIT, aujourd'hui GelSight Inc.), DIGIT (Meta AI) et les capteurs capacitifs embarqués dans plusieurs plateformes humanoïdes. Isaac Lab, qui sert de base à ce travail, est devenu un standard de facto pour l'entraînement de politiques robotiques en simulation, utilisé par Figure, 1X et Agility entre autres. TactSpace reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme physique commerciale. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation réelles bout-en-bout et une intégration dans des pipelines Vision-Language-Action (VLA) où le retour tactile pourrait renforcer la robustesse en conditions industrielles.

RecherchePaper
1 source
Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée
182Pandaily 

Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée

Alibaba a publié mardi la suite Qwen-Robot, sa première famille de modèles d'IA incarnée, destinée à relier les grands modèles de langage à l'action robotique dans le monde physique. La suite comprend trois modèles : Qwen-RobotNav pour la navigation visuo-langagière, entraîné sur 15,6 millions d'échantillons en unifiant instruction following, navigation par cible et suivi d'objets ; Qwen-RobotManip pour la manipulation robotique via une architecture VLA (Visual Language Action) basée sur un backbone Qwen3.5-4B VL couplé à une tête de diffusion par flow matching, entraîné sur plus de 38 100 heures de données issues exclusivement de sources open source ; et Qwen-RobotWorld, un modèle de monde prédit des futurs physiquement cohérents pour la manipulation, la conduite et la navigation via une interface en langage naturel. La démonstration centrale met en scène un robot quadrupède Unitree Go2 sur hardware NVIDIA Jetson Thor, équipé d'une unique caméra basse résolution : sans cartographie préalable, il navigue dans un appartement inconnu en suivant des instructions verbales, avec une latence d'inférence de 196 millisecondes. Alibaba a également présenté Qwen-RobotClaw, un framework agent permettant aux modèles Qwen VLM d'appeler les outils Qwen-Robot pour gérer des tâches longues et la mémoire de contexte, et mis en open source Chat2Robot, une plateforme d'évaluation navigateur supportant Qwen-RobotManip sur 50 tâches via le dataset RoboTwin-Clean. Pour les intégrateurs et décideurs industriels, deux points méritent attention. L'entraînement de Qwen-RobotManip exclusivement sur des données open source est un choix architectural significatif : il abaisse les barrières de reproduction et contourne le verrou des données propriétaires qui bloque nombre d'acteurs du secteur. La latence de 196 ms sur Jetson Thor illustre la viabilité de l'inférence embarquée pour la navigation, même si cette performance a été mesurée dans un environnement contrôlé et non en production industrielle. La robustesse à grande échelle reste à démontrer : les vidéos présentées constituent une preuve de concept, pas un déploiement validé. L'architecture Qwen-RobotClaw adresserait un problème concret si elle tient ses promesses en production : la gestion de tâches multi-étapes sans reprogrammation manuelle, qui reste le verrou central de l'adoption robotique en environnements non structurés. Alibaba entre tardivement dans l'espace des modèles de fondation robotiques face à des acteurs déjà positionnés : Physical Intelligence (pi0, levée de 400 M$ en 2024), Figure AI (Figure 03, partenariat BMW), Google DeepMind et NVIDIA avec GR00T N2. En Chine, Unitree (fournisseur du Go2 de la démo), Zhiyuan Robot et Agibot développent leurs propres stacks logicielles embarquées. En Europe, Enchanted Tools et Pollen Robotics avancent sur des plateformes collaboratives, mais sans modèle VLA de cette envergure à ce stade. Les prochaines étapes annoncées incluent l'extension de Chat2Robot à de nouvelles plateformes et tâches robotiques, ainsi qu'une intégration commerciale potentielle via Alibaba Cloud.

UEL'entrée d'Alibaba avec une suite VLA entraînée sur données open source creuse l'écart technologique avec les acteurs européens (Enchanted Tools, Pollen Robotics) qui ne disposent pas encore de modèles de fondation robotiques comparables, même si la stack open source pourrait leur servir de base de développement.

Chine/AsieOpinion
1 source
ATOM-Bench : un benchmark réel pour les compétences atomiques et la généralisation compositionnelle dans les politiques de manipulation
183arXiv cs.RO 

ATOM-Bench : un benchmark réel pour les compétences atomiques et la généralisation compositionnelle dans les politiques de manipulation

Une équipe de chercheurs a publié ATOM-Bench, un benchmark de terrain conçu pour évaluer les politiques de manipulation robotique sur deux dimensions distinctes : l'acquisition de compétences atomiques et la généralisation compositionnelle. Le dispositif décompose la manipulation sur table en "atomes moteurs" (précision de préhension, trajectoire du poignet, force de contact) et en "atomes d'instruction" (comptage, filtrage logique, ancrage sémantique). Il comprend 30 tâches atomiques et 24 tâches compositionnelles inédites, testées sur des configurations bras unique et bras double. Les auteurs ont collecté 3 000 démonstrations humaines pour le fine-tuning et effectué 2 700 rollouts physiques sur cinq politiques de manipulation représentatives. Les métriques introduites, l'Atomic Score (AS) et le Compositional Failure Share (CFS), permettent d'isoler la source d'un échec : exécution moteur défaillante, mauvais ancrage instruction, ou incapacité à recombiner des compétences acquises. Les résultats remettent en cause un postulat courant dans le secteur : que des politiques performantes sur des tâches atomiques généralisent naturellement à des tâches compositionnelles. Ce n'est pas le cas. Malgré des scores atomiques corrects sur l'ancrage d'instructions simples, les modèles testés échouent systématiquement sur le comptage, le filtrage logique et les atomes moteurs fins. Plus significatif encore, une bonne performance atomique ne prédit pas fiablement la réussite sur les tâches compositionnelles hors distribution. Pour un intégrateur ou un décideur industriel, cela signifie que les benchmarks classiques sur tâches démontrées surestiment largement la robustesse opérationnelle des politiques dites "généralistes". ATOM-Bench s'inscrit dans un contexte où les politiques VLA (Vision-Language-Action) comme pi0 (Physical Intelligence), Octo, ou OpenVLA sont présentées comme des fondations universelles pour le contrôle robotique. Ce cadre d'évaluation comble l'absence de protocole standardisé pour tester la composabilité des compétences, un angle mort identifié depuis les travaux sur l'abstraction hiérarchique en RL. Les données de démonstration et les rollouts d'évaluation sont publiés en open access pour permettre une comparaison reproductible entre équipes. La prochaine étape logique serait d'intégrer ATOM-Bench comme protocole de validation dans les pipelines de fine-tuning des acteurs du secteur, notamment pour qualifier des déploiements réels en environnement industriel non contrôlé.

UELes laboratoires et intégrateurs européens travaillant sur des politiques de manipulation robotique peuvent adopter ATOM-Bench comme protocole de validation open-access pour qualifier la robustesse réelle de leurs systèmes avant déploiement industriel.

RecherchePaper
1 source
Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé
184arXiv cs.RO 

Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé

Publiés sur arXiv en juin 2026 (arXiv:2606.14153), des chercheurs présentent un diagnostic simple aux conclusions contre-intuitives : l'encodeur visuel le plus performant sur un petit modèle VLA (Vision-Language-Action) ne l'est pas nécessairement sur un modèle plus grand. Pour le démontrer, l'équipe a développé un protocole de "greffe à backbone gelé" (frozen-backbone grafting), consistant à remplacer la tour visuelle d'un VLA publié par un encodeur candidat, tout en maintenant gelés le modèle de langage et l'expert d'action. Quatre encodeurs ont été testés sur deux backbones : SmolVLA-450M et π₀.₅-3.3B de Physical Intelligence, sur deux suites de benchmarks LIBERO, avec 40 runs de greffe principaux évalués par MSE d'action hors-ligne. Résultat : SigLIP (Google) domine sur SmolVLA pour les deux suites, tandis que sur π₀.₅, c'est DINOv2-small (Meta) qui prend la tête sur la suite spatiale, avec une quasi-égalité sensible aux seeds sur la suite objets. Sur 3 comparaisons backbone-suite sur 4, et 11 cellules sur 12 au niveau des seeds, les classements s'avèrent backbone-dépendants. Ce résultat remet en question une pratique courante dans la communauté VLA : hériter l'encodeur visuel d'un VLM upstream sans vérifier si ce choix tient à l'échelle cible. Le diagnostic révèle également que le protocole de greffe lui-même n'est pas neutre : il introduit un biais asymétrique de +45 à 56% de MSE sur la tour native de SmolVLA, mais de -50 à 52% sur π₀.₅, ce qui conditionne fortement l'interprétation des résultats. Pour les équipes qui construisent des VLAs à grande échelle, cela signifie concrètement qu'une ablation menée sur un backbone 450M ne prédit pas le classement sur un 3,3B, un surcoût de validation qui change structurellement les pipelines d'expérimentation. Les VLAs sont aujourd'hui au coeur de la robotique apprise de bout-en-bout, incarnés par des modèles phares comme π₀ et π₀.₅ de Physical Intelligence, GR00T N2 de NVIDIA ou encore OpenVLA. LIBERO, la suite utilisée ici pour la manipulation robotique en simulation, est un benchmark standard du champ. Les auteurs positionnent explicitement la greffe gelée comme un outil diagnostique pré-engagement à faible coût, à utiliser avant de figer le choix d'encodeur sur un backbone cible, et non comme une méthode de déploiement en boucle fermée. C'est une contribution méthodologique qui devrait modifier la façon dont les équipes structurent leurs campagnes d'ablation d'encodeurs dans la course aux VLAs à grande échelle.

UELes équipes européennes travaillant sur des VLAs (labs INRIA, CEA-List, startups robotique FR) peuvent intégrer le protocole de greffe gelée comme outil diagnostique à faible coût avant de figer le choix d'encodeur sur leur backbone cible.

RechercheActu
1 source
Un modèle fondation VLA pragmatique
185arXiv cs.RO 

Un modèle fondation VLA pragmatique

LingBot-VLA est un modèle fondation de type Vision-Language-Action (VLA) publié en janvier 2026 sur arXiv (v3), conçu pour la manipulation robotique sur bras duals. Entraîné sur environ 20 000 heures de données réelles issues de 9 configurations distinctes de robots bi-bras, le modèle a été évalué sur 3 plateformes robotiques différentes, chacune complétant 100 tâches avec 130 épisodes de post-entraînement par tâche. Sur le plan de l'efficacité computationnelle, la codebase développée atteint un débit de 261 échantillons par seconde sur un cluster de 8 GPU, représentant une accélération de 1,5 à 2,8 fois selon le VLM de base choisi. Le code, le modèle de base et les données de benchmark sont publiés en open access. Ce travail s'attaque à l'un des verrous structurels des VLA en production : la généralisation croisée entre tâches et entre plateformes, couplée à un coût d'adaptation acceptable en données et en GPU-heures. Le fait que le modèle surpasse ses concurrents sur 100 tâches distinctes par plateforme, avec seulement 130 épisodes de fine-tuning, indique que le sim-to-real gap et l'adaptation à de nouveaux morphologies de bras sont partiellement résolus dans ce cadre, du moins pour la manipulation bi-bras. Pour un intégrateur industriel ou un équipementier, c'est un signal concret : l'écart entre démo labo et déploiement réel se réduit sur des tâches structurées, même si les conditions de benchmark restent contrôlées et méritent d'être vérifiées en environnement ouvert. La course aux VLA généralisables oppose aujourd'hui plusieurs approches : Pi-0 de Physical Intelligence sur des données hétérogènes multi-robots, OpenVLA et Octo comme baselines open-source établies, et GR00T N2 de NVIDIA ciblant l'humanoïde. LingBot-VLA se positionne sur le segment bi-bras industriel, avec une volumétrie de données réelles supérieure à la plupart des travaux publiés et un accent explicite sur l'efficacité d'entraînement, ce qui le rend pertinent pour des laboratoires sans infrastructure cloud massive. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit d'une contribution académique avec ouverture du code, dont les suites dépendront de l'adoption communautaire et d'éventuels partenariats industriels non encore divulgués.

UELes laboratoires et intégrateurs européens sans infrastructure cloud massive peuvent adopter directement le modèle et les données open-access pour accélérer leurs travaux de manipulation bi-bras.

💬 130 épisodes pour adapter le modèle à un nouveau robot, c'est un seuil qu'on n'osait pas espérer il y a deux ans. L'open access complet du modèle, du code et des données, c'est ça la vraie nouvelle, parce que les labos sans infrastructure cloud massive peuvent maintenant entrer dans la course face à NVIDIA et Physical Intelligence. Reste à voir si ça tient hors benchmark.

IA physiqueOpinion
1 source
Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques
186arXiv cs.RO 

Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques

MiDiGap (Mixture of Discrete-time Gaussian Processes) est une méthode d'apprentissage par imitation pour la manipulation robotique, publiée en mai 2025 en preprint arXiv (2505.03296v2) par des chercheurs de l'Université de Fribourg-en-Brisgau. Elle apprend des politiques de contrôle à partir de seulement cinq démonstrations, en utilisant uniquement des observations caméra, et converge en moins d'une minute sur CPU standard. Le spectre de tâches couvert est large: comportements à longue horizon comme préparer un café, mouvements très contraints comme ouvrir une porte, actions dynamiques comme manier une spatule, et tâches multimodales comme accrocher une tasse. Sur le benchmark simulé RLBench, la méthode affiche un gain de 76 points de pourcentage de succès sur les tâches contraintes, réduit le coût de trajectoire de 67%, et progresse de 48 points sur les tâches multimodales avec une efficacité d'échantillonnage multipliée par 20. En transfert cross-embodiment, c'est-à-dire l'adaptation d'une politique à un robot de morphologie différente sans réentraînement complet, le taux de succès est plus que doublé. Le code est publié en open-source. L'enjeu principal est le coût d'entrée à l'apprentissage par imitation. Les architectures actuellement dominantes, Diffusion Policy (Columbia), ACT (Stanford/Berkeley) ou les VLA comme Pi-0 de Physical Intelligence, nécessitent des milliers de démonstrations et des ressources GPU conséquentes. Une méthode compétitive opérant sur CPU en moins d'une minute élargit concrètement l'accès aux intégrateurs et PME robotiques sans infrastructure ML dédiée. La fonctionnalité de pilotage à l'inférence (inference-time steering) est aussi notable: en injectant des signaux de collision ou des contraintes cinématiques du robot directement à l'inférence, sans réentraînement, MiDiGap permet une adaptation dynamique aux contraintes physiques réelles, propriété rare dans les méthodes actuelles et potentiellement précieuse pour les déploiements industriels. L'Université de Fribourg-en-Brisgau s'impose ici comme un acteur européen de poids dans l'apprentissage robotique, aux côtés d'ETH Zurich et du DLR. MiDiGap entre en concurrence directe avec Diffusion Policy, ACT, mais aussi avec les fondations propriétaires comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). Un bémol important: toutes les métriques annoncées proviennent de RLBench, un benchmark entièrement en simulation. La robustesse sim-to-real, c'est-à-dire le maintien des performances sur des robots réels dans des conditions non contrôlées, reste à démontrer. La mise en open-source sur midigap.cs.uni-freiburg.de devrait permettre une évaluation indépendante et une validation sur plateformes réelles dans les prochains mois.

UEL'Université de Fribourg-en-Brisgau (Allemagne) produit un concurrent open-source direct aux fondations propriétaires américaines (Pi-0, GR00T N2), accessible sans GPU aux intégrateurs et PME robotiques européens, renforçant la capacité européenne en apprentissage robotique face aux acteurs US.

RecherchePaper
1 source
World Pilot : piloter les modèles VLA avec des a priori monde-action
187arXiv cs.RO 

World Pilot : piloter les modèles VLA avec des a priori monde-action

Une équipe de chercheurs a publié World Pilot (arXiv:2606.12403, juin 2026), un framework conçu pour combler une lacune structurelle des modèles Vision-Language-Action (VLA). Ces modèles, comme Pi-0 de Physical Intelligence ou RT-2 de Google Robotics, tirent leur force d'un préentraînement sur de vastes corpus image-texte, mais ce préentraînement s'appuie sur des paires statiques, alors que la manipulation robotique est un processus continu et riche en contacts dont la dynamique leur échappe. World Pilot introduit un World-Action Model (WAM) qui injecte deux types de priors dans la chaîne de décision : le Latent Steering conditionne la couche de perception sur un latent d'évolution de scène, et l'Action Steering fournit une trajectoire anticipée comme prior de mouvement au générateur d'actions. Sur le benchmark LIBERO-Plus en configuration zero-shot out-of-distribution (OOD), le système atteint 84,7 % de taux de succès global et affiche les meilleurs résultats sur quatre tâches de manipulation en environnement réel, avec des marges significatives lors de variations de point de vue, de géométrie d'objets, d'état déformable et de pose. L'intérêt principal de cette approche est de renforcer la robustesse des VLA face aux écarts de distribution sans réentraînement massif. Fait notable : le prior d'évolution de scène reste efficace même lorsqu'il provient d'un world model préentraîné sur vidéo uniquement, sans post-entraînement sur des données d'action, ce qui rend l'augmentation de VLA existants nettement plus accessible. Pour les équipes de déploiement industriel, cela signifie potentiellement moins de données de fine-tuning pour adapter un modèle à un contexte visuel inédit. Le benchmark zero-shot OOD reste l'un des indicateurs les plus exigeants du domaine, là où la majorité des politiques robotiques s'effondrent dès qu'elles sortent de leur distribution d'entraînement. World Pilot s'inscrit dans un courant actif qui vise à doter les politiques robotiques d'un modèle interne du monde, une direction explorée par DeepMind avec DreamerV3 et par Meta via l'architecture JEPA de Yann LeCun. Les VLA ont démontré des capacités de généralisation sémantique prometteuses, mais leur fragilité face aux variations physiques de l'environnement constituait un frein structurel au déploiement industriel. La question ouverte est de savoir si les marges observées sur LIBERO-Plus se maintiendront sur des benchmarks plus larges comme Open-X-Embodiment et sur des plateformes commerciales telles que les bras Franka Robotics ou Universal Robots, étapes nécessaires pour valider la portée industrielle de l'approche.

UESi les résultats se confirment sur Franka Robotics (allemand) et Universal Robots (danois), plateformes dominantes en Europe, cette approche pourrait réduire le coût d'adaptation des VLA aux lignes industrielles européennes sans données d'action supplémentaires.

💬 Le résultat qui compte vraiment, c'est pas les 84% sur le benchmark, c'est que le prior de scène fonctionne avec un world model entraîné sur vidéo uniquement, zéro donnée d'action. Ça veut dire qu'on peut augmenter un Pi-0 ou un RT-2 sans repartir en fine-tuning robotique de zéro, ce qui était le vrai blocage jusqu'ici. Reste à voir si ça tient sur un Franka en prod, mais c'est le genre de papier qu'on garde sous le coude.

IA physiqueOpinion
1 source
KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques
188arXiv cs.RO 

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

KPGrasp est un framework de génération de préhension dextère présenté dans un preprint arXiv (juin 2026), combinant flow matching et modèle Transformer pour apprendre des priors de saisie à grande échelle, sans recourir aux fonctions de coût contact-based ni au raffinement coûteux à l'inférence. L'approche repose sur une paramétrisation des mains par points-clés 3D en coordonnées euclidiennes pures, exprimés dans le même référentiel que le nuage de points de l'objet cible, évitant l'espace mixte SE(3)/angles articulaires conventionnel. Sur le benchmark Dexonomy, le modèle atteint 76,3% de taux de succès de préhension, soit +47,4% sur la meilleure baseline directement comparable, avec une profondeur de pénétration réduite à 2,4 mm. Sans fine-tuning spécifique, il obtient également les meilleures performances moyennes sur DexGrasp Anything. En inférence batch, chaque préhension est générée en 0,032 seconde. Des expériences réelles sur 20 objets variés confirment le passage au monde physique. La préhension dextère multi-doigts reste l'un des verrous techniques persistants de la manipulation robotique: saisir de façon stable des objets de formes variées exige une coordination articulaire complexe que les méthodes actuelles peinent à généraliser sans supervision dense ou raffinement coûteux. KPGrasp rompt avec ce paradigme en traitant le problème comme un apprentissage de distribution pure, entraîné uniquement avec la loss standard du flow matching. La scalabilité démontrée avec la taille du modèle, le volume de données et la taille des batchs suit la logique des grands modèles génératifs, signal fort pour les intégrateurs: davantage de données synthétiques de préhension pourrait suffire à améliorer les performances sans engineering de loss ad hoc. Le temps de 32 ms par grasp en inférence batch ouvre un déploiement temps-réel réaliste sur cellules robotiques industrielles équipées de mains dextères. La préhension dextère générative a émergé progressivement via les diffusion models (DexDiffuser, GraspDiffusion) et les réseaux de contacts avant que le flow matching ne s'impose. KPGrasp se positionne dans cette vague avec une prétention explicite de scalabilité data-driven que ses prédécesseurs n'affichaient pas. Les benchmarks Dexonomy et DexGrasp Anything sont devenus des références communautaires pour évaluer la généralisation inter-objets. Côté effecteurs, Shadow Robot, Schunk SVH et Inspire Hands sont les acteurs matériels naturellement concernés. Les suites logiques incluent le couplage avec des VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, qui assureraient la planification de haut niveau tandis que KPGrasp générerait les préhensions à bas niveau, comblant ainsi le gap entre policy de manipulation et génération de grasp.

UESchunk (Allemagne) figure parmi les fabricants d'effecteurs directement concernés, offrant aux intégrateurs robotiques européens une voie concrète vers la manipulation dextère temps-réel sans engineering de loss ad hoc.

💬 +47% de taux de succès sur le benchmark, c'est pas anodin. Ce qui me frappe, c'est la décision de virer complètement les fonctions de coût contact-based et de traiter ça comme un pur problème de distribution, avec le flow matching comme loss standard, ça simplifie vraiment le pipeline là où tout le monde s'obstinait à rajouter des couches. 32 ms par préhension en batch, ça commence à ressembler à quelque chose d'exploitable en industrie, bon, faut encore voir ce que ça donne hors benchmarks sur des objets vraiment sales ou déformés.

IA physiquePaper
1 source
Yuanli Lingji acquiert un fabricant de robots logistiques et lève des fonds auprès de Zhipu, SenseTime et StepFun
18936Kr 

Yuanli Lingji acquiert un fabricant de robots logistiques et lève des fonds auprès de Zhipu, SenseTime et StepFun

La startup chinoise Yuanli Lingji vient de boucler un tour de table réunissant quatre grands laboratoires chinois de modèles fondationnels : Zhipu AI, Stepfun, SenseTime, et Alibaba, qui avait mené en exclusivité le tour A+. Des industriels comme Huaqin et SAIC Hengxu ont également participé. Fondée en mars 2025 par Tang Wenbin, co-fondateur et ex-CTO de Megvii, la société développe un modèle universel d'IA incarnée baptisé DM0. Simultanément, Yuanli Lingji a acquis par échange d'actions Atomix, spécialiste des robots de logistique fondé par Tang en juillet 2024 après scission de Megvii. Atomix revendique, selon ses propres déclarations, un chiffre d'affaires annuel proche d'un milliard de yuans (~125 M€), le second rang mondial des ventes de véhicules navettes à quatre directions (4-way shuttle), plus de 500 projets dans une vingtaine de pays, et des clients comme Uniqlo, Mixue Bingcheng et CATL. La convergence simultanée de ces quatre acteurs de l'IA sur un même dossier d'embodied AI est inédite en Chine et signale un déplacement de la compétition des tokens vers les actions physiques. La fusion vise surtout à briser le "noeud de données" qui paralyse le secteur : les modèles ont besoin de données d'erreur réelles pour progresser, mais les robots ne peuvent entrer en production sans modèle fiable, bloquant ainsi la collecte. En agrégeant les données opérationnelles d'Atomix, issues de 500+ déploiements réels, à l'entraînement de DM0, la stratégie vise un data flywheel fermé. Avec seulement 2,4 milliards de paramètres et une fusion tri-domaine (sémantique web, conduite autonome, manipulation robotique), DM0 atteint une précision infra-millimétrique et se transfère à différentes morphologies de robots sans recalibration. Tang Wenbin pilotait la logistique intelligente chez Megvii dès 2016, via le système Hetu de gestion multi-robots ; il a scindé cette activité pour fonder Atomix en juillet 2024, puis lancé Yuanli Lingji en mars 2025. La semaine même de cette annonce, ByteDance intensifiait son recrutement en embodied AI, et Skild AI acquérait l'activité automation de Zebra Technologies. La dynamique est identique des deux côtés du Pacifique : fabricants, détenteurs de données, développeurs de modèles et opérateurs industriels accélèrent leur convergence dans la course à la scaling law de l'IA incarnée.

UELa consolidation de l'écosystème robotique-IA chinois autour d'Atomix, actif dans une vingtaine de pays dont potentiellement des marchés européens de la logistique, accentue la pression concurrentielle sur les intégrateurs et fabricants EU de robots de stockage automatisé.

Chine/AsieOpinion
1 source
SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA
190arXiv cs.RO 

SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA

Des chercheurs en sécurité informatique ont publié sur arXiv (référence 2601.14323) une attaque baptisée SilentDrift, ciblant les modèles Vision-Language-Action (VLA) utilisés pour piloter des robots manipulateurs. L'attaque exploite deux mécanismes devenus standards dans les architectures VLA modernes : l'action chunking, qui consiste à générer des séquences de K actions d'un coup plutôt qu'action par action, et la représentation en delta de pose, qui encode chaque mouvement sous forme d'incrément relatif à la position précédente. Cette combinaison crée une boucle ouverte visuelle intra-chunk : une fois la séquence lancée, le robot l'exécute sans relire le flux caméra à chaque pas. Des perturbations imperceptibles à l'échelle d'un pas s'accumulent alors par intégration, déviant la trajectoire finale de manière significative. Sur le benchmark LIBERO, SilentDrift atteint un taux de succès d'attaque de 93,2 % avec un taux d'empoisonnement inférieur à 2 % des données d'entraînement, tout en maintenant un taux de réussite sur tâches propres de 95,3 %, rendant la backdoor pratiquement indétectable par les métriques standards. L'impact pour les intégrateurs et décideurs B2B est direct : les VLA comme pi-0 de Physical Intelligence, OpenVLA ou les variantes de RT-2 s'appuient précisément sur ces mécanismes d'action chunking pour obtenir des mouvements fluides et cohérents. Un attaquant ayant accès à une fraction marginale des données d'entraînement peut donc compromettre un système de manipulation robotique déployé en environnement industriel sans déclencher d'alarme sur les métriques de performance habituelles. Les trajectoires empoisonnées sont visuellement identiques aux démonstrations saines, ce qui invalide les audits visuels comme contrôle de qualité suffisant. La stratégie dite "keyframe attack" de SilentDrift cible spécifiquement la phase d'approche critique d'une saisie, maximisant l'effet de déviation tout en minimisant l'exposition du trigger. Ce travail s'inscrit dans un courant de recherche naissant sur la sécurité des modèles de fondation pour la robotique, un champ largement ignoré jusqu'ici face à l'effervescence autour des performances. Les VLA connaissent une adoption rapide depuis 2023, portée par des acteurs comme Physical Intelligence (pi-0), Google DeepMind (RT-2, GR00T N2 de Nvidia) et les laboratoires académiques via des benchmarks comme LIBERO ou Open-X Embodiment. SilentDrift est une attaque en boîte noire, ce qui signifie qu'elle ne nécessite pas d'accès au modèle entraîné, uniquement aux données. Les auteurs n'annoncent pas de contre-mesure, ouvrant un chantier de recherche défensive urgent à mesure que ces modèles approchent de déploiements réels dans la logistique et l'assemblage manufacturier.

UELes intégrateurs européens qui déploient ou évaluent des VLA (pi-0, OpenVLA, RT-2) dans la logistique ou l'assemblage doivent intégrer l'audit de sécurité des données d'entraînement dans leurs processus de qualification, car les métriques de performance standards ne détectent pas ce vecteur d'attaque.

RechercheOpinion
1 source
Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel
191arXiv cs.RO 

Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel

Une équipe du laboratoire RobIn de l'Université du Texas à Austin publie une étude systématique sur l'apprentissage par renforcement continu (Continual RL, CRL) appliqué aux modèles Vision-Language-Action (VLA), soumise sur arXiv en mars 2026 (2603.11653, v2). Le résultat central contredit un postulat solidement établi dans la littérature : le fine-tuning séquentiel simple (Seq. FT) couplé à LoRA (Low-Rank Adaptation, adaptation paramétrique par matrices de faible rang) suffit à entraîner continuellement de grands VLAs sans oubli catastrophique significatif. Testé sur plusieurs benchmarks lifelong RL dans des environnements ouverts et évolutifs, Seq. FT + LoRA atteint une forte plasticité, conserve une généralisation zero-shot robuste, et surpasse fréquemment des méthodes CRL nettement plus complexes. Ce constat redessine les prérequis techniques pour l'adaptation continue de robots génériques en production. Si l'on n'a pas besoin de replay mémoire, de régularisation élastique de type EWC ni d'architectures modulaires pour éviter l'oubli catastrophique, les équipes embarquant des VLAs dans des cycles de mise à jour continus gagnent une simplicité opérationnelle considérable. L'étude attribue ce comportement à une synergie entre trois facteurs : la large capacité de représentation du modèle pré-entraîné, l'adaptation paramétrique légère de LoRA, et la nature on-policy du renforcement utilisé. Cette combinaison reconfigure le compromis classique stabilité-plasticité, rendant l'adaptation scalable sans infrastructure CRL dédiée. Le résultat invite aussi à reconsidérer l'utilité réelle des méthodes sophistiquées de continual learning dans le régime des grands modèles, où la complexité algorithmique semble parfois être une réponse à un problème que le scaling a déjà partiellement résolu. Les VLAs de grande taille comme RT-2 (Google DeepMind), OpenVLA (Berkeley) ou pi-0 (Physical Intelligence) s'imposent progressivement comme socle de la robotique généraliste, mais leur recyclage continu sur de nouvelles tâches sans régression restait un verrou ouvert. UT Austin RobIn, déjà actif sur les approches RL pour la manipulation robotique, positionne ici le Seq. FT comme baseline solide plutôt que comme anti-pattern à éviter, ce qui tranche avec l'orthodoxie des équipes de CMU, Stanford ou Google DeepMind. Les startups robotiques travaillant avec des architectures VLA (Figure AI, Apptronik, ou Enchanted Tools côté européen) seront attentives à ces résultats si leur généralisation hors benchmarks contrôlés se confirme. Le code est publié sur GitHub (UT-Austin-RobIn/continual-vla-rl), ce qui devrait accélérer la reproduction et l'intégration dans des pipelines de déploiement réels.

UEEnchanted Tools (startup française) est explicitement citée parmi les bénéficiaires potentiels : si ces résultats se généralisent hors benchmarks, les équipes VLA européennes pourraient simplifier significativement leurs pipelines d'entraînement continu en abandonnant les méthodes CRL complexes au profit de Seq. FT + LoRA.

💬 Ce qui me frappe : des années à chercher comment éviter l'oubli catastrophique sur les gros VLAs, et la réponse c'est LoRA + fine-tuning séquentiel bête et méchant, sans EWC ni replay mémoire. Bon, sur le papier ça semble trop propre pour être vrai. Mais le code est public et si ça tient hors benchmarks, Figure AI et les autres vont simplifier leurs pipelines d'un coup.

IA physiqueOpinion
1 source
VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents
192arXiv cs.RO 

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

Des chercheurs ont publié le 31 mai 2026 (arXiv:2606.00053) VLAMotor, un cadre d'analyse et d'amélioration des modèles Vision-Langage-Action (VLA) pour la manipulation robotique. Ces modèles, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, sont entraînés sur de grandes bases de données de trajectoires et apprennent à relier instructions en langage naturel, perception visuelle et commandes motrices. Le problème documenté par l'équipe : dès le déploiement, les VLA échouent sur des configurations hors distribution, c'est-à-dire des scènes ou orientations d'objets absentes des données d'entraînement. VLAMotor répond à cela en deux phases. Premièrement, il sélectionne des cas de test en mesurant la distance entre chaque entrée candidate et les échantillons d'entraînement, puis applique une élimination de redondance pour construire un jeu de test compact mais diversifié. Résultat : 92,33 % des cas générés déclenchent effectivement un échec du modèle testé, et la couverture de test dépasse de 18,93 % l'outil de l'état de l'art. Deuxièmement, les trajectoires d'échec sont abstraites en représentations sémantiques structurées, planifiées comme séquences de compétences paramétrées, puis converties en trajectoires exécutables via cinématique inverse. Ces trajectoires réussies sont étiquetées automatiquement et servent à affiner le modèle original, améliorant son taux de succès global de 49,25 %. L'impact industriel est direct : le sim-to-real gap, longtemps cité comme obstacle principal au déploiement des VLA en production, est ici réduit de façon mesurable sans collecte de données humaines coûteuses. Sur matériel réel, les modèles affinés en simulation affichent +57,50 % de succès par rapport aux modèles de base, ce qui valide un pipeline entièrement automatisé de découverte de défauts et de correction. Pour un intégrateur industriel ou un OEM robotique, cela signifie qu'un VLA pré-entraîné peut être spécialisé pour une cellule de travail donnée à moindre coût, sans intervention humaine à chaque étape de labellisation. VLAMotor s'inscrit dans un mouvement plus large de test logiciel appliqué aux systèmes d'apprentissage machine : les travaux de mutation testing et de falsification formelle migrent vers la robotique incarnée, où les enjeux de fiabilité sont physiques. Côté concurrence, Physical Intelligence travaille sur l'adaptation rapide de Pi-0, NVIDIA pousse GR00T N2 avec des pipelines sim-to-real propriétaires, et des acteurs européens comme Enchanted Tools ou Wandercraft investissent dans des boucles de finetune ciblées pour leurs marchés verticaux. VLAMotor, issu du monde académique, propose une direction ouverte et low-cost qui pourrait être adoptée comme couche de validation standard avant tout déploiement VLA en cellule réelle. Les prochaines étapes probables incluent l'extension à des tâches de locomotion et à des VLA multimodaux de plus grande taille.

UEEnchanted Tools et Wandercraft pourraient adopter VLAMotor comme couche de validation bas coût pour spécialiser leurs VLA sur des cellules industrielles sans collecte manuelle de données.

IA physiqueOpinion
1 source
Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)
193arXiv cs.RO 

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié Colosseum V2, un benchmark de simulation à grande échelle conçu pour évaluer la capacité de généralisation des modèles VLA (Vision-Language-Action) en manipulation robotique. Le benchmark intègre 28 tâches réparties en 13 catégories et couvre deux morphologies de robots distinctes, allant de primitives de manipulation élémentaires à des comportements long-horizon complexes. Construit sur le simulateur ManiSkill, il exploite la parallélisation GPU pour des évaluations massives et prend en charge les tests en domaine connu (in-domain) comme hors domaine d'entraînement (out-of-domain). Les auteurs ont évalué deux architectures de référence : les Action Chunking Transformers (ACT) et Pi0.5, le modèle de la startup Physical Intelligence. Les résultats exposent une tension centrale dans le domaine : les VLAs affichent des capacités de perception et de compréhension du langage en zéro-shot héritées de leur pré-entraînement sur de larges corpus, mais leurs performances se dégradent significativement dès que la distribution des données change, qu'il s'agisse de variations d'éclairage, de textures d'objets ou de configurations inédites. Ce fossé entre compréhension sémantique de haut niveau et comportement moteur robuste reste l'un des blocages majeurs à la commercialisation de politiques robotiques générales. Point notable : les auteurs documentent une forte corrélation entre métriques en simulation et métriques réelles, ce qui valide l'utilité écologique du benchmark et réduit la dépendance aux cycles d'évaluation physique, coûteux et peu reproductibles. Colosseum V2 est l'extension d'un premier benchmark Colosseum publié en 2024, centré sur la robustesse aux perturbations contrôlées. Le domaine manquait jusqu'ici d'un protocole unifié : RoboVQA, OpenVLA-OFT et les évaluations internes de Physical Intelligence ont chacun proposé des métriques partielles, rendant les comparaisons entre systèmes quasi impossibles. Colosseum V2 ambitionne de jouer le rôle fédérateur qu'ImageNet a tenu pour la vision par ordinateur. Les auteurs annoncent l'intégration prochaine de nouvelles morphologies et de tâches bimanuelles, des axes sur lesquels Figure (Figure 03), Apptronik, et dans une moindre mesure des acteurs européens comme Enchanted Tools, commencent à capitaliser avec des données de déploiement réel.

UELe benchmark offre un protocole d'évaluation standardisé que les équipes R&D françaises et européennes, dont Enchanted Tools, citée pour ses travaux sur les tâches bimanuelles, pourront utiliser pour comparer objectivement leurs modèles VLA face aux acteurs américains et asiatiques.

RechercheOpinion
1 source
AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux
194arXiv cs.RO 

AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux

Des chercheurs du laboratoire be2rlab publient sur arXiv (arXiv:2605.25901) AgentGrounder, un système de localisation visuelle 3D zéro-shot opérant directement sur des nuages de points colorés, sans entraînement spécifique à la tâche. L'architecture repose sur deux étapes : une phase hors ligne construit une table de correspondance d'objets (Object Lookup Table, OLT) regroupant identifiants d'instances, labels sémantiques et boîtes englobantes 3D ; une phase en ligne déploie un agent qui décompose chaque requête en langage naturel, récupère les candidats pertinents dans l'OLT, effectue un scoring géométrique, puis déclenche un rendu d'image à la demande lorsque des indices visuels supplémentaires (couleur, texture, angle de vue) sont nécessaires. Évalué sur les benchmarks ScanRefer et Nr3D en configuration zéro-shot, AgentGrounder surpasse SeeGround de +2,5 % en précision Acc@0.5 sur ScanRefer et de +6,3 % sur Nr3D, dont un gain de +6,3 % sur les requêtes indépendantes du point de vue. Le code est publié sur GitHub. Ce résultat est directement pertinent pour les équipes travaillant sur la manipulation robotique et la navigation en environnements intérieurs non structurés. L'absence d'entraînement dédié abaisse la barrière d'intégration : un robot équipé d'un LiDAR ou d'une caméra de profondeur pourrait répondre à des commandes en langage naturel sans fine-tuning sur l'environnement cible, ce qui simplifie les déploiements dans des entrepôts ou des espaces de service variables. Le mécanisme de récupération sélective dans l'OLT réduit les erreurs en cascade typiques des pipelines d'ancrage-cible fixes, qui saturent la fenêtre de contexte des modèles de langage avec des objets non pertinents. L'inspection visuelle adaptative évite par ailleurs de solliciter inutilement les capacités multimodales coûteuses lorsque la géométrie seule suffit à discriminer. La localisation visuelle 3D est un domaine de recherche structuré autour de benchmarks comme ScanRefer (2020) et Nr3D, qui évaluent la capacité à identifier un objet précis dans une scène intérieure 3D à partir d'une description textuelle ambiguë. Les méthodes zéro-shot antérieures supposaient souvent des ensembles d'images multi-vues préexistants et peinaient face aux limites sémantiques des outils de segmentation 3D standards, SeeGround représentant jusqu'ici l'état de l'art sur ces benchmarks. Côté industrie, NVIDIA intègre des capacités de grounding 3D dans son framework GR00T pour la manipulation robotique, tandis qu'Enchanted Tools en France et les équipes embodied AI de Meta FAIR travaillent sur des modules similaires de compréhension spatiale ouverte. AgentGrounder, encore au stade de preprint non évalué par les pairs, devra confirmer ses performances hors contexte académique avant toute adoption en conditions réelles.

UEEnchanted Tools (France), explicitement citée comme travaillant sur des modules similaires de compréhension spatiale ouverte, peut utiliser AgentGrounder comme référence zéro-shot pour réduire les coûts de fine-tuning dans ses déploiements robotiques.

RechercheOpinion
1 source
RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel
195arXiv cs.RO 

RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel

Des chercheurs ont publié le 22 mai 2026 sur arXiv (référence 2605.17522) les travaux autour de RoboFlow4D, un modèle de planification en flux 3D destiné à la manipulation robotique temps réel. L'approche repose sur ce que les auteurs appellent un "flow world model" : plutôt que d'empiler plusieurs sous-modèles spécialisés dans un pipeline modulaire classique, RoboFlow4D prédit directement des flux de mouvement 3D sur plusieurs trames temporelles à partir d'observations visuelles et d'instructions textuelles. Ce flux explicite sert de plan intermédiaire pour guider la génération d'actions motrices, bouclant ainsi un cycle perception-planification-exécution en une seule architecture de bout en bout. L'exécution repose sur une collaboration dite "slow-fast" entre le prédicteur de flux et le contrôleur d'action, visant à réduire la latence globale. Les résultats présentés couvrent des benchmarks en simulation et des expériences en environnement réel, avec des gains annoncés sur les taux de succès de manipulation et sur l'efficacité computationnelle, sans que les chiffres précis soient détaillés dans l'abstract. L'intérêt de cette direction de recherche réside dans la réduction de la charge de calcul associée aux pipelines VLA (Vision-Language-Action) contemporains. Les architectures modulaires dominantes, comme celles utilisées dans Pi-0 (Physical Intelligence) ou les variantes de GR00T N2 (NVIDIA), impliquent des inférences en cascade coûteuses qui limitent la réactivité en conditions industrielles. RoboFlow4D tente de consolider perception et planification dans un seul modèle léger, ce qui, si les performances se confirment à l'échelle, pourrait abaisser les exigences matérielles pour déployer des politiques de manipulation dextres sur des robots à ressources contraintes. Du côté du contexte compétitif, le domaine des planificateurs par flux optique 3D est actif depuis les travaux sur UniFlow et Flowbot3D, mais leur intégration dans des boucles temps réel reste un défi ouvert. RoboFlow4D se positionne comme une réponse légère à ces limitations. Il s'agit pour l'instant d'un preprint non évalué par les pairs, sans code ni modèle publiés, ce qui invite à la prudence avant tout benchmark indépendant. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés type RLBench ou LIBERO, et une comparaison directe avec les baselines modulaires qu'il prétend dépasser.

RechercheOpinion
1 source
Les robots ont-ils vraiment besoin de mains anthropomorphiques ? Comparaison entre mains humaines et robotiques
196arXiv cs.RO 

Les robots ont-ils vraiment besoin de mains anthropomorphiques ? Comparaison entre mains humaines et robotiques

Une revue systématique publiée sur arXiv (2508.05415) pose une question directe : les robots ont-ils vraiment besoin de mains anthropomorphes ? Après analyse de 125 articles scientifiques couvrant 2019 à 2025, les auteurs concluent que les mains à cinq doigts, souvent présentées comme l'objectif ultime de la manipulation robotique, ne sont pas nécessaires pour la majorité des tâches. En comparant les propriétés biomécaniques de la main humaine (degrés de liberté, capteurs cutanés, contrôle moteur) avec les mains robotiques commerciales disponibles aujourd'hui, ils montrent que la complexité mécanique ne se traduit pas systématiquement par une meilleure dextérité pour la manipulation en main (in-hand manipulation). Des mécanismes à deux ou trois doigts se révèlent souvent aussi efficaces pour des applications industrielles ciblées. Pour les intégrateurs et les décideurs industriels, ce résultat remet en cause une hypothèse répandue : reproduire la morphologie humaine ne garantit pas des performances humaines. La revue établit qu'une main à cinq doigts augmente l'étendue des tâches réalisables, mais apporte peu d'avantage pour la manipulation fine d'objets déjà saisis. Plus significatif encore, l'intégration de capteurs et les stratégies de manipulation intelligentes restent sous-exploitées dans la littérature, car la recherche se concentre sur la réplication du nombre de doigts et des DOF plutôt que sur la robustesse mécanique et la compliance. Les auteurs soulignent que des mains plus souples et robustes permettraient un meilleur apprentissage par contact environnemental et une intégration plus dense de capteurs, deux leviers actuellement sacrifiés au profit de l'esthétique biomimétique. Cette remise en question survient dans un contexte de course au design anthropomorphe, portée par les humanoïdes de Figure (Figure 03), Tesla (Optimus Gen 3), 1X Technologies et Agility Robotics, dont les mains à cinq doigts sont systématiquement mises en avant dans les communications marketing. La question n'est pourtant pas nouvelle : les grippers industriels bi-digitaux de Robotiq, OnRobot et Schunk dominent les lignes d'assemblage depuis des années. L'accumulation de preuves empiriques sur 125 publications donne à cet argument une base scientifique que les annonces de lancement ne pouvaient pas offrir. Les auteurs plaident pour des critères d'évaluation standardisés, un manque criant alors que chaque laboratoire définit ses propres benchmarks, condition nécessaire pour que le secteur sorte du cycle annonce/démo et entre dans une phase d'industrialisation mesurable.

UELes conclusions valident empiriquement l'approche des fabricants de grippers industriels européens comme Schunk (DE) et OnRobot (DK), dont les solutions bi/tri-digitales dominent les lignes d'assemblage face à la tendance anthropomorphe des humanoïdes américains.

RecherchePaper
1 source
SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données
197arXiv cs.RO 

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

Des chercheurs publient sur arXiv (arXiv:2605.11114, mai 2025) une méthode baptisée SEVO (Semantic-Enhanced Virtual Observation) visant à résoudre l'un des problèmes les plus documentés des politiques VLA (Vision-Language-Action) et d'apprentissage par imitation : leur effondrement dès qu'elles quittent l'environnement d'entraînement. Sans modification de l'architecture du modèle, SEVO agit sur le flux caméra RGB brut via trois mécanismes combinés : des caméras fixes sur le corps du robot dont les champs de vision couvrent l'intégralité de l'espace de manipulation, un éclairage actif en spectre rouge qui normalise physiquement l'apparence des objets, et une segmentation YOLO en temps réel qui produit une représentation sémantique invariante au fond. Les tests portent sur des bouteilles d'eau transparentes -- objets délibérément difficiles car ils se confondent visuellement avec leur environnement -- dans une tâche de pick-and-place répétée sur deux plateformes mobiles. Avec SEVO, la politique ACT atteint 95 % de succès en environnement d'entraînement et 85 % en environnement inédit ; SmolVLA atteint 83 % et 75 % respectivement. Sans SEVO, ces mêmes politiques plafonnent à 75 %/70 % en entraînement et s'effondrent à 30-35 % hors contexte. Ces résultats remettent directement en cause le paradigme dominant qui consiste à compenser le manque de robustesse par une mise à l'échelle des modèles. Les praticiens de la communauté open source rapportaient déjà des taux de transfert quasi nuls avec les benchmarks ACT et SmolVLA standards, pourtant affichant des scores élevés en laboratoire. SEVO démontre que la conception de l'observation -- ce que le robot "voit" et comment -- combinée à une diversification systématique des données de téléopération (variations d'éclairage, de fond, d'objets distracteurs) constitue le levier de généralisation le plus efficace, bien devant le choix du modèle. Pour un intégrateur ou un COO industriel, l'implication est directe : un robot à bas coût bien "observé" et entraîné sur des données variées surpasse un modèle plus sophistiqué entraîné dans des conditions homogènes. Le contexte est celui de l'essor des toolchains communautaires autour des VLA, notamment les frameworks lekiwi et SO-101 sur lesquels ACT et SmolVLA sont régulièrement évalués. La "sim-to-real gap" et le "domain shift" sont des problèmes ouverts depuis des années dans la manipulation robotique ; des approches comme domain randomization ou data augmentation tentaient déjà d'y répondre par le calcul. SEVO prend le parti inverse : agir sur le hardware d'observation et le protocole de collecte plutôt que sur l'architecture ou la puissance de calcul. Les suites logiques de ces travaux incluent l'extension à des tâches multi-étapes, à des objets plus variés, et potentiellement à des bases mobiles commerciales -- un terrain sur lequel des acteurs comme Boston Dynamics (Spot), AgileX ou les startups européennes de manipulation à coût réduit sont directement concernés.

UESmolVLA, développé par HuggingFace (entreprise franco-américaine), est directement évalué dans cette étude, les équipes européennes travaillant sur la manipulation VLA disposent d'un levier hardware-protocole immédiatement applicable pour multiplier leurs taux de succès hors environnement d'entraînement, sans changer d'architecture ni investir dans des modèles plus lourds.

💬 J'attendais quelqu'un pour le montrer proprement : le domain shift, c'est pas un problème de modèle, c'est un problème d'observation. SEVO passe de 30 à 85 % de succès hors environnement d'entraînement en contrôlant l'éclairage, les angles de caméra et la segmentation temps réel, sans changer une ligne d'architecture. Un robot bas coût bien observé bat un modèle sophistiqué entraîné dans une bulle.

IA physiqueOpinion
1 source
AnchorD : ancrage métrique de la profondeur monoculaire par graphes de facteurs
198arXiv cs.RO 

AnchorD : ancrage métrique de la profondeur monoculaire par graphes de facteurs

Des chercheurs de l'université de Fribourg-en-Brisgau ont publié AnchorD, un framework d'estimation de profondeur présenté comme entraînement-libre (training-free), capable d'ancrer les prédictions métriques de modèles monoculaires dans des mesures de capteurs réels via une optimisation par graphes de facteurs (factor graphs). La méthode réalise un alignement affine par patches, ce qui permet de recaler localement les estimations monoculaires sur une profondeur métrique réelle tout en préservant les discontinuités géométriques fines. Pour valider l'approche dans des conditions difficiles, l'équipe introduit également un nouveau jeu de données de référence avec vérité terrain dense sur des scènes complètes contenant des objets non-lambertiens (transparents, spéculaires, métalliques), obtenue en combinant une peinture mate réfléchissante en spray sur les surfaces problématiques et une fusion multi-caméras, contournant ainsi la dépendance aux annotations CAD par objet des benchmarks existants. Le code et les données sont publiés en accès libre. L'enjeu pratique est réel pour les intégrateurs de manipulation robotique et de préhension : les capteurs de profondeur structurés (Time-of-Flight, stéréo, LiDAR) décrochent systématiquement sur les surfaces transparentes comme le verre ou spéculaires comme l'inox, des matériaux omniprésents en milieu industriel. Les grands modèles de profondeur monoculaire, Depth Anything V2, UniDepth, ZoeDepth, produisent des priors structurels excellents mais souffrent d'ambiguïté d'échelle métrique, ce qui les rend inutilisables directement pour la planification de trajectoire ou le calcul de prise. AnchorD propose de fusionner les deux sources d'information sans réentraînement, ce qui le rend déployable sur du matériel existant avec n'importe quel modèle fondation de profondeur en entrée. Les auteurs rapportent des améliorations constantes sur des capteurs et domaines variés, sans communiquer de métriques numériques précises dans le résumé, les chiffres restent à consulter dans le papier complet. Ce travail s'inscrit dans un axe actif de recherche qui tente de "métrifier" les modèles de vision de fondation pour les rendre directement exploitables en robotique, sans passer par des pipelines de calibration coûteux. L'université de Fribourg (groupe Robotics and Embedded Systems, liens avec le DFKI) est un acteur reconnu en perception robotique, notamment sur les terrains non structurés. Dans l'espace concurrent, des approches comme Metric3D v2 (Tianjin/Baidu) ou ScaleDepth cherchent le même objectif par voie paramétrique ou de fine-tuning; AnchorD se distingue par son absence totale de phase d'entraînement. L'article est un preprint arXiv (2605.02667, mai 2026), non encore évalué par les pairs: les résultats présentés devront être confirmés lors d'une revue formelle.

UEContribution d'un laboratoire européen (Fribourg/DFKI) publiée en open-source et sans réentraînement, directement exploitable par les intégrateurs EU pour la manipulation d'objets industriels à surfaces transparentes ou spéculaires.

RecherchePaper
1 source
ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites
199arXiv cs.RO 

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

Des chercheurs ont publié ROBOGATE (arXiv:2603.22126), un framework open-source de validation pré-déploiement pour les politiques de manipulation robotique, conçu pour identifier les zones de défaillance avant mise en production industrielle. Le système repose sur un échantillonnage adaptatif en deux étapes dans un espace de paramètres à huit dimensions : une première phase par Latin Hypercube Sampling (LHS) couvre l'espace global, puis une seconde phase concentre l'effort sur la zone de transition critique entre 30 % et 70 % de taux de réussite, là où les échecs sont les plus révélateurs. Le tout est exécuté dans NVIDIA Isaac Sim avec le moteur physique Newton, sur quatre morphologies robotiques : Franka Panda (7-DOF), UR3e, UR5e et UR10e (tous 6-DOF). Au total, plus de 50 000 expériences ont été simulées, produisant un modèle de régression logistique avec une AUC de 0,780 et une équation analytique fermée de la frontière de défaillance. Le framework a également benchmarké huit politiques VLA, dont une version fine-tunée de NVIDIA GR00T N1.6 (3 milliards de paramètres), entraînée sur LIBERO-Spatial pendant 20 000 étapes. Le chiffre le plus frappant de l'étude est un écart de 97,65 points de pourcentage entre les environnements de simulation : le même checkpoint GR00T N1.6 atteint 97,65 % de réussite sur le benchmark LIBERO sous MuJoCo, mais tombe à 0 % sur les 68 scénarios industriels de ROBOGATE sous Isaac Sim. Ce résultat met en lumière un problème structurel du déploiement des VLA : les scores de benchmark en simulation ne prédisent pas le comportement dans un simulateur différent, a fortiori dans le monde réel. Pour les intégrateurs et les décideurs industriels, cela signifie qu'un modèle validé sur benchmark standard peut être totalement non opérationnel dans leur environnement cible. ROBOGATE propose une couche de validation intermédiaire, inspirée du paradigme que NVIDIA a formalisé pour le calcul quantique avec Ising, transposé ici à l'IA physique. Le gap sim-to-real reste l'un des verrous majeurs de la robotique manipulatrice apprise, et la plupart des acteurs du secteur, de Figure AI (Figure 03) à Physical Intelligence (Pi-0) en passant par Boston Dynamics ou les équipes internes de NVIDIA, travaillent à le réduire via des pipelines sim-to-real renforcés ou de la synthèse de données domain-randomisée. ROBOGATE ne prétend pas résoudre ce gap mais fournit un outil de diagnostic structuré : cartographier les frontières d'échec avant déploiement, ce qui est précisément ce qui manque dans les workflows industriels actuels. Le framework est publié en open-source, ce qui devrait faciliter son adoption par les équipes de validation, en particulier celles qui travaillent sur des cellules pick-and-place standardisées avec des bras industriels UR ou Franka. Les prochaines étapes naturelles seraient l'extension à des morphologies mobiles-manipulatrices et l'intégration dans des pipelines CI/CD robotiques, un domaine encore embryonnaire mais en progression rapide chez des acteurs comme Intrinsic (Alphabet) ou Covariant.

UELes équipes R&D européennes travaillant sur des cellules robotiques avec bras UR (Universal Robots, Danemark) ou Franka Panda peuvent adopter ce framework open-source pour structurer leur validation pré-déploiement et éviter des échecs coûteux en production.

IA physiqueActu
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
200arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source