Aller au contenu principal

Dossier arXiv cs.RO

1607 articles

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact
1arXiv cs.RO RecherchePaper

EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact

Une équipe de chercheurs publie EquiDexFlow, un modèle génératif de préhension dextère intégrant les contraintes physiques de contact directement dans l'architecture, sans étape de vérification séparée. Publié sur arXiv en juin 2026, il exploite le flow-matching avec équivariance SE(3) pour prédire simultanément la pose du poignet, les angles articulaires, les contacts du bout des doigts, les normales de surface et les forces de contact à partir d'un nuage de points de l'objet. Contrairement aux générateurs classiques qui traitent les forces comme un filtre a posteriori, EquiDexFlow projette les contacts sur la surface de l'objet et les forces dans le cône de friction de Coulomb par construction, sans terme de pénalité dans la fonction de perte. Entraîné sur 8 100 saisies en fermeture de force sur 81 objets pour la main Allegro à 16 degrés de liberté (DDL), il atteint zéro violation de frottement et le plus faible résidu de torseur parmi toutes les variantes d'ablation, avec une équivariance SE(3) vérifiée sur 200 rotations et des résidus de poignet inférieurs à 0,04 degré. Retransposé vers une main LEAP à 16 DDL par cinématique inverse doigt par doigt, le modèle réussit en boucle ouverte sur six objets physiques, y compris des objets asymétriques à la pose canonique et après une co-rotation de 120 degrés. Le verrou adressé est structurel : dans la plupart des pipelines de préhension dextère appris, un générateur produit une pose cinématiquement valide qu'un module aval filtre selon des critères physiques, laissant potentiellement passer des saisies plausibles mais instables au contact réel. En intégrant le cône de Coulomb dans l'architecture même, EquiDexFlow élimine cette classe d'erreurs par construction plutôt que par filtrage, ce qui réduit le taux de rejet et simplifie le pipeline de déploiement pour les intégrateurs industriels. Le retargeting réussi de la main Allegro vers la main LEAP suggère en outre une généralisation de la représentation des contacts au-delà de la main d'entraînement, propriété encore rare dans les systèmes de préhension dextère actuels, même si l'évaluation sur six objets reste un périmètre de test limité. La préhension dextère multi-doigt demeure un verrou central de la manipulation généraliste en robotique. Des travaux récents comme DexGraspNet ou UniGrasp ont progressé sur la génération de poses, mais la modélisation explicite des forces dans la boucle générative reste peu courante. Le flow-matching, popularisé dans les modèles VLA (Vision-Language-Action), est ici appliqué avec une contrainte d'équivariance formellement démontrée, ce qui constitue une contribution méthodologique distincte. Code, checkpoints et vidéos sont disponibles sur equidexflow.github.io. Des acteurs comme Enchanted Tools ou Wandercraft, qui développent des systèmes de manipulation à actionnement avancé, pourraient s'appuyer sur ce formalisme pour leurs propres pipelines de préhension.

UEEnchanted Tools et Wandercraft, acteurs français de la manipulation avancée, pourraient directement intégrer ce formalisme de préhension physique (cône de Coulomb dans la boucle générative) dans leurs pipelines R&D, le code et les checkpoints étant publiquement disponibles.

1 source
Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot
2arXiv cs.RO 

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot

Des chercheurs ont publié le 12 juin 2026 (arXiv:2606.12475) une étude sur l'usage de modèles vision-langage-action (VLA) entraînés par imitation learning pour la collaboration humain-robot (HRC) implicite, sans signal explicite déclenchant l'assistance robotique. Évaluant deux VLA de référence sur des tâches d'assemblage collaboratif, l'équipe identifie un défaut propre aux politiques d'action-chunking : la "fuite d'actions de démonstration" (demonstration action leakage). Ce phénomène survient lorsque des chunks d'actions enjambent des transitions latentes de sous-tâches, poussant le robot à assister l'humain trop tôt, comme tendre un outil avant que l'opérateur soit prêt à le saisir. Pour corriger ce comportement sans réentraîner le modèle, les auteurs proposent un pilotage à l'inférence (inference-time steering). Une étude à 16 participants sur une tâche d'assemblage longue horizon confirme que le steering réduit les interventions prématurées, accélère la collaboration et diminue les échecs par rapport à une politique à horizon court. Ce résultat ouvre une voie concrète pour l'intégration des VLA dans des workflows industriels collaboratifs, jusqu'ici dépendants de pipelines codés à la main, peu scalables vers de nouvelles tâches. La fuite d'actions constitue un avertissement direct pour les équipes déployant des politiques ACT ou diffusion en mode HRC : allonger l'horizon d'exécution, souvent souhaitable pour la fluidité du mouvement, aggrave le problème. Le steering à l'inférence fournit un correctif opérationnel sans modification du modèle entraîné, ce qui le rend attractif pour un déploiement rapide. Les VLA généralistes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) ont prouvé leur efficacité en manipulation autonome, mais leur usage en HRC implicite restait peu documenté. Cette publication comble ce manque méthodologique. En Europe, des acteurs comme Enchanted Tools et Wandercraft, dont les robots sont conçus pour opérer aux côtés d'humains, pourraient réduire leur charge d'ingénierie manuelle en s'appuyant sur ces résultats. La prochaine étape sera d'étendre la méthode à des environnements industriels non contrôlés et à des tâches encore plus longues, afin d'évaluer la robustesse du steering face à la variabilité réelle des comportements humains.

UEEnchanted Tools et Wandercraft, acteurs européens de la robotique collaborative, pourraient réduire leur charge d'ingénierie manuelle en adoptant le steering à l'inférence pour corriger la fuite d'actions dans leurs déploiements VLA, sans réentraîner leurs modèles.

RechercheOpinion
1 source
Intégrer la conformité à la norme ISO 10218 dans les robots via les fonctions barrière de contrôle pour la collaboration homme-robot
3arXiv cs.RO 

Intégrer la conformité à la norme ISO 10218 dans les robots via les fonctions barrière de contrôle pour la collaboration homme-robot

Des chercheurs ont publié sur arXiv (réf. 2606.13203) une approche de contrôle permettant d'intégrer nativement la conformité à la norme ISO 10218 dans les robots industriels collaboratifs, en s'appuyant sur une Fonction Barrière de Contrôle (CBF). Le système a été validé en simulation et en conditions réelles sur un bras UR10e d'Universal Robots. Plutôt que de se contenter des hypothèses conservatives des modules SSM (Speed and Separation Monitoring) classiques, qui supposent une vitesse humaine constante, la CBF proposée intègre les données d'accélération humaine pour prédire analytiquement la distance de séparation minimale humain-robot le long d'une trajectoire d'arrêt en cas de pire scénario. Deux méthodes sont présentées : Method I, un filtre de sécurité PD contraint par CBF, et Method II, un contrôleur SQP (Sequential Quadratic Programming) qui impose une contrainte de tube spatial sur la trajectoire. Method II réduit l'erreur de trajectoire moyenne de 63 % par rapport à Method I, et supprime les manoeuvres évasives excessives qui dégradent le débit opérationnel. L'enjeu industriel est direct : les modules SSM standard génèrent des arrêts préventifs fréquents parce qu'ils surestiment le risque de collision, faute de pouvoir anticiper les mouvements humains. Dans un contexte d'atelier où des cobots travaillent aux côtés d'opérateurs, ces arrêts non nécessaires représentent un coût de productivité réel. La méthode proposée déplace le curseur : au lieu d'un filtre de vitesse binaire (go/stop), le contrôleur module dynamiquement la vitesse d'exécution et la déviation spatiale du robot en temps réel, en restant dans les limites de la norme. C'est un pas vers des cobots réellement compétitifs en termes de cycle time, sans sacrifier la conformité réglementaire. La norme ISO 10218, qui régit la sécurité des robots industriels, est aujourd'hui au coeur des déploiements de cobots chez des fabricants comme FANUC, KUKA, ABB ou Universal Robots. Le SSM est l'approche la plus répandue pour y répondre, mais son conservatisme est documenté depuis plusieurs années. Les CBF, issues de la théorie du contrôle, émergent comme alternative formellement vérifiable, et plusieurs groupes académiques (MIT, ETH, TU Munich) explorent cette direction. La prochaine étape probable est l'intégration de ces contraintes dans des environnements multi-robots et des scénarios à personnes multiples, plus représentatifs de la réalité des ateliers.

UELa norme ISO 10218 étant centrale pour les déploiements de cobots chez KUKA (Allemagne) et ABB (Suisse-Suède), cette approche CBF pourrait réduire les arrêts non productifs dans les ateliers européens et renforcer la compétitivité des intégrateurs face aux contraintes de la directive Machines révisée.

RecherchePaper
1 source
Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée
4arXiv cs.RO 

Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée

Des chercheurs ont publié sur arXiv (arXiv:2602.12024v2) un algorithme nommé ACCBS (Adaptive-Horizon Conflict-Based Search), conçu pour résoudre en temps réel le problème de coordination de flottes de robots dans des entrepôts automatisés. Le Multi-Agent Path Finding (MAPF) consiste à calculer des trajectoires sans collision pour des dizaines à des centaines d'AGV ou AMR opérant simultanément dans un même espace. ACCBS est un planificateur en boucle fermée qui adapte dynamiquement son horizon de planification en fonction du budget computationnel disponible, et réutilise un arbre de contraintes unique pour passer fluidement d'un horizon à l'autre. L'algorithme exhibe un comportement "anytime" : il retourne une solution faisable de bonne qualité très rapidement, puis l'améliore jusqu'à l'optimalité asymptotique si le temps de calcul le permet. L'enjeu industriel est direct. Les approches actuelles se divisent en deux familles peu satisfaisantes : les planificateurs en boucle ouverte, qui génèrent des trajectoires fixes et s'effondrent dès qu'un robot tombe en panne ou qu'un opérateur traverse une allée, et les heuristiques en boucle fermée, qui réagissent aux perturbations mais sans garantie de performance formelle, ce qui les exclut des déploiements à contraintes de sécurité. ACCBS propose un compromis crédible : la robustesse aux perturbations d'un système réactif combinée aux garanties théoriques d'un solveur optimal. Pour un intégrateur ou un COO logistique, cela signifie potentiellement pouvoir dimensionner une flotte plus serrée sans sacrifier la fiabilité SLA, et certifier le comportement du système face aux auditeurs. ACCBS s'appuie sur CBS (Conflict-Based Search), un algorithme de référence académique pour le MAPF optimal, et y greffe un mécanisme d'horizon variable inspiré du Model Predictive Control (MPC) et de l'iterative deepening. Ce domaine est activement disputé : Amazon Robotics, Geek+ et Exotec (acteur français, qui déploie des flottes Skypod dans plusieurs dizaines d'entrepôts en Europe et Amérique du Nord) investissent massivement dans la coordination de flottes à grande échelle. La contribution reste à ce stade un résultat de recherche avec études de cas simulées, aucun déploiement réel n'est annoncé, et les auteurs ne précisent pas le nombre d'agents testé ni les temps de cycle obtenus, ce qui limite l'évaluation de la maturité industrielle.

UEExotec, acteur français leader des flottes Skypod déployées dans des dizaines d'entrepôts en Europe, opère précisément dans le domaine adressé par ACCBS ; si l'algorithme atteint la maturité industrielle, il pourrait renforcer la compétitivité des solutions européennes de coordination de flottes AMR face aux acteurs américains et asiatiques.

RecherchePaper
1 source
SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle
5arXiv cs.RO 

SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle

Des chercheurs du groupe Intuitive Robots ont publié sur arXiv (réf. 2606.13497) SPARC, acronyme de Spatial Annotations from Robot Demonstrations with Reliability Calibration. Il s'agit d'un pipeline automatique qui annote des démonstrations robotiques avec des métadonnées spatiales structurées -- boîtes englobantes, trajectoires d'objets, labels de phase de manipulation -- tout en attribuant à chaque annotation un score de fiabilité calibré. Évalué sur 1 700 démonstrations annotées manuellement, couvrant des morphologies et des scénarios variés, SPARC conserve trois fois plus d'échantillons aux points de fonctionnement haute précision par rapport aux pipelines de détection classiques, tout en surpassant ces mêmes baselines sur la précision de localisation. L'équipe introduit également IA-Bench (Interaction-Aware Bench), un benchmark dédié à mesurer la précision des modèles dans la localisation des objets manipulés au fil d'une démonstration. Le code, les données et les modèles sont disponibles publiquement. L'enjeu est directement lié à la scalabilité de l'entraînement des politiques robotiques et des modèles de fondation incarnés (embodied foundation models). Les pipelines d'annotation automatique existants produisent des labels en volume, mais sans signal de qualité fiable : la confiance du détecteur est mal calibrée pour prédire la correction d'une annotation, ce qui oblige les équipes ML à choisir entre bruit et perte de données. SPARC contourne ce dilemme en exploitant la structure spatio-temporelle propre aux tâches robotiques pour générer un signal de fiabilité intrinsèque. Les politiques entraînées sur ces annotations surpassent les baselines dans des scènes réelles encombrées et visuellement ambiguës, ce qui suggère que la qualité du signal d'annotation compte autant que le volume brut de données -- une hypothèse que le secteur commence seulement à tester systématiquement. Le problème de l'annotation à grande échelle est un goulot d'étranglement bien identifié dans la robotique d'apprentissage par imitation, notamment depuis l'émergence des Visual Language Action models (VLA) tels que pi-0 de Physical Intelligence ou OpenVLA de Berkeley. Ces architectures consomment des milliers de démonstrations annotées avec précision, et la vérification humaine ne passe pas à l'échelle. SPARC s'inscrit dans un effort plus large, parallèle aux travaux de Google DeepMind sur RoboAgent ou aux pipelines de données de Hugging Face LeRobot, pour industrialiser la production de datasets robotiques de qualité. La prochaine étape logique sera de valider SPARC sur des distributions d'environnements plus larges et sur des tâches de manipulation longue durée, deux axes où le sim-to-real gap reste ouvert.

UELes laboratoires européens (CEA-List, INRIA, universités) travaillant sur l'apprentissage par imitation peuvent directement exploiter ce pipeline open-source pour améliorer la qualité de leurs datasets robotiques sans coût d'annotation humaine supplémentaire.

RecherchePaper
1 source
Fibre de détection de contrainte et de toucher, peu coûteuse, facile à fabriquer et très flexible, pour la robotique
6arXiv cs.RO 

Fibre de détection de contrainte et de toucher, peu coûteuse, facile à fabriquer et très flexible, pour la robotique

Des chercheurs ont publié sur arXiv (réf. 2606.13352) la description d'une fibre conductrice multifonctionnelle pour la robotique, fabriquée uniquement avec des composants grand public : fil conducteur à 0,07 dollar par pied, tube en silicone à 0,94 dollar par pied et une aiguille à tricoter vendue 2 dollars. Un segment de 20 centimètres se produit en deux minutes sans équipement spécialisé. La fibre fonctionne soit en capteur de déformation résistif, soit en capteur capacitif selon sa configuration. Cinq applications ont été validées expérimentalement : déclenchement de prise d'un doigt assistif pneumatique, estimation de pose d'une sangle robotique gonflable, reconstruction de forme d'un solide flexible, activation par contact d'un bras industriel commercial, et suivi en champ proche d'une main en mouvement. Les capteurs capacitifs sont tricotés, ce qui leur confère une flexibilité mécanique élevée adaptée aux surfaces non rigides. Pour les intégrateurs et fabricants de robots, l'enjeu est direct : les capteurs de contact et d'élongation existants butent généralement sur au moins un verrou, coût matière, équipement de fabrication spécialisé ou temps de cycle trop long. Cette fibre contourne les trois obstacles simultanément. Elle ouvre une voie concrète vers une instrumentation dense et bon marché de surfaces souples, un prérequis pour la manipulation dextre et les interfaces physiques homme-machine. La démonstration du suivi de main sans marqueur visuel repositionne aussi ce type de capteur comme alternative crédible aux systèmes de vision dans les environnements occludés ou à faible éclairage, point non négligeable pour l'industrie. Les fibres conductrices intégrées dans des élastomères constituent un champ de recherche actif depuis une décennie, avec des contributions notables du Soft Robotics Toolkit de Harvard ou des équipes de l'EPFL sur les peaux électroniques. L'originalité de ces travaux tient à l'accent mis sur la réplicabilité sans laboratoire spécialisé, ce qui rapproche le dispositif d'un composant open hardware. Les auteurs abordent également les compromis liés à l'industrialisation à plus grande échelle et proposent une méthode de réparation après coupure de la fibre. Les applications naturelles incluent les gants haptiques et les préhenseurs à doigts souples, deux segments en forte croissance où aucun standard technologique ne s'est encore imposé.

UELa technologie open hardware décrite pourrait bénéficier aux équipes de robotique douce européennes et aux intégrateurs FR/EU de préhenseurs souples, mais aucun acteur européen n'est central dans cette publication arXiv.

RecherchePaper
1 source
Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux
7arXiv cs.RO 

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Des chercheurs ont soumis en juin 2026 un article (arXiv:2606.13675) présentant le Flow Reversal Steering (FRS), une méthode pour améliorer les politiques robotiques généralistes entraînées par flow matching. Plutôt que de commander directement un tel modèle sur des tâches difficiles, FRS part d'actions sous-optimales mais plausibles, les fait passer en sens inverse à travers la politique de flow pour retrouver leurs bruits latents, puis les projette vers les modes d'action les plus proches dans l'espace comportemental du généraliste. Évaluée sur plusieurs tâches de manipulation en simulation et en conditions réelles, la méthode produit des gains allant jusqu'à 95 points de pourcentage de taux de succès via distillation par behavioral cloning, avec un temps d'entraînement de la politique auxiliaire inférieur à une minute. FRS convertit aussi des instructions sémantiques grossières - formulées par un humain ou un VLM (vision-language model) - en actions motrices précises, sans fine-tuning supplémentaire du modèle de base. L'enjeu est direct pour le secteur robotique : les politiques généralistes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) accumulent une large palette de compétences sur des corpus diversifiés, mais peinent à les mobiliser quand les instructions directes échouent sur des tâches nouvelles. FRS comble ce fossé en exploitant la réversibilité propre aux flow matching models, transformant des intentions floues en actions exécutables sans données de démonstration supplémentaires. La capacité à amorcer l'apprentissage par renforcement à partir de connaissances sémantiques est particulièrement notable : la méthode progresse sur plusieurs tâches où le RL standard reste bloqué. Cela trace une voie concrète pour réduire le gap entre simulation et déploiement réel, un verrou persistant pour les intégrateurs industriels. Ce travail s'inscrit dans la dynamique des VLA (vision-language-action models) qui cherchent à relier guidance sémantique et politique de bas niveau. Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-X) et Berkeley (OpenVLA) explorent des architectures similaires, mais le mécanisme de flow reversal est spécifique aux modèles de flow matching et se distingue des approches par diffusion classique. L'article reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme commerciale. Les suites naturelles seraient une validation sur des robots industriels ou mobiles et une intégration dans des frameworks ouverts comme LeRobot (Hugging Face) ou OpenPI.

UEL'intégration potentielle dans LeRobot (Hugging Face, Paris) représente un vecteur d'adoption concret pour les équipes françaises et européennes travaillant sur des politiques robotiques open-source, si la méthode est confirmée au-delà du stade preprint.

💬 Le truc malin ici, c'est d'exploiter la réversibilité des flow matching models pour remonter d'actions ratées jusqu'aux modes comportementaux les plus proches, sans données de démonstration supplémentaires. 95 points de gain sur certaines tâches, moins d'une minute d'entraînement, c'est le genre de chiffres qui font lever un sourcil. Reste à voir si ça tient en dehors de la simulation, mais si LeRobot l'intègre, les équipes robotique françaises vont avoir quelque chose de sérieux à tester.

IA physiqueOpinion
1 source
Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)
8arXiv cs.RO 

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion
1 source
EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots
9arXiv cs.RO 

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

EgoEngine, un framework décrit dans un preprint arXiv de juin 2026 (arXiv:2606.12604), automatise la transformation de vidéos humaines en vue égocentrique en données d'entraînement exploitables par des robots manipulateurs. Le système prend en entrée une vidéo RGB et produit deux sorties : une séquence où les mains humaines sont remplacées par un effecteur robotique tout en conservant le contexte de la scène et l'alignement temporel, et une trajectoire d'action exécutable sous contraintes de faisabilité cinématique. Le pipeline attaque deux verrous documentés dans la littérature : le visual gap (différence d'apparence entre humain et robot en manipulation) et l'action gap (incommensurabilité entre gestes humains et commandes articulaires d'un bras robotique). Les auteurs rapportent des résultats en simulation et sur robots réels, et affirment, avec la précaution habituelle "à leur connaissance", une première en apprentissage visuomoteur dextère en zero-shot depuis des vidéos égocentriques humaines, sans aucune démonstration préalable sur robot réel. Collecter des démonstrations robotiques à grande échelle pour la manipulation dextère reste l'un des principaux goulots d'étranglement du secteur, en coût et en temps opérateur. Un pipeline capable de valoriser des corpus vidéo égocentriques existants (EPIC-Kitchens, HOI4D, captations industrielles) sans robot disponible au moment de la collecte représenterait un raccourci significatif pour intégrateurs et équipes R&D. La revendication zero-shot est néanmoins à pondérer : les performances en manipulation dextère restent très sensibles à la fidélité du retargeting visuel et des trajectoires synthétisées, et les démonstrations sur robot réel dans les preprints de ce type sélectionnent rarement des scénarios représentatifs de la variabilité terrain. Ce travail s'inscrit dans un champ concurrentiel où NVIDIA (GR00T N2), Physical Intelligence (pi-0) et HuggingFace (Lerobot) développent chacun leurs stratégies de scalabilité des données robotiques. EgoEngine se positionne spécifiquement sur la manipulation dextère fine (doigts, pas seulement le poignet), segment où la sim-to-real gap est la plus difficile à combler et où aucun standard industriel de collecte n'existe encore. En tant que preprint non peer-reviewed, la prochaine étape critique sera une validation sur benchmarks standardisés comme DROID ou Open X-Embodiment pour confirmer la généralisation à des embodiments et tâches diversifiés.

IA physiquePaper
1 source
Attaques trojans sur les contrôleurs de réseaux de neurones pour systèmes robotiques
10arXiv cs.RO 

Attaques trojans sur les contrôleurs de réseaux de neurones pour systèmes robotiques

Des chercheurs ont publié sur arXiv (référence 2602.05121v2) une démonstration de faisabilité d'attaques par backdoor, dites attaques "Trojan", ciblant des contrôleurs neuronaux embarqués dans des systèmes robotiques. Le vecteur d'attaque étudié est un robot mobile à propulsion différentielle, dont le contrôleur de suivi de trajectoire et de stabilisation de pose est implémenté sous forme de réseau de neurones. Les auteurs ont conçu un module Trojan parallèle, léger, conçu pour être inséré dans le réseau principal sans modifier ses poids. Ce module reste inactif en fonctionnement normal, puis s'active dès qu'une condition de déclenchement très précise est détectée, définie conjointement par la pose courante du robot et ses paramètres objectifs. À l'activation, le module corrompt directement les commandes de vitesse des roues, provoquant des comportements non désirés, potentiellement dangereux. L'attaque est validée en simulation selon deux scénarios distincts. Ce travail met en lumière un risque souvent sous-estimé dans la robotique industrielle et les AMR (robots mobiles autonomes) : la chaîne d'approvisionnement en modèles neuronaux. Dès lors qu'un contrôleur est fourni par un tiers, entraîné sur une infrastructure externe, ou acquis via un pipeline de fine-tuning non audité, l'intégrateur ne peut pas garantir l'absence de modules cachés. La discrétion du Trojan, dormant jusqu'à un trigger très spécifique, le rend difficilement détectable par les tests fonctionnels classiques. Pour les COO industriels et les équipes sécurité, cela signifie que les approches de validation de modèles actuelles, orientées performance, sont insuffisantes face à des attaques intentionnelles. Les attaques par backdoor sur les réseaux de neurones sont documentées depuis 2017 dans le domaine de la classification d'images, mais leur transposition aux systèmes de contrôle robotique en temps réel est plus récente et plus critique : une erreur de classification est bénigne, une dérive de trajectoire sur un robot industriel peut provoquer des dommages matériels ou humains. Ce papier s'inscrit dans un corpus croissant qui questionne la robustesse des architectures VLA (Vision-Language-Action) et des contrôleurs neuronaux génériques. Les suites logiques sont des méthodes de détection (analyse spectrale des poids, tests adversariaux ciblés) et des protocoles de certification des modèles embarqués, un chantier encore largement ouvert pour les organismes de standardisation comme l'ISO ou l'IEC.

UELes intégrateurs européens d'AMR et robots industriels utilisant des contrôleurs neuronaux fournis par des tiers sont directement exposés à ce vecteur d'attaque ; les travaux de normalisation ISO/IEC sur la certification des modèles embarqués deviennent un chantier prioritaire pour le marché européen.

RechercheOpinion
1 source
WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique
11arXiv cs.RO 

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.13672) WEAVER (World Estimation Across Views for Embodied Reasoning), une architecture de modèle de monde (world model, WM) dédiée à la manipulation robotique. Le système, multi-vue, est entraîné à prédire des représentations latentes futures et des valeurs de récompense via une perte de flow-matching. Sur robot physique, WEAVER atteint une corrélation ρ = 0,870 entre trajectoires simulées et taux de succès réel en évaluation de politique (policy evaluation). Appliqué à l'amélioration de politique (policy improvement), il produit un gain de 38 % de taux de succès réel au-dessus du modèle de fondation robotique π₀.₅ de Physical Intelligence. En planification à l'inférence (test-time planning), il ajoute 14 % de succès supplémentaires, avec une vitesse de génération 5 à 10 fois supérieure aux WMs précédents. Le code, les modèles et les vidéos sont publiquement accessibles. Les modèles de monde représentent un levier structurant pour la robotique : évaluer ou améliorer des politiques de contrôle, planifier à l'exécution, sans multiplier les interactions coûteuses en environnement réel. Le verrou technique est triple, fidélité (les trajectoires simulées doivent refléter la réalité), cohérence sur longue horizon (les simulations ne doivent pas diverger dans le temps), et efficacité computationnelle. WEAVER satisfait simultanément ces trois critères là où les architectures précédentes échouaient généralement sur au moins l'un d'eux, en particulier sur la cohérence à long horizon pour des tâches de manipulation dynamique complexes. Le gain de 38 % sur π₀.₅ est particulièrement significatif : il démontre qu'un WM peut améliorer un modèle de fondation déjà performant sans collecte de données additionnelles en conditions réelles, réduisant ainsi les coûts de déploiement pour les intégrateurs industriels. Ce travail s'inscrit dans une compétition accélérée autour des world models pour la robotique embodied. Physical Intelligence avec π₀ et π₀.₅, Google DeepMind avec ses variantes RT et RoboDreamer, ainsi que des équipes académiques de Berkeley, CMU et Stanford ont chacun proposé des approches partielles. WEAVER se positionne comme une synthèse architecturale, avec un soin particulier apporté à la gestion de la mémoire et au traitement multi-vue. Aucun partenariat industriel ni calendrier commercial n'est annoncé à ce stade, et la validation reste circonscrite à des environnements de laboratoire contrôlés. La question centrale du sim-to-real gap à l'échelle, dans des environnements industriels non structurés, reste entièrement ouverte.

💬 38 % de gain sur π₀.₅ sans ajouter une seule donnée en conditions réelles, c'est du concret. Ce qui est rare, c'est qu'ils résolvent les trois verrous en même temps : fidélité, cohérence à long horizon, vitesse de génération. Le sim-to-real à l'échelle industrielle reste entier, mais pour l'instant c'est l'architecture la plus sérieuse que j'ai vue sur le sujet.

IA physiqueOpinion
1 source
μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA
12arXiv cs.RO 

μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA

Des chercheurs ont publié sur arXiv (arXiv:2606.12497) une étude d'isolation contrôlée baptisée muVLA, une famille de variantes du modèle OpenVLA-OFT augmentées de récurrence minimale. Le principe : injecter un petit ensemble de tokens mémoire apprenables dans le transformer, transportés d'un pas de temps au suivant et mis à jour par auto-attention, sans loss auxiliaire ni modification architecturale. L'entraînement se fait de bout en bout avec rétropropagation tronquée dans le temps (TBPTT), paramétrée par la largeur mémoire m et la longueur de troncature K, avec deux règles de mise à jour comparées -- gradients inter-pas ou EMA détachée. Sur le benchmark MIKASA-Robo, muVLA porte le taux de succès moyen sur cinq tâches d'entraînement de 0,42 à 0,84 dans la configuration la plus forte, et atteint 0,23 sur des tâches hors distribution contre 0,07 pour la baseline sans mémoire. Sur LIBERO, environnement à observabilité complète, la variante récurrente la plus forte atteint 96,2 % de succès moyen -- sans régression par rapport au modèle de base. Ce travail apporte une contribution méthodologique précise à un champ encombré d'ablations mal contrôlées. La quasi-totalité des VLA à mémoire existants couplent récurrence, retrieval, compression et objectifs hiérarchiques dans un seul système, rendant impossible d'attribuer les gains à un mécanisme isolé. muVLA démontre que la récurrence seule -- sans aucune machinerie additionnelle -- suffit à doubler le taux de succès sur des tâches à observabilité partielle, c'est-à-dire les situations où une partie de l'état pertinent a disparu du champ de vision. Pour les intégrateurs robotiques travaillant sur des cellules avec occlusions ou des séquences d'assemblage multi-étapes, c'est un signal clair : le goulot n'est pas la puissance brute du modèle de base, mais la capacité à maintenir un état latent persistant. Le résultat sur LIBERO indique également que l'ajout de mémoire ne dégrade pas les performances en pleine observabilité, ce qui lève un frein souvent cité à l'adoption de ces architectures en production. OpenVLA est un modèle open-source lancé fin 2024 par une collaboration Stanford/Berkeley/Toyota Research Institute, positionné comme alternative ouverte aux VLA propriétaires comme RT-2 (Google DeepMind) ou pi0 (Physical Intelligence). OpenVLA-OFT en est une variante fine-tunée pour l'exécution rapide. La question de la mémoire dans les VLA est activement travaillée par plusieurs équipes -- RoboVLMs, SpatialVLA, Helix (Figure AI) -- mais avec des architectures nettement plus lourdes. muVLA se distingue par sa minimalité revendiquée et son protocole d'isolation rigoureux, ce qui en fait un outil de calibration plus qu'un système prêt au déploiement. Les auteurs délimitent explicitement le "régime de suffisance" de la récurrence minimale : elle fonctionne pour les tâches où la structure mémoire requise est homogène entre entraînement et évaluation, et atteint ses limites dès que les tâches hors distribution exigent une structure mémorielle différente. Les prochaines étapes naturelles -- combinaison avec des mécanismes de retrieval ou de compression -- sont implicitement balisées par ces résultats.

RechercheOpinion
1 source
Exécution en temps réel avec des politiques autorégressives
13arXiv cs.RO 

Exécution en temps réel avec des politiques autorégressives

Un article de recherche déposé sur arXiv (référence 2606.13355) en juin 2026 démontre que les politiques autoregressives -- la famille de modèles qui génère les actions token par token, à la manière d'un LLM classique -- peuvent atteindre une exécution en temps réel sur des robots physiques. La méthode repose sur deux leviers combinés : l'ajustement de l'horizon de tokenisation (la granularité temporelle des séquences d'actions encodées) et le décodage contraint (constrained decoding), qui impose des bornes de latence strictes à chaque inférence. En rendant l'inférence asynchrone, le système garantit des trajectoires d'action fluides tout en maintenant une réactivité suffisante pour absorber les perturbations de l'environnement. Les auteurs montrent, sur des benchmarks simulés et en conditions réelles, que la politique autoregressive surpasse systématiquement son équivalent basé sur le flow-matching (variante des politiques de diffusion) tout en atteignant des vitesses de complétion de tâche nettement supérieures à celles obtenues en inférence synchrone. Le multi-trajectory decoding -- rendu possible par les garanties de latence -- permet en outre d'explorer plusieurs trajectoires candidates en parallèle pour maximiser la performance. Ce résultat est significatif car il remet en cause une hypothèse dominante dans la robotique d'apprentissage : celle selon laquelle les politiques de diffusion seraient structurellement mieux adaptées à l'exécution temps réel en raison de leur parallélisme d'échantillonnage. Les modèles VLA (Vision-Language-Action) autoregressifs, qui traitent séquentiellement pixels, instructions textuelles et commandes moteur dans un même réseau, souffraient d'un goulot d'étranglement de latence jugé rédhibitoire pour le déploiement sur robots industriels ou humanoïdes. Cette publication suggère que ce surcoût peut être absorbé par architecture -- sans sacrifier la performance ni la généralisation aux instructions. Pour un intégrateur ou un COO industriel évaluant des briques VLA, le message est pratique : les modèles autoregressifs offrent également une convergence plus rapide à l'entraînement et une meilleure généralisation aux nouvelles instructions, deux propriétés critiques pour les déploiements à petits volumes de données. Sur le plan du contexte, le débat autoregressif contre diffusion structure la recherche en politiques robotiques depuis la publication des diffusion policies (Chi et al., 2023), rapidement adoptées par des projets comme pi-0 de Physical Intelligence ou ACT. Les modèles VLA à architecture autoregressive, dont OpenVLA ou les variantes de GR00T N2 (NVIDIA), peinent en revanche à s'imposer en déploiement temps réel faute de latence acceptable. Ce preprint, qui n'est pas encore évalué par les pairs, repositionne cette famille comme compétitive pour l'exécution physique, à condition d'intégrer les deux mécanismes proposés dès la conception du pipeline d'inférence. Les prochaines étapes naturelles seront la validation sur des robots industriels à haute fréquence de contrôle (au-dessus de 50 Hz) et l'ouverture éventuelle du code.

💬 Le verrou de latence des VLA autoregressifs, c'était le seul argument solide qui restait pour privilégier les politiques de diffusion en robotique physique. Avec le décodage contraint plus l'ajustement de l'horizon de tokenisation, ils montrent que ce goulot était architectural, pas structurel. Bon, c'est encore un preprint, reste à voir si ça tient au-dessus de 50 Hz sur du vrai acier.

IA physiqueOpinion
1 source
AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique
14arXiv cs.RO 

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion
1 source
Commande prédictive adaptative d'un robot continu souple par réseau neuronal informé par la physique (tiges de Cosserat)
15arXiv cs.RO 

Commande prédictive adaptative d'un robot continu souple par réseau neuronal informé par la physique (tiges de Cosserat)

Des chercheurs ont publié sur arXiv (2508.12681) un framework de contrôle prédictif par modèle (MPC) non linéaire pour robots continus souples, capables de se déformer en flexion continue plutôt que par articulations rigides. Le coeur du système est un réseau de neurones physiquement informé à découplage de domaine (DD-PINN), entraîné comme substitut du modèle dynamique de tige de Cosserat, la référence mathématique pour la mécanique des structures élancées déformables. Ce substitut atteint un facteur d'accélération de 44 000 par rapport au modèle complet, ce qui permet de faire tourner le MPC en temps réel à 70 Hz sur GPU. En parallèle, un filtre de Kalman non parfumé (UKF) exploite le DD-PINN pour estimer en ligne les états internes du robot et la compliance en flexion, à partir des seules mesures de position de l'effecteur terminal. En simulation, les erreurs de position restent inférieures à 3 mm, soit 2,3 % de la longueur de l'actionneur. Sur le robot physique, le contrôleur atteint des accélérations jusqu'à 3,55 m/s², avec une précision comparable. Ce résultat est notable parce qu'il démontre un contrôle dynamique (et non quasi-statique) d'un robot souple en conditions réelles, à une fréquence compatible avec les exigences industrielles. La majorité des approches antérieures, dont les méthodes basées sur l'opérateur de Koopman, sacrifient soit la précision de forme globale, soit l'adaptabilité aux variations de rigidité. Ici, le DD-PINN reconstruit la forme complète du robot et adapte en ligne la compliance, ce qui ouvre la voie à des manipulateurs souples capables de compenser vieillissement matériau ou déformations sous charge variable. Pour un intégrateur ou un décideur industriel, c'est la convergence entre modèle physique et inférence rapide qui est structurante : on cesse de choisir entre fidélité du modèle et temps réel. Les robots continus souples sont étudiés depuis une quinzaine d'années, principalement pour des applications médicales (endoscopes actifs, outils chirurgicaux), l'inspection en espace confiné, et la manipulation de pièces fragiles. Le modèle de Cosserat est le standard théorique du domaine, mais son coût computationnel avait jusqu'ici limité son usage au contrôle quasi-statique ou offline. Les PINN, réseaux intégrant des équations différentielles comme contraintes de loss, constituent depuis 2019 une piste active pour contourner ce verrou. Ce preprint ne mentionne pas de partenaires industriels ni de calendrier de déploiement ; il s'agit à ce stade d'un résultat de recherche académique, sans produit ni pilote terrain annoncé. Les prochaines étapes naturelles concernent la robustesse aux perturbations externes, l'extension à des structures à plusieurs segments, et une validation sur des cas d'usage médicaux ou d'assemblage délicat.

RecherchePaper
1 source
EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots
16arXiv cs.RO 

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

Une équipe de chercheurs a publié EmbodiSteer, un cadre d'inférence sans réentraînement conçu pour déployer des politiques visuomotrices généralistes sur des robots arbitraires sans adaptation préalable. Le problème qu'il résout est structurel : l'apprentissage par imitation à grande échelle (imitation learning) s'appuie aujourd'hui sur des données hétérogènes collectées sur des robots différents, ce qui pousse les architectures modernes à raisonner dans l'espace cartésien de l'effecteur terminal, un espace agnostique au corps. Cette abstraction est utile pour la généralisation, mais elle rend les politiques aveugles aux contraintes cinématiques propres à chaque robot, notamment la détection de collision avec le propre corps de la machine. EmbodiSteer corrige ce défaut au moment de l'inférence : il projette chaque pas de débruitagede diffusion depuis l'espace cartésien vers l'espace articulaire du robot cible via la cinématique directe et des mises à jour jacobiennes, puis applique un guidage de trajectoire tenant compte des collisions corps entier avant de rebasculer en cartésien pour l'étape suivante. Sur neuf robots simulés, le taux de collision chute de 46,1 % et le taux de succès augmente de 28,5 % par rapport à une exécution purement cartésienne. Sur deux robots physiques dans des scénarios très contraints, les gains montent respectivement à 90,0 % et 36,7 %. L'intérêt industriel de ce résultat réside dans ce qu'il évite : un réentraînement complet du modèle à chaque changement de plateforme matérielle. Pour un intégrateur qui déploie une politique généraliste (type pi-0, GR00T N2, ou toute VLA diffusion-based) sur plusieurs variantes d'un bras industriel, EmbodiSteer représente une couche d'adaptation plug-and-play à l'inférence, sans toucher aux poids. C'est une réponse directe au "sim-to-real gap" qui frappe les politiques cartésiennes lorsqu'elles rencontrent des obstacles inattendus dans le référentiel articulaire du robot réel. La méthode valide aussi une hypothèse importante : les politiques diffusion en espace cartésien ne sont pas intrinsèquement fragiles, elles manquent simplement d'un pont vers la géométrie du corps déployé, un pont que l'on peut construire sans données supplémentaires. EmbodiSteer s'inscrit dans un mouvement plus large vers les politiques universelles (cross-embodiment), dont les représentants notables incluent pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les travaux du Columbia Robotics Lab sur les transformers multi-robot. La plupart de ces architectures partagent le même talon d'Achille cartésien qu'EmbodiSteer cible. Le papier, déposé sur arXiv (2606.12965) en juin 2026, ne mentionne pas de partenaire industriel ni de calendrier de commercialisation : il s'agit d'une contribution académique, sans produit shipé ni déploiement annoncé. Le code et la page projet sont publics, ce qui facilite l'expérimentation par des tiers. La prochaine étape logique serait de tester le cadre sur des robots à configuration non standard, comme des bras à redondance élevée ou des humanoïdes complets, où le guidage jacobien pose des défis d'ambiguïté cinématique plus sérieux.

UELes intégrateurs robotiques européens déployant des politiques VLA sur plusieurs plateformes matérielles pourraient adopter EmbodiSteer comme couche d'adaptation plug-and-play, mais aucun acteur FR/EU n'est impliqué dans ces travaux.

💬 Une couche d'adaptation à l'inférence sans réentraînement, ça semble anodin, mais c'est exactement ce qui manque quand tu veux déployer une politique généraliste sur plusieurs bots différents sans exploser ton budget GPU. Les chiffres de simulation, je les prends avec des pincettes, mais 90% de réduction de collisions sur robot physique en conditions contraintes, c'est pas du flan. Le code est public, donc si t'es intégrateur robotique, t'as déjà ta prochaine expérimentation du vendredi.

IA physiqueOpinion
1 source
Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines
17arXiv cs.RO 

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

Des chercheurs ont déposé le 12 juin 2026 sur arXiv (référence 2606.12759) Sparse2Act, un cadre de pré-entraînement pour encodeurs de nuages de points 3D épars appliqués à la manipulation robotique. La méthode exploite les actions de l'effecteur terminal en espace tâche comme supervision géométrique : des tokens 3D masqués sont entraînés à organiser les features de scène autour du mouvement de l'espace de travail associé à l'observation. Sur le benchmark LIBERO-10, le système atteint 86,9 % de taux de succès moyen après seulement 500 étapes de fine-tuning. Le même encodeur pré-entraîné permet un transfert inter-domaines de LIBERO vers Meta-World, avec 73,4 % de succès moyen sur le benchmark Meta-World-5. En condition réelle, après pré-entraînement en simulation suivi d'un fine-tuning limité sur données réelles, le système obtient 72,5 % de succès sur quatre tâches de manipulation distinctes. Ce que démontre Sparse2Act, c'est qu'un encodeur 3D peut être pré-entraîné de façon générique et réutilisé tel quel par des politiques aux architectures et espaces d'action différents, y compris des commandes en espace articulaire. C'est un changement de paradigme par rapport aux représentations 3D apprises via des objectifs de tâche spécifiques, qui restent liées à une distribution de données particulière et ne se transfèrent pas. Le sim-to-real à 72,5 % avec fine-tuning limité est un résultat concret que les pipelines VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou OpenVLA peinent à reproduire proprement sur des tâches de manipulation fine. Les ablations publiées dans le papier confirment que le gain provient du signal d'alignement action-masque, et non de la capacité du décodeur, ce qui oriente les futures architectures vers une supervision géométrique légère. L'intérêt pour les représentations 3D explicites en manipulation robotique s'est accentué depuis 2023, en réponse aux limites des politiques purement pixel-based sur les saisies occludées ou en précision sub-centimétrique. Sparse2Act s'inscrit dans le courant du pré-entraînement de représentations robotiques génériques, aux côtés de R3M, MVP ou SPA, mais se distingue par l'usage des actions comme signal de supervision géométrique plutôt que du contrastif visuel ou de la reconstruction d'image. Les concurrents directs incluent les fondations visuelles fine-tunées (DINO, SAM) adaptées à la manipulation et les politiques diffusion-based comme Pi-0.2 ou RDT-1B. La prochaine étape naturelle pour ce travail est l'extension à des morphologies variées (bras bimanuel, robot mobile) et à des scènes hors environnements tabletop standardisés comme LIBERO et Meta-World.

RecherchePaper
1 source
Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques
18arXiv cs.RO 

Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques

MiDiGap (Mixture of Discrete-time Gaussian Processes) est une méthode d'apprentissage par imitation pour la manipulation robotique, publiée en mai 2025 en preprint arXiv (2505.03296v2) par des chercheurs de l'Université de Fribourg-en-Brisgau. Elle apprend des politiques de contrôle à partir de seulement cinq démonstrations, en utilisant uniquement des observations caméra, et converge en moins d'une minute sur CPU standard. Le spectre de tâches couvert est large: comportements à longue horizon comme préparer un café, mouvements très contraints comme ouvrir une porte, actions dynamiques comme manier une spatule, et tâches multimodales comme accrocher une tasse. Sur le benchmark simulé RLBench, la méthode affiche un gain de 76 points de pourcentage de succès sur les tâches contraintes, réduit le coût de trajectoire de 67%, et progresse de 48 points sur les tâches multimodales avec une efficacité d'échantillonnage multipliée par 20. En transfert cross-embodiment, c'est-à-dire l'adaptation d'une politique à un robot de morphologie différente sans réentraînement complet, le taux de succès est plus que doublé. Le code est publié en open-source. L'enjeu principal est le coût d'entrée à l'apprentissage par imitation. Les architectures actuellement dominantes, Diffusion Policy (Columbia), ACT (Stanford/Berkeley) ou les VLA comme Pi-0 de Physical Intelligence, nécessitent des milliers de démonstrations et des ressources GPU conséquentes. Une méthode compétitive opérant sur CPU en moins d'une minute élargit concrètement l'accès aux intégrateurs et PME robotiques sans infrastructure ML dédiée. La fonctionnalité de pilotage à l'inférence (inference-time steering) est aussi notable: en injectant des signaux de collision ou des contraintes cinématiques du robot directement à l'inférence, sans réentraînement, MiDiGap permet une adaptation dynamique aux contraintes physiques réelles, propriété rare dans les méthodes actuelles et potentiellement précieuse pour les déploiements industriels. L'Université de Fribourg-en-Brisgau s'impose ici comme un acteur européen de poids dans l'apprentissage robotique, aux côtés d'ETH Zurich et du DLR. MiDiGap entre en concurrence directe avec Diffusion Policy, ACT, mais aussi avec les fondations propriétaires comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). Un bémol important: toutes les métriques annoncées proviennent de RLBench, un benchmark entièrement en simulation. La robustesse sim-to-real, c'est-à-dire le maintien des performances sur des robots réels dans des conditions non contrôlées, reste à démontrer. La mise en open-source sur midigap.cs.uni-freiburg.de devrait permettre une évaluation indépendante et une validation sur plateformes réelles dans les prochains mois.

UEL'Université de Fribourg-en-Brisgau (Allemagne) produit un concurrent open-source direct aux fondations propriétaires américaines (Pi-0, GR00T N2), accessible sans GPU aux intégrateurs et PME robotiques européens, renforçant la capacité européenne en apprentissage robotique face aux acteurs US.

RecherchePaper
1 source
IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation
19arXiv cs.RO 

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Une équipe de chercheurs a publié sur arXiv Embodied-R1.5, un modèle de fondation incarné (EFM pour Embodied Foundation Model) de 8 milliards de paramètres intégrant cognition incarnée, planification, auto-correction et pointage d'affordances dans une architecture unifiée, entraîné sur un corpus dépassant 15 milliards de tokens construit via trois pipelines automatisés. Le cadre Planner-Grounder-Corrector (PGC) en boucle fermée permet l'exécution autonome et l'auto-correction sur des tâches longues, soutenu par une recette d'apprentissage par renforcement multi-tâches équilibré pour atténuer les conflits entre sous-domaines hétérogènes. Sur les benchmarks standardisés, Embodied-R1.5 atteint l'état de l'art sur 16 des 24 benchmarks de VLM incarnés, devançant Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI. Adapté en VLA (Vision-Language-Action) avec peu de données de fine-tuning, il surpasse pi-0.5 de Physical Intelligence sur quatre suites de benchmarks de manipulation. Des tests zero-shot sur robot réel valident les performances en suivi d'instructions, ancrage d'affordances, manipulation d'objets articulés et tâches longues, les poids, le code d'entraînement et EmbodiedEvalKit, un framework d'évaluation dédié, étant publiés en open source. Qu'un modèle de 8 milliards de paramètres surpasse des systèmes adossés aux ressources de Google et d'OpenAI est un signal notable pour les intégrateurs industriels, car la compacité ouvre la voie à un déploiement embarqué sur plateformes contraintes. L'auto-correction en boucle fermée du PGC répond directement au demo-to-reality gap qui freine la commercialisation des robots polyvalents, tandis que la capacité à fine-tuner en VLA avec peu de données cible le goulot d'étranglement central de la collecte de données de manipulation étiquetées. L'open source complet facilite la comparaison reproductible et devrait accélérer les itérations communautaires, à condition que les performances zero-shot annoncées soient confirmées dans des configurations adversariales que le papier ne documente pas. Embodied-R1.5 s'inscrit dans la vague des modèles de fondation robotiques généraux densifiée depuis RT-2 de Google et OpenVLA, avec pour concurrents directs Physical Intelligence (pi-0, pi-0.5) et Google DeepMind (Gemini Robotics). L'absence d'acteurs européens parmi les concurrents benchmarkés reflète le retard du continent, où des acteurs comme Wandercraft ou Enchanted Tools restent cantonnés à des niches spécialisées. L'approche open source total distingue ce travail des modèles propriétaires de Figure AI (Figure 03) ou de 1X Technologies, positionnant potentiellement Embodied-R1.5 comme base de référence pour les laboratoires et industriels souhaitant spécialiser un EFM sur leurs propres flux de manipulation.

UELes poids et le code d'Embodied-R1.5 publiés en open source constituent une base de référence accessible pour les laboratoires européens (CEA-List, INRIA) souhaitant spécialiser un EFM sur leurs propres flux de manipulation sans dépendre des modèles propriétaires de Google ou OpenAI.

💬 8 milliards de paramètres qui coiffent Gemini Robotics et GPT-5.4 sur leurs propres benchmarks, en open source total, c'est inattendu. L'auto-correction en boucle fermée s'attaque directement au fossé entre la démo en labo et le robot qui tient la route en prod, ce qui est le vrai mur depuis RT-2. Bon, le papier esquive les configurations difficiles, donc on verra ce que ça donne quand la communauté s'en empare.

IA physiqueOpinion
1 source
FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques
20arXiv cs.RO 

FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques

Des chercheurs ont publié en juin 2026 sur arXiv (2606.12406) deux méthodes complémentaires pour doter les bras robotiques low-cost d'une sensibilité à l'effort sans capteur de force dédié. NEXT (Neural External Torque Estimation) estime les couples externes appliqués aux articulations à partir de données de mouvement libre uniquement : dix minutes de collecte suffisent pour un entraînement d'une minute, avec des performances comparables à celles de capteurs de couples articulaires dédiés. FIRST (Force-Informed Re-Sampling Training) exploite ces estimations pendant le behavior cloning en sur-échantillonnant les phases précédant le contact et les phases de contact elles-mêmes. Sur cinq tâches à horizon long impliquant des manipulations contacts-riches, FIRST dépasse les politiques force-aware antérieures de plus de 17% en progression de tâche. Code et vidéos sont disponibles à jasonjzliu.com/factr2. L'impact principal concerne les intégrateurs opérant sur des bras collaboratifs sans instrumentation force-couple : UR, Franka, Kinova ou Dobot ne sont pas livrés avec des capteurs six axes, dont le coût unitaire dépasse fréquemment 5 000 euros. En éliminant ce prérequis matériel, NEXT rend la télé-opération à retour d'effort et l'apprentissage par démonstration accessibles sur flottilles existantes sans modification mécanique. Le gain de 17% sur des tâches longues comme l'insertion ou l'assemblage est non trivial, même si ces benchmarks en laboratoire restent à valider en conditions industrielles. Ce que cette contribution établit : la perception d'effort peut être inférée par voie logicielle, sans modifier la mécanique du robot. La publication s'inscrit dans la continuité de FACTR (arXiv:2502.02022, 2025, même groupe), qui explorait déjà l'apprentissage de politiques contacts-riches par télé-opération avec retour de force. Le paysage concurrentiel inclut les approches à capteurs tactiles (DIGIT de Meta, GelSight du MIT), les estimateurs de couple par résidus de dynamique utilisés à DLR et Fraunhofer, et les travaux sur la perception haptique chez Physical Intelligence et Figure AI. Les prochaines étapes naturelles seront la validation sur hardware industriel certifié et l'intégration dans des pipelines VLA (Vision-Language-Action), où la perception d'effort reste une lacune connue des politiques déployées à grande échelle.

UELes laboratoires européens (DLR, Fraunhofer) et intégrateurs utilisant des bras Franka Emika (fabricant allemand) peuvent évaluer NEXT/FIRST sur leurs flottes existantes sans investissement matériel supplémentaire, abaissant le coût d'accès à l'apprentissage contacts-riches.

💬 Dix minutes de collecte de données pour remplacer un capteur à 5 000€, c'est là que ça devient vraiment intéressant. Les intégrateurs qui tournent sur du Franka ou du UR sans instrumentation force-couple vont pouvoir tester ça sur leurs flottes sans toucher à la mécanique, et le +17% sur des tâches longues comme l'insertion c'est pas du bruit. Reste à voir si ça tient hors conditions de labo, mais la direction est la bonne.

IA physiquePaper
1 source
Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif
21arXiv cs.RO 

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

Des chercheurs publient sur arXiv (2606.12299, juin 2026) une méthode pour rendre les VLA (Vision-Language-Action) plus robustes aux variations de formulation en langage naturel. Le problème documenté est précis : des instructions sémantiquement proches induisent des comportements radicalement différents chez un robot piloté par VLA, et certaines capacités restent inaccessibles via le prompting standard. L'approche proposée, la "language feedback policy" (LFP), recherche interactivement des formulations optimales en boucle fermée, les distille en une politique de feedback activée au moment du test, puis utilise la prédiction conforme pour bloquer toute intervention susceptible de dégrader les performances hors distribution. Les résultats annoncés sont significatifs : +24,7 % de succès en simulation et +65,0 % sur matériel réel, sans fine-tuning du modèle sous-jacent ni accès aux données d'entraînement d'origine. Ce gain de 65 % sur robot physique est notable, même si les auteurs ne précisent pas les tâches ou les manipulateurs testés, ce qui rend la comparaison directe avec d'autres travaux difficile. L'absence totale de réentraînement constitue l'apport pratique le plus clair : les intégrateurs peuvent superposer cette couche sur n'importe quel VLA pré-entraîné gelé (Pi-0, GR00T N2, Helix, OpenVLA) sans toucher aux pipelines existants. La garantie de "harmlessness" via prédiction conforme est une contribution méthodologique rigoureuse : l'intervention est bloquée dès que la LFP risque de faire pire que l'instruction originale, critère essentiel pour un déploiement industriel où la fiabilité prime sur la performance brute. Ce travail s'inscrit dans un contexte de déploiements VLA accélérés : Physical Intelligence a commercialisé Pi-0, NVIDIA a publié GR00T N2, Figure déploie Helix en production chez BMW à Spartanburg. En Europe, Wandercraft intègre des architectures de contrôle apprenant pour la rééducation, et Enchanted Tools teste des interactions langage-robot sur son humanoïde Miroka. Tous ces systèmes partagent la même fragilité au prompt que l'ingénierie manuelle ne résout pas systématiquement. Ce travail propose une couche d'adaptation automatique complémentaire aux approches de fine-tuning comme RLHF ou DPO appliqués aux VLA. Les suites naturelles seraient une évaluation sur des benchmarks standardisés tels que LIBERO ou OpenX-Embodiment, et un test sur des VLA propriétaires à architecture fermée.

UEWandercraft et Enchanted Tools, qui intègrent des architectures de contrôle apprenant sur leurs systèmes respectifs, sont des bénéficiaires directs potentiels de cette couche d'adaptation VLA déployable sans réentraînement ni accès aux données d'origine.

💬 65 % de gain sur matériel réel sans toucher au modèle sous-jacent, c'est pas rien. Ce qui m'intéresse surtout, c'est la garantie de ne pas dégrader les performances : l'intervention est bloquée dès qu'elle risque de faire pire que l'instruction d'origine, et ça c'est le seul argument qui tient vraiment dans un déploiement industriel. Reste à voir sur quelles tâches ils ont testé ça, les détails manquent pour comparer sérieusement avec l'existant.

IA physiqueOpinion
1 source
L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes
22arXiv cs.RO 

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

Une étude publiée sur arXiv le 11 juin 2026 (réf. 2606.11891) présente une comparaison rigoureuse de deux architectures de critique en apprentissage par renforcement multi-objectifs pour robots humanoïdes : un critique unifié (un seul réseau estimant la valeur combinée de tous les objectifs) contre des critiques duaux (deux réseaux distincts, chacun associé à un signal de récompense séparé, l'un pour la locomotion, l'autre pour la manipulation). Les expériences ont été conduites sur le Unitree G1, un humanoïde à 23 degrés de liberté actifs, dans le simulateur NVIDIA Isaac Lab, via un curriculum séquentiel de 13 niveaux progressant de l'atteinte stationnaire jusqu'à la marche avec des cibles à orientation variable. Résultat : les politiques entraînées avec critiques duaux atteignent leurs cibles 3,5 fois plus vite (6,5 pas de simulation contre 22,6), affichent un débit deux fois supérieur (14,3 contre 7,0 atteintes validées pour 1 000 pas), et un taux de réussite validé de 65,2 % contre 53,8 % pour le critique unifié. Ce que l'étude démontre, c'est que le choix de l'architecture du critique est un levier de conception primaire, souvent négligé, dont l'impact surpasse celui du reward engineering. Fait notable : l'ajout de mécanismes anti-gaming, conçus pour empêcher la politique d'exploiter les failles de la fonction de récompense, ne produit aucun gain au-delà du changement architectural seul (60,9 % contre 65,2 %). L'implication la plus immédiate concerne le fine-tuning RL de politiques pré-entraînées par imitation : lorsqu'on affine un modèle de manipulation déjà appris (style Pi-0 ou GR00T N2), un critique unifié risque de supprimer les comportements acquis par interférence des gradients de locomotion. Pour les équipes qui cherchent à spécialiser des modèles de fondation robotiques par RL, cette mise en garde est directement opérationnelle. Le Unitree G1, vendu autour de 16 000 dollars, est devenu un banc de test standard pour la recherche en humanoïde abordable, face aux plateformes de Figure AI, Agility Robotics ou 1X Technologies qui opèrent sur des gammes de prix bien supérieures. NVIDIA Isaac Lab, successeur d'Isaac Gym, s'est imposé comme l'environnement de référence pour l'entraînement sim-to-real. La question du découplage locomotion/manipulation en RL multi-objectifs est au coeur de plusieurs groupes de recherche (Stanford, CMU, ETH Zurich), et les résultats de cette étude, issus d'un cadre contrôlé et reproductible, offrent une base solide pour orienter les choix d'architecture avant tout entraînement coûteux sur robot réel.

RecherchePaper
1 source
Évaluation multimodale de la perception robotique en environnements naturels
23arXiv cs.RO 

Évaluation multimodale de la perception robotique en environnements naturels

Des chercheurs du CSIRO (Commonwealth Scientific and Industrial Research Organisation, Australie) ont publié en juin 2026 le benchmark WildCross, un jeu de données multi-modal destiné à évaluer les systèmes de perception robotique dans des environnements naturels non structurés. Le dataset comprend plus de 476 000 frames RGB séquentielles annotées avec profondeur semi-dense, normales de surface, pose 6DoF précise et sous-cartes lidar denses synchronisées. WildCross cible deux tâches clés : la reconnaissance de lieu (place recognition) et l'estimation de profondeur métrique, deux briques fondamentales pour la navigation autonome en extérieur. L'article, disponible en preprint sur arXiv (2606.11563), constitue une extension d'une publication précédente avec un focus particulier sur les expériences d'estimation de profondeur. Le benchmark révèle une faiblesse structurelle des modèles de vision actuels, notamment les vision foundation models (type DINOv2, SAM ou DepthAnything) : entraînés massivement sur des données urbaines structurées (routes, bâtiments, feux de signalisation), ils se dégradent significativement face aux textures répétitives, aux variations d'éclairage et à l'absence de repères géométriques nets caractéristiques des milieux forestiers, agricoles ou montagneux. Pour les intégrateurs en robotique de terrain (agriculture de précision, inspection d'infrastructures, opérations de recherche et sauvetage), cela confirme ce que les praticiens suspectent depuis longtemps : les benchmarks urbains comme KITTI ou NYUv2 ne prédisent pas les performances réelles sur le terrain. Le CSIRO Robotics est l'un des principaux laboratoires mondiaux sur la robotique en environnements difficiles, notamment via ses contributions au challenge DARPA Subterranean et au développement du robot Spot dans des mines australiennes. WildCross entre en compétition directe avec des initiatives comme RUGD, RELLIS ou le benchmark TartanAir sur la question du sim-to-real en outdoor, mais se distingue par l'intégration de lidar dense synchronisé permettant une vérité terrain de profondeur plus fiable. Le dataset et le code sont accessibles publiquement via csiro-robotics.github.io/WildCross. Les prochaines étapes annoncées incluent l'évaluation de modèles VLA (vision-language-action) sur ce corpus, ce qui pourrait élargir la portée du benchmark au-delà de la seule perception passive.

UELes équipes européennes en robotique de terrain (agriculture de précision, inspection d'infrastructures) peuvent utiliser ce benchmark open-source pour évaluer objectivement leurs modèles de perception en environnement non structuré, confirmant que les référentiels urbains classiques ne prédisent pas les performances réelles sur le terrain.

RecherchePaper
1 source
Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante
24arXiv cs.RO 

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

Des chercheurs ont publié le 12 juin 2026 un article sur arXiv (2606.12365) présentant l'Ambient Diffusion Policy, une méthode d'apprentissage par imitation conçue pour exploiter des données de démonstration sous-optimales en robotique. Le problème de fond est économique : collecter des données de haute qualité, spécifiques à une tâche, reste coûteux et chronophage, tandis que des datasets hétérogènes, bruités ou hors distribution sont abondants. La méthode introduit un nouvel axe de co-entraînement fondé sur le bruit : la contribution des données sous-optimales est restreinte aux seuls niveaux de bruit élevés et faibles dans le processus de diffusion, plutôt que sur l'ensemble des timesteps d'entraînement. Cette sélectivité permet d'extraire les caractéristiques utiles tout en neutralisant les signaux parasites. Testée sur six tâches couvrant quatre types de données dégradées (trajectoires bruitées, écart sim-to-réel, désalignement de tâche, mélanges de datasets à grande échelle), la méthode surpasse les baselines de co-entraînement existantes de jusqu'à 33% sur Open X-Embodiment, un dataset public de référence regroupant des données robotiques hétérogènes issues de multiples plates-formes. L'impact pour les intégrateurs et les équipes R&D est direct : l'un des goulots d'étranglement majeurs du déploiement de politiques de contrôle apprises n'est plus la quantité de données parfaites disponibles, mais la capacité à valoriser des données imparfaites déjà collectées. La justification théorique repose sur l'observation que les données d'action robotique suivent une loi de puissance spectrale, ce qui induit deux propriétés exploitables dans les Diffusion Policies : une hiérarchie global-to-local et une propriété de localité. Ces propriétés permettent de comprendre pourquoi les niveaux de bruit extrêmes encodent respectivement la structure globale du mouvement et les détails fins, et donc pourquoi la restriction de la contribution des données sous-optimales à ces deux régimes fonctionne. C'est un résultat notable : la méthode n'exige pas de filtrage préalable ni de pondération manuelle des sources, ce qui simplifie le pipeline d'ingestion de données. L'Ambient Diffusion Policy s'inscrit dans le sillage des Diffusion Policies (Chi et al., 2023, Columbia University), devenues une référence dans le contrôle robotique par imitation depuis leur démonstration sur des tâches de manipulation précise. Le co-entraînement sur données hétérogènes est un défi actif, notamment pour les grandes politiques généralistes comme RT-2, Octo ou OpenVLA, qui s'appuient sur Open X-Embodiment. L'approche "Ambient" s'inspire des travaux sur l'apprentissage par diffusion à partir de données corrompues (Gokaslan et al., 2023), ici réinterprétés pour le contexte robotique. Les concurrents directs incluent les méthodes de filtrage par récompense (IQL, AWR) et les approches de pondération implicite comme DWSL. La prochaine étape naturelle, non annoncée dans l'article, serait une intégration dans des pipelines de fine-tuning de politiques fondatrices (foundation policies) où la qualité des données de démonstration spécifiques au site de déploiement reste variable.

UELes équipes R&D robotique françaises et européennes travaillant sur des politiques d'imitation peuvent directement exploiter la méthode pour valoriser leurs datasets de démonstration hétérogènes existants, réduisant le coût de collecte de données haute qualité pour le déploiement industriel ou humanoïde.

IA physiquePaper
1 source
Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées
25arXiv cs.RO 

Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.10208) une analyse de synthèse portant sur l'intégration des modèles de fondation dans les robots de soin aux personnes âgées et aux patients. L'article, classé comme Perspective, passe en revue l'état de l'art sur trois axes : les caractéristiques de conception, l'expérience utilisateur mesurée, et les preuves d'impact sur les soins. Le constat central est que les architectures dominantes utilisent les modèles de fondation comme couche de conversation et de raisonnement au sein d'incarnations socioassistives centrées sur la voix, des agents qui parlent et écoutent mais dont l'autonomie physique et la compréhension multimodale restent fortement limitées. Les évaluations empiriques rapportent des bénéfices positifs en termes d'utilisabilité et d'engagement, mais des défaillances de fiabilité persistent : hallucinations, ruptures conversationnelles et pannes dans le pipeline d'interaction. L'enjeu pour les intégrateurs et décideurs du secteur santé est précisément là : les métriques actuellement rapportées portent sur des résultats proximaux comme l'engagement cognitif ou la participation, et non sur des indicateurs cliniques validés. Les robots sociaux conversationnels améliorent peut-être le ressenti ou l'interaction, mais aucun système décrit dans la littérature ne démontre d'impact mesurable sur des outcomes de santé standardisés. Cette lacune est critique pour tout déploiement en EHPAD ou à l'hôpital, où la responsabilité médicale exige traçabilité et supervision humaine explicite. Les auteurs soulignent que les benchmarks génériques importés du NLP ou de la robotique généraliste ne sont pas adaptés aux contraintes des environnements de soin. Le contexte est celui d'une accélération massive des modèles de fondation en robotique, de PaLM-E à Pi-0 de Physical Intelligence en passant par GR00T N2 de NVIDIA, qui creuse un écart croissant entre capacités techniques et readiness clinique. Du côté des plateformes établies, Pepper (SoftBank) et PARO (AIST, Japon) restent les références les plus documentées en milieu de soin. Des acteurs européens comme Enchanted Tools avec Mirokaï, ou des projets portés par l'Inria, s'inscrivent dans cette dynamique. Les auteurs appellent à une transition vers des standards d'évaluation spécifiques aux soins, une autonomie avec supervision humaine intégrée dès la conception, et une intégration réelle dans les flux de travail cliniques, trois conditions encore largement non remplies par les systèmes actuels.

UEEnchanted Tools (Mirokaï) et l'Inria sont explicitement cités comme acteurs européens engagés dans la robotique de soin, et les lacunes identifiées (absence de standards d'évaluation cliniques, supervision humaine insuffisante) concernent directement les déploiements en EHPAD et hôpitaux français soumis à la réglementation médicale.

RecherchePaper
1 source
BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique
26arXiv cs.RO 

BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique

Des chercheurs ont publié BadRobot (arXiv:2407.20242, juillet 2024, v5), un cadre d'attaque ciblant les agents IA incarnés (embodied AI) : des robots et systèmes physiques dont la planification de tâches est pilotée par un grand modèle de langage. L'attaque exploite trois vecteurs distincts : la manipulation du LLM embarqué via des interactions vocales standard, le désalignement structurel entre les sorties linguistiques du modèle et les actions physiques réellement exécutées, et les comportements dangereux involontaires causés par des lacunes dans les connaissances du monde encodées dans le modèle. Pour évaluer la menace, les auteurs ont constitué un benchmark de requêtes d'actions physiques malveillantes, testé contre trois frameworks embodied AI de référence : VoxPoser, Code as Policies et ProgPrompt. Les expériences montrent que ces trois systèmes peuvent être amenés à exécuter des comportements nuisibles dans le monde physique, sans nécessiter de modification matérielle ni d'accès privilégié au système. Ce travail pointe un angle mort structurel : les techniques de jailbreaking, jusqu'à présent évaluées sur des sorties textuelles, produisent des conséquences physiques irréversibles lorsque le LLM pilote un effecteur. Le désalignement documenté est systémique, car les guardrails de sécurité sont appliqués à la couche linguistique sans validation cohérente lors de la planification motrice ou de l'exécution de tâches. Pour un intégrateur industriel déployant un robot manipulateur ou un AMR guidé par LLM, cela signifie que les mécanismes de conformité conçus pour les chatbots sont insuffisants en contexte physique. La démonstration sur trois frameworks activement utilisés en recherche et en prototypage industriel renforce la portée opérationnelle de l'alerte. VoxPoser (2023) et Code as Policies (Google, 2022) ont popularisé l'utilisation des LLM comme planificateurs de tâches haut niveau en robotique, tandis que ProgPrompt (2022) ciblait les robots de service autonomes. BadRobot paraît alors que des systèmes commerciaux comme Figure 02, l'Optimus de Tesla ou les robots Agility déployés chez Amazon commencent à intégrer des pipelines LLM en production réelle, rendant la surface d'attaque concrète. Aucun acteur français ou européen n'est directement mentionné dans l'étude, mais des entreprises comme Enchanted Tools (Mirokaï) ou Pollen Robotics (Reachy), qui explorent l'intégration de LLM dans leurs plateformes, sont exposées aux mêmes vecteurs. Les auteurs ont mis leur code en accès libre sur GitHub, ouvrant la voie à des reproductions indépendantes et au développement de contre-mesures architecturales spécifiques à l'embodied AI.

UEEnchanted Tools (Mirokaï) et Pollen Robotics (Reachy), deux acteurs français intégrant des LLM dans leurs plateformes robotiques, sont explicitement cités comme exposés aux mêmes vecteurs d'attaque documentés par BadRobot.

RechercheOpinion
1 source
Prise de contrôle adversariale en temps réel des politiques de diffusion robotique
27arXiv cs.RO 

Prise de contrôle adversariale en temps réel des politiques de diffusion robotique

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (réf. 2606.10371) une attaque baptisée TAKO (Test-time Adversarial Takeover), qui permet de prendre le contrôle en temps réel d'un robot opérant sous une politique de diffusion visuomotrice, sans modifier le modèle cible. La méthode repose sur un vocabulaire restreint de patches adversariaux universels et réutilisables, appris hors ligne via inférence de diffusion différentiable. À l'exécution, un opérateur humain injecte ces patches dans le flux caméra du robot et les commute dynamiquement pour composer des trajectoires de son choix. Sur quatre tâches évaluées (manipulation 2D, livraison aérienne simulée, navigation sol simulée et navigation sol en environnement physique réel), deux encodeurs visuels (ResNet-18 et EfficientNet-B0 + Transformer) et trois familles d'inférence générative (DDPM, DDIM et flow matching), les opérateurs attaquants ont atteint 100 % de succès de détournement dans l'ensemble des scénarios testés. Ce résultat interpelle directement les intégrateurs robotiques et les équipes de sécurité industrielle qui déploient des systèmes pilotés par des politiques de diffusion ou des VLA (Vision-Language-Action models). Jusqu'ici, la quasi-totalité des attaques adversariales sur robots visaient la dégradation des performances, induire un échec de tâche ou un comportement erratique. TAKO introduit une menace qualitativement différente : le robot ne s'arrête pas, il obéit à un attaquant distant. La perturbation agit sur le chemin de conditionnement visuel de la politique, et le biais introduit se propage à travers le processus de génération itératif propre aux modèles de diffusion, ce qui le rend difficile à détecter par supervision classique. Les auteurs démontrent aussi que la baseline naturelle "target-policy matching" échoue, car la politique victime ne peut pas se superviser fiablement sur des shifts hors distribution, invalidant une hypothèse de défense couramment avancée. Les politiques de diffusion pour la robotique se sont imposées comme paradigme dominant depuis 2023, portées par Diffusion Policy (Chi et al.) et intégrées dans des systèmes tels que pi0 de Physical Intelligence, les pipelines de Figure AI ou les robots de 1X Technologies. Ces architectures conditionnent l'action sur une observation visuelle, ce qui les rend structurellement vulnérables aux perturbations du flux caméra. Les pistes de défense habituelles, détection d'anomalies ou purification adversariale, restent largement expérimentales à cette échelle. L'évaluation demeure dans un cadre académique contrôlé, sans partenaire industriel ni calendrier de déploiement annoncé. Pour les équipes préparant des déploiements en logistique, livraison autonome ou manipulation industrielle, TAKO pose une question de sécurité concrète à laquelle le secteur n'a pas encore de réponse standardisée.

UELes intégrateurs robotiques européens déployant des systèmes à politiques de diffusion en logistique ou industrie doivent intégrer ce vecteur d'attaque dans leur modèle de menace, en l'absence de défense standardisée disponible.

RechercheActu
1 source
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
28arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

IA physiqueOpinion
1 source
Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation
29arXiv cs.RO 

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Des chercheurs ont publié le 10 juin 2026 (arXiv:2606.10501) une étude identifiant une vulnérabilité critique des modèles Vision-Language-Action (VLA) face aux défauts physiques articulaires. Ces modèles, qui traduisent instructions en langage naturel et observations visuelles en commandes motrices, équipent aujourd'hui les robots humanoïdes et manipulateurs les plus avancés. Les auteurs montrent que des failles réalistes, notamment dégradation d'actionneur, friction excessive due à l'usure, dommages de collision ou limites de sécurité restreintes, cassent la boucle fermée entre action commandée, mouvement réalisé et observation suivante, dégradant les taux de succès même pour des défauts physiquement « faisables ». L'impact varie selon l'articulation affectée, rendant toute mitigation générique difficile. En réponse, les auteurs proposent J-PARC (Joint-level Physical-fault Aware Residual Calibrator), un module léger ajouté au-dessus d'une politique VLA figée, qui infère un régime de défaut latent depuis la dynamique articulaire récente et applique une correction résiduelle adaptative sans modifier le modèle de base. Ce résultat comble un angle mort réel dans la validation des systèmes robotiques à base de VLA. L'effort de robustification s'est jusqu'ici concentré sur les variations perceptuelles et sémantiques : éclairage, occlusion, reformulation d'instructions. Or tout robot industriel accumule friction, chocs et dégradation d'actionneur au fil du temps. Montrer que ces perturbations physiquement réalisables suffisent à faire chuter les performances remet en cause l'hypothèse implicite qu'un VLA entraîné sur hardware neuf reste fiable tout au long de son cycle de vie opérationnel. Pour les intégrateurs et responsables de certification, c'est un signal fort : la robustesse mécanique doit entrer dans les critères de qualification aux côtés de la généralisation sémantique. L'approche J-PARC, sans fine-tuning ni capteur supplémentaire, offre une piste d'adaptation réaliste pour les déploiements existants. Les VLA ont connu une montée en puissance rapide depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), avec des déploiements annoncés chez Figure (modèle 03), Agility Robotics et 1X Technologies. Malgré leurs performances en laboratoire, leur comportement sur hardware vieillissant reste peu documenté dans la littérature. Ce papier s'inscrit dans une tendance croissante sur la fiabilité opérationnelle à long terme, aux côtés des travaux sur le sim-to-real gap. En Europe, des acteurs comme Enchanted Tools avec Mirokaï ou Wandercraft, où la dégradation articulaire est un enjeu quotidien en milieu médical ou logistique, sont directement concernés par ces résultats. Les prochaines étapes naturelles seront une validation sur hardware en vieillissement accéléré et l'intégration de J-PARC dans des pipelines de déploiement continu.

UELes acteurs français Enchanted Tools et Wandercraft, confrontés à la dégradation articulaire en milieu médical et logistique, peuvent directement intégrer J-PARC pour fiabiliser leurs déploiements VLA sans modifier leurs modèles de base.

💬 On a tous fait cette hypothèse implicite : un VLA entraîné en labo reste fiable sur un robot qui a pris des coups après 18 mois en prod. Ce papier montre que non, et c'est un angle mort réel pour tous les intégrateurs qui déploient en milieu industriel ou médical. J-PARC corrige ça sans toucher au modèle de base, bon, reste à voir si ça tient sur du vrai hardware vieilli.

IA physiqueOpinion
1 source
Ce que les métriques de curation des démonstrations font à votre politique
30arXiv cs.RO 

Ce que les métriques de curation des démonstrations font à votre politique

Une étude publiée en juin 2026 (arXiv:2606.10229) révèle une décorrélation surprenante au cœur du pipeline d'imitation learning en robotique : les métriques qui détectent le mieux les épisodes de démonstration défectueux ne sont pas celles qui produisent les meilleures politiques de behavior cloning. Les chercheurs ont travaillé sur le benchmark LIBERO de pick-and-place en contact riche, en injectant un défaut structurel contrôlé, un relâchement prématuré du préhenseur pendant la phase de transport. Parmi sept métriques de curation évaluées, celle affichant le meilleur AUROC de détection de défauts (0,804) génère la pire politique downstream, avec un taux de succès de seulement 13,3 %. À l'inverse, une métrique avec un AUROC bien plus faible (0,638) produit une politique atteignant 90,0 % de réussite, contre 93,3 % pour l'oracle entraîné sur données propres vérifiées. La baseline contaminée, sans aucune curation, ne dépasse pas 3,3 % de succès. Ce résultat remet en cause un présupposé largement répandu dans la communauté robotique : l'idée qu'améliorer la détection des démonstrations défectueuses suffit à améliorer la politique apprise. L'étude montre que cinq des sept métriques testées utilisent en réalité la longueur d'épisode comme proxy trivial pour le label de défaut, un biais qui gonfle artificiellement les AUROC jusqu'à des valeurs quasi-parfaites, et qui disparaît dès lors qu'on neutralise cette variable. Pour les équipes qui construisent des systèmes de robot learning à partir de données humaines (notamment dans les approches VLA ou diffusion policy), cela signifie que les outils de curation standard peuvent induire en erreur, en sélectionnant des données qui « semblent » propres sans réellement améliorer le comportement en rollout. L'imitation learning par behavior cloning est aujourd'hui au cœur des approches de référence en manipulation robotique, des systèmes Pi-0 de Physical Intelligence aux architectures ACT et Diffusion Policy largement reproduites en recherche académique. LIBERO est un benchmark établi, utilisé précisément pour sa richesse en interactions contact. Les auteurs de cette étude vont plus loin que le constat en publiant le testbed complet, toutes les implémentations de métriques et le pipeline d'évaluation, ce qui permet à la communauté de recalibrer ses outils de curation. La recommandation centrale est méthodologique : évaluer une méthode de curation à l'aune de la politique qu'elle produit, pas des défauts qu'elle signale, et imposer un contrôle systématique de la longueur d'épisode avant toute publication de score de détection.

UELes laboratoires académiques et startups européennes travaillant sur le behavior cloning ou les politiques de diffusion peuvent recalibrer leurs pipelines de curation grâce au testbed complet publié par les auteurs.

RecherchePaper
1 source
Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel
31arXiv cs.RO 

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

Des chercheurs publient en juin 2026 une méthode baptisée "flow control" (arXiv:2606.10180) permettant de piloter en temps réel les modèles VLA (Vision-Language-Action) via des entrées génériques, comme un clavier ou un joystick, sans aucun ré-entraînement ni fine-tuning. L'approche opère à l'inférence en orientant l'échantillonnage du modèle vers des actions qui reflètent l'intention de l'opérateur tout en restant dans la distribution experte apprise à l'entraînement. Les auteurs documentent dans ce preprint quatre propriétés mesurées : guidage précis et réactif, robustesse aux commandes imprécises, taux de succès améliorés avec réduction des temps de tâche, et enfin un gain de performance autonome lorsqu'on fine-tune le VLA sur les trajectoires corrigées par flow control. L'enjeu est concret pour les intégrateurs : les VLAs montrent des performances solides en démo, mais leurs taux d'échec en déploiement réel restent non nuls face aux variations d'environnement et aux instructions ambiguës. Plutôt que de corriger ces défauts par du ré-entraînement coûteux, flow control permet à un opérateur de guider le robot à la volée sans dégrader la qualité des mouvements générés. La boucle est vertueuse : les corrections humaines produisent des trajectoires haute qualité réutilisables comme données d'entraînement, traçant un chemin de déploiement progressif où la supervision humaine se retire au fil des itérations. Les VLAs ont pris de l'ampleur avec Pi-0 de Physical Intelligence (publié fin 2024), dont l'architecture repose précisément sur le flow matching, d'où le jeu de mots du titre. NVIDIA GR00T N2, OpenVLA (Berkeley/Stanford), et les modèles LeRobot de Hugging Face (Paris) constituent les autres plateformes où cette couche de contrôle pourrait s'intégrer sans modifier le pipeline d'entraînement existant. L'idée de guidage conditionné à l'inférence existe déjà en génération d'images via le classifier guidance des modèles de diffusion, mais son application à la robotique physique restait peu explorée. Les prochaines étapes annoncées dans le papier incluent le fine-tuning systématique sur trajectoires flow-control pour quantifier le gain autonome à plus grande échelle.

UEHugging Face (Paris) est explicitement cité comme plateforme d'intégration via LeRobot, ce qui rend cette méthode directement applicable à l'initiative robotique open-source française sans modifier le pipeline d'entraînement existant.

💬 C'est exactement le problème que personne ne veut admettre sur les VLAs : ils impressionnent en démo et flanchent en prod dès que l'environnement bouge un peu. L'idée de guider l'échantillonnage à l'inférence plutôt que de tout ré-entraîner, c'est le genre de solution pragmatique qu'on attendait. La boucle où les corrections humaines deviennent des données d'entraînement, c'est propre, et si ça marche à l'échelle avec LeRobot, Hugging Face tient quelque chose de sérieux.

IA physiqueOpinion
1 source
Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes
32arXiv cs.RO 

Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes

Des chercheurs ont publié Co-GLANCE (arXiv:2606.09919), un système embarqué de perception active et de prise de décision pour équipes robotiques hétérogènes opérant en extérieur non structuré. Le problème central adressé est l'incertitude perceptuelle liée aux occlusions : selon la position d'un robot, certaines zones de la scène restent invisibles ou ambiguës, et aucun agent isolé ne dispose d'un point de vue suffisant pour une compréhension fiable. Co-GLANCE distille les capacités de raisonnement sémantique d'un vision-language model (VLM) dans un modèle embarqué end-to-end qui réalise simultanément la segmentation des occlusions et l'allocation des robots les plus adaptés pour résoudre ces zones d'incertitude. Pour quantifier cette incertitude de façon statistiquement garantie, le système combine la prédiction conforme (conformal prediction) et l'abstention sélective sur les sorties de segmentation, d'allocation et de détection. Comparé aux baselines VLM cloud, Co-GLANCE améliore la précision de segmentation des occlusions de 25% et l'allocation robotique de 36%, tout en réduisant la latence d'inférence par image d'un facteur 350. Un dataset air-sol est également publié en open source. Ce résultat est significatif pour les intégrateurs et les décideurs industriels déployant des flottes multi-robots sur des chantiers, des sites miniers ou des opérations de surveillance. L'élimination de la dépendance au cloud pour l'inférence VLM lève un verrou majeur : latence, connectivité intermittente et coûts d'API. Le gain de 350x en latence n'est pas un chiffre de laboratoire anecdotique, il rend la perception active temps-réel praticable sur du matériel embarqué contraint. La combinaison conformal prediction + abstention sélective apporte des garanties de couverture statistique, ce qui est rare dans les systèmes robotiques terrain : les incertitudes sont exploitables (elles déclenchent des actions), pas seulement affichées. Les travaux sur la coordination multi-robots hétérogènes air-sol s'inscrivent dans un champ actif depuis plusieurs années, avec des groupes comme MIT CSAIL, Stanford, ETH Zurich et CMU comme références principales. La tendance forte est le passage des VLM cloud-only vers des modèles distillés edge-capable, que l'on retrouve aussi dans des travaux comme OpenVLA ou octo. Co-GLANCE se positionne spécifiquement sur l'allocation robotique sous incertitude, un angle moins couvert que la simple navigation ou manipulation. Les prochaines étapes probables incluent des validations sur des flottes plus larges et des environnements dégradés (nuit, pluie), ainsi que l'intégration dans des stacks ROS2 existants. Le code et le dataset sont disponibles sur co-glance.github.io.

RecherchePaper
1 source
Démontage de batteries lithium-ion 18650 en fin de vie par robot humanoïde à deux bras guidé par vision
33arXiv cs.RO 

Démontage de batteries lithium-ion 18650 en fin de vie par robot humanoïde à deux bras guidé par vision

Une équipe de recherche a publié sur arXiv (référence 2606.08152) un pipeline robotique bi-bras guidé par vision pour le démontage automatisé de blocs de batteries lithium-ion 18650 en fin de vie. Le système cible des packs de 21 cellules cylindriques, caractéristiques des véhicules électriques et de l'électronique grand public, et les désassemble depuis une pose initiale quelconque, sans fixation externe ni outillage spécialisé. L'architecture repose sur des pinces à mâchoires parallèles standard, une caméra RGB-D au poignet et un détecteur de préhension pré-entraîné. Les résultats mesurés sur banc : 8 démontages complets réussis sur 10 tentatives, une erreur quadratique moyenne de localisation cellule de 2,4 mm, et un temps de cycle moyen de 6,0 minutes par pack. Un mécanisme de transfert de support entre les deux bras en cours de tâche permet d'étendre l'espace de travail effectif sans ancrage externe. La contribution technique centrale est la gestion de l'incertitude de pose : une pile perception "learn-and-filter" couplée à des corrections look-and-move par caméra au poignet absorbe les variations d'orientation du pack à l'entrée du cycle. C'est précisément ce verrou, pose inconnue et absence de gabarit, que les systèmes robotiques existants ne résolvent pas : ils présupposent des packs positionnés et calés. Pour un intégrateur ou un opérateur de centre de recyclage, cela change le profil d'investissement : supprimer les convoyeurs de présentation et les gabarits rigides réduit les coûts de ligne et ouvre la voie à des formats de packs hétérogènes. À noter que 8/10 de succès et 6 minutes par pack restent des performances de laboratoire, insuffisantes pour une cadence industrielle sans amélioration substantielle du taux de cycle et de la robustesse. La pression réglementaire européenne est le moteur structurel de ce segment : le règlement européen sur les batteries de 2023 impose des seuils de contenu recyclé en cobalt, nickel et lithium à horizon 2030, ce qui rend l'automatisation du démontage cellule par cellule économiquement stratégique. Des acteurs comme SNAM en France ou Accurec en Allemagne industrialisent déjà la filière, mais s'appuient encore majoritairement sur des procédés thermiques ou hydromécaniques de masse, peu sélectifs. Ce travail, publié en preprint arXiv sans validation industrielle annoncée, illustre une approche robotique généraliste en concurrence avec les bras dédiés à outillage spécialisé développés par des groupes comme ABB ou des startups comme Agilox côté manutention. Les prochaines étapes logiques seraient l'extension à des géométries de packs prismatiques et pouch cells, majoritaires dans le parc VE européen, et un test de durabilité sur plusieurs centaines de cycles.

UELe règlement européen sur les batteries de 2023 imposant des seuils de contenu recyclé en cobalt, nickel et lithium d'ici 2030 rend cette approche directement stratégique pour des acteurs français comme SNAM qui industrialisent le démantèlement de batteries mais s'appuient encore sur des procédés peu sélectifs.

FR/EU ecosystemePaper
1 source
Évaluation des modèles vision-langage-action (VLA) sur SO-101 : analyse des échecs et de la récupération
34arXiv cs.RO 

Évaluation des modèles vision-langage-action (VLA) sur SO-101 : analyse des échecs et de la récupération

Une équipe de chercheurs a publié le 10 juin 2026 (arXiv:2606.08881) un benchmark standardisé pour évaluer des modèles Vision-Language-Action (VLA) sur le robot SO-101, une plateforme manipulatrice à faible coût issue de la communauté open-source. Quatre politiques ont été comparées sur quatre tâches de manipulation représentatives avec des protocoles d'évaluation unifiés : Pi-0.5 (Physical Intelligence), SmolVLA (HuggingFace), Wall-X et ACT (Action Chunking with Transformers, référence en imitation learning). Toutes ont été fine-tunées directement sur le matériel physique à partir de démonstrations télé-opérées en conditions réelles, sans passer par la simulation. Au-delà du simple taux de succès binaire, l'étude introduit une taxonomie structurée des échecs, une décomposition sémantique et d'exécution, ainsi que des métriques de récupération (recovery-aware metrics) pour qualifier la robustesse de chaque architecture. Les résultats confirment que les VLA pré-entraînés sur de larges corpus surpassent globalement la baseline en imitation learning pure, mais cette supériorité reste fortement dépendante de la tâche. Ce point est crucial pour les intégrateurs : l'instabilité d'exécution, et non les erreurs de compréhension sémantique, constitue la source d'échec dominante. La capacité de récupération varie significativement selon les architectures, ce qui suggère que les benchmarks centrés uniquement sur le taux de succès final masquent des différences opérationnelles importantes. Pour un COO industriel, cela signifie que le choix d'un modèle VLA ne peut pas se faire sur des métriques agrégées sans analyser le comportement en cas d'échec partiel. Le SO-101 s'est imposé comme plateforme de référence communautaire grâce à son coût accessible, là où la plupart des évaluations VLA existantes reposent sur des robots industriels onéreux (Franka, UR, Boston Dynamics Spot) ou restent cantonnées à la simulation. Ce travail s'inscrit dans un effort plus large de démocratisation des benchmarks robotiques, face à des acteurs comme Figure AI, Agility Robotics ou 1X Technologies qui évaluent leurs systèmes en environnements propriétaires non reproductibles. Les auteurs positionnent explicitement le SO-101 comme socle pratique pour l'évaluation de l'IA incarnée dans des conditions de déploiement réalistes à faible coût. La prochaine étape naturelle serait d'étendre ce protocole à des scénarios de manipulation plus complexes et à davantage d'architectures VLA émergentes, notamment celles intégrant des retours haptiques.

UESmolVLA de HuggingFace (entreprise française) est directement comparé à Pi-0.5, Wall-X et ACT dans ce benchmark standardisé, offrant une visibilité internationale sur les forces et faiblesses du modèle français face aux architectures VLA concurrentes.

FR/EU ecosystemeActu
1 source
vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)
35arXiv cs.RO 

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Des chercheurs de FAI ModelOpt Tech ont publié en juin 2026 vla.cpp (arXiv 2606.08094), un moteur d'inférence C++ portable construit sur llama.cpp pour exécuter des politiques VLA (Vision-Language-Action) directement sur le matériel embarqué des robots. L'engine prend en charge sept architectures couvrant cinq familles de backbones et quatre têtes d'action via un protocole requête/réponse unifié, incluant les schémas d'inférence par flow-matching et par diffusion propres aux VLA récents. Sur le benchmark LIBERO-Object, il reproduit le meilleur checkpoint SOTA à un épisode près sur 200 ; BitVLA y atteint 100 % de succès dans 1,3 Gio de mémoire. Le même bundle s'exécute sans modification sur trois niveaux matériels, d'un GPU grand public jusqu'à un module embarqué de 8 Go de RAM. Un noyau GEMM IMMA en escalier, dérivé d'une analyse roofline multi-hardware, réduit la latence par étape de BitVLA d'un facteur 4,5. Les auteurs ont également conduit un test de stress sur un bras ALOHA pour mesurer la contrainte de latence de replanification face à une cible mobile. Le problème structurel que vla.cpp attaque est la dépendance des stacks Python/PyTorch actuels à un GPU de station de travail, hypothèse incompatible avec l'électronique embarquée des robots commerciaux ou des cobots industriels. Démontrer une exécution à succès complet dans 1,3 Gio ouvre concrètement la voie au déploiement edge sans serveur distant ni dépendance cloud pour des tâches de manipulation. L'analyse roofline publiée dans le papier établit un résultat contre-intuitif pour les intégrateurs : l'inférence VLA en batch-1 est compute-bound, non bandwidth-bound, ce qui déplace le levier d'optimisation vers le taux d'utilisation du calcul. L'unification de sept architectures sous un seul protocole réduit également la fragmentation de l'écosystème VLA, frein réel à l'adoption en production. vla.cpp hérite de l'approche de quantification ggml et de la portabilité de llama.cpp de Georgi Gerganov. Les modèles ciblés incluent des architectures issues de Physical Intelligence (pi0) et des projets ouverts comme OpenVLA. La concurrence directe sur ce segment est limitée : la plupart des équipes robotiques maintiennent des pipelines Python maison dépendants de GPU Nvidia RTX 3090/4090 ; ROS 2 et Isaac ROS de Nvidia offrent des primitives d'intégration mais pas de runtime VLA unifié. Aucun acteur français ou européen n'est directement cité dans le papier. Le code, les vidéos de démonstration et le scaffold de benchmark reproductible sont disponibles sur le site du projet.

UEAucun acteur européen impliqué dans le développement, mais le runtime portable est directement exploitable par les équipes R&D françaises et européennes cherchant à déployer des politiques VLA sur matériel embarqué sans dépendance cloud.

💬 Faire tourner une politique VLA dans 1,3 Gio sans GPU de workstation, c'est le vrai débloqueur que les équipes robotique attendaient. Le reste, les sept architectures unifiées, le protocole commun, c'est utile, mais ce qui compte c'est que le déploiement edge devient une option sérieuse sans serveur distant. Reste à voir si ça tient sur des tâches moins sages que LIBERO-Object.

IA physiqueOpinion
1 source
RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste
36arXiv cs.RO 

RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste

Des chercheurs ont publié sur arXiv en juin 2026 un framework nommé RGB-S pour améliorer la fusion visuo-tactile dans la manipulation dextre robotique sous conditions d'occlusion. La méthode projette les emplacements des capteurs tactiles directement sur le plan image RGB via la cinématique directe du robot et la calibration caméra, puis génère des cartes de saillance gaussiennes modulées par la force pour modéliser l'incertitude spatiale liée aux erreurs de calibration. Ces ancres 2D sont injectées dans un backbone visuel standard via une architecture de conditionnement à initialisation zéro, ce qui préserve les représentations visuelles pré-entraînées. Testé sur six tâches de manipulation dextre en simulation et en monde réel sous occlusions sévères, RGB-S dépasse la meilleure baseline visuo-tactile implicite de 26,7 points de pourcentage en taux de succès sur les scénarios occludés. Ce résultat touche à un verrou majeur du déploiement de mains robotiques polyvalentes. Les approches implicites existantes laissent au modèle le soin d'apprendre seul les correspondances inter-modalités depuis un faible nombre de démonstrations, ce qui les rend fragiles dès que la vision est dégradée par l'auto-occlusion des doigts, la poussière ou un éclairage défavorable. En ancrant explicitement les contacts physiques dans l'espace image avec un prior géométrique fort, RGB-S court-circuite ce problème sans détruire les capacités visuelles pré-entraînées. Le gain de 26,7 points sur des expériences réelles est solide, bien que la sélection restreinte à six tâches de benchmark et l'absence de comparaison avec des architectures VLA récentes invitent à nuancer la portée des conclusions. La fusion visuo-tactile est un champ actif depuis l'essor des capteurs haute résolution comme GelSight ou DIGIT. Les approches précédentes, qu'il s'agisse d'imitation learning ou de reinforcement learning, peinent à résoudre le transfert sim-to-real sur des prises complexes. Du côté industriel, des acteurs comme Sanctuary AI, Dexterous Robotics ou Enchanted Tools (France) intègrent des interfaces tactiles dans leurs plateformes humanoïdes pour la manipulation fine. RGB-S se positionne comme une brique modulaire compatible avec des backbones standards, ce qui facilite son intégration dans des pipelines existants. Les prochaines validations naturelles passeront par des benchmarks standardisés comme DexYCB et des tests sur des mains à plus de six degrés de liberté en environnement industriel non contrôlé.

UEEnchanted Tools (France), qui intègre des interfaces tactiles dans ses humanoïdes, pourrait bénéficier directement de cette brique modulaire pour renforcer la manipulation fine sous occlusion sans reconstruire ses représentations visuelles pré-entraînées.

RecherchePaper
1 source
KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques
37arXiv cs.RO 

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

KPGrasp est un framework de génération de préhension dextère présenté dans un preprint arXiv (juin 2026), combinant flow matching et modèle Transformer pour apprendre des priors de saisie à grande échelle, sans recourir aux fonctions de coût contact-based ni au raffinement coûteux à l'inférence. L'approche repose sur une paramétrisation des mains par points-clés 3D en coordonnées euclidiennes pures, exprimés dans le même référentiel que le nuage de points de l'objet cible, évitant l'espace mixte SE(3)/angles articulaires conventionnel. Sur le benchmark Dexonomy, le modèle atteint 76,3% de taux de succès de préhension, soit +47,4% sur la meilleure baseline directement comparable, avec une profondeur de pénétration réduite à 2,4 mm. Sans fine-tuning spécifique, il obtient également les meilleures performances moyennes sur DexGrasp Anything. En inférence batch, chaque préhension est générée en 0,032 seconde. Des expériences réelles sur 20 objets variés confirment le passage au monde physique. La préhension dextère multi-doigts reste l'un des verrous techniques persistants de la manipulation robotique: saisir de façon stable des objets de formes variées exige une coordination articulaire complexe que les méthodes actuelles peinent à généraliser sans supervision dense ou raffinement coûteux. KPGrasp rompt avec ce paradigme en traitant le problème comme un apprentissage de distribution pure, entraîné uniquement avec la loss standard du flow matching. La scalabilité démontrée avec la taille du modèle, le volume de données et la taille des batchs suit la logique des grands modèles génératifs, signal fort pour les intégrateurs: davantage de données synthétiques de préhension pourrait suffire à améliorer les performances sans engineering de loss ad hoc. Le temps de 32 ms par grasp en inférence batch ouvre un déploiement temps-réel réaliste sur cellules robotiques industrielles équipées de mains dextères. La préhension dextère générative a émergé progressivement via les diffusion models (DexDiffuser, GraspDiffusion) et les réseaux de contacts avant que le flow matching ne s'impose. KPGrasp se positionne dans cette vague avec une prétention explicite de scalabilité data-driven que ses prédécesseurs n'affichaient pas. Les benchmarks Dexonomy et DexGrasp Anything sont devenus des références communautaires pour évaluer la généralisation inter-objets. Côté effecteurs, Shadow Robot, Schunk SVH et Inspire Hands sont les acteurs matériels naturellement concernés. Les suites logiques incluent le couplage avec des VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, qui assureraient la planification de haut niveau tandis que KPGrasp générerait les préhensions à bas niveau, comblant ainsi le gap entre policy de manipulation et génération de grasp.

UESchunk (Allemagne) figure parmi les fabricants d'effecteurs directement concernés, offrant aux intégrateurs robotiques européens une voie concrète vers la manipulation dextère temps-réel sans engineering de loss ad hoc.

💬 +47% de taux de succès sur le benchmark, c'est pas anodin. Ce qui me frappe, c'est la décision de virer complètement les fonctions de coût contact-based et de traiter ça comme un pur problème de distribution, avec le flow matching comme loss standard, ça simplifie vraiment le pipeline là où tout le monde s'obstinait à rajouter des couches. 32 ms par préhension en batch, ça commence à ressembler à quelque chose d'exploitable en industrie, bon, faut encore voir ce que ça donne hors benchmarks sur des objets vraiment sales ou déformés.

IA physiquePaper
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
38arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

IA physiquePaper
1 source
RAM : la portée de l'apprentissage robotique au-delà des morphologies
39arXiv cs.RO 

RAM : la portée de l'apprentissage robotique au-delà des morphologies

Une équipe de chercheurs a publié en juin 2026, via arXiv (arXiv:2606.09108), un modèle de réseau de neurones baptisé RAM (Reachability Across Morphologies), conçu pour prédire l'espace de travail atteignable d'un bras robotique en temps quasi nul. Là où les méthodes traditionnelles d'échantillonnage ou de grilles voxels opèrent à l'échelle de la milliseconde ou plus, RAM atteint un score F1 de 86 % avec un temps d'inférence réduit de trois ordres de grandeur par rapport à la baseline, soit une exécution à l'échelle de la nanoseconde. Le modèle a été entraîné sur un jeu de données de 3×10^10 échantillons, générés exclusivement à partir de la cinématique directe. Sa caractéristique centrale : il est conditionné par la morphologie du robot, lui permettant de généraliser à des configurations inédites sans réentraînement, tout en intégrant nativement la détection des auto-collisions. L'enjeu opérationnel est direct. Le calcul du workspace atteignable intervient à chaque étape du cycle de vie d'un robot, conception morphologique, planification de trajectoire, placement en cellule d'intégration. Les méthodes disponibles à ce jour sont soit lentes, soit figées sur une morphologie unique, rendant l'exploration du design-space coûteuse en calcul. RAM étant différentiable, il peut s'insérer dans des boucles d'optimisation par gradient : les auteurs rapportent des accélérations d'un ordre de grandeur pour l'optimisation morphologique et de deux ordres pour la trajectoire. Pour un intégrateur ou un OEM, cela ouvre la voie à un co-design robot-cellule significativement plus rapide. Les représentations neurales implicites (NRI), popularisées par les NeRF pour la reconstruction 3D, s'imposent progressivement en robotique depuis 2023 pour encoder des fonctions géométriques complexes. RAM applique cette logique à la cinématique, en concurrence directe avec les cartes de joignabilité sur grille (précises mais lourdes) et les surrogates appris à morphologie fixe. Aucun acteur commercial n'est cité dans la publication ; la contribution reste académique, accompagnée d'un site de démonstration. Les suites naturelles seraient l'intégration dans des pipelines de CAO robotique ou des plateformes de simulation telles qu'Isaac Lab ou MuJoCo.

RecherchePaper
1 source
La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?
40arXiv cs.RO 

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

Une équipe de chercheurs publie sur arXiv (référence 2507.06219) une étude systématique sur le rôle de la diversité des données dans l'apprentissage de la manipulation robotique, remettant en cause l'intuition du "plus c'est divers, mieux c'est". Trois dimensions sont examinées indépendamment. La diversité des tâches s'avère plus critique que le volume de démonstrations par tâche pour le transfert vers de nouveaux scénarios. L'entraînement multi-robots (multi-embodiment) n'est pas nécessaire au transfert inter-plateformes : un modèle entraîné sur un seul type de robot avec des données de haute qualité transfère aussi efficacement, avec de meilleures propriétés de scaling au fine-tuning. Enfin, la diversité des experts humains peut nuire à l'apprentissage via la multimodalité des vitesses d'exécution, chaque opérateur ayant ses propres rythmes et préférences gestuelles. Pour corriger ce biais, les auteurs introduisent une méthode de distribution debiasing appliquée à leur modèle GO-1-Pro, qui gagne 15% de performance, l'équivalent de multiplier par 2,5 le volume de pré-entraînement. Ces résultats ont des implications directes pour les équipes qui conçoivent des pipelines de collecte de données. La conclusion sur le multi-embodiment est particulièrement contre-intuitive : constituer un corpus mono-robot de haute qualité avant de fine-tuner est plus efficace qu'accumuler des datasets disparates multi-robots. Pour un intégrateur ou un décideur industriel, cela redéfinit les priorités de curation : couvrir un maximum de tâches prime sur l'accumulation brute de démonstrations, et standardiser les démonstrations expert devient un levier de performance mesurable. La multimodalité des vitesses est désormais un biais identifiable et corrigeable en amont du pipeline, pas une fatalité inhérente à la collecte humaine. Ce travail s'inscrit dans la dynamique portée par Google DeepMind (RT-2), Physical Intelligence (Pi-0) et les équipes de Berkeley (OpenVLA, Octo), qui cherchent à construire des fondations généralistes pour la manipulation depuis 2023. Contrairement au texte ou aux images, les données de démonstration robotique restent coûteuses à produire, ce qui rend les choix de stratégie de scaling particulièrement stratégiques. Les conclusions orientent directement les acteurs comme Figure AI (Figure 03), Agility Robotics ou, en France, Enchanted Tools (Mirokaï), qui investissent dans de larges datasets de manipulation. Ce travail est purement académique : aucun déploiement ni partenariat commercial n'est annoncé.

UEEnchanted Tools (Mirokaï) est explicitement citée comme acteur concerné par ces stratégies de scaling des données de manipulation, rendant les conclusions directement applicables à leur R&D en France.

RecherchePaper
1 source
OLIVE : apprentissage incrémental en ligne à faible rang pour exosquelettes adaptatifs efficaces
41arXiv cs.RO 

OLIVE : apprentissage incrémental en ligne à faible rang pour exosquelettes adaptatifs efficaces

Des chercheurs ont publié le 5 juin 2026 sur arXiv (2606.05234) OLIVE, un framework d'adaptation en ligne pour exosquelettes portables basé sur une décomposition de rang faible. Le principe central : plutôt que de recalculer l'intégralité de la politique de contrôle, OLIVE décompose la composante adaptative en une forme résiduelle ΔW = A·Bᵀ de rang r très inférieur aux dimensions du modèle, ce qui réduit le coût de mise à jour de O(dk) à O(r(d+k)). Concrètement, le contrôleur de base pré-entraîné reste stable, tandis qu'une couche légère se personnalise en continu à partir des capteurs embarqués : EMG (électromyographie), IMU et vibrations, sans trajectoire de référence hors ligne. Un mécanisme de gating module l'intensité de la personnalisation selon le contexte, et un ordonnanceur de rang dynamique alloue une faible capacité sur terrain plat, puis monte en rang sur surfaces irrégulières, escaliers ou pentes. Les résultats expérimentaux sur plateforme réelle annoncent des gains de +13 points de pourcentage en fluidité de marche, +22 en réduction d'effort musculaire, et +15 en stabilité du mouvement par rapport à la meilleure baseline testée, avec convergence en environ 1 800 pas de marche et une latence bout-en-bout de 7,4 ms. L'enjeu clinique et industriel est significatif. Les exosquelettes existants (Ekso, ReWalk, Wandercraft avec son Atalante) s'appuient majoritairement sur des politiques de marche statiques, calibrées en laboratoire et peu robustes aux variations de terrain ou de morphologie individuelle. OLIVE propose une alternative déployable à l'embarqué, sans cloud, sans session de calibration préalable longue, et sans capteurs de force au sol. La latence de 7,4 ms est compatible avec les exigences temps-réel des systèmes de contrôle d'exosquelettes (généralement sous 10 ms). Si les gains annoncés tiennent en dehors du cadre expérimental contrôlé, cela réduirait substantiellement le temps d'adaptation à un nouvel utilisateur ou à un environnement non familier, un frein majeur à la commercialisation des dispositifs d'assistance à la mobilité. Le travail s'inscrit dans la vague des méthodes d'adaptation paramétrique légère issues du fine-tuning de LLMs (LoRA, notamment), transposées ici au contrôle robotique continu. Les approches concurrentes dans l'espace exosquelette incluent les méthodes d'apprentissage par renforcement avec modèles appris (model-based RL) et les politiques meta-apprises (MAML-style), généralement plus lourdes à déployer sur matériel embarqué. L'équipe derrière OLIVE a rendu le code public sur GitHub (FastLM/OLIVE). Les prochaines étapes non précisées dans le papier concerneront vraisemblablement la validation sur cohortes cliniques plus larges et l'intégration sur des plateformes commerciales, où la certification médicale reste le principal obstacle au déploiement à grande échelle.

UEWandercraft (fabricant français de l'Atalante) est explicitement cité comme référence concurrentielle ; si les gains d'OLIVE sont confirmés sur cohortes cliniques, cela pourrait contraindre Wandercraft à intégrer une couche d'adaptation en ligne dans sa prochaine génération d'exosquelettes pour rester compétitif sur le critère de personnalisation utilisateur.

ExosquelettesPaper
1 source
Ce que mesurent réellement les benchmarks en manipulation robotique
42arXiv cs.RO 

Ce que mesurent réellement les benchmarks en manipulation robotique

Un article de recherche déposé sur arXiv le 4 juin 2026 (arXiv:2606.04233) remet en cause la fiabilité de cinq benchmarks standards en manipulation robotique : LIBERO, CALVIN, SimplerEnv, RoboCasa et RoboTwin 2.0. Les auteurs identifient quatre modes de défaillance structurelle qui invalident leur usage comme proxy de la capacité de manipulation générale : résolution par raccourci (shortcut solvability), absence de significativité statistique, surapprentissage rampant (creeping overfitting) et dépendance à la source de données. Sur LIBERO, une sonde de 90 millions de paramètres, sans encodeur de langage, atteint des scores au niveau ou proches de l'état de l'art rapporté dans la littérature récente, ce qui suggère que les modèles exploitent des artefacts du benchmark plutôt que des compétences réelles. Sur CALVIN, la simple randomisation des positions des blocs dans la plage d'entraînement fait chuter les performances de toutes les politiques testées, révélant une généralisation quasi nulle même dans des conditions marginalement différentes. Ces résultats ont des implications directes pour les équipes qui évaluent des architectures VLA (Vision-Language-Action). Si LIBERO et CALVIN échouent à plusieurs diagnostics, les progrès revendiqués sur ces benchmarks ne constituent pas une preuve crédible de capacité de manipulation générale. La plupart des gains rapportés sur LIBERO ne sont pas statistiquement significatifs, ce qui signifie que de nombreuses publications revendiquent des améliorations qui pourraient n'être que du bruit. Pour les intégrateurs et les décideurs industriels, cela signifie que les scores de benchmarks courants ne sont pas des indicateurs fiables de la maturité réelle d'un système avant déploiement. Le problème n'est pas nouveau, mais il devient critique au moment où des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA sont massivement benchmarkés dans la littérature. RoboCasa et RoboTwin 2.0, moins fréquemment cités dans les claims de progression récents, résistent mieux aux diagnostics proposés et constituent des alternatives plus robustes pour mesurer des progrès réels. Les auteurs publient leurs quatre diagnostics avec des implémentations de référence sur ripl.github.io/manipulationbenchmarkaudit, à destination des chercheurs et des reviewers, pour application avant soumission ou acceptation. La prochaine question est de savoir si des conférences majeures comme CoRL, ICRA ou RSS adopteront ces outils comme critère d'évaluation des soumissions.

UELes équipes de recherche françaises et européennes (INRIA, CEA-List) évaluant des architectures VLA devront appliquer ces diagnostics avant soumission pour ne pas revendiquer des gains qui pourraient n'être que du bruit statistique.

RecherchePaper
1 source
Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches
43arXiv cs.RO 

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

Une étude publiée sur arXiv (arXiv:2602.03920) examine comment des utilisateurs non-spécialistes interprètent les données de performance des modèles de fondation robotiques (RFM, Robot Foundation Models), ces architectures d'IA généraliste conçues pour piloter des robots domestiques polyvalents comme ceux développés par Physical Intelligence (pi0), Google DeepMind (GR00T N2) ou Figure AI. Le cœur du problème : lorsqu'un utilisateur demande à un robot RFM d'effectuer une tâche hors de son domaine d'entraînement, il doit pouvoir évaluer le risque d'échec, qui peut être coûteux, voire dangereux. Les chercheurs ont exposé des participants à des données réelles issues de plusieurs projets RFM publiés, incluant le taux de succès aux tâches (TSR, Task Success Rate), des descriptions de cas d'échec et des vidéos de démos. Les résultats montrent que les non-experts comprennent et utilisent le TSR de façon conforme aux attentes des spécialistes, ce qui valide son usage comme métrique primaire dans les publications académiques. Mais la découverte la plus significative est ailleurs : les utilisateurs accordent une valeur élevée aux descriptions de cas d'échec, une information rarement reportée de façon systématique dans les évaluations de RFMs. Par extension, ils souhaitent disposer à la fois de données historiques issues des évaluations passées du modèle et d'estimations proactives du robot sur ses chances de succès face à une tâche inédite. Cette attente soulève un défi concret pour les intégrateurs et les équipes produit : la transparence sur les limites du modèle n'est pas optionnelle si l'on vise un déploiement grand public. Ce travail s'inscrit dans un débat plus large sur le fossé entre les démos laboratoire et l'usage réel, souvent qualifié de "demo-to-reality gap". Alors que le secteur converge vers des benchmarks standardisés comme DROID ou Open-X-Embodiment pour comparer les RFMs entre eux, la question de leur lisibilité par les décideurs non-techniques reste largement ouverte. Des acteurs comme Enchanted Tools en France ou Wandercraft misent sur des interfaces d'interaction proches de l'utilisateur final, mais peu d'équipes formalisent encore la communication sur les taux d'échec. Cette étude plaide pour l'intégration de "failure reporting" structuré dans les fiches produit et les publications techniques, une évolution qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique.

UEL'étude plaide pour un 'failure reporting' structuré qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique, concernant directement Enchanted Tools et Wandercraft pour leurs fiches produit.

RecherchePaper
1 source
Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique
44arXiv cs.RO 

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace. L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours. Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

UELes laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

💬 La comparaison avec CUDA n'est pas anodine. NVIDIA ne publie pas Cosmos 3 par générosité open-source, ils font exactement ce qu'ils ont fait en 2007 : poser le layer d'infrastructure que tout le monde finira par utiliser, et vendre les GPU par-dessus. Vu les benchmarks sur RoboArena, les labos robotiques ont peu de raisons de résister.

IA physiqueOpinion
1 source
TRAP : détournement du raisonnement CoT dans les VLA par patches adversariaux
45arXiv cs.RO 

TRAP : détournement du raisonnement CoT dans les VLA par patches adversariaux

Des chercheurs ont publié sur arXiv (réf. 2603.23117) une attaque baptisée TRAP (Targeted Reasoning Adversarial Patch), démontrant pour la première fois qu'un patch adversarial physique peut détourner le comportement d'un robot manipulateur piloté par un modèle Vision-Language-Action (VLA) à raisonnement Chain-of-Thought (CoT). Dans les expériences présentées, un patch imprimé sur papier et déposé sur la surface de travail, tel qu'une nappe aux motifs spécifiques, suffit à faire en sorte que le robot remette un couteau à l'opérateur au lieu d'une pomme, sans qu'aucune modification de l'instruction utilisateur ne soit nécessaire. L'attaque a été validée sur trois VLA représentatifs intégrant des mécanismes CoT distincts, et mise en oeuvre en conditions réelles avec un simple imprimé papier. Ce résultat pointe une vulnérabilité structurelle dans les VLA à raisonnement intermédiaire, famille de modèles qui inclut notamment π0 de Physical Intelligence, OpenVLA-OFT ou les variantes de GR00T (NVIDIA) basées sur des CoT explicites. Les auteurs montrent empiriquement que le raisonnement CoT gouverne la génération d'actions de façon prépondérante, même lorsqu'il est sémantiquement incohérent avec l'instruction initiale : le modèle suit la chaîne de pensée corrompue plutôt que l'intention de l'utilisateur. Pour les intégrateurs déployant des bras robotisés en environnement ouvert, entrepôts, blocs opératoires ou assistance à domicile, cela signifie qu'un adversaire pourrait modifier le comportement du robot par simple altération visuelle de l'environnement, sans accès au modèle ni au flux de commandes, ce qui rend l'attaque particulièrement préoccupante en contexte de sécurité physique. Les VLA à raisonnement CoT ont émergé comme réponse aux limites des modèles action-réflexe classiques : le CoT améliore la généralisation et offre une trace d'interprétabilité utile pour la certification. TRAP montre que cette avancée introduit simultanément une surface d'attaque inédite. La recherche en sécurité des systèmes robotiques autonomes reste largement sous-investie par rapport à la sécurité des LLM textuels, et ce travail rejoint un corpus naissant incluant des attaques sur les politiques de diffusion et les modèles de perception. Aucun correctif ni benchmark défensif n'est proposé dans cette version ; les auteurs appellent à une sécurisation urgente des pipelines CoT dans les VLA avant tout déploiement à grande échelle dans des environnements critiques.

UELes intégrateurs européens déployant des VLA sur des bras robotisés en environnement industriel, médical ou d'assistance doivent suspendre tout déploiement à grande échelle dans des environnements critiques et auditer leurs pipelines CoT, en l'absence totale de correctifs défensifs disponibles.

RechercheOpinion
1 source
SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA
46arXiv cs.RO 

SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA

Des chercheurs en sécurité informatique ont publié sur arXiv (référence 2601.14323) une attaque baptisée SilentDrift, ciblant les modèles Vision-Language-Action (VLA) utilisés pour piloter des robots manipulateurs. L'attaque exploite deux mécanismes devenus standards dans les architectures VLA modernes : l'action chunking, qui consiste à générer des séquences de K actions d'un coup plutôt qu'action par action, et la représentation en delta de pose, qui encode chaque mouvement sous forme d'incrément relatif à la position précédente. Cette combinaison crée une boucle ouverte visuelle intra-chunk : une fois la séquence lancée, le robot l'exécute sans relire le flux caméra à chaque pas. Des perturbations imperceptibles à l'échelle d'un pas s'accumulent alors par intégration, déviant la trajectoire finale de manière significative. Sur le benchmark LIBERO, SilentDrift atteint un taux de succès d'attaque de 93,2 % avec un taux d'empoisonnement inférieur à 2 % des données d'entraînement, tout en maintenant un taux de réussite sur tâches propres de 95,3 %, rendant la backdoor pratiquement indétectable par les métriques standards. L'impact pour les intégrateurs et décideurs B2B est direct : les VLA comme pi-0 de Physical Intelligence, OpenVLA ou les variantes de RT-2 s'appuient précisément sur ces mécanismes d'action chunking pour obtenir des mouvements fluides et cohérents. Un attaquant ayant accès à une fraction marginale des données d'entraînement peut donc compromettre un système de manipulation robotique déployé en environnement industriel sans déclencher d'alarme sur les métriques de performance habituelles. Les trajectoires empoisonnées sont visuellement identiques aux démonstrations saines, ce qui invalide les audits visuels comme contrôle de qualité suffisant. La stratégie dite "keyframe attack" de SilentDrift cible spécifiquement la phase d'approche critique d'une saisie, maximisant l'effet de déviation tout en minimisant l'exposition du trigger. Ce travail s'inscrit dans un courant de recherche naissant sur la sécurité des modèles de fondation pour la robotique, un champ largement ignoré jusqu'ici face à l'effervescence autour des performances. Les VLA connaissent une adoption rapide depuis 2023, portée par des acteurs comme Physical Intelligence (pi-0), Google DeepMind (RT-2, GR00T N2 de Nvidia) et les laboratoires académiques via des benchmarks comme LIBERO ou Open-X Embodiment. SilentDrift est une attaque en boîte noire, ce qui signifie qu'elle ne nécessite pas d'accès au modèle entraîné, uniquement aux données. Les auteurs n'annoncent pas de contre-mesure, ouvrant un chantier de recherche défensive urgent à mesure que ces modèles approchent de déploiements réels dans la logistique et l'assemblage manufacturier.

UELes intégrateurs européens qui déploient ou évaluent des VLA (pi-0, OpenVLA, RT-2) dans la logistique ou l'assemblage doivent intégrer l'audit de sécurité des données d'entraînement dans leurs processus de qualification, car les métriques de performance standards ne détectent pas ce vecteur d'attaque.

RechercheOpinion
1 source
Wall-OSS-0.5 : rapport technique
47arXiv cs.RO 

Wall-OSS-0.5 : rapport technique

Une équipe de chercheurs a publié sur arXiv (2605.30877) le rapport technique de Wall-OSS-0.5, un modèle Vision-Language-Action (VLA) open source de 4 milliards de paramètres, construit sur un backbone VLM de 3B paramètres auquel sont greffés des composants de génération d'actions. Le modèle a été pré-entraîné sur plus de 20 morphologies robotiques différentes, en ingérant plus d'un million de trajectoires robot par époque, couplées à un corpus multimodal ancré. La recette d'entraînement repose sur un co-entraînement à gradient bridgé combinant trois objectifs complémentaires : prédiction d'actions discrètes pour faire circuler des gradients VLM forts dans le backbone, prédiction multimodale pour préserver la compréhension vision-langage, et flow matching continu comme interface d'action au moment du déploiement. Avant tout fine-tuning spécifique, le checkpoint pré-entraîné atteint des comportements zero-shot non triviaux sur un banc de 17 tâches réelles, y compris une tâche de manipulation d'objets déformables hors distribution. Après fine-tuning, il affiche 60,5% de progression moyenne sur 15 tâches réelles et surpasse Pi-0.5 de 17,5 points de pourcentage. Ce résultat repose la question fondamentale du pré-entraînement VLA : jusqu'ici, la quasi-totalité des preuves de performance étaient mesurées après fine-tuning, rendant impossible la distinction entre "le pré-entraînement forme une politique utilisable" et "le pré-entraînement fournit juste une meilleure initialisation". Wall-OSS-0.5 démontre que le checkpoint brut produit des comportements exécutables sur matériel physique, y compris sur des tâches jamais vues. Le fait que l'entraînement sur données d'action ne dégrade pas les capacités vision-langage générales est également significatif pour les intégrateurs : cela suggère qu'un seul modèle fondation peut couvrir perception, raisonnement et contrôle sans compromis majeur, ce qui simplifie l'architecture système. Wall-OSS-0.5 s'inscrit dans la dynamique des VLA fondationnels initiée par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. Sa publication open source le distingue dans un secteur dominé par des checkpoints propriétaires, et permet des comparaisons reproductibles. La performance zero-shot sur manipulation déformable est notable car ce type de tâche est réputé difficile à généraliser : c'est précisément le type de gap sim-to-real que les approches purement simulées peinent à combler. Les prochaines étapes probables incluent un scaling du corpus et des évaluations sur des plateformes humanoïdes commerciales, où la generalisation cross-embodiment du modèle pourra être testée en conditions industrielles.

UELe caractère open source de Wall-OSS-0.5 permet aux équipes de R&D françaises et européennes d'accéder librement à un modèle VLA fondationnel compétitif, réduisant la dépendance aux checkpoints propriétaires américains et asiatiques.

💬 Le vrai truc ici, c'est pas les 60,5% sur le benchmark. C'est que le checkpoint pré-entraîné produit des comportements exécutables sur du vrai matériel, sans fine-tuning, y compris sur des tâches jamais vues. Et open source par-dessus le marché, dans un secteur où tout le monde garde jalousement ses poids pour soi.

IA physiqueOpinion
1 source
Déploiement de pipelines VLA en atelier d'emballage industriel : étude de cas, flux de travail, échecs et enseignements
48arXiv cs.RO 

Déploiement de pipelines VLA en atelier d'emballage industriel : étude de cas, flux de travail, échecs et enseignements

Des chercheurs associés à Siemens ont publié le 28 mai 2026 sur arXiv (2605.27461) une étude de déploiement industriel d'une politique VLA (Vision-Language-Action) dans l'usine Siemens GWE d'Erlangen, en Allemagne. La tâche ciblée est précisément définie : un bras robotique doit saisir un sachet d'accessoires transparent au sein d'un tas encombré, l'insérer dans la cavité restante d'un emballage carton, puis vérifier que le sachet et son contenu restent en dessous du plan de fermeture du carton. Le modèle de base utilisé est Pi0.5, la politique VLA de Physical Intelligence, affinée de manière itérative sur données terrain. L'équipe a accumulé 2535 épisodes d'entraînement, soit environ 10 heures de données collectées directement en conditions d'usine, via un pipeline cyclique comprenant collecte, curation, fine-tuning, évaluation et collecte de données de récupération ciblées. Ce qui rend cette publication notable, c'est son positionnement éditorial délibérément empirique : les auteurs ne communiquent pas sur un taux de succès global, mais documentent les modes de défaillances récurrents et les ajustements nécessaires à chaque cycle. C'est précisément ce type de retour d'expérience qui manque dans la littérature robotique, où les démonstrations sélectionnées occultent souvent le coût réel d'adaptation d'un modèle généraliste à une tâche industrielle spécifique. La gestion d'objets transparents, notoire pour tromper les systèmes de vision par profondeur, illustre ici les limites concrètes du sim-to-real et du transfert zero-shot. L'étude confirme que le fine-tuning dirigé par les échecs terrain, plutôt que la montée en données brutes, reste le levier dominant pour atteindre la fiabilité industrielle. Pi0.5 est le successeur de π0, lancé par Physical Intelligence (San Francisco) fin 2024, conçu comme politique généraliste pour la manipulation dextère. Son déploiement chez Siemens marque une étape significative dans la commercialisation B2B des VLA, un segment que se disputent actuellement Figure AI avec sa pile Helix, 1X Technologies avec NEO, et des initiatives internes comme GR00T N2 de NVIDIA ou les travaux de Boston Dynamics sur Atlas. Aucun acteur européen n'est directement impliqué dans ce déploiement, bien que Wandercraft et Enchanted Tools positionnent des produits complémentaires sur le segment français. La prochaine étape logique de ce type d'étude serait une généralisation multi-tâches ou multi-sites, mais les auteurs restent prudents : l'article conclut sur des leçons méthodologiques, non sur un déploiement à l'échelle.

UELe déploiement de Pi0.5 dans l'usine Siemens d'Erlangen fournit le premier retour d'expérience empirique documenté d'un modèle VLA généraliste en conditions industrielles réelles au sein d'un acteur EU majeur, directement exploitable par les intégrateurs et équipementiers robotiques européens.

FR/EU ecosystemeOpinion
1 source
QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés
49arXiv cs.RO 

QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés

Des chercheurs de l'ISIR (Institut des Systèmes Intelligents et de Robotique, Sorbonne Université/CNRS) publient sur arXiv en avril 2026 une méthode baptisée QDTraj, destinée à générer automatiquement des primitives de trajectoires diversifiées pour la manipulation d'objets articulés par des robots domestiques. L'approche repose sur des algorithmes Quality-Diversity (QD) couplés à une exploration par récompense sparse. Évaluée sur 30 articulations du dataset PartNetMobility, QDTraj produit en moyenne 704 trajectoires distinctes par tâche, contre un ratio au moins 5 fois inférieur pour les méthodes concurrentes testées sur des tâches d'activation de charnières (hinge) et de glissières (slider). La méthode a été validée d'abord en simulation, puis déployée en conditions réelles sur robot physique. Le code est rendu public sur le site de l'ISIR. La diversité des trajectoires n'est pas un détail académique : en environnement réel, un robot qui ne dispose que d'une seule séquence motrice pour ouvrir un tiroir échoue dès que cette trajectoire est bloquée par un obstacle ou une contrainte dynamique imprévue. QDTraj adresse directement ce verrou en dotant le robot d'un répertoire de solutions alternatives sélectionnables au runtime selon les contraintes du moment. La validation sim-to-real apporte un crédit concret à l'approche, au-delà de la démonstration en simulation. L'utilisation des algorithmes QD, issus de la robotique évolutionnaire (famille MAP-Elites), est un signe de maturité méthodologique : ces approches explorent des espaces de solutions larges sans converger prématurément vers un optimum local, contrairement aux méthodes par gradient classiques. L'ISIR est l'un des laboratoires de référence en robotique française, avec une longue tradition en planification de mouvement et manipulation dextre. Ce travail s'inscrit dans un contexte où les approches dominantes, imitation learning ou reinforcement learning standard, produisent généralement des politiques à trajectoire unique, fragiles hors distribution. Les modèles VLA (Vision-Language-Action), très suivis en 2025-2026 chez Physical Intelligence (pi0), Google DeepMind ou Boston Dynamics, abordent le problème différemment en conditionnant les actions sur le langage, sans garantir la diversité bas niveau que QDTraj cible explicitement. La méthode se positionne donc comme une couche de planification complémentaire, en amont des politiques haut niveau. Les extensions naturelles concerneraient les objets déformables et l'intégration dans des architectures de contrôle hiérarchique pour robots manipulateurs polyvalents.

UEL'ISIR (Sorbonne/CNRS) publie en open source une méthode de planification de trajectoires qui comble un verrou concret de la manipulation robotique, avec un bénéfice direct pour les équipes de R&D françaises et européennes travaillant sur les robots manipulateurs.

💬 Un robot qui n'a qu'une seule trajectoire pour ouvrir un tiroir, c'est un robot qui échoue dès qu'un obstacle se met en travers. QDTraj répond à ça en générant 700+ alternatives exploitables au runtime, avec des algorithmes QD qui explorent des espaces de solutions larges sans converger trop vite vers un optimum unique (contrairement au RL classique). Reste à voir comment ça s'articule avec des VLA au-dessus, mais comme brique de planification bas niveau, c'est du concret qui sort de l'ISIR.

FR/EU ecosystemePaper
1 source
Démasquer l'illusion du raisonnement incarné dans les modèles vision-langage-action (VLA)
50arXiv cs.RO 

Démasquer l'illusion du raisonnement incarné dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 22 avril 2026 un article sur arXiv (référence 2604.18000) introduisant BeTTER, un benchmark de diagnostic conçu pour tester le raisonnement incarné réel dans les modèles de type Vision-Language-Action (VLA). L'objectif : vérifier si les taux de succès élevés affichés par des modèles comme pi-0, OpenVLA ou RoboVLMs sur les benchmarks standards reflètent une véritable intelligence physique, ou un artefact d'évaluation. BeTTER applique des interventions causales ciblées, modifications de la disposition spatiale, extrapolation temporelle, tout en isolant cinématiquement les échecs de raisonnement de haut niveau des limites d'exécution motrice de bas niveau. Résultat : les VLA de pointe s'effondrent dans des scénarios dynamiques, exhibant des raccourcis lexico-cinématiques (le modèle associe des mots à des patterns moteurs sans vraiment "comprendre"), une inertie comportementale, et un effondrement de la représentation sémantique. Ces résultats remettent en cause l'un des postulats les plus optimistes du secteur : que les hauts scores sur benchmarks constituent une preuve de généralisation. L'analyse mécaniste des auteurs identifie deux goulots d'étranglement architecturaux structurels, la compression de capacité et le sous-échantillonnage myope, qui dégradent systématiquement la représentation sémantique fondamentale du modèle. En d'autres termes, les architectures VLA actuelles sont structurellement contraintes à sacrifier le raisonnement de haut niveau pour maintenir la fréquence de contrôle nécessaire à l'exécution motrice en temps réel. Les protocoles d'évaluation trop statiques masquent cette dégradation en permettant au modèle d'overfitter aux priors sensorimoteurs du dataset, ce qui est un signal d'alarme direct pour les intégrateurs industriels qui évaluent ces systèmes avant déploiement. La famille VLA a connu une accélération marquée depuis fin 2023, avec les travaux de Physical Intelligence (pi-0), Google DeepMind (RT-2, puis Helix en collaboration avec Figure AI), et des efforts académiques nombreux autour de modèles open-source comme OpenVLA. Le gap benchmark-réalité est un problème récurrent en robotique, le sim-to-real transfer en est la version la plus connue, mais BeTTER le documente cette fois au niveau du raisonnement cognitif plutôt que de la dynamique physique. Les auteurs valident leurs conclusions sur robot réel, ce qui exclut l'hypothèse d'un artefact de simulation. La prochaine étape logique pour le secteur est de repenser les architectures VLA pour résoudre la tension structurelle entre contrôle haute fréquence et raisonnement sémantique robuste, probablement via des approches hiérarchiques déjà explorées par des équipes comme Wandercraft côté locomotion, ou Enchanted Tools pour la manipulation expressive.

UEWandercraft et Enchanted Tools, acteurs français actifs sur la locomotion et la manipulation expressive, sont directement concernés par les goulots d'étranglement architecturaux identifiés par BeTTER, qui constitue un signal d'alarme pour tout intégrateur européen évaluant des systèmes VLA avant déploiement industriel.

RechercheOpinion
1 source