Aller au contenu principal

Dossier arXiv cs.RO — page 2

1607 articles · page 2 sur 33

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Contrôle de robots souples par apprentissage sur sous-variétés spectrales adiabatiques
51arXiv cs.RO RecherchePaper

Contrôle de robots souples par apprentissage sur sous-variétés spectrales adiabatiques

Une équipe de chercheurs a publié sur arXiv (référence 2503.10919, version 3) une stratégie de contrôle prédictif pour robots souples entièrement construite à partir de données, fondée sur la théorie des sous-variétés spectrales adiabatiques (aSSMs). Ces structures géométriques de faible dimension émergent le long du chemin désiré du robot dès lors que ses vibrations internes se dissipent bien plus vite que la vitesse de déplacement cible, condition caractéristique des robots fortement amortis. La méthode est validée sur des modèles haute fidélité d'un robot tronc souple en éléments finis et de bras élastiques décrits par la mécanique des tiges de Cosserat, avec des tests complémentaires en présence de bruit expérimental. Les modèles réduits à cinq ou six dimensions obtenus par aSSM surpassent les autres approches data-driven par un facteur allant jusqu'à dix en précision de suivi de trajectoire sur l'ensemble des tâches testées en boucle fermée. Ce résultat s'attaque à un verrou bien documenté du secteur : les modèles linéaires data-driven, notamment les opérateurs de Koopman et les régressions classiques, échouent dès que le robot explore des chemins spatialement étendus sollicitant des régimes fortement non linéaires. L'aSSM contourne ce problème en réduisant la dynamique à une variété invariante attractante de petite dimension, sans nécessiter d'identification paramétrique d'un modèle physique analytique. Pour un intégrateur de systèmes robotiques souples, cette approche ouvre la voie à des contrôleurs prédictifs embarquables sur des robots déformables, avec des débouchés directs en manipulation de précision, inspection industrielle ou chirurgie mini-invasive. La théorie des sous-variétés spectrales (SSM) a été formalisée par George Haller et collaborateurs à partir de 2016 ; l'extension adiabatique pour systèmes à chemin variable constitue une contribution plus récente. Les approches concurrentes incluent les réseaux neuronaux récurrents, le Koopman étendu et les méthodes de réduction d'ordre par projection physique. La validation reste majoritairement numérique, les expériences physiques mentionnées se limitant à tester la robustesse au bruit sans description détaillée d'un banc d'essai réel, ce qui invite à la prudence avant toute extrapolation industrielle. L'article étant un preprint arXiv non encore évalué par les pairs, les performances annoncées méritent confirmation indépendante.

1 source
Main bionique MCR : structures anatomiques au service de la manipulation habile
52arXiv cs.RO 

Main bionique MCR : structures anatomiques au service de la manipulation habile

Une équipe de recherche publie sur arXiv (référence 2606.13601, juin 2026) la MCR-Bionic Hand, une main robotique biomimétique reproduisant à l'échelle 1:1 l'architecture musculo-squelettique de la main humaine. Le système intègre un poignet à deux rangées de huit os, des tendons croisés au poignet, un routage anatomique des fléchisseurs superficiels (FDS) et profonds (FDP), des contraintes de plaque palmaire et de ligaments collatéraux, le capuchon extenseur dorsal, ainsi que les voies musculaires intrinsèques (lombricaux, interosseux). L'architecture repose sur deux formes de "raisonnement structurel" : la génération de postures par défaut via la ténodèse poignet-doigts, qui transforme des entrées à faible dimension en configurations de préhension pré-formées et assure la coordination IPP-IPD ; et la modulation musculaire fine, qui règle la posture MCP, la stabilité distale et les trajectoires de force des doigts autour de cet état par défaut. Les démonstrations expérimentales couvrent des tâches de contact riche : rotation de pièce de monnaie, transfert de stylo, retournement dorsal de pièce et manipulation de cube. L'intérêt tient à un changement de paradigme dans la conception des mains robotiques. L'état de l'art traite la dextérité comme un problème de contrôle actif à haute dimension, où chaque degré de liberté est piloté par des algorithmes. Ici, la géométrie de la structure mécanique encode elle-même une partie du contrôle : la posture du poignet induit passivement une pré-mise en forme multi-articulaire, sans commande explicite, et le capuchon extenseur couple le mouvement IPP à une réponse IPD de manière entièrement mécanique. Ce mécanisme allège la charge de calcul et simplifie les pipelines de contrôle, ce qui est directement pertinent pour les intégrateurs cherchant à déployer des manipulateurs en environnements non structurés. La démonstration sur tâches à contact riche indique que le "sim-to-real gap" peut partiellement se résorber si la morphologie physique absorbe la complexité que le contrôleur devrait autrement gérer. Ce travail s'inscrit dans une ligne de recherche où dominent des systèmes comme la Shadow Hand (Shadow Robot, Royaume-Uni), l'Allegro Hand (Wonik Robotics) ou les mains embarquées sur des humanoïdes commerciaux tels que le Figure 03 ou l'Optimus Gen 3 de Tesla, la plupart s'appuyant sur un grand nombre d'actionneurs et des contrôleurs appris. La MCR-Bionic Hand, présentée comme preprint académique et non comme produit commercialisé, plaide pour un retour aux structures anatomiques fonctionnelles plutôt qu'à la simple ressemblance visuelle, une distinction que le secteur des prothèses actives, notamment Ottobock (Allemagne), pourrait exploiter. La suite naturelle serait une évaluation de robustesse sur cycles répétés et une intégration à des pipelines de manipulation apprise de type VLA, pour déterminer si ces priors structurels améliorent la généralisation hors distribution.

UEOttobock (Allemagne), leader européen des prothèses actives, est l'acteur EU le mieux positionné pour exploiter cette architecture musculo-squelettique dans ses futures générations de mains prothétiques.

RecherchePaper
1 source
Apprentissage de réseaux d'oscillateurs visuellement interprétables pour robots souples continus à partir de vidéos
53arXiv cs.RO 

Apprentissage de réseaux d'oscillateurs visuellement interprétables pour robots souples continus à partir de vidéos

Des chercheurs présentent sur arXiv (arXiv:2511.18322) une méthode entièrement data-driven pour apprendre la dynamique des robots souples continus (soft continuum robots, SCR) depuis la vidéo, sans connaissance a priori du système mécanique. Deux contributions structurent le travail : l'Attention Broadcast Decoder (ABCD), un module enfichable pour auto-encodeurs qui génère des cartes d'attention pixel-précises localisant la contribution de chaque dimension latente tout en filtrant les arrière-plans statiques ; et les Visual Oscillator Networks (VONs), un réseau d'oscillateurs 2D couplé à ces cartes permettant de visualiser directement sur l'image les masses apprises, la rigidité de couplage et les forces. Sur un robot à deux segments, ABCD réduit l'erreur de prédiction multi-pas de 5,8 fois pour les opérateurs de Koopman et de 3,5 fois pour les réseaux d'oscillateurs par rapport aux baselines sans ce module. Les VONs, laissés libres de s'organiser, font émerger de façon autonome une structure en chaîne d'oscillateurs, cohérente avec la topologie physique de l'objet. L'enjeu n'est pas la performance brute mais l'interprétabilité mécanique, un verrou structurel pour le déploiement de modèles deep learning en robotique de précision. Les approches existantes imposent un choix binaire : modèle basé sur la physique, fidèle mais exigeant une conception manuelle et une connaissance a priori des matériaux ; ou modèle purement data-driven, flexible mais opaque. ABCD associé aux VONs rompt ce dilemme en produisant des représentations latentes spatialement ancrées, lisibles par un ingénieur et potentiellement exploitables pour la synthèse de lois de commande. Pour les intégrateurs actifs sur la manipulation douce (chirurgie assistée, assemblage de composants fragiles), disposer d'un modèle dynamique compact et vérifiable sans calibration physique représente un gain opérationnel concret. Les SCR posent un problème de modélisation structurellement difficile : degrés de liberté théoriquement infinis, non-linéarités prononcées des matériaux (silicone, élastomères), et vision souvent seul capteur praticable en environnement non contrôlé. Les travaux antérieurs misaient principalement sur les opérateurs de Koopman pour linéariser la dynamique dans un espace latent, ou sur des réseaux récurrents sans garantie d'interprétabilité. Aucun acteur français ou européen n'est associé à cette publication, mais des équipes comme INRIA Defrost ou Pollen Robotics travaillent sur des problématiques adjacentes en robotique souple. Les auteurs mentionnent explicitement l'intégration en boucle de commande comme prochaine étape, sans annoncer de déploiement ni de timeline industrielle : il s'agit à ce stade d'un résultat de recherche validé en laboratoire, pas d'un produit expédié.

RecherchePaper
1 source
G-MAPP : planification et perception multi-agents accélérées par GPU pour la génération de mouvement réactif
54arXiv cs.RO 

G-MAPP : planification et perception multi-agents accélérées par GPU pour la génération de mouvement réactif

G-MAPP (GPU-accelerated Multi-Agent Planning and Perception) est un framework de génération de mouvement réactif présenté dans un preprint arXiv (2606.12579) publié en juin 2026. Le systeme cible un problème persistant en robotique manipulatrice : produire des trajectoires sans collision en temps réel dans des environnements non structurés et dynamiques. L'architecture repose sur deux composants GPU : un moteur de modélisation du monde alimenté par des capteurs de profondeur grand public, et un planificateur par champs vectoriels permettant une exploration parallèle quasi-globale des états. Validé sur un bras Franka Emika 7 axes (7-DoF), le systeme affiche un gain de vitesse mesuré jusqu'à 5x par rapport à la version CPU équivalente, avec des évitements de collision réussis dans des configurations physiques simples et complexes. Le point dur que G-MAPP tente de résoudre est double : la charge de calcul pour planifier sur des représentations haute fidélité du monde, et le délai d'intégration entre la perception et le planificateur. Historiquement, les architectures existantes choisissaient entre planification globale (précise mais lente, réservée aux environnements statiques) et planification locale conservative (rapide mais myope). En fusionnant les deux boucles sur GPU, G-MAPP vise à éliminer ce compromis. Pour un intégrateur industriel ou un COO de ligne d'assemblage, cela ouvre la voie à des cellules robotiques reconfigurables sans reprogrammation manuelle, avec des bras capables de coexister avec des opérateurs humains en mouvement, à condition que les performances tiennent sur des géométries de charge plus représentatives. La génération de mouvement réactif mobilise depuis plusieurs années des approches concurrentes : planificateurs neuronaux (MPINETS, MotionBenchMaker), champs de potentiel riemanniens (RMP-Flow, STORM), et méthodes MPC sur horizon glissant. G-MAPP se positionne dans la lignée des planificateurs par champs vectoriels accélérés, avec la particularité de traiter la perception et la planification dans le même pipeline GPU. Le Franka Emika reste une plateforme académique standard, et aucun partenariat industriel ni roadmap de commercialisation n'est mentionné dans le preprint : il s'agit d'une contribution de recherche à confirmer sur des bras à charge utile plus élevée, des vitesses d'obstacles plus importantes, et des environnements multi-agents. Les prolongements naturels incluent les architectures multi-bras et l'intégration avec des pipelines de perception sémantique.

RecherchePaper
1 source
Perception sémantique active
55arXiv cs.RO 

Perception sémantique active

Des chercheurs ont publié sur arXiv (2510.05430v2) une méthode de perception sémantique active permettant à un robot mobile d'explorer un environnement intérieur en raisonnant sur les zones qu'il n'a pas encore observées. Le système construit un graphe de scène multi-couches et compact, structurant l'environnement à plusieurs niveaux d'abstraction : pièces, objets, murs, fenêtres, avec leur géométrie fine. En s'appuyant sur un grand modèle de langage (LLM), le pipeline génère des graphes de scène plausibles pour les régions inexplorées, en maintenant la cohérence avec les observations partielles déjà accumulées. L'approche calcule ensuite le gain d'information attendu à chaque point de passage candidat, afin de guider la trajectoire d'exploration. Les expériences ont été menées à la fois en simulation sur des appartements 3D réalistes et sur un robot quadrupède Unitree Go 2 en conditions réelles. L'intérêt principal de cette approche réside dans la capacité à exploiter des connaissances sémantiques commonsense pour anticiper la topologie d'une scène non encore visitée. Plutôt que de se limiter à une cartographie géométrique réactive, le robot raisonne sur la probabilité qu'une porte donne sur une cuisine plutôt qu'une chambre selon le contexte observé, un type de raisonnement spatial jusqu'ici difficile à formaliser en robotique mobile. Pour les intégrateurs d'AMR (autonomous mobile robots) et les équipes R&D en navigation intérieure, cette architecture ouvre la voie à des explorations plus efficaces dans des environnements inconnus, avec moins de déplacements redondants. Les résultats quantitatifs montrent une localisation plus rapide et plus précise des informations sémantiques hautes et basses résolutions par rapport aux méthodes existantes, bien que les benchmarks retenus méritent une lecture critique puisqu'ils restent essentiellement contrôlés par les auteurs. Ce travail s'inscrit dans un courant actif combinant graphes de scène hiérarchiques et LLMs pour la navigation sémantique, aux côtés de travaux comme SayPlan (Rana et al.) ou SceneGraph-Nav. Le Unitree Go 2, robot quadrupède à faible coût devenu plateforme standard pour la recherche en mobilité intérieure, sert ici de démonstrateur physique. Les acteurs concurrents incluent les approches par représentations neurales implicites (NeRF sémantiques) et les méthodes de frontier-based exploration enrichies par vision-langage. Le code n'est pas encore publié à la date de soumission, et aucun partenariat industriel ni calendrier de transfert n'est mentionné dans le papier.

RecherchePaper
1 source
Repenser la régularisation pour un lissage efficace des politiques
56arXiv cs.RO 

Repenser la régularisation pour un lissage efficace des politiques

Un article soumis sur arXiv (référence 2606.13169) propose une refonte de la régularisation pour le lissage des politiques en apprentissage par renforcement (RL). L'approche cible la continuité de Lipschitz des fonctions de politique : idéalement globale, bornant la variation du comportement sur l'ensemble de l'espace d'états, mais réduite en pratique à une version locale en raison d'un compromis inévitable entre lissage et expressivité du réseau. Les auteurs identifient trois défauts précis dans l'implémentation originale, proposent un correctif pour chacun, et valident la méthode sur plusieurs tâches de contrôle et algorithmes de RL distincts. L'évaluation culminante porte sur un robot quadrupède en transfert sim-to-real, où la politique lissée démontre une robustesse accrue face aux changements brusques de commande de vitesse cible. L'enjeu est concret pour quiconque déploie des robots en environnement opérationnel : les politiques apprises en simulation produisent fréquemment des commandes articulaires saccadées qui, appliquées sur hardware, usent les actionneurs, génèrent des oscillations mécaniques, ou provoquent des chutes au moindre changement de consigne. Le lissage par régularisation Lipschitz constitue une solution théoriquement fondée, mais le fossé entre la formulation mathématique et son implémentation dans des réseaux de neurones profonds a jusqu'ici limité son impact pratique. Ce travail démontre que corriger trois erreurs d'implémentation précises suffit à franchir ce fossé, en obtenant un contrôle à la fois plus fluide et plus performant sans sacrifier la capacité du modèle à représenter des comportements complexes. La régularisation Lipschitz appliquée au RL locomoteur s'inscrit dans une lignée de travaux cherchant à combler le sim-to-real gap sans s'appuyer exclusivement sur la randomisation de domaine. Les approches concurrentes incluent la normalisation spectrale (Miyato et al.), les architectures ICNN (input-convex neural networks), ou encore les curricula de friction utilisés par ETH Zurich sur la plateforme ANYmal. La contribution reste ici méthodologique : les auteurs ne précisent ni le nom ni les spécifications exactes du quadrupède testé, ce qui rend difficile l'évaluation de la portée industrielle immédiate. La prochaine étape naturelle serait d'étendre ce cadre aux architectures de type VLA (vision-language-action), où le lissage des sorties moteur devient critique à mesure que la complexité perceptuelle augmente.

RecherchePaper
1 source
Vers une préhension séquentielle fiable d'objets en environnement encombré : solution finaliste du RGMC 2025
57arXiv cs.RO 

Vers une préhension séquentielle fiable d'objets en environnement encombré : solution finaliste du RGMC 2025

Une équipe de chercheurs a présenté à l'ICRA 2025, la principale conférence mondiale en robotique, un système de préhension séquentielle en environnement encombré, décrochant la deuxième place dans la piste "Pick-in-Clutter" de la 10e édition du Robotic Grasping and Manipulation Competition (RGMC 2025). Le système s'évalue sur le Cluttered Environment Picking Benchmark (CEPB), un protocole standardisé conçu pour des scénarios de ramassage séquentiel d'objets hétérogènes entremêlés. La solution combine une pince multifonctionnelle sur mesure, un module de reconnaissance d'objets, des stratégies de désencombrement actif et une approche de préhension multimodale capable de traiter à la fois des pièces rigides et des objets déformables. L'architecture produit une représentation explicite de la distribution spatiale des objets et de leurs relations d'occlusion, permettant au robot de planifier l'ordre de saisie le plus efficace tout en évitant les collisions. Ce résultat est significatif pour les intégrateurs industriels parce qu'il adresse un verrou applicatif précis : non plus saisir un objet isolé avec un taux de succès élevé, mais rechercher et extraire séquentiellement des cibles dans un tas désordonné, cas d'usage courant en picking e-commerce, en tri logistique ou en désassemblage. La gestion des objets déformables (sachets, textiles, pièces souples) reste un différenciateur rare : la plupart des systèmes commerciaux contournent ce cas. Les auteurs distinguent explicitement les "taux de succès élevés sur la saisie unitaire" déjà atteints dans la littérature des "solutions matures pour le tri séquentiel", un écart que ce travail cherche à combler. La validation en conditions de compétition sous contrainte temps, avec des objets non sélectionnés par l'équipe, renforce la crédibilité par rapport aux démonstrations en conditions contrôlées. Le RGMC est organisé annuellement depuis 2011 en marge de l'ICRA et constitue l'une des références de benchmark en manipulation robotique. Sur ce segment, les concurrents directs incluent des systèmes basés sur des grippers adaptatifs (Robotiq, OnRobot) et des solutions de bin-picking comme celles de Photoneo, Mech-Mind ou Roboception, souvent couplées à des pipelines de vision 3D. Aucun acteur européen n'est mentionné dans ce travail. L'article, déposé sur arXiv sous l'identifiant 2606.12954, ne précise pas l'affiliation institutionnelle de l'équipe ni de feuille de route vers une commercialisation. Les prochaines étapes naturelles seraient la mise en open source du benchmark CEPB et une validation sur un spectre plus large d'objets industriels réels.

RecherchePaper
1 source
MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action
58arXiv cs.RO 

MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action

Une équipe de chercheurs a soumis sur arXiv (référence 2606.13515) un modèle baptisé MaskWAM, visant à lever deux verrous structurels des World Action Models (WAMs) pour le contrôle robotique par prédiction vidéo. Les WAMs constituent une approche active : au lieu d'apprendre directement une politique motrice, le modèle prédit des frames vidéo futures conditionnées par les actions du robot et extrait la politique de cette représentation. Le problème identifié est double. Les entrées textuelles génèrent une ambiguïté référentielle dans les scènes encombrées : si deux objets similaires cohabitent dans le champ de la caméra, le texte ne suffit pas à désambiguïser la cible. Par ailleurs, les prédictions RGB brutes manquent d'ancrage sémantique et restent perturbées par des arrière-plans sans lien avec la tâche. MaskWAM intègre des masques de segmentation à la fois comme entrées explicites (premier frame annoté avec la cible) et comme sorties prédites, au sein d'une architecture unifiée Mixture of Transformers (MoT). L'apport central est l'introduction d'une supervision sémantique centrée sur l'objet : en forçant le modèle à prédire les masques futurs en parallèle des frames RGB, les auteurs réduisent l'influence du bruit visuel de fond sur la politique apprise. Évalué sur les benchmarks LIBERO et RoboTwin, ainsi que sur des tâches réelles non précisées en détail, MaskWAM surpasse significativement les baselines existantes en conditions de langage clair comme ambigu. Pour les équipes R&D en manipulation robotique, l'enjeu concret est la robustesse des politiques face aux variations de décor et aux instructions imprécises, deux points de friction récurrents dans le transfert du labo vers la ligne de production. Ces résultats restent toutefois ceux d'une prépublication académique sur benchmarks standardisés : aucun déploiement industriel n'est mentionné, et les conditions exactes des expérimentations réelles ne sont pas détaillées dans le résumé disponible. MaskWAM s'inscrit dans la dynamique des Visual Language Action models et des WAMs apparus depuis 2023, notamment Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. Sa spécificité est l'exploitation systématique des masques de segmentation comme signal de supervision, là où la plupart des approches concurrentes restent ancrées sur du texte libre ou des images de référence non structurées. Les prochaines étapes prévisibles pour ce type de travaux sont l'évaluation sur des manipulations multi-objets en environnement non contrôlé et l'intégration dans des fondations robotiques plus larges. Aucun partenariat industriel ni calendrier de transfert applicatif ne sont mentionnés à ce stade.

IA physiqueOpinion
1 source
Contrôle PI basé sur Lyapunov pour le suivi robuste de trajectoire d'un robot à quatre roues indépendantes : conception et validation expérimentale
59arXiv cs.RO 

Contrôle PI basé sur Lyapunov pour le suivi robuste de trajectoire d'un robot à quatre roues indépendantes : conception et validation expérimentale

Des chercheurs ont publié sur arXiv (référence 2602.15424v2) une loi de commande de type PI synthétisée par méthode de Lyapunov pour le suivi robuste de trajectoire d'un robot mobile à quatre roues indépendamment motorisées et directrices (4WID-4WIS, pour four-wheel independently driven and steered). Le modèle mathématique du robot est structurellement vérifié, ce qui permet une conception systématique avec des garanties formelles de stabilité, adaptées à l'implémentation temps réel. La loi de commande combine une structure PI classique avec une compensation anticipatrice fondée sur le modèle (feedforward model-based). Elle a été validée expérimentalement sur une plateforme 4WID-4WIS physique dans des conditions d'opération horizontales et verticales, et comparée à un régulateur PI standard ainsi qu'à un contrôleur en mode glissant (SMC, sliding-mode controller). L'apport principal de ces travaux est la combinaison de garanties formelles de stabilité et d'une architecture légère, déployable sur des microcontrôleurs embarqués standard. L'analyse de stabilité pratique augmentée fournit des bornes explicites sur les dynamiques d'erreur de vitesse et d'erreur intégrale, ce qui permet à un intégrateur de dimensionner les marges opérationnelles sans simulation extensive. La loi de commande proposée surpasse le PI classique et l'approche par mode glissant en robustesse face aux dynamiques résiduelles dépendantes de la configuration et aux effets non modélisés. Pour un industriel ou un intégrateur de robots mobiles autonomes (AMR), cela signifie un contrôleur implémentable sur matériel embarqué standard, avec des garanties prouvables et sans la complexité d'ajustement propre au mode glissant. Les robots 4WID-4WIS offrent une maniabilité omnidirectionnelle que les architectures différentielles ou Ackermann n'atteignent pas, mais leur dynamique couplée complique la synthèse de régulateurs performants et stables. Ces travaux s'inscrivent dans un courant visant à rendre rigoureusement prouvables des lois de commande déjà utilisées empiriquement en industrie. Côté positionnement concurrentiel, les contrôleurs en mode glissant garantissent une robustesse comparable mais souffrent du chattering et d'un réglage plus délicat; les approches MPC (Model Predictive Control) offrent une optimalité supérieure au prix d'une charge de calcul souvent incompatible avec les plateformes embarquées légères. Aucun partenaire industriel ni déploiement commercial n'est annoncé dans cette publication purement académique, dont la suite logique serait une validation sur des cycles opérationnels réels en environnement logistique ou de service.

RecherchePaper
1 source
Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante
60arXiv cs.RO 

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

Des chercheurs ont publié le 12 juin 2026 un article sur arXiv (2606.12365) présentant l'Ambient Diffusion Policy, une méthode d'apprentissage par imitation conçue pour exploiter des données de démonstration sous-optimales en robotique. Le problème de fond est économique : collecter des données de haute qualité, spécifiques à une tâche, reste coûteux et chronophage, tandis que des datasets hétérogènes, bruités ou hors distribution sont abondants. La méthode introduit un nouvel axe de co-entraînement fondé sur le bruit : la contribution des données sous-optimales est restreinte aux seuls niveaux de bruit élevés et faibles dans le processus de diffusion, plutôt que sur l'ensemble des timesteps d'entraînement. Cette sélectivité permet d'extraire les caractéristiques utiles tout en neutralisant les signaux parasites. Testée sur six tâches couvrant quatre types de données dégradées (trajectoires bruitées, écart sim-to-réel, désalignement de tâche, mélanges de datasets à grande échelle), la méthode surpasse les baselines de co-entraînement existantes de jusqu'à 33% sur Open X-Embodiment, un dataset public de référence regroupant des données robotiques hétérogènes issues de multiples plates-formes. L'impact pour les intégrateurs et les équipes R&D est direct : l'un des goulots d'étranglement majeurs du déploiement de politiques de contrôle apprises n'est plus la quantité de données parfaites disponibles, mais la capacité à valoriser des données imparfaites déjà collectées. La justification théorique repose sur l'observation que les données d'action robotique suivent une loi de puissance spectrale, ce qui induit deux propriétés exploitables dans les Diffusion Policies : une hiérarchie global-to-local et une propriété de localité. Ces propriétés permettent de comprendre pourquoi les niveaux de bruit extrêmes encodent respectivement la structure globale du mouvement et les détails fins, et donc pourquoi la restriction de la contribution des données sous-optimales à ces deux régimes fonctionne. C'est un résultat notable : la méthode n'exige pas de filtrage préalable ni de pondération manuelle des sources, ce qui simplifie le pipeline d'ingestion de données. L'Ambient Diffusion Policy s'inscrit dans le sillage des Diffusion Policies (Chi et al., 2023, Columbia University), devenues une référence dans le contrôle robotique par imitation depuis leur démonstration sur des tâches de manipulation précise. Le co-entraînement sur données hétérogènes est un défi actif, notamment pour les grandes politiques généralistes comme RT-2, Octo ou OpenVLA, qui s'appuient sur Open X-Embodiment. L'approche "Ambient" s'inspire des travaux sur l'apprentissage par diffusion à partir de données corrompues (Gokaslan et al., 2023), ici réinterprétés pour le contexte robotique. Les concurrents directs incluent les méthodes de filtrage par récompense (IQL, AWR) et les approches de pondération implicite comme DWSL. La prochaine étape naturelle, non annoncée dans l'article, serait une intégration dans des pipelines de fine-tuning de politiques fondatrices (foundation policies) où la qualité des données de démonstration spécifiques au site de déploiement reste variable.

UELes équipes R&D robotique françaises et européennes travaillant sur des politiques d'imitation peuvent directement exploiter la méthode pour valoriser leurs datasets de démonstration hétérogènes existants, réduisant le coût de collecte de données haute qualité pour le déploiement industriel ou humanoïde.

IA physiquePaper
1 source
World Pilot : piloter les modèles VLA avec des a priori monde-action
61arXiv cs.RO 

World Pilot : piloter les modèles VLA avec des a priori monde-action

Une équipe de chercheurs a publié World Pilot (arXiv:2606.12403, juin 2026), un framework conçu pour combler une lacune structurelle des modèles Vision-Language-Action (VLA). Ces modèles, comme Pi-0 de Physical Intelligence ou RT-2 de Google Robotics, tirent leur force d'un préentraînement sur de vastes corpus image-texte, mais ce préentraînement s'appuie sur des paires statiques, alors que la manipulation robotique est un processus continu et riche en contacts dont la dynamique leur échappe. World Pilot introduit un World-Action Model (WAM) qui injecte deux types de priors dans la chaîne de décision : le Latent Steering conditionne la couche de perception sur un latent d'évolution de scène, et l'Action Steering fournit une trajectoire anticipée comme prior de mouvement au générateur d'actions. Sur le benchmark LIBERO-Plus en configuration zero-shot out-of-distribution (OOD), le système atteint 84,7 % de taux de succès global et affiche les meilleurs résultats sur quatre tâches de manipulation en environnement réel, avec des marges significatives lors de variations de point de vue, de géométrie d'objets, d'état déformable et de pose. L'intérêt principal de cette approche est de renforcer la robustesse des VLA face aux écarts de distribution sans réentraînement massif. Fait notable : le prior d'évolution de scène reste efficace même lorsqu'il provient d'un world model préentraîné sur vidéo uniquement, sans post-entraînement sur des données d'action, ce qui rend l'augmentation de VLA existants nettement plus accessible. Pour les équipes de déploiement industriel, cela signifie potentiellement moins de données de fine-tuning pour adapter un modèle à un contexte visuel inédit. Le benchmark zero-shot OOD reste l'un des indicateurs les plus exigeants du domaine, là où la majorité des politiques robotiques s'effondrent dès qu'elles sortent de leur distribution d'entraînement. World Pilot s'inscrit dans un courant actif qui vise à doter les politiques robotiques d'un modèle interne du monde, une direction explorée par DeepMind avec DreamerV3 et par Meta via l'architecture JEPA de Yann LeCun. Les VLA ont démontré des capacités de généralisation sémantique prometteuses, mais leur fragilité face aux variations physiques de l'environnement constituait un frein structurel au déploiement industriel. La question ouverte est de savoir si les marges observées sur LIBERO-Plus se maintiendront sur des benchmarks plus larges comme Open-X-Embodiment et sur des plateformes commerciales telles que les bras Franka Robotics ou Universal Robots, étapes nécessaires pour valider la portée industrielle de l'approche.

UESi les résultats se confirment sur Franka Robotics (allemand) et Universal Robots (danois), plateformes dominantes en Europe, cette approche pourrait réduire le coût d'adaptation des VLA aux lignes industrielles européennes sans données d'action supplémentaires.

💬 Le résultat qui compte vraiment, c'est pas les 84% sur le benchmark, c'est que le prior de scène fonctionne avec un world model entraîné sur vidéo uniquement, zéro donnée d'action. Ça veut dire qu'on peut augmenter un Pi-0 ou un RT-2 sans repartir en fine-tuning robotique de zéro, ce qui était le vrai blocage jusqu'ici. Reste à voir si ça tient sur un Franka en prod, mais c'est le genre de papier qu'on garde sous le coude.

IA physiqueOpinion
1 source
PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper
62arXiv cs.RO 

PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12112v1) les spécifications de PEBRE, un module matériel et logiciel open-source conçu pour augmenter les capacités du robot Pepper. Le module intègre une carte Jetson Orin Nano de NVIDIA pour le calcul embarqué, une caméra RGB Logitech BRIO 4K, une caméra de profondeur Intel RealSense D435i pour la perception 3D, un microphone USB Samson UB1 et un micro directionnel RØDE VideoMicro II pour la capture audio. L'ensemble forme un add-on modulaire, conçu pour s'intégrer physiquement sur Pepper sans modifier son architecture d'origine. Les auteurs rapportent des améliorations mesurables en capacités de perception et en puissance de calcul, sans toutefois publier de benchmarks chiffrés comparatifs dans le résumé disponible. L'intérêt concret de PEBRE pour la communauté académique et les intégrateurs tient à une problématique bien réelle : Pepper approche ou dépasse sa durée de vie commerciale prévue, et SoftBank Robotics a progressivement réduit son support. Des dizaines de labos de recherche mondiaux disposent de plateformes Pepper dont la chaîne logicielle devient obsolète et dont le matériel interne (processeur Intel Atom, caméras grand-angle basiques) ne permet plus d'exécuter des modèles modernes de vision ou de traitement du langage en local. En proposant une solution open-hardware, les auteurs cherchent à mutualiser l'effort de mise à niveau, évitant à chaque labo de réinventer sa propre solution de retrofitting. C'est une approche pragmatique face à l'abandon progressif d'une plateforme encore présente dans de nombreux établissements. Pepper a été conçu à l'origine par Aldebaran Robotics, entreprise française rachetée par SoftBank en 2012, puis commercialisé à partir de 2014 comme robot d'accueil et d'interaction sociale. Malgré l'arrêt de sa production pour le marché grand public annoncé en 2021, Pepper reste présent dans plusieurs centaines de laboratoires et sites industriels en Europe et en Asie. Côté concurrence sur le segment des plateformes académiques humanoïdes légères, Pepper fait face à des alternatives comme le NAO (lui aussi Aldebaran/SoftBank), le Furhat ou des plateformes bras-et-torse comme Hello Robot Stretch. PEBRE ne repositionne pas Pepper dans la course aux humanoïdes mobiles de nouvelle génération, mais tente de lui donner une seconde vie utile dans des contextes de recherche appliquée en HRI (Human-Robot Interaction), là où le coût d'acquisition d'une nouvelle plateforme reste prohibitif.

UELes laboratoires européens équipés de robots Pepper, nombreux en France et en Europe, héritiers du rachat d'Aldebaran Robotics, peuvent bénéficier directement de ce module open-source pour prolonger la durée de vie de leurs plateformes et exécuter des modèles modernes de perception et de traitement du langage sans investissement dans une nouvelle plateforme.

RecherchePaper
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
63arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation
64arXiv cs.RO 

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

Une équipe de chercheurs présente SAFER-Nav (arXiv:2606.11636), une méthode de fine-tuning pour améliorer la sécurité des modèles de navigation visuelle robotique opérant uniquement à partir d'images RGB. Le problème est connu : les politiques basées sur des transformeurs ou modèles de diffusion, telles que ViNT (Visual Navigation Transformer) et NoMaD, restent orientées vers leur objectif même dans des environnements inconnus, mais génèrent des trajectoires dangereuses en présence d'obstacles non vus ou de conditions décalées. SAFER-Nav intègre directement dans la politique, via un fine-tuning "segmentation-aware", la représentation explicite des frontières d'obstacles et de l'espace libre traversable, une information absente des approches existantes fondées sur la correction externe de trajectoire ou des priors géométriques internes. Les évaluations portent sur plusieurs plateformes robotiques mobiles, des environnements intérieurs, et des scénarios avec obstacles statiques et dynamiques ; elles montrent une réduction de la fréquence de collisions par rapport à ViNT, NoMaD et leurs variantes augmentées CARE, avec maintien des performances d'atteinte d'objectif. Il s'agit d'un preprint arXiv déposé en juin 2026, non encore évalué par les pairs, sans déploiement commercial annoncé. L'enjeu central est la généralisation à des environnements non vus, verrou majeur pour le déploiement industriel de robots mobiles autonomes dans des entrepôts, hôpitaux ou chantiers. Les méthodes existantes de correction de trajectoire agissent en aval de la politique sans modifier sa représentation interne, laissant intacte la cause première des comportements dangereux. En encodant la structure sémantique de la scène directement dans les poids du modèle, SAFER-Nav adresse le problème à la source ; sa compatibilité avec des backbones RGB variés représente un avantage pratique pour les intégrateurs souhaitant améliorer des systèmes existants sans changer d'architecture. Ces résultats appuient l'hypothèse que le "demo-to-real gap" peut être réduit par supervision sémantique au fine-tuning, sans refonte architecturale complète. ViNT et NoMaD, issus de groupes de recherche de l'Université de Californie à Berkeley, ont instauré un paradigme de modèles de fondation navigants déployables sur des plateformes robotiques hétérogènes sans reprogrammation dédiée. CARE visait à les augmenter par des mécanismes d'évitement sans modifier la politique de base. SAFER-Nav s'inscrit dans la tendance d'adaptation efficace des politiques robotiques par fine-tuning ciblé, parallèlement aux travaux sur les VLA (Vision-Language-Action models) comme pi-zero (Physical Intelligence) ou GR00T N2 (NVIDIA). Les prochaines étapes naturelles incluent une validation en environnement extérieur et en conditions dynamiques réelles, ainsi qu'une évaluation par les pairs. L'absence de financement industriel dans le preprint indique une contribution de recherche fondamentale, non une annonce produit imminente.

UELes équipes R&D et intégrateurs européens de robots mobiles autonomes (entrepôts, hôpitaux, chantiers) pourraient exploiter cette méthode de fine-tuning pour réduire les collisions sur flottes RGB existantes sans refonte architecturale, sous réserve de validation par les pairs et de mise à disposition publique des poids.

IA physiquePaper
1 source
Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur
65arXiv cs.RO 

Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur

Des chercheurs ont publié le 11 juin 2026 sur arXiv (référence 2606.11464) un cadre basé sur des transformeurs pour prédire l'état d'une balle de ping-pong en conditions réelles, dans le but d'améliorer le contrôle en boucle fermée d'un robot de tennis de table. Le système modélise les corrélations temporelles longue portée à partir de séquences d'observations historiques, sans recourir à des équations physiques de vol ou de rebond. Pour l'entraînement, l'équipe a constitué un jeu de données réel à grande échelle, collecté auprès de joueurs de niveaux variés et avec des configurations différentes de canons à balles, afin de maximiser la diversité des trajectoires. La pièce centrale de la contribution est SPAD (Swap Predictor at Deployment) : une stratégie de transfert sim-to-real qui consiste simplement à substituer, au moment du déploiement, le simulateur physique utilisé pendant l'entraînement par le prédicteur entraîné sur données réelles, sans nécessiter de réentraînement de la politique de contrôle. Ce résultat est significatif car il s'attaque directement au problème du sim-to-real gap, l'un des verrous majeurs de la robotique dynamique à haute vitesse. La plupart des approches existantes soit dépendent d'une identification précise des paramètres physiques (masse de la balle, coefficient de rebond, spin), soit peinent à généraliser hors distribution simulée. SPAD propose une alternative modulaire : le prédicteur est un composant interchangeable, ce qui permet de conserver l'efficacité de l'entraînement en simulation tout en bénéficiant de la fidélité des données réelles uniquement à l'inférence. C'est un paradigme "plug-and-play" qui pourrait s'étendre à d'autres tâches de manipulation rapide où la simulation reste incomplète. Le tennis de table robotique est un banc de test établi pour le contrôle haute vitesse, utilisé notamment par des équipes de Google DeepMind (qui ont démontré des robots capables de battre des joueurs amateurs en 2023) et par plusieurs laboratoires universitaires en Chine et en Europe. La spécificité de cette approche est d'éviter toute hypothèse sur le modèle physique du vol de balle, là où des systèmes comme celui de DeepMind intègrent encore des composantes analytiques explicites. La prochaine étape naturelle serait de valider SPAD sur des politiques de contrôle plus complexes, notamment face au spin variable et aux échanges multi-rebonds, qui restent les cas limites non résolus du domaine.

RecherchePaper
1 source
PLUME : modélisation probabiliste unifiée du monde et estimation de paramètres pour la manipulation multi-doigts
66arXiv cs.RO 

PLUME : modélisation probabiliste unifiée du monde et estimation de paramètres pour la manipulation multi-doigts

Une équipe de recherche présente PLUME (Probabilistic Latent Unified World Modeling and Parameter Estimation), une architecture de modèle du monde conçue pour la manipulation dextre avec des mains multi-doigts. L'article, déposé sur arXiv en juin 2026, s'attaque à un obstacle bien documenté en robotique : les politiques entraînées en simulation échouent souvent en déploiement réel parce que des paramètres physiques clés, forme des objets, pose initiale, coefficients de friction, sont inconnus au moment de l'exécution. PLUME apprend conjointement un espace latent représentant plusieurs paramètres physiques hétérogènes et un modèle de dynamique conditionné sur ces paramètres, permettant une inférence en ligne sans ré-entraînement ni fine-tuning. Le système est évalué sur quatre tâches en simulation (vissage de tournevis, rotation de vanne, levage de seau, projection de disque) puis validé sur une tâche de vissage réelle en zéro-shot, surpassant les baselines de référence en apprentissage par renforcement offline et en imitation augmentée par modèle du monde. Ce résultat conteste l'hypothèse que la randomisation de domaine suffit pour les tâches de précision. Visser un tournevis avec une friction faible ou élevée ne demande pas la même stratégie motrice : la politique doit changer qualitativement, pas simplement se robustifier. PLUME répond à cela via une mise à jour bayésienne de la croyance sur les paramètres au fil de l'exécution, fonctionnant comme un système d'adaptation en temps réel sans accès aux vrais paramètres. Le transfert zéro-shot sur hardware est le point fort concret de l'article, même si les conditions exactes du banc d'essai (matériau des objets, tolérances mécaniques de la main utilisée) ne sont pas précisées dans le résumé public, ce qui limite la reproductibilité immédiate. La manipulation dextre multi-doigts reste un problème ouvert depuis plusieurs décennies, avec des tentatives notables chez OpenAI (Dactyl, arrêté en 2021) ou ETH Zurich. PLUME s'inscrit dans une tendance récente couplant modèles du monde et inférence de paramètres, approche complémentaire aux VLA (Vision-Language-Action models) mais plus ciblée sur l'incertitude physique. Les travaux concurrents les plus proches incluent DreamerV3, TD-MPC2 et des méthodes d'inférence contextuelle comme PEARL. La prochaine étape naturelle serait l'extension à des tâches bi-manuelles ou impliquant des objets déformables, domaines où l'incertitude sur les paramètres est encore plus sévère.

RecherchePaper
1 source
Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments
67arXiv cs.RO 

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.11408) une méthode baptisée DEHP, Dynamic Execution Horizon Prediction, conçue pour résoudre un goulot d'étranglement structurel des politiques robotiques modernes : l'horizon d'exécution fixe. Dans les architectures à "action chunking" aujourd'hui omniprésentes, politiques de diffusion, politiques de flux, modèles vision-langage-action (VLA) comme pi-0 ou OpenVLA, le robot prédit un bloc de N actions et les exécute en boucle ouverte, sans percevoir l'environnement à chaque pas. Cet horizon N est actuellement choisi par tuning empirique, tâche par tâche. DEHP entraîne une branche légère de prédiction d'horizon via du reinforcement learning en ligne, tout en gardant la politique chunk sous-jacente entièrement gelée, ce qui la rend compatible avec n'importe quelle politique existante traitée comme boîte noire. Sur des tâches de manipulation haute précision et longue durée, les auteurs rapportent une amélioration "significative" du taux de succès, sans chiffres absolus précis dans l'abstract, un point à vérifier dans les résultats complets. L'enjeu est concret pour quiconque déploie des bras manipulateurs en production : la boucle ouverte est efficace sur les mouvements de transit (déplacements dans l'espace libre), mais devient un frein sur les phases fines, insertion, saisie d'objet délicat, assemblage à tolérance serrée. DEHP adapte dynamiquement l'horizon : court pendant les phases critiques (comportement proche d'un contrôle pas-à-pas), long pendant les phases de déplacement libre. Cela revient à réconcilier l'efficacité computationnelle du chunking avec la réactivité du contrôle fermé, sans réentraîner le modèle de base. Pour les intégrateurs industriels, cela signifie potentiellement récupérer de la robustesse sur des cellules existantes sans toucher au pipeline d'entraînement. L'action chunking a été popularisée par ACT (Action Chunked Transformer, Stanford 2023), puis repris dans les diffusion policies de Chi et al. et intégré dans des VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La tension entre horizon long (efficacité) et horizon court (réactivité) est un problème ouvert bien identifié dans la communauté. Plusieurs travaux concurrents explorent le receding horizon ou le replanning conditionnel, mais DEHP se distingue par sa compatibilité boîte noire et son entraînement RL en ligne. La page projet est accessible sur dehp-chunking.github.io ; aucune timeline de déploiement industriel n'est annoncée à ce stade.

RecherchePaper
1 source
DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé
68arXiv cs.RO 

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Une équipe du groupe Intuitive Robots publie DAM-VLA (Decoupled Asynchronous Multimodal Vision-Language-Action), un modèle VLA déposé sur arXiv le 11 juin 2026 (2606.12105) qui remet en cause le paradigme d'horloge synchrone des architectures VLA actuelles. Le problème identifié est structurel : les modèles vision-langage-action héritent d'un préentraînement où toutes les modalités partagent la même fréquence de traitement. Or en manipulation physique, les capteurs proprioceptifs opèrent à plusieurs centaines de hertz, la vision évolue bien plus lentement, et les instructions langagières restent constantes sur l'ensemble d'un épisode. Oversampler la vision et sous-échantillonner la proprioception plafonne la qualité du contrôle. DAM-VLA maintient des tampons latents par modalité, chacun rafraîchi à la fréquence de son propre capteur et consulté en continu par la tête d'action via gated cross-attention, sans modifier le backbone préentraîné. Sur sept tâches de manipulation en contact réel (contact-rich), le modèle atteint 95,2 % de succès contre 40,95 % pour la meilleure baseline synchrone, tout en assurant un contrôle fluide à 100 Hz. Ce doublement du taux de succès sur des tâches contact-rich est un résultat conséquent. Il suggère que le sim-to-real gap dans les VLA est aussi un problème de temporalité : rater des transitions haptiques critiques lors d'une insertion ou d'un vissage dégrade le contrôle plus que la généralisation visuelle. Pour un intégrateur industriel, 100 Hz en sortie d'action passe le seuil minimal pour des tâches de précision en cellule automatisée. L'architecture ne modifiant pas le backbone, elle préserve la réutilisabilité des poids préentraînés, ce qui réduit le coût d'adoption pour les équipes déjà investies sur des bases VLA existantes. Les VLA déployés en production récente, Pi-0 de Physical Intelligence, OpenVLA et Octo, ainsi que les approches commerciales de Figure AI (Figure 03) ou NVIDIA (GR00T N2), opèrent sur le paradigme synchrone. DAM-VLA propose une troisième voie entre la boucle unifiée et le découpage hiérarchique dual-system. Quelques réserves s'imposent : il s'agit d'un preprint sans revue par les pairs confirmée, les sept tâches évaluées restent de portée laboratoire, et aucun déploiement industriel ni partenariat commercial n'est annoncé. Les étapes critiques, validation sur manipulateurs bi-bras et intégration de capteurs force-couple haute fréquence comme modalité principale, restent à démontrer hors contexte académique.

IA physiqueOpinion
1 source
Fourier Features permet aux agents d'apprendre des politiques haute précision par apprentissage par imitation
69arXiv cs.RO 

Fourier Features permet aux agents d'apprendre des politiques haute précision par apprentissage par imitation

Un article soumis sur arXiv (2606.12334, juin 2026) présente une méthode simple mais efficace pour améliorer la précision des politiques de manipulation robotique par apprentissage par imitation : projeter les nuages de points 3D dans un espace de Fourier haute dimension avant de les passer à l'encodeur neuronal. L'idée part d'un diagnostic connu en apprentissage automatique : les réseaux de neurones souffrent d'un biais spectral qui les pousse à privilégier les fonctions basse fréquence, ce qui pénalise les architectures conditionnées sur des coordonnées cartésiennes lentes et peu discriminantes. En remplaçant ces coordonnées brutes par leurs projections sinusoïdales haute fréquence, les chercheurs donnent à l'encodeur un accès direct aux détails géométriques fins, là où se jouent les contraintes d'assemblage ou d'insertion. Les expériences couvrent les benchmarks RoboCasa et ManiSkill3, ainsi qu'un banc de test en robotique réelle, et montrent des gains consistants sur des tâches de manipulation à haute précision. L'apport principal n'est pas tant algorithmique que diagnostique : les politiques basées sur nuages de points surpassent théoriquement les approches RGB-only (qui souffrent d'ambiguïté de profondeur et de problèmes d'échelle en perspective), mais leurs performances restent fortement dépendantes de la tâche. Ce papier identifie le biais spectral comme mécanisme explicatif de cet écart et propose un correctif robuste aux hyperparamètres, agnostique à l'architecture d'encodeur. Pour les équipes qui développent des politiques VLA (Vision-Language-Action) ou des contrôleurs d'imitation pour manipulation fine (vissage, assemblage, tri de pièces), cette couche de Fourier s'intègre sans refonte majeure du pipeline. C'est le type de contribution "multiplicateur silencieux" qui peut débloquer des cas d'usage industriels où le gap sim-to-real reste un obstacle pratique. Ce travail s'inscrit dans un contexte de recherche actif sur les représentations 3D pour la robotique apprenante, en concurrence avec des approches comme les encodeurs PointNet et PointTransformer, les champs de distances signées ou les représentations implicites neuronales. Les benchmarks RoboCasa (Berkeley) et ManiSkill3 (UCSD/Carnegie Mellon) sont devenus des standards d'évaluation pour la manipulation simulée, bien que le vrai test reste le transfert sim-to-real en conditions industrielles non structurées. Les auteurs mettent à disposition le code source et des vidéos sur fourier-il.github.io, ce qui facilite la reproduction et l'adoption. La prochaine étape naturelle serait d'évaluer la technique sur des manipulateurs industriels en production et de tester sa compatibilité avec les architectures Diffusion Policy et ACT, actuellement dominantes dans le domaine.

RechercheOpinion
1 source
DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?
70arXiv cs.RO 

DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?

Une équipe de chercheurs a publié en juin 2026 DIRECT (arXiv:2606.12402), un cadre de routage conçu pour allouer dynamiquement le calcul à l'inférence, ce que le milieu appelle test-time compute, dans les agents embarqués pilotés par des modèles de vision-langage (VLMs). Plutôt que d'appliquer uniformément plus de puissance de calcul à chaque requête, DIRECT utilise le contexte visuel et multimodal de la scène pour décider, prompt par prompt, combien de ressources mobiliser. Le système a été évalué sur deux benchmarks de référence, VLABench et RoboMME, puis validé sur un bras Franka physique dans une configuration DROID couvrant manipulation zero-shot et enchaînements de tâches longues. Le résultat clé : DIRECT égale ou dépasse un modèle plus puissant tout en réduisant la latence moyenne jusqu'à 65 %. L'apport scientifique dépasse l'optimisation des coûts. Les auteurs montrent que les trois grands axes de montée en puissance à l'inférence, profondeur de la chaîne de pensée (chain-of-thought), taille du modèle, et longueur de l'historique mémoire, ne sont pas interchangeables : chacun produit des gains qualitativement distincts selon le type de tâche. Cela contredit l'hypothèse implicite de nombreux travaux récents selon laquelle "plus de compute = meilleures performances" de façon uniforme. Pour un intégrateur ou un COO industriel, l'implication est directe : un routeur intelligent peut tenir les contraintes de latence des applications temps réel sans sacrifier les capacités de planification, rendant les VLMs plausibles hors des environnements lab. Ce travail s'inscrit dans une accélération marquée de l'usage des VLMs comme planificateurs de haut niveau pour la robotique, portée notamment par des modèles comme GPT-4o, Gemini 2.0 ou les architectures Vision-Language-Action (VLA) type pi0 de Physical Intelligence. Le setup DROID utilisé pour la validation physique est un environnement de manipulation à grande échelle devenu standard dans la recherche académique américaine. Côté concurrence, les approches alternatives, décodage spéculatif, distillation, sélection statique de modèle, n'exploitent pas le contexte de scène pour router dynamiquement. DIRECT ouvre la voie à des pipelines adaptatifs, mais reste à ce stade une contribution de recherche : aucun déploiement industriel ni partenariat industriel n'est annoncé.

IA physiqueOpinion
1 source
Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires
71arXiv cs.RO 

Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires

Une équipe de chercheurs publie sur arXiv (référence 2606.12027) ILD, pour Invertible Latent Decomposition, un framework de planification de trajectoires sans collision dans des espaces de configuration encombrés. ILD apprend conjointement un mapping inversible et un ensemble de polytopes convexes explicites dans l'espace latent correspondant : la planification s'effectue sur ces convexes latents, et le mapping inversible retraduit les chemins vers l'espace d'origine en préservant la faisabilité vis-à-vis des régions sûres explicites. Le framework intègre également VGS (Visibility-Guided Sampling), une méthode d'échantillonnage guidée par la visibilité conçue pour maintenir la connectivité entre ensembles convexes lors de la planification. Les évaluations couvrent la navigation 2D, un manipulateur à 6 degrés de liberté (DOF) et un bras bimanuel à 14-DOF. Sur ce dernier, les auteurs démontrent une planification temps réel avec un affinement à l'exécution (test-time refinement) s'adaptant aux changements de géométrie de scène, confirmé sur un bras 6-DOF réel. Zéro faux positif n'est observé après cet affinement, contre des taux non nuls pour les méthodes de référence testées. L'enjeu industriel est la résolution d'un arbitrage fondamental en robotique de manipulation : les représentations explicites comme les unions de polytopes convexes s'intègrent directement dans les planificateurs à base d'optimisation comme contraintes dures, garantissant l'absence de collision, mais leur complexité de paramétrage explose avec la dimension de l'espace de configuration. Les représentations implicites passent mieux à l'échelle géométrique mais n'offrent pas ces garanties formelles. ILD combine les deux avantages. Pour un intégrateur ou un responsable de production, la planification temps réel sur 14-DOF avec adaptation dynamique à la scène représente un seuil d'utilisabilité concret en environnement industriel, à condition que les performances tiennent hors des conditions contrôlées de laboratoire, point sur lequel les auteurs restent prudemment ouverts. La planification sous contraintes de collision est un problème adressé depuis des décennies par des planificateurs probabilistes (RRT, PRM) et des méthodes d'optimisation convexe comme IRIS et GCS (Graph of Convex Sets), issus en particulier des travaux de Russ Tedrake au MIT CSAIL. ILD s'inscrit dans la tendance récente qui hybride apprentissage profond et garanties formelles plutôt que d'opposer les deux approches. Le preprint ne mentionne ni partenaire industriel ni calendrier de commercialisation, restant au stade académique. Les extensions attendues concernent la robustesse sur des scènes plus dynamiques et le passage à des espaces de configuration supérieurs à 14-DOF, en vue des manipulateurs humanoïdes à bras multiples dont les architectures dépassent souvent 28-DOF.

RecherchePaper
1 source
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
72arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

IA physiqueOpinion
1 source
Ce que les métriques de curation des démonstrations font à votre politique
73arXiv cs.RO 

Ce que les métriques de curation des démonstrations font à votre politique

Une étude publiée en juin 2026 (arXiv:2606.10229) révèle une décorrélation surprenante au cœur du pipeline d'imitation learning en robotique : les métriques qui détectent le mieux les épisodes de démonstration défectueux ne sont pas celles qui produisent les meilleures politiques de behavior cloning. Les chercheurs ont travaillé sur le benchmark LIBERO de pick-and-place en contact riche, en injectant un défaut structurel contrôlé, un relâchement prématuré du préhenseur pendant la phase de transport. Parmi sept métriques de curation évaluées, celle affichant le meilleur AUROC de détection de défauts (0,804) génère la pire politique downstream, avec un taux de succès de seulement 13,3 %. À l'inverse, une métrique avec un AUROC bien plus faible (0,638) produit une politique atteignant 90,0 % de réussite, contre 93,3 % pour l'oracle entraîné sur données propres vérifiées. La baseline contaminée, sans aucune curation, ne dépasse pas 3,3 % de succès. Ce résultat remet en cause un présupposé largement répandu dans la communauté robotique : l'idée qu'améliorer la détection des démonstrations défectueuses suffit à améliorer la politique apprise. L'étude montre que cinq des sept métriques testées utilisent en réalité la longueur d'épisode comme proxy trivial pour le label de défaut, un biais qui gonfle artificiellement les AUROC jusqu'à des valeurs quasi-parfaites, et qui disparaît dès lors qu'on neutralise cette variable. Pour les équipes qui construisent des systèmes de robot learning à partir de données humaines (notamment dans les approches VLA ou diffusion policy), cela signifie que les outils de curation standard peuvent induire en erreur, en sélectionnant des données qui « semblent » propres sans réellement améliorer le comportement en rollout. L'imitation learning par behavior cloning est aujourd'hui au cœur des approches de référence en manipulation robotique, des systèmes Pi-0 de Physical Intelligence aux architectures ACT et Diffusion Policy largement reproduites en recherche académique. LIBERO est un benchmark établi, utilisé précisément pour sa richesse en interactions contact. Les auteurs de cette étude vont plus loin que le constat en publiant le testbed complet, toutes les implémentations de métriques et le pipeline d'évaluation, ce qui permet à la communauté de recalibrer ses outils de curation. La recommandation centrale est méthodologique : évaluer une méthode de curation à l'aune de la politique qu'elle produit, pas des défauts qu'elle signale, et imposer un contrôle systématique de la longueur d'épisode avant toute publication de score de détection.

UELes laboratoires académiques et startups européennes travaillant sur le behavior cloning ou les politiques de diffusion peuvent recalibrer leurs pipelines de curation grâce au testbed complet publié par les auteurs.

RecherchePaper
1 source
Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel
74arXiv cs.RO 

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

Des chercheurs publient en juin 2026 une méthode baptisée "flow control" (arXiv:2606.10180) permettant de piloter en temps réel les modèles VLA (Vision-Language-Action) via des entrées génériques, comme un clavier ou un joystick, sans aucun ré-entraînement ni fine-tuning. L'approche opère à l'inférence en orientant l'échantillonnage du modèle vers des actions qui reflètent l'intention de l'opérateur tout en restant dans la distribution experte apprise à l'entraînement. Les auteurs documentent dans ce preprint quatre propriétés mesurées : guidage précis et réactif, robustesse aux commandes imprécises, taux de succès améliorés avec réduction des temps de tâche, et enfin un gain de performance autonome lorsqu'on fine-tune le VLA sur les trajectoires corrigées par flow control. L'enjeu est concret pour les intégrateurs : les VLAs montrent des performances solides en démo, mais leurs taux d'échec en déploiement réel restent non nuls face aux variations d'environnement et aux instructions ambiguës. Plutôt que de corriger ces défauts par du ré-entraînement coûteux, flow control permet à un opérateur de guider le robot à la volée sans dégrader la qualité des mouvements générés. La boucle est vertueuse : les corrections humaines produisent des trajectoires haute qualité réutilisables comme données d'entraînement, traçant un chemin de déploiement progressif où la supervision humaine se retire au fil des itérations. Les VLAs ont pris de l'ampleur avec Pi-0 de Physical Intelligence (publié fin 2024), dont l'architecture repose précisément sur le flow matching, d'où le jeu de mots du titre. NVIDIA GR00T N2, OpenVLA (Berkeley/Stanford), et les modèles LeRobot de Hugging Face (Paris) constituent les autres plateformes où cette couche de contrôle pourrait s'intégrer sans modifier le pipeline d'entraînement existant. L'idée de guidage conditionné à l'inférence existe déjà en génération d'images via le classifier guidance des modèles de diffusion, mais son application à la robotique physique restait peu explorée. Les prochaines étapes annoncées dans le papier incluent le fine-tuning systématique sur trajectoires flow-control pour quantifier le gain autonome à plus grande échelle.

UEHugging Face (Paris) est explicitement cité comme plateforme d'intégration via LeRobot, ce qui rend cette méthode directement applicable à l'initiative robotique open-source française sans modifier le pipeline d'entraînement existant.

💬 C'est exactement le problème que personne ne veut admettre sur les VLAs : ils impressionnent en démo et flanchent en prod dès que l'environnement bouge un peu. L'idée de guider l'échantillonnage à l'inférence plutôt que de tout ré-entraîner, c'est le genre de solution pragmatique qu'on attendait. La boucle où les corrections humaines deviennent des données d'entraînement, c'est propre, et si ça marche à l'échelle avec LeRobot, Hugging Face tient quelque chose de sérieux.

IA physiqueOpinion
1 source
Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes
75arXiv cs.RO 

Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes

Des chercheurs ont publié Co-GLANCE (arXiv:2606.09919), un système embarqué de perception active et de prise de décision pour équipes robotiques hétérogènes opérant en extérieur non structuré. Le problème central adressé est l'incertitude perceptuelle liée aux occlusions : selon la position d'un robot, certaines zones de la scène restent invisibles ou ambiguës, et aucun agent isolé ne dispose d'un point de vue suffisant pour une compréhension fiable. Co-GLANCE distille les capacités de raisonnement sémantique d'un vision-language model (VLM) dans un modèle embarqué end-to-end qui réalise simultanément la segmentation des occlusions et l'allocation des robots les plus adaptés pour résoudre ces zones d'incertitude. Pour quantifier cette incertitude de façon statistiquement garantie, le système combine la prédiction conforme (conformal prediction) et l'abstention sélective sur les sorties de segmentation, d'allocation et de détection. Comparé aux baselines VLM cloud, Co-GLANCE améliore la précision de segmentation des occlusions de 25% et l'allocation robotique de 36%, tout en réduisant la latence d'inférence par image d'un facteur 350. Un dataset air-sol est également publié en open source. Ce résultat est significatif pour les intégrateurs et les décideurs industriels déployant des flottes multi-robots sur des chantiers, des sites miniers ou des opérations de surveillance. L'élimination de la dépendance au cloud pour l'inférence VLM lève un verrou majeur : latence, connectivité intermittente et coûts d'API. Le gain de 350x en latence n'est pas un chiffre de laboratoire anecdotique, il rend la perception active temps-réel praticable sur du matériel embarqué contraint. La combinaison conformal prediction + abstention sélective apporte des garanties de couverture statistique, ce qui est rare dans les systèmes robotiques terrain : les incertitudes sont exploitables (elles déclenchent des actions), pas seulement affichées. Les travaux sur la coordination multi-robots hétérogènes air-sol s'inscrivent dans un champ actif depuis plusieurs années, avec des groupes comme MIT CSAIL, Stanford, ETH Zurich et CMU comme références principales. La tendance forte est le passage des VLM cloud-only vers des modèles distillés edge-capable, que l'on retrouve aussi dans des travaux comme OpenVLA ou octo. Co-GLANCE se positionne spécifiquement sur l'allocation robotique sous incertitude, un angle moins couvert que la simple navigation ou manipulation. Les prochaines étapes probables incluent des validations sur des flottes plus larges et des environnements dégradés (nuit, pluie), ainsi que l'intégration dans des stacks ROS2 existants. Le code et le dataset sont disponibles sur co-glance.github.io.

RecherchePaper
1 source
Analyse de la locomotion d'un quadrupède sur le sol granulaire lunaire
76arXiv cs.RO 

Analyse de la locomotion d'un quadrupède sur le sol granulaire lunaire

Une équipe de recherche a publié en juin 2026 sur arXiv (preprint 2606.10273) une analyse de la locomotion d'un robot quadrupède conçu pour l'exploration lunaire, avec un focus sur l'interaction avec le régolithe lunaire. Le régolithe est un matériau granulaire meuble qui recouvre la surface de la Lune et qui diffère radicalement d'un sol rigide terrestre. Les chercheurs ont intégré un modèle physique de contact entre pied de robot et régolithe dans un environnement de simulation, puis ont entraîné des politiques de locomotion par apprentissage par renforcement (RL). Deux politiques ont été comparées : l'une entraînée sur des contacts rigides, l'autre sur des contacts mous simulant le régolithe. Résultats : les contacts granulaires génèrent une allure qualitativement différente, augmentent la dépense énergétique globale et provoquent instabilité et perte de tracking. Ce résultat touche directement l'un des angles morts majeurs du RL appliqué à la robotique terrain : les algorithmes de locomotion sont quasi-systématiquement entraînés sous hypothèse de contact rigide, ce qui suffit sur des sols durs mais s'effondre dès que le sol cède sous la patte. Pour la conception mécanique d'un quadrupède lunaire, cela se traduit concrètement par un sous-dimensionnement des couples moteurs et une sous-estimation du coût énergétique de transport, deux variables critiques dans un contexte où les contraintes thermiques et énergétiques sont dimensionnantes pour toute mission. Cette étude fournit des métriques quantitatives sur le surcoût locomoteur induit par le régolithe, un élément manquant dans la majorité des papiers de robotique planétaire. Le contexte est celui d'un regain d'intérêt intense pour la robotique lunaire, porté par le programme Artemis de la NASA et par plusieurs missions commerciales prévues d'ici 2028. La question du sim-to-real sur surfaces granulaires est connue dans la communauté depuis les travaux sur le sable et la neige, mais reste peu traitée dans le cadre spécifiquement lunaire. Du côté européen, l'ESA finance plusieurs projets de robots à pattes pour surfaces extraterrestres, sans qu'un programme quadrupède lunaire opérationnel ne soit encore annoncé publiquement. Ce papier reste un preprint non relu par des pairs, et ses conclusions, bien que cohérentes avec la littérature sur les milieux granulaires, n'ont pas encore été validées sur un prototype physique en environnement simulé en laboratoire.

UEL'ESA finançant plusieurs projets de robots à pattes pour surfaces extraterrestres, les métriques quantitatives sur le surcoût locomoteur du régolithe et les limites du RL entraîné sur contact rigide pourraient directement informer les choix de simulation et de conception des équipes européennes impliquées dans ces programmes.

RecherchePaper
1 source
ros2probe : observabilité non intrusive et sélective au niveau noyau pour le middleware ROS 2
77arXiv cs.RO 

ros2probe : observabilité non intrusive et sélective au niveau noyau pour le middleware ROS 2

Une équipe de chercheurs a publié le 12 juin 2026 sur arXiv (arXiv:2606.10746v1) les travaux autour de ros2probe, un framework d'observabilité non-intrusif pour ROS 2, le middleware de facto de la robotique moderne. ROS 2 structure chaque robot comme un graphe de noeuds communicant via DDS (Data Distribution Service), un protocole publish/subscribe. Le problème fondamental des outils de monitoring existants : pour observer un topic, ils s'inscrivent eux-mêmes comme subscribers DDS, devenant ainsi partie intégrante du système qu'ils mesurent. ros2probe contourne cette contrainte en reconstituant l'état de communication complet à partir des paquets de découverte DDS, sans rejoindre le domaine, puis en appliquant un filtre noyau (in-kernel) ciblé sur les topics demandés. Sur trois plateformes matérielles (laptop x86, NVIDIA Jetson, Raspberry Pi), deux implémentations DDS distinctes et sept workloads robotiques, ros2probe maintient le graphe de découverte à moins de 0,5% d'un système non observé. Les outils classiques, eux, gonflent ce graphe jusqu'à 2,6 fois et perdent 38,5% des messages du subscriber réel en conditions de saturation. ros2probe n'en perd aucun, affiche un recall de 1,0 sur le reporting de perte, et réduit la consommation CPU de l'observateur jusqu'à 7x, la mémoire jusqu'à 28x. Ce résultat est significatif pour quiconque développe ou intègre des systèmes robotiques en production. L'effet sonde (probe effect) décrit ici n'est pas un artefact de mauvaise implémentation : il est inhérent au protocole DDS. Cela signifie que tout log de performance ou diagnostic collecté avec les outils standard (ros2 topic echo, rqt, rosbag2) modifie silencieusement le comportement du système mesuré, avec des pertes de messages qui peuvent atteindre plus d'un tiers en charge élevée. Sur les robots embarqués à ressources contraintes, Jetson ou Raspberry Pi, les outils existants peuvent tout simplement saturer le système. ros2probe démontre qu'une observabilité fidèle est techniquement possible sans ce compromis. ROS 2 a supplanté ROS 1 précisément pour son architecture distribuée et sa robustesse industrielle, mais cette architecture DDS a hérité d'une limitation structurelle pour le debug et le monitoring. L'approche de ros2probe s'appuie sur la capture passive au niveau noyau, proche des techniques eBPF utilisées dans l'observabilité Linux moderne, appliquée ici à la sémantique ROS 2. Aucun déploiement commercial ni partenariat industriel n'est mentionné dans l'article, qui reste une publication académique. Les prochaines étapes naturelles seraient une intégration dans les toolchains ROS 2 existants et une validation sur des robots de production, notamment dans des environnements multi-robots où l'inflation du graphe de découverte est encore plus critique.

UELes équipes robotiques européennes développant sur ROS 2, notamment sur plateformes embarquées contraintes comme Jetson ou Raspberry Pi, bénéficieraient d'un outil de monitoring fiable sans dégradation des performances, un gain concret pour la R&D robotique française et européenne.

InfrastructureActu
1 source
TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense
78arXiv cs.RO 

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Des chercheurs ont publié sur arXiv (référence 2606.11184) TacForeSight, un framework léger d'anticipation tactile guidée par la force pour la manipulation en contact riche. Le système repose sur deux composants : TacForceWM, un modèle du monde tactile qui prédit les dynamiques latentes tactiles à court horizon à partir de capteurs bi-doigts conditionnés par les signaux de force et de couple au poignet à haute fréquence, et une politique conditionnée par l'anticipation tactile (Predictive Tactile-Conditioned Policy) qui exploite ces prédictions comme priors de contact, modélise l'évolution tactile courante-vers-future via cross-attention, et fusionne les features visuo-tactiles via un module de gating adaptatif. Les expériences portent sur cinq tâches représentatives de manipulation sur robot réel et trois scénarios de perturbation en cours de manipulation, avec des résultats supérieurs aux baselines existantes dans tous les cas, notamment sous perturbations de contact dynamiques. Le code et les datasets seront mis à disposition publiquement sur tacforesight.github.io. L'apport technique central est de modéliser explicitement les rôles asymétriques de la force globale au poignet (basse résolution spatiale, haute fréquence) et du toucher local bi-doigts (haute résolution spatiale, dynamique plus lente), distinction que la plupart des méthodes d'imitation learning actuelles ignorent. En opérant entièrement dans un espace latent compact, le framework permet un raisonnement de contact proactif compatible avec le contrôle haute fréquence, là où les approches réactives échouent sous perturbations imprévues. Pour les intégrateurs industriels et les équipes travaillant sur l'assemblage ou le conditionnement robotisé, c'est une démonstration concrète que la fusion force+tactile dans un world model améliore la robustesse réelle sans alourdir l'inférence en temps réel. Ce travail s'inscrit dans une vague de recherche combinant world models et retour tactile pour la manipulation dextre, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur GR00T N2 de NVIDIA qui intègrent également des politiques tactile-aware. Aucun concurrent français ou européen direct n'est identifié sur ce créneau précis, bien que des acteurs comme Pollen Robotics ou Enchanted Tools s'appuient aussi sur la manipulation fine. Il s'agit ici d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenaire annoncé : les résultats, bien que prometteurs sur cinq tâches de laboratoire, devront être reproduits sur des géométries et conditions de contact plus variées avant de valider la généralisation à l'échelle industrielle.

UEImpact indirect : le code open-source prévu sur tacforesight.github.io pourrait être exploité par des équipes européennes travaillant sur la manipulation fine, comme Pollen Robotics ou les labos CEA-List, mais aucun acteur FR/EU n'est impliqué dans ce travail.

RecherchePaper
1 source
Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire
79arXiv cs.RO 

Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire

Une équipe de chercheurs présente un cadre neuro-symbolique de bout en bout conçu pour l'assemblage robotique multi-paires en environnements non structurés, publié sur arXiv (2606.10808). Le système fonctionne à partir d'une caméra RGB-D montée sur le bras (configuration eye-on-hand) et s'appuie sur un bras UR3 d'Universal Robots. Le pipeline traite chaque paire pièce-cible en générant un sous-graphe optimal via un grand modèle de langage (LLM), puis coordonne l'ensemble des sous-graphes en une séquence globale cohérente grâce à une étape de résolution topologique. Des arbres de comportement dynamiques intégrant des compétences atomiques pilotées par retour d'effort ferment la boucle d'exécution physique. Sur 100 scènes réelles évaluées hors ligne, le framework atteint 97 % d'exécutabilité globale, et le déploiement sur robot réel obtient un taux de succès de 90 % avec une tolérance de 0,5 mm sous forte interférence entre pièces. Ce résultat est notable parce qu'il adresse deux défauts symétriques qui bloquent l'industrialisation de la planification autonome d'assemblage. Les planificateurs classiques (recherche d'état, PDDl) explosent combinatoirement dès que le nombre de pièces augmente. Les approches purement neuronales ou LLM-only produisent des "hallucinations logiques" : séquences d'actions syntaxiquement valides mais physiquement incohérentes (conflits topologiques, collisions ignorées). Le framework proposé découple les deux niveaux : le LLM génère uniquement des actions basiques pour limiter les hallucinations, tandis qu'un discriminateur léger insère les actions de support pour les cas limites. La tolérance de 0,5 mm sous interférence forte est un indicateur concret de robustesse, même si les vidéos de démonstration disponibles ne couvrent pas l'ensemble des 100 configurations testées, ce qui limite la vérification indépendante des chiffres annoncés. Le problème de l'assemblage multi-paires est un verrou industriel identifié depuis les années 1990 dans la robotique manufacturière, avec des applications directes en électronique, aéronautique et assemblage de sous-systèmes automobiles. Les approches concurrentes actuelles incluent les planificateurs symboliques classiques (MoveIt, OpenRAVE), les politiques d'imitation learning (ACT, Diffusion Policy) et les Visual Language Action models (pi-0 de Physical Intelligence, RoboFlamingo). Ce framework se positionne entre la planification symbolique vérifiable et l'inférence neuronale généraliste. Les auteurs soulignent que l'architecture est extensible à faible coût par ajout de nouvelles paires ou actions. Les prochaines étapes logiques seraient un déploiement sur des bras à plus haute charge utile et une validation sur des lignes d'assemblage industrielles réelles, domaine où des acteurs européens comme Wandercraft ou Enchanted Tools pourraient trouver des synergies applicatives.

UELes équipes R&D robotique européennes (notamment dans l'aéronautique et l'électronique) pourraient intégrer cette architecture pour automatiser des tâches d'assemblage multi-pièces à tolérance serrée, un verrou industriel non résolu par les planificateurs classiques.

RecherchePaper
1 source
UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles
80arXiv cs.RO 

UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles

Une équipe de chercheurs a publié mi-juin 2026 sur arXiv (arXiv:2606.10683) un travail intitulé UniDexTok, proposant une représentation unifiée pour les états de mains dextres hétérogènes, humaines et robotiques. Le coeur du système est le Unified Dexterous Hand Model (UDHM), une interface sémantique partagée à 22 degrés de liberté (DoF) qui normalise les états articulaires de n'importe quelle main dans un espace commun. Sur cette base, UniDexTok est un tokenizer d'états appris exclusivement depuis des données réelles, sans recours au retargeting ni à la simulation. Les gains de précision par rapport à la baseline UniHM sont significatifs : l'erreur angulaire moyenne par articulation (MPJAE) chute de 15,63° à 0,16° (réduction de 98,98 %), et l'erreur de position par articulation (MPJPE) passe de 18,51 mm à 0,18 mm (réduction de 99,03 %), ramenant la reconstruction de l'échelle centimétrique à une précision sub-millimétrique. La portée industrielle de ce résultat tient moins aux chiffres absolus qu'à ce qu'ils rendent possible : un entraînement cross-embodiment sans pipeline de retargeting, qui a longtemps constitué un goulot d'étranglement dans la constitution de datasets pour mains dextres. Jusqu'ici, les données capturées sur une Shadow Hand, une Allegro ou une LEAP Hand étaient difficilement réutilisables pour un autre robot, faute de représentation commune. UniDexTok permet de les agréger : les expériences montrent que des données provenant d'autres embodiments améliorent la reconstruction sur l'embodiment cible, validant le principe de transfert cross-morphologie. Le système affiche également des capacités zero-shot et few-shot lors de l'introduction de nouvelles mains, ce qui réduit le coût d'intégration pour les intégrateurs qui déploient plusieurs plateformes en parallèle. La manipulation dextre reste l'un des défis les plus ouverts de la robotique humanoïde, avec une fragmentation des efforts entre labos (Dexterous Manipulation Group chez CMU, OpenAI Dactyl suspendu, Physical Intelligence avec Pi-0) et industriels (Tesla Optimus, Figure, Unitree). Les approches précédentes comme UniHM avaient posé la question de la représentation unifiée mais avec des erreurs de reconstruction trop élevées pour être exploitables en contrôle fin. UniDexTok s'inscrit dans un mouvement plus large vers des politiques robotiques génériques multi-embodiments, analogue à ce que les VLA (Vision-Language-Action models) tentent du côté de la perception. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat ; il s'agit d'une contribution de recherche fondamentale, dont l'intégration dans des pipelines de formation de politiques reste à démontrer en conditions réelles.

RecherchePaper
1 source
Modèles de tiges pour le contrôle des robots continus et souples : une revue
81arXiv cs.RO 

Modèles de tiges pour le contrôle des robots continus et souples : une revue

Une équipe de chercheurs a publié sur arXiv (référence 2407.05886, troisième révision) une revue exhaustive des modèles de tiges (rod models) appliqués à la modélisation et au contrôle des robots continus et souples. Le travail couvre les fondements mathématiques des théories de tiges, leur application à la modélisation de structures déformables, et les stratégies de contrôle dérivées, tant model-based que learning-based. Les auteurs proposent une classification des modèles selon le type de déformation pris en compte, contribution qui fait défaut dans la littérature existante. Les domaines applicatifs ciblés incluent la santé, l'agriculture, le milieu marin et l'espace, où les robots rigides conventionnels montrent leurs limites face à des environnements non structurés et à des interactions mécaniques en contact permanent. L'intérêt principal de ce survey est de structurer un sous-champ marqué par une forte fragmentation de la littérature. Les modèles de type Cosserat ou Kirchhoff proposent une approximation dimensionnellement réduite du comportement de corps élancés et déformables, offrant un meilleur équilibre que les méthodes éléments finis (FEM) entre précision et coût computationnel temps-réel. Pour les équipes R&D travaillant sur des bras flexibles endoscopiques, des cathéters guidés ou des manipulateurs agricoles, ce panorama unifié permet d'arbitrer entre approche physique et apprentissage, et de cibler les lacunes identifiées : robustesse au contact incertain, calibration en conditions réelles, et fermeture du fossé sim-to-real. Les modèles de tiges appliqués à la robotique souple se sont imposés comme cadre de référence depuis le milieu des années 2010, portés par l'essor des actionneurs à câbles, pneumatiques et à base d'élastomères. Plusieurs groupes académiques restent moteurs sur le sujet : INRIA, MIT CSAIL, IIT Gênes, Universität Stuttgart. Dans l'écosystème industriel, les applications en chirurgie mini-invasive et en manipulation agricole sont directement confrontées à ces problèmes de modélisation. Le papier identifie trois directions ouvertes : gestion du contact multi-points, intégration avec les architectures VLA (vision-langage-action), et généralisation à des morphologies hybrides rigides-souples. Ces fronts devraient alimenter le champ dans les deux à trois prochaines années.

UEINRIA figure parmi les groupes académiques moteurs du domaine ; les applications ciblées (chirurgie mini-invasive, manipulation agricole) concernent directement des acteurs industriels et projets de recherche européens.

RecherchePaper
1 source
vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)
82arXiv cs.RO 

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Des chercheurs de FAI ModelOpt Tech ont publié en juin 2026 vla.cpp (arXiv 2606.08094), un moteur d'inférence C++ portable construit sur llama.cpp pour exécuter des politiques VLA (Vision-Language-Action) directement sur le matériel embarqué des robots. L'engine prend en charge sept architectures couvrant cinq familles de backbones et quatre têtes d'action via un protocole requête/réponse unifié, incluant les schémas d'inférence par flow-matching et par diffusion propres aux VLA récents. Sur le benchmark LIBERO-Object, il reproduit le meilleur checkpoint SOTA à un épisode près sur 200 ; BitVLA y atteint 100 % de succès dans 1,3 Gio de mémoire. Le même bundle s'exécute sans modification sur trois niveaux matériels, d'un GPU grand public jusqu'à un module embarqué de 8 Go de RAM. Un noyau GEMM IMMA en escalier, dérivé d'une analyse roofline multi-hardware, réduit la latence par étape de BitVLA d'un facteur 4,5. Les auteurs ont également conduit un test de stress sur un bras ALOHA pour mesurer la contrainte de latence de replanification face à une cible mobile. Le problème structurel que vla.cpp attaque est la dépendance des stacks Python/PyTorch actuels à un GPU de station de travail, hypothèse incompatible avec l'électronique embarquée des robots commerciaux ou des cobots industriels. Démontrer une exécution à succès complet dans 1,3 Gio ouvre concrètement la voie au déploiement edge sans serveur distant ni dépendance cloud pour des tâches de manipulation. L'analyse roofline publiée dans le papier établit un résultat contre-intuitif pour les intégrateurs : l'inférence VLA en batch-1 est compute-bound, non bandwidth-bound, ce qui déplace le levier d'optimisation vers le taux d'utilisation du calcul. L'unification de sept architectures sous un seul protocole réduit également la fragmentation de l'écosystème VLA, frein réel à l'adoption en production. vla.cpp hérite de l'approche de quantification ggml et de la portabilité de llama.cpp de Georgi Gerganov. Les modèles ciblés incluent des architectures issues de Physical Intelligence (pi0) et des projets ouverts comme OpenVLA. La concurrence directe sur ce segment est limitée : la plupart des équipes robotiques maintiennent des pipelines Python maison dépendants de GPU Nvidia RTX 3090/4090 ; ROS 2 et Isaac ROS de Nvidia offrent des primitives d'intégration mais pas de runtime VLA unifié. Aucun acteur français ou européen n'est directement cité dans le papier. Le code, les vidéos de démonstration et le scaffold de benchmark reproductible sont disponibles sur le site du projet.

UEAucun acteur européen impliqué dans le développement, mais le runtime portable est directement exploitable par les équipes R&D françaises et européennes cherchant à déployer des politiques VLA sur matériel embarqué sans dépendance cloud.

💬 Faire tourner une politique VLA dans 1,3 Gio sans GPU de workstation, c'est le vrai débloqueur que les équipes robotique attendaient. Le reste, les sept architectures unifiées, le protocole commun, c'est utile, mais ce qui compte c'est que le déploiement edge devient une option sérieuse sans serveur distant. Reste à voir si ça tient sur des tâches moins sages que LIBERO-Object.

IA physiqueOpinion
1 source
RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste
83arXiv cs.RO 

RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste

Des chercheurs ont publié sur arXiv en juin 2026 un framework nommé RGB-S pour améliorer la fusion visuo-tactile dans la manipulation dextre robotique sous conditions d'occlusion. La méthode projette les emplacements des capteurs tactiles directement sur le plan image RGB via la cinématique directe du robot et la calibration caméra, puis génère des cartes de saillance gaussiennes modulées par la force pour modéliser l'incertitude spatiale liée aux erreurs de calibration. Ces ancres 2D sont injectées dans un backbone visuel standard via une architecture de conditionnement à initialisation zéro, ce qui préserve les représentations visuelles pré-entraînées. Testé sur six tâches de manipulation dextre en simulation et en monde réel sous occlusions sévères, RGB-S dépasse la meilleure baseline visuo-tactile implicite de 26,7 points de pourcentage en taux de succès sur les scénarios occludés. Ce résultat touche à un verrou majeur du déploiement de mains robotiques polyvalentes. Les approches implicites existantes laissent au modèle le soin d'apprendre seul les correspondances inter-modalités depuis un faible nombre de démonstrations, ce qui les rend fragiles dès que la vision est dégradée par l'auto-occlusion des doigts, la poussière ou un éclairage défavorable. En ancrant explicitement les contacts physiques dans l'espace image avec un prior géométrique fort, RGB-S court-circuite ce problème sans détruire les capacités visuelles pré-entraînées. Le gain de 26,7 points sur des expériences réelles est solide, bien que la sélection restreinte à six tâches de benchmark et l'absence de comparaison avec des architectures VLA récentes invitent à nuancer la portée des conclusions. La fusion visuo-tactile est un champ actif depuis l'essor des capteurs haute résolution comme GelSight ou DIGIT. Les approches précédentes, qu'il s'agisse d'imitation learning ou de reinforcement learning, peinent à résoudre le transfert sim-to-real sur des prises complexes. Du côté industriel, des acteurs comme Sanctuary AI, Dexterous Robotics ou Enchanted Tools (France) intègrent des interfaces tactiles dans leurs plateformes humanoïdes pour la manipulation fine. RGB-S se positionne comme une brique modulaire compatible avec des backbones standards, ce qui facilite son intégration dans des pipelines existants. Les prochaines validations naturelles passeront par des benchmarks standardisés comme DexYCB et des tests sur des mains à plus de six degrés de liberté en environnement industriel non contrôlé.

UEEnchanted Tools (France), qui intègre des interfaces tactiles dans ses humanoïdes, pourrait bénéficier directement de cette brique modulaire pour renforcer la manipulation fine sous occlusion sans reconstruire ses représentations visuelles pré-entraînées.

RecherchePaper
1 source
KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques
84arXiv cs.RO 

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

KPGrasp est un framework de génération de préhension dextère présenté dans un preprint arXiv (juin 2026), combinant flow matching et modèle Transformer pour apprendre des priors de saisie à grande échelle, sans recourir aux fonctions de coût contact-based ni au raffinement coûteux à l'inférence. L'approche repose sur une paramétrisation des mains par points-clés 3D en coordonnées euclidiennes pures, exprimés dans le même référentiel que le nuage de points de l'objet cible, évitant l'espace mixte SE(3)/angles articulaires conventionnel. Sur le benchmark Dexonomy, le modèle atteint 76,3% de taux de succès de préhension, soit +47,4% sur la meilleure baseline directement comparable, avec une profondeur de pénétration réduite à 2,4 mm. Sans fine-tuning spécifique, il obtient également les meilleures performances moyennes sur DexGrasp Anything. En inférence batch, chaque préhension est générée en 0,032 seconde. Des expériences réelles sur 20 objets variés confirment le passage au monde physique. La préhension dextère multi-doigts reste l'un des verrous techniques persistants de la manipulation robotique: saisir de façon stable des objets de formes variées exige une coordination articulaire complexe que les méthodes actuelles peinent à généraliser sans supervision dense ou raffinement coûteux. KPGrasp rompt avec ce paradigme en traitant le problème comme un apprentissage de distribution pure, entraîné uniquement avec la loss standard du flow matching. La scalabilité démontrée avec la taille du modèle, le volume de données et la taille des batchs suit la logique des grands modèles génératifs, signal fort pour les intégrateurs: davantage de données synthétiques de préhension pourrait suffire à améliorer les performances sans engineering de loss ad hoc. Le temps de 32 ms par grasp en inférence batch ouvre un déploiement temps-réel réaliste sur cellules robotiques industrielles équipées de mains dextères. La préhension dextère générative a émergé progressivement via les diffusion models (DexDiffuser, GraspDiffusion) et les réseaux de contacts avant que le flow matching ne s'impose. KPGrasp se positionne dans cette vague avec une prétention explicite de scalabilité data-driven que ses prédécesseurs n'affichaient pas. Les benchmarks Dexonomy et DexGrasp Anything sont devenus des références communautaires pour évaluer la généralisation inter-objets. Côté effecteurs, Shadow Robot, Schunk SVH et Inspire Hands sont les acteurs matériels naturellement concernés. Les suites logiques incluent le couplage avec des VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, qui assureraient la planification de haut niveau tandis que KPGrasp générerait les préhensions à bas niveau, comblant ainsi le gap entre policy de manipulation et génération de grasp.

UESchunk (Allemagne) figure parmi les fabricants d'effecteurs directement concernés, offrant aux intégrateurs robotiques européens une voie concrète vers la manipulation dextère temps-réel sans engineering de loss ad hoc.

💬 +47% de taux de succès sur le benchmark, c'est pas anodin. Ce qui me frappe, c'est la décision de virer complètement les fonctions de coût contact-based et de traiter ça comme un pur problème de distribution, avec le flow matching comme loss standard, ça simplifie vraiment le pipeline là où tout le monde s'obstinait à rajouter des couches. 32 ms par préhension en batch, ça commence à ressembler à quelque chose d'exploitable en industrie, bon, faut encore voir ce que ça donne hors benchmarks sur des objets vraiment sales ou déformés.

IA physiquePaper
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
85arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

IA physiquePaper
1 source
Commande prédictive avec impédance pour l'interaction physique humain-robot : rejet prédictif des perturbations et sécurité des limites articulaires
86arXiv cs.RO 

Commande prédictive avec impédance pour l'interaction physique humain-robot : rejet prédictif des perturbations et sécurité des limites articulaires

Des chercheurs présentent dans un preprint arXiv (2606.08281, soumis en juin 2026) une architecture de contrôle en deux couches baptisée Impedance MPC, conçue pour les robots collaboratifs soumis à des contacts humains non planifiés. Le cœur du système repose sur une première couche qui annule analytiquement la gravité, les forces de Coriolis et l'inertie en espace de tâche, réduisant la dynamique résiduelle à un double intégrateur à matrice de transition constante. Une seconde couche résout un problème d'optimisation quadratique convexe à 30 variables à 100 Hz, en exploitant cette structure constante pour précalculer la matrice de réponse libre une seule fois. Un filtre de Kalman augmenté estime l'état de perturbation persistante, garantissant formellement une erreur statique nulle. Les tests ont été conduits sur un Franka FR3 à 7 degrés de liberté : sous une force soutenue de 15 N, l'erreur statique descend à moins de 0,05 mm, contre 44,8 mm pour un contrôle d'impédance classique, soit une réduction supérieure à 800. Le suivi de quatre trajectoires circulaires 3D reste sous le millimètre. Ce résultat touche un problème structurel bien connu des intégrateurs de cobots : le contrôle d'impédance classique accumule une erreur de position proportionnelle à la force appliquée divisée par la raideur de tâche, et les correcteurs intégraux capables de la résorber déstabilisent facilement le système au-delà d'un budget de gain étroit. L'Impedance MPC contourne cette contrainte en incorporant la prédiction de perturbation directement dans la loi de commande, sans sacrifier la compliance ni la sécurité aux butées articulaires, assurée par un potentiel de barrière inverse dans l'espace nul. Pour un COO ou un intégrateur industriel, cela signifie un cobot capable de tenir sa trajectoire même sous charge humaine prolongée, sans recours à des gains agressifs risquant l'instabilité. L'impédance mécanique comme paradigme de contrôle pour la collaboration homme-robot remonte aux travaux de Neville Hogan dans les années 1980 ; son couplage avec le MPC est une direction active depuis une décennie, notamment pour les manipulateurs série. Le Franka FR3, successeur du Panda, est devenu la plateforme de référence pour les publications en contrôle cobot grâce à son interface de couple en temps réel à 1 kHz. Sur ce segment, les concurrents incluent Universal Robots (UR10e), KUKA LBR iisy, et ABB YuMi, tous confrontés au même compromis compliance-précision. L'approche proposée reste pour l'instant au stade preprint sans déploiement industriel annoncé ; les prochaines étapes naturelles sont la validation sur tâches d'assemblage réelles et le passage à des robots à dynamique plus complexe (bases mobiles, humanoïdes légers).

UELes résultats pourraient bénéficier aux intégrateurs cobots européens (KUKA, ABB) confrontés au compromis compliance-précision, en ouvrant la voie à des robots collaboratifs plus précis sous charge humaine prolongée sans sacrifier la sécurité articulaire.

RecherchePaper
1 source
Attaquer les modèles du monde pour compromettre les pipelines d'apprentissage robotique
87arXiv cs.RO 

Attaquer les modèles du monde pour compromettre les pipelines d'apprentissage robotique

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.09499) expose une classe inédite d'attaques par empoisonnement de données ciblant les world models intégrés aux pipelines d'apprentissage robotique. Contrairement aux attaques traditionnelles qui insèrent directement des trajectoires dangereuses dans un jeu de données vendu ou publié, la méthode décrite ici injecte des prompts malveillants ou des dynamiques de transition compromises dans des datasets de téléopération en apparence sûrs. L'attaque reste dormante jusqu'à ce que ces données soient traitées par un world model, lequel génère alors des trajectoires synthétiques d'entraînement dangereuses, aboutissant au déploiement d'une politique robotique unsafe. Les chercheurs démontrent l'efficacité de l'attaque sur deux paradigmes distincts : les world models conditionnés par l'action (action-conditioned) et ceux conditionnés par le texte (text-conditioned). Résultat concret : un backdoor de bout en bout sur une politique DRL (Deep Reinforcement Learning) en aval, et une preuve de concept dans le cadre VLA (Vision-Language-Action). L'enjeu pour l'industrie est structurel. Les world models sont désormais utilisés comme substituts de données dans les pipelines d'entraînement de robots humanoïdes et industriels, notamment pour réduire le coût de la collecte téléopérée. L'attaque décrite contourne l'hypothèse fondatrice de sécurité dans ces pipelines : que des données ground truth visuellement propres garantissent une politique sûre. Ce n'est pas le cas si le world model interposé est lui-même vulnérable. Pour les intégrateurs qui achètent ou mutualisent des datasets de téléopération, et pour les fournisseurs qui commercialisent des world models pré-entraînés, c'est un vecteur d'attaque supply chain directement actionnable, d'autant plus redoutable qu'il ne laisse aucune trace visible dans les données source. Les world models ont connu une adoption rapide ces dix-huit derniers mois, portée par des travaux comme UniSim, IRASim ou le framework GR00T N2 de NVIDIA, promus comme solution au sim-to-real gap et à la pénurie de données réelles. La recherche s'inscrit dans un contexte où Figure, Agility Robotics et 1X accélèrent leurs déploiements en environnement industriel, rendant la surface d'attaque potentielle concrète et non purement théorique. Les auteurs appellent à reconsidérer la position des world models dans la chaîne d'entraînement et à ouvrir un axe de recherche dédié à leur sécurisation, un chantier aujourd'hui quasi inexistant dans la littérature.

UELes acteurs européens de la robotique qui mutualisent des datasets de téléopération ou intègrent des world models pré-entraînés (startups, intégrateurs, labos comme le CEA-List ou l'INRIA) sont exposés au même vecteur d'attaque supply chain, sans qu'aucun standard de sécurité européen ne couvre encore ce risque spécifique.

RechercheOpinion
1 source
RAM : la portée de l'apprentissage robotique au-delà des morphologies
88arXiv cs.RO 

RAM : la portée de l'apprentissage robotique au-delà des morphologies

Une équipe de chercheurs a publié en juin 2026, via arXiv (arXiv:2606.09108), un modèle de réseau de neurones baptisé RAM (Reachability Across Morphologies), conçu pour prédire l'espace de travail atteignable d'un bras robotique en temps quasi nul. Là où les méthodes traditionnelles d'échantillonnage ou de grilles voxels opèrent à l'échelle de la milliseconde ou plus, RAM atteint un score F1 de 86 % avec un temps d'inférence réduit de trois ordres de grandeur par rapport à la baseline, soit une exécution à l'échelle de la nanoseconde. Le modèle a été entraîné sur un jeu de données de 3×10^10 échantillons, générés exclusivement à partir de la cinématique directe. Sa caractéristique centrale : il est conditionné par la morphologie du robot, lui permettant de généraliser à des configurations inédites sans réentraînement, tout en intégrant nativement la détection des auto-collisions. L'enjeu opérationnel est direct. Le calcul du workspace atteignable intervient à chaque étape du cycle de vie d'un robot, conception morphologique, planification de trajectoire, placement en cellule d'intégration. Les méthodes disponibles à ce jour sont soit lentes, soit figées sur une morphologie unique, rendant l'exploration du design-space coûteuse en calcul. RAM étant différentiable, il peut s'insérer dans des boucles d'optimisation par gradient : les auteurs rapportent des accélérations d'un ordre de grandeur pour l'optimisation morphologique et de deux ordres pour la trajectoire. Pour un intégrateur ou un OEM, cela ouvre la voie à un co-design robot-cellule significativement plus rapide. Les représentations neurales implicites (NRI), popularisées par les NeRF pour la reconstruction 3D, s'imposent progressivement en robotique depuis 2023 pour encoder des fonctions géométriques complexes. RAM applique cette logique à la cinématique, en concurrence directe avec les cartes de joignabilité sur grille (précises mais lourdes) et les surrogates appris à morphologie fixe. Aucun acteur commercial n'est cité dans la publication ; la contribution reste académique, accompagnée d'un site de démonstration. Les suites naturelles seraient l'intégration dans des pipelines de CAO robotique ou des plateformes de simulation telles qu'Isaac Lab ou MuJoCo.

RecherchePaper
1 source
Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence
89arXiv cs.RO 

Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence

Une équipe de recherche a publié sur arXiv (ref. 2606.09390) une étude portant sur la reconnaissance d'intention communicative à partir de la seule pose corporelle 2D, sans recours au visage, à la voix ou au texte. Le travail cible explicitement des scénarios de communication personne-robot à longue distance et à faible coût, comme les missions de secours en terrain dégradé. Les chercheurs publient un nouveau dataset de frames réels couvrant dix intents communicatifs distincts, et le comparent à des jeux de données existants : IPC (réel) et trois sources synthétiques, MotionLCM, VEO3.1 et Kimodo, qui couvrent un gradient de difficulté croissant. Plusieurs architectures sont évaluées, des classifieurs graph sur squelette jusqu'aux réseaux de prédiction de mouvement articulaire. Tous les benchmarks sont conduits sur une NVIDIA Orin Nano, un GPU embarqué représentatif des contraintes matérielles d'un robot de terrain, ce qui permet de rapporter à la fois précision de classification et cadence d'inférence en conditions réelles. Le point le plus notable n'est pas le dataset mais la mesure de fiabilité non supervisée proposée : les auteurs montrent que l'auto-cohérence autorégressive d'un modèle, c'est-à-dire la stabilité de ses propres prédictions successives sur une séquence, constitue un signal de confiance exploitable sans étiquettes. Ils fournissent une preuve courte bornant la probabilité qu'une prédiction auto-cohérente soit correcte, et montrent que cette probabilité croît avec le nombre de pas cohérents, tout en identifiant les conditions où une prédiction confiante peut rester fausse. C'est directement utile pour un intégrateur robotique : déployer un tel module sans ground truth disponible en opération reste aujourd'hui un frein majeur, et une mesure de fiabilité embarquée change l'équation. Ce travail s'inscrit dans une lacune documentée de la littérature : les corpus affectifs (combinant corps, visage, voix, texte) et les benchmarks de reconnaissance d'action squelettique étiquètent l'action réalisée, pas le message transmis, ce qui les rend inutilisables pour la communication HRI (human-robot interaction) à distance. Le choix de la pose 2D plutôt que 3D reflète une contrainte de déploiement réaliste : pas de LiDAR, pas de caméra de profondeur. Côté concurrence, les travaux sur VLA (Vision-Language-Action) type Pi-0 ou GR00T N2 de NVIDIA visent des interactions à courte portée en environnement structuré ; ce dataset et ce cadre de fiabilité adressent le segment complémentaire, non-verbal et longue distance. Les prochaines étapes naturelles incluent l'extension à davantage d'intents, l'évaluation sur robot physique en extérieur, et potentiellement une intégration dans des pipelines de perception multi-modale pour robots d'intervention.

RecherchePaper
1 source
Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel
90arXiv cs.RO 

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

Des chercheurs présentent dans un preprint arXiv (2606.08666, juin 2026) un système permettant aux robots de traiter les descriptions spatiales en langage naturel comme un signal capteur à part entière. Le coeur de la contribution est le Language Sensor Model (LSM), qui convertit chaque énoncé ("j'ai laissé mon sac à dos sur la table") et son graphe de scène en une distribution de probabilités 3D multimodale. Cette distribution encode simultanément l'ambiguïté référentielle ("quelle table parmi plusieurs") via des poids de mélange, et l'incertitude spatiale ("où exactement sur la table") via des covariances par composante. Le LSM s'intègre dans VL-Map (Vision-Language Metric-Semantic Mapping), un framework probabiliste qui fusionne ces prédictions linguistiques avec la perception embarquée dans une carte de croyance unifiée. Évalué sur le benchmark VLA-3D et sur un robot mobile réel, le LSM est le seul prédicteur dont les estimations de covariance restent dans le régime calibré, et produit environ 70 % de masse de probabilité supplémentaire sur la cible correcte par rapport au meilleur modèle de fondation testé. L'enjeu pour les intégrateurs est direct : les robots déployés en environnement humain (logistique, soins, assistance) reçoivent constamment des instructions verbales qui référencent des objets hors de leur champ perceptif. La cartographie métrique-sémantique classique ignore ce canal d'information ; les grands modèles multimodaux généralistes ne produisent pas d'estimations calibrées fusionnables dans un filtre bayésien. La calibration est un point critique souvent sous-estimé : un modèle non calibré surestime ou sous-estime sa confiance, rendant la fusion de capteurs instable et potentiellement dangereuse. Ce travail démontre que le langage peut jouer le rôle d'un vrai capteur réducteur d'incertitude, ce qui modifie le calcul architectural pour tout système de navigation ou manipulation en milieu non structuré. La contribution s'inscrit dans la lignée de la cartographie visuosémantique 3D (ConceptFusion, LERF, OpenScene), qui ancre des embeddings visuolinguistiques dans des représentations de scènes mais demeure passive vis-à-vis du langage conversationnel. Les approches VLA actuelles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA traitent le langage comme déclencheur d'actions, sans produire de distribution spatiale exploitable par un planificateur externe. Ce système s'y positionne orthogonalement : non pas un planificateur ni un annotateur, mais un capteur probabiliste intégrable à un pipeline SLAM existant. Les expériences décrites restent à un stade exploratoire, sans partenaire industriel ni calendrier de déploiement annoncés dans la publication.

RecherchePaper
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
91arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
92arXiv cs.RO 

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif). Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement. Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.

UEL'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.

RecherchePaper
1 source
OLIVE : apprentissage incrémental en ligne à faible rang pour exosquelettes adaptatifs efficaces
93arXiv cs.RO 

OLIVE : apprentissage incrémental en ligne à faible rang pour exosquelettes adaptatifs efficaces

Des chercheurs ont publié le 5 juin 2026 sur arXiv (2606.05234) OLIVE, un framework d'adaptation en ligne pour exosquelettes portables basé sur une décomposition de rang faible. Le principe central : plutôt que de recalculer l'intégralité de la politique de contrôle, OLIVE décompose la composante adaptative en une forme résiduelle ΔW = A·Bᵀ de rang r très inférieur aux dimensions du modèle, ce qui réduit le coût de mise à jour de O(dk) à O(r(d+k)). Concrètement, le contrôleur de base pré-entraîné reste stable, tandis qu'une couche légère se personnalise en continu à partir des capteurs embarqués : EMG (électromyographie), IMU et vibrations, sans trajectoire de référence hors ligne. Un mécanisme de gating module l'intensité de la personnalisation selon le contexte, et un ordonnanceur de rang dynamique alloue une faible capacité sur terrain plat, puis monte en rang sur surfaces irrégulières, escaliers ou pentes. Les résultats expérimentaux sur plateforme réelle annoncent des gains de +13 points de pourcentage en fluidité de marche, +22 en réduction d'effort musculaire, et +15 en stabilité du mouvement par rapport à la meilleure baseline testée, avec convergence en environ 1 800 pas de marche et une latence bout-en-bout de 7,4 ms. L'enjeu clinique et industriel est significatif. Les exosquelettes existants (Ekso, ReWalk, Wandercraft avec son Atalante) s'appuient majoritairement sur des politiques de marche statiques, calibrées en laboratoire et peu robustes aux variations de terrain ou de morphologie individuelle. OLIVE propose une alternative déployable à l'embarqué, sans cloud, sans session de calibration préalable longue, et sans capteurs de force au sol. La latence de 7,4 ms est compatible avec les exigences temps-réel des systèmes de contrôle d'exosquelettes (généralement sous 10 ms). Si les gains annoncés tiennent en dehors du cadre expérimental contrôlé, cela réduirait substantiellement le temps d'adaptation à un nouvel utilisateur ou à un environnement non familier, un frein majeur à la commercialisation des dispositifs d'assistance à la mobilité. Le travail s'inscrit dans la vague des méthodes d'adaptation paramétrique légère issues du fine-tuning de LLMs (LoRA, notamment), transposées ici au contrôle robotique continu. Les approches concurrentes dans l'espace exosquelette incluent les méthodes d'apprentissage par renforcement avec modèles appris (model-based RL) et les politiques meta-apprises (MAML-style), généralement plus lourdes à déployer sur matériel embarqué. L'équipe derrière OLIVE a rendu le code public sur GitHub (FastLM/OLIVE). Les prochaines étapes non précisées dans le papier concerneront vraisemblablement la validation sur cohortes cliniques plus larges et l'intégration sur des plateformes commerciales, où la certification médicale reste le principal obstacle au déploiement à grande échelle.

UEWandercraft (fabricant français de l'Atalante) est explicitement cité comme référence concurrentielle ; si les gains d'OLIVE sont confirmés sur cohortes cliniques, cela pourrait contraindre Wandercraft à intégrer une couche d'adaptation en ligne dans sa prochaine génération d'exosquelettes pour rester compétitif sur le critère de personnalisation utilisateur.

ExosquelettesPaper
1 source
MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet
94arXiv cs.RO 

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

Des chercheurs ont publié MoDex, une politique de diffusion conçue pour saisir séquentiellement plusieurs objets avec une seule main robotique dextère, sans relâcher ceux déjà tenus. Le système, présenté dans un preprint arXiv (2606.05407), a été évalué sur un bras Franka Emika Panda équipé d'une main Allegro à 16 degrés de liberté, en simulation MuJoCo et sur plateforme physique réelle. MoDex prédit la prochaine pose du préhenseur directement depuis les observations, conditionnée sur un nuage de points 3D et un espace dit "d'opposition" qui détermine quels doigts participent à la saisie courante. Ce mécanisme permet de n'utiliser qu'un sous-ensemble des DOF disponibles pour l'objet en cours, en réservant le reste pour les saisies suivantes. L'entraînement se déroule en deux phases : d'abord par imitation learning sur des démonstrations expertes, puis par fine-tuning par renforcement (RL), qui améliore systématiquement les taux de succès. En simulation, MoDex surpasse les baselines d'apprentissage évalués de 2,92 à 17,92 % ; en conditions réelles, le gain s'établit entre 6,67 et 17,78 %. L'enjeu technique est significatif : la quasi-totalité des méthodes de saisie dextère existantes mobilisent l'intégralité des DOF de la main pour chaque objet, la rendant inutilisable pour une prise successive sans reposer les objets intermédiaires. MoDex démontre qu'une politique de diffusion conditionnée sur l'espace d'opposition permet de résoudre ce problème de coordination des doigts avec des gains mesurables, y compris en transfert sim-to-réel. Le fait que le fine-tuning RL améliore systématiquement la politique pré-entraînée confirme l'intérêt de l'approche hybride imitation plus renforcement pour des tâches de manipulation complexe. Pour les intégrateurs industriels et les équipes de robotique, ce résultat suggère que des préhenseurs dextères multi-doigts peuvent être exploités de manière nettement plus efficace qu'aujourd'hui, notamment pour des tâches d'assemblage ou de tri où l'agent doit accumuler plusieurs pièces sans cycle de dépôt intermédiaire. Ce travail s'inscrit dans un champ de recherche actif autour de la manipulation dextère, où la main Allegro, commercialisée par Wonik Robotics, sert de plateforme de référence dans de nombreux laboratoires. Les approches concurrentes incluent des méthodes d'imitation pure comme DexGraspNet ou des politiques RL entraînées sur des saisies à un seul objet. Il s'agit d'un preprint académique sans partenaire industriel annoncé ni calendrier de déploiement. La page projet (modex2026.github.io) et le code sont disponibles, ce qui facilite la reproductibilité. La suite logique serait d'étendre l'évaluation à un plus grand nombre d'objets simultanés et à des géométries plus complexes, et de tester sur des plates-formes alternatives comme la Shadow Hand de Shadow Robot Company.

UELa plateforme Franka Emika Panda, d'origine allemande, est utilisée comme banc de test de référence, ce qui donne aux laboratoires européens un accès direct pour reproduire ces résultats, mais le travail reste académique sans partenariat industriel ou déploiement EU annoncé.

RecherchePaper
1 source
Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches
95arXiv cs.RO 

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

Une étude publiée sur arXiv (arXiv:2602.03920) examine comment des utilisateurs non-spécialistes interprètent les données de performance des modèles de fondation robotiques (RFM, Robot Foundation Models), ces architectures d'IA généraliste conçues pour piloter des robots domestiques polyvalents comme ceux développés par Physical Intelligence (pi0), Google DeepMind (GR00T N2) ou Figure AI. Le cœur du problème : lorsqu'un utilisateur demande à un robot RFM d'effectuer une tâche hors de son domaine d'entraînement, il doit pouvoir évaluer le risque d'échec, qui peut être coûteux, voire dangereux. Les chercheurs ont exposé des participants à des données réelles issues de plusieurs projets RFM publiés, incluant le taux de succès aux tâches (TSR, Task Success Rate), des descriptions de cas d'échec et des vidéos de démos. Les résultats montrent que les non-experts comprennent et utilisent le TSR de façon conforme aux attentes des spécialistes, ce qui valide son usage comme métrique primaire dans les publications académiques. Mais la découverte la plus significative est ailleurs : les utilisateurs accordent une valeur élevée aux descriptions de cas d'échec, une information rarement reportée de façon systématique dans les évaluations de RFMs. Par extension, ils souhaitent disposer à la fois de données historiques issues des évaluations passées du modèle et d'estimations proactives du robot sur ses chances de succès face à une tâche inédite. Cette attente soulève un défi concret pour les intégrateurs et les équipes produit : la transparence sur les limites du modèle n'est pas optionnelle si l'on vise un déploiement grand public. Ce travail s'inscrit dans un débat plus large sur le fossé entre les démos laboratoire et l'usage réel, souvent qualifié de "demo-to-reality gap". Alors que le secteur converge vers des benchmarks standardisés comme DROID ou Open-X-Embodiment pour comparer les RFMs entre eux, la question de leur lisibilité par les décideurs non-techniques reste largement ouverte. Des acteurs comme Enchanted Tools en France ou Wandercraft misent sur des interfaces d'interaction proches de l'utilisateur final, mais peu d'équipes formalisent encore la communication sur les taux d'échec. Cette étude plaide pour l'intégration de "failure reporting" structuré dans les fiches produit et les publications techniques, une évolution qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique.

UEL'étude plaide pour un 'failure reporting' structuré qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique, concernant directement Enchanted Tools et Wandercraft pour leurs fiches produit.

RecherchePaper
1 source
TRAP : détournement du raisonnement CoT dans les VLA par patches adversariaux
96arXiv cs.RO 

TRAP : détournement du raisonnement CoT dans les VLA par patches adversariaux

Des chercheurs ont publié sur arXiv (réf. 2603.23117) une attaque baptisée TRAP (Targeted Reasoning Adversarial Patch), démontrant pour la première fois qu'un patch adversarial physique peut détourner le comportement d'un robot manipulateur piloté par un modèle Vision-Language-Action (VLA) à raisonnement Chain-of-Thought (CoT). Dans les expériences présentées, un patch imprimé sur papier et déposé sur la surface de travail, tel qu'une nappe aux motifs spécifiques, suffit à faire en sorte que le robot remette un couteau à l'opérateur au lieu d'une pomme, sans qu'aucune modification de l'instruction utilisateur ne soit nécessaire. L'attaque a été validée sur trois VLA représentatifs intégrant des mécanismes CoT distincts, et mise en oeuvre en conditions réelles avec un simple imprimé papier. Ce résultat pointe une vulnérabilité structurelle dans les VLA à raisonnement intermédiaire, famille de modèles qui inclut notamment π0 de Physical Intelligence, OpenVLA-OFT ou les variantes de GR00T (NVIDIA) basées sur des CoT explicites. Les auteurs montrent empiriquement que le raisonnement CoT gouverne la génération d'actions de façon prépondérante, même lorsqu'il est sémantiquement incohérent avec l'instruction initiale : le modèle suit la chaîne de pensée corrompue plutôt que l'intention de l'utilisateur. Pour les intégrateurs déployant des bras robotisés en environnement ouvert, entrepôts, blocs opératoires ou assistance à domicile, cela signifie qu'un adversaire pourrait modifier le comportement du robot par simple altération visuelle de l'environnement, sans accès au modèle ni au flux de commandes, ce qui rend l'attaque particulièrement préoccupante en contexte de sécurité physique. Les VLA à raisonnement CoT ont émergé comme réponse aux limites des modèles action-réflexe classiques : le CoT améliore la généralisation et offre une trace d'interprétabilité utile pour la certification. TRAP montre que cette avancée introduit simultanément une surface d'attaque inédite. La recherche en sécurité des systèmes robotiques autonomes reste largement sous-investie par rapport à la sécurité des LLM textuels, et ce travail rejoint un corpus naissant incluant des attaques sur les politiques de diffusion et les modèles de perception. Aucun correctif ni benchmark défensif n'est proposé dans cette version ; les auteurs appellent à une sécurisation urgente des pipelines CoT dans les VLA avant tout déploiement à grande échelle dans des environnements critiques.

UELes intégrateurs européens déployant des VLA sur des bras robotisés en environnement industriel, médical ou d'assistance doivent suspendre tout déploiement à grande échelle dans des environnements critiques et auditer leurs pipelines CoT, en l'absence totale de correctifs défensifs disponibles.

RechercheOpinion
1 source
Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique
97arXiv cs.RO 

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace. L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours. Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

UELes laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

💬 La comparaison avec CUDA n'est pas anodine. NVIDIA ne publie pas Cosmos 3 par générosité open-source, ils font exactement ce qu'ils ont fait en 2007 : poser le layer d'infrastructure que tout le monde finira par utiliser, et vendre les GPU par-dessus. Vu les benchmarks sur RoboArena, les labos robotiques ont peu de raisons de résister.

IA physiqueOpinion
1 source
SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA
98arXiv cs.RO 

SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA

Des chercheurs en sécurité informatique ont publié sur arXiv (référence 2601.14323) une attaque baptisée SilentDrift, ciblant les modèles Vision-Language-Action (VLA) utilisés pour piloter des robots manipulateurs. L'attaque exploite deux mécanismes devenus standards dans les architectures VLA modernes : l'action chunking, qui consiste à générer des séquences de K actions d'un coup plutôt qu'action par action, et la représentation en delta de pose, qui encode chaque mouvement sous forme d'incrément relatif à la position précédente. Cette combinaison crée une boucle ouverte visuelle intra-chunk : une fois la séquence lancée, le robot l'exécute sans relire le flux caméra à chaque pas. Des perturbations imperceptibles à l'échelle d'un pas s'accumulent alors par intégration, déviant la trajectoire finale de manière significative. Sur le benchmark LIBERO, SilentDrift atteint un taux de succès d'attaque de 93,2 % avec un taux d'empoisonnement inférieur à 2 % des données d'entraînement, tout en maintenant un taux de réussite sur tâches propres de 95,3 %, rendant la backdoor pratiquement indétectable par les métriques standards. L'impact pour les intégrateurs et décideurs B2B est direct : les VLA comme pi-0 de Physical Intelligence, OpenVLA ou les variantes de RT-2 s'appuient précisément sur ces mécanismes d'action chunking pour obtenir des mouvements fluides et cohérents. Un attaquant ayant accès à une fraction marginale des données d'entraînement peut donc compromettre un système de manipulation robotique déployé en environnement industriel sans déclencher d'alarme sur les métriques de performance habituelles. Les trajectoires empoisonnées sont visuellement identiques aux démonstrations saines, ce qui invalide les audits visuels comme contrôle de qualité suffisant. La stratégie dite "keyframe attack" de SilentDrift cible spécifiquement la phase d'approche critique d'une saisie, maximisant l'effet de déviation tout en minimisant l'exposition du trigger. Ce travail s'inscrit dans un courant de recherche naissant sur la sécurité des modèles de fondation pour la robotique, un champ largement ignoré jusqu'ici face à l'effervescence autour des performances. Les VLA connaissent une adoption rapide depuis 2023, portée par des acteurs comme Physical Intelligence (pi-0), Google DeepMind (RT-2, GR00T N2 de Nvidia) et les laboratoires académiques via des benchmarks comme LIBERO ou Open-X Embodiment. SilentDrift est une attaque en boîte noire, ce qui signifie qu'elle ne nécessite pas d'accès au modèle entraîné, uniquement aux données. Les auteurs n'annoncent pas de contre-mesure, ouvrant un chantier de recherche défensive urgent à mesure que ces modèles approchent de déploiements réels dans la logistique et l'assemblage manufacturier.

UELes intégrateurs européens qui déploient ou évaluent des VLA (pi-0, OpenVLA, RT-2) dans la logistique ou l'assemblage doivent intégrer l'audit de sécurité des données d'entraînement dans leurs processus de qualification, car les métriques de performance standards ne détectent pas ce vecteur d'attaque.

RechercheOpinion
1 source
Wall-OSS-0.5 : rapport technique
99arXiv cs.RO 

Wall-OSS-0.5 : rapport technique

Une équipe de chercheurs a publié sur arXiv (2605.30877) le rapport technique de Wall-OSS-0.5, un modèle Vision-Language-Action (VLA) open source de 4 milliards de paramètres, construit sur un backbone VLM de 3B paramètres auquel sont greffés des composants de génération d'actions. Le modèle a été pré-entraîné sur plus de 20 morphologies robotiques différentes, en ingérant plus d'un million de trajectoires robot par époque, couplées à un corpus multimodal ancré. La recette d'entraînement repose sur un co-entraînement à gradient bridgé combinant trois objectifs complémentaires : prédiction d'actions discrètes pour faire circuler des gradients VLM forts dans le backbone, prédiction multimodale pour préserver la compréhension vision-langage, et flow matching continu comme interface d'action au moment du déploiement. Avant tout fine-tuning spécifique, le checkpoint pré-entraîné atteint des comportements zero-shot non triviaux sur un banc de 17 tâches réelles, y compris une tâche de manipulation d'objets déformables hors distribution. Après fine-tuning, il affiche 60,5% de progression moyenne sur 15 tâches réelles et surpasse Pi-0.5 de 17,5 points de pourcentage. Ce résultat repose la question fondamentale du pré-entraînement VLA : jusqu'ici, la quasi-totalité des preuves de performance étaient mesurées après fine-tuning, rendant impossible la distinction entre "le pré-entraînement forme une politique utilisable" et "le pré-entraînement fournit juste une meilleure initialisation". Wall-OSS-0.5 démontre que le checkpoint brut produit des comportements exécutables sur matériel physique, y compris sur des tâches jamais vues. Le fait que l'entraînement sur données d'action ne dégrade pas les capacités vision-langage générales est également significatif pour les intégrateurs : cela suggère qu'un seul modèle fondation peut couvrir perception, raisonnement et contrôle sans compromis majeur, ce qui simplifie l'architecture système. Wall-OSS-0.5 s'inscrit dans la dynamique des VLA fondationnels initiée par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. Sa publication open source le distingue dans un secteur dominé par des checkpoints propriétaires, et permet des comparaisons reproductibles. La performance zero-shot sur manipulation déformable est notable car ce type de tâche est réputé difficile à généraliser : c'est précisément le type de gap sim-to-real que les approches purement simulées peinent à combler. Les prochaines étapes probables incluent un scaling du corpus et des évaluations sur des plateformes humanoïdes commerciales, où la generalisation cross-embodiment du modèle pourra être testée en conditions industrielles.

UELe caractère open source de Wall-OSS-0.5 permet aux équipes de R&D françaises et européennes d'accéder librement à un modèle VLA fondationnel compétitif, réduisant la dépendance aux checkpoints propriétaires américains et asiatiques.

💬 Le vrai truc ici, c'est pas les 60,5% sur le benchmark. C'est que le checkpoint pré-entraîné produit des comportements exécutables sur du vrai matériel, sans fine-tuning, y compris sur des tâches jamais vues. Et open source par-dessus le marché, dans un secteur où tout le monde garde jalousement ses poids pour soi.

IA physiqueOpinion
1 source
QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés
100arXiv cs.RO 

QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés

Des chercheurs de l'ISIR (Institut des Systèmes Intelligents et de Robotique, Sorbonne Université/CNRS) publient sur arXiv en avril 2026 une méthode baptisée QDTraj, destinée à générer automatiquement des primitives de trajectoires diversifiées pour la manipulation d'objets articulés par des robots domestiques. L'approche repose sur des algorithmes Quality-Diversity (QD) couplés à une exploration par récompense sparse. Évaluée sur 30 articulations du dataset PartNetMobility, QDTraj produit en moyenne 704 trajectoires distinctes par tâche, contre un ratio au moins 5 fois inférieur pour les méthodes concurrentes testées sur des tâches d'activation de charnières (hinge) et de glissières (slider). La méthode a été validée d'abord en simulation, puis déployée en conditions réelles sur robot physique. Le code est rendu public sur le site de l'ISIR. La diversité des trajectoires n'est pas un détail académique : en environnement réel, un robot qui ne dispose que d'une seule séquence motrice pour ouvrir un tiroir échoue dès que cette trajectoire est bloquée par un obstacle ou une contrainte dynamique imprévue. QDTraj adresse directement ce verrou en dotant le robot d'un répertoire de solutions alternatives sélectionnables au runtime selon les contraintes du moment. La validation sim-to-real apporte un crédit concret à l'approche, au-delà de la démonstration en simulation. L'utilisation des algorithmes QD, issus de la robotique évolutionnaire (famille MAP-Elites), est un signe de maturité méthodologique : ces approches explorent des espaces de solutions larges sans converger prématurément vers un optimum local, contrairement aux méthodes par gradient classiques. L'ISIR est l'un des laboratoires de référence en robotique française, avec une longue tradition en planification de mouvement et manipulation dextre. Ce travail s'inscrit dans un contexte où les approches dominantes, imitation learning ou reinforcement learning standard, produisent généralement des politiques à trajectoire unique, fragiles hors distribution. Les modèles VLA (Vision-Language-Action), très suivis en 2025-2026 chez Physical Intelligence (pi0), Google DeepMind ou Boston Dynamics, abordent le problème différemment en conditionnant les actions sur le langage, sans garantir la diversité bas niveau que QDTraj cible explicitement. La méthode se positionne donc comme une couche de planification complémentaire, en amont des politiques haut niveau. Les extensions naturelles concerneraient les objets déformables et l'intégration dans des architectures de contrôle hiérarchique pour robots manipulateurs polyvalents.

UEL'ISIR (Sorbonne/CNRS) publie en open source une méthode de planification de trajectoires qui comble un verrou concret de la manipulation robotique, avec un bénéfice direct pour les équipes de R&D françaises et européennes travaillant sur les robots manipulateurs.

💬 Un robot qui n'a qu'une seule trajectoire pour ouvrir un tiroir, c'est un robot qui échoue dès qu'un obstacle se met en travers. QDTraj répond à ça en générant 700+ alternatives exploitables au runtime, avec des algorithmes QD qui explorent des espaces de solutions larges sans converger trop vite vers un optimum unique (contrairement au RL classique). Reste à voir comment ça s'articule avec des VLA au-dessus, mais comme brique de planification bas niveau, c'est du concret qui sort de l'ISIR.

FR/EU ecosystemePaper
1 source