Aller au contenu principal

Dossier arXiv cs.RO — page 9

2027 articles · page 9 sur 41

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

NoContactNoWorries : estimation du contact par vision et proprioception pour la manipulation dextérique en main
401arXiv cs.RO RecherchePaper

NoContactNoWorries : estimation du contact par vision et proprioception pour la manipulation dextérique en main

Une équipe de chercheurs présente NoContactNoWorries, un cadre multimodal basé sur des transformers qui fusionne la vision RGB-D et la proprioception du robot pour estimer des états de contact binaires pendant la manipulation en main. Publié en prépublication sur arXiv (référence 2506.24450), le système entraîne un unique modèle de prédiction de contact sur plusieurs objets distincts et valide l'approche à la fois en simulation et sur un robot physique. Le signal de contact inféré sert d'entrée pseudo-tactile pour des agents d'apprentissage par renforcement chargés de la réorientation d'objets tenus en main, avec généralisation démontrée sur des objets non vus durant l'entraînement. L'intérêt pour les intégrateurs robotiques est direct : les capteurs tactiles dédiés, qu'il s'agisse de solutions de type GelSight, DIGIT ou de nappes piézorésistives, se heurtent à trois obstacles récurrents en environnement industriel, à savoir le coût unitaire élevé, la fragilité mécanique et la complexité d'intégration sur des mains multi-doigts. NoContactNoWorries contourne ces contraintes en exploitant uniquement des caméras RGB-D et les données proprioceptives déjà disponibles sur la grande majorité des bras et mains robotiques commerciaux. La limitation reste substantielle : la détection est purement binaire (contact ou absence de contact), sans estimation de force ni de distribution de pression, ce qui restreint l'applicabilité aux tâches nécessitant un retour haptique fin, comme l'assemblage de composants fragiles ou la manipulation de textiles. L'approche s'inscrit dans une tendance plus large de la manipulation dextre cherchant à éliminer les capteurs spécialisés au profit de modalités perceptuelles génériques, dans la continuité des travaux sur les politiques visuomotrices à grande échelle (VLA). Le domaine du toucher artificiel reste actif, avec des acteurs comme Contactile (Australie), Touchlab (Écosse) ou les équipes du MIT CSAIL qui développent des capteurs embarqués haute résolution. À ce stade, NoContactNoWorries est un résultat académique en prépublication, non encore soumis à révision par les pairs, et les auteurs n'annoncent aucun calendrier de transfert industriel.

1 source
CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle
402arXiv cs.RO 

CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle

Des chercheurs ont publié sur arXiv (référence 2505.17006, version 3) une méthode baptisée CoMo, pour "Continuous Motion", conçue pour extraire automatiquement des représentations continues du mouvement à partir de vidéos issues d'Internet, et les réutiliser comme étiquettes d'action pour entraîner des politiques robotiques. CoMo repose sur deux mécanismes distincts : une différence temporelle précoce (Td) appliquée en amont de l'encodeur pour rendre plus difficile l'apprentissage par raccourcis visuels (les modèles ont tendance à coder l'arrière-plan statique plutôt que le mouvement lui-même), et un apprentissage contrastif temporel (Tcl) qui construit des paires positives avec un décalage temporel réduit vers le futur, et des paires négatives en inversant la direction du temps. Le résultat est un espace latent continu, entraîné sur des vidéos à grande échelle, capable de générer des pseudo-étiquettes d'action pour des vidéos jamais vues en phase d'inférence. Des expériences en simulation et en conditions réelles montrent des gains de performance par rapport aux approches discrètes, aussi bien avec des architectures diffusion que autorégressives. L'enjeu industriel est direct : l'un des goulots d'étranglement du robot learning est la rareté des démonstrations téléopérées, coûteuses à collecter. Si une méthode peut extraire un signal d'action utilisable depuis des vidéos YouTube ou des caméras industrielles non étiquetées, elle réduit mécaniquement le coût de constitution des datasets. La contribution principale de CoMo face aux méthodes discrètes par quantification vectorielle (VQ) est de supprimer la perte d'information liée à la projection dans un codebook de petite taille, et surtout de combler le fossé de distribution entre un espace discret de tokens visuels et un espace d'actions continues à valeurs réelles, fossé qui pénalise l'apprentissage conjoint d'une politique unifiée. La généralisation zéro-shot annoncée est la prétention la plus forte : elle signifie que CoMo pourrait étiqueter des vidéos de nouveaux environnements ou tâches sans ré-entraînement, ce qui reste à valider sur des benchmarks standardisés ; l'abstract ne cite pas de métriques numériques précises. Ce travail s'inscrit dans un axe de recherche très actif depuis 2023, qui cherche à exploiter Internet comme source de supervision pour les robots, aux côtés de méthodes comme RT-2 de Google DeepMind, Pi-0 de Physical Intelligence, ou encore les travaux sur les VLA (Vision-Language-Action models) d'UC Berkeley et du MIT. Les approches discrètes concurrentes (type GROOT ou méthodes VQ-VAE appliquées à la vidéo) souffrent précisément des limitations que CoMo prétend résoudre. La prochaine étape naturelle serait une validation sur des benchmarks robotiques communautaires comme RLBench, LIBERO ou BridgeData V2, et un test à l'échelle de données réellement "internet-scale" pour confirmer si la généralisation zéro-shot tient face à la diversité des distributions visuelles du monde réel.

RecherchePaper
1 source
Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information
403arXiv cs.RO 

Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information

Une équipe de chercheurs a publié en juin 2026, via arXiv (arXiv:2606.19998), une méthode appelée Tri-Info (Triple Information-theoretic signals) pour détecter automatiquement les défaillances des modèles VLA (Vision-Language-Action) avant qu'ils ne causent des dommages irréversibles dans des environnements physiques. Testée sur six modèles VLA distincts et trois environnements de benchmark, Tri-Info atteint 83 % de précision sur des tâches en conditions réelles, là où les détecteurs existants s'effondrent au niveau du hasard. La méthode repose sur trois signaux dérivés de la théorie de l'information : la diversité des actions générées par le modèle, leur cohérence temporelle, et leur couplage aux transitions d'état observées dans l'environnement. Cruciale pour les déploiements industriels, Tri-Info ne nécessite aucun réentraînement pour fonctionner sur de nouvelles architectures ou dans de nouveaux environnements, y compris lors du passage simulation-vers-réel (sim-to-real). Ce résultat est directement pertinent pour les intégrateurs qui déploient des robots manipulateurs ou humanoïdes pilotés par des VLA comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). L'opacité de ces modèles constitue un risque opérationnel concret : un VLA peut échouer silencieusement, entraînant une collision, une chute d'objet ou l'interruption d'un cycle de production. Tri-Info ajoute une couche de supervision interprétable capable de distinguer trois classes de défaillances (manque de diversité, incohérence temporelle, découplage état-action), ce qui facilite le diagnostic post-incident. Sa transférabilité sans réentraînement est stratégiquement importante : elle permet d'intégrer la détection sur des systèmes déjà déployés sans modifier le pipeline existant. Ce travail s'inscrit dans une course à l'industrialisation des VLA accélérée depuis fin 2024 avec les sorties de Pi-0 et d'OpenVLA, et les travaux de Google DeepMind sur RT-2 et ses successeurs. Le sim-to-real gap reste l'un des principaux freins à leur généralisation, la plupart des systèmes de détection entraînés en simulation perdant leur efficacité en conditions réelles. Tri-Info est à ce stade un preprint non encore revu par les pairs, et ses performances n'ont pas été reproduites de manière indépendante. Si elles se confirment, la méthode pourrait s'imposer comme une brique de sécurité standard dans les pipelines de déploiement robotique fondés sur des VLA.

RechercheOpinion
1 source
MirrorDuo : apprentissage visuo-moteur cohérent par paires de démonstrations en miroir
404arXiv cs.RO 

MirrorDuo : apprentissage visuo-moteur cohérent par paires de démonstrations en miroir

Une équipe de chercheurs publie MirrorDuo (arXiv:2606.20048, juin 2026), une méthode d'apprentissage par imitation qui exploite la symétrie par réflexion pour doubler virtuellement les données d'entraînement sans collecte supplémentaire. Le principe est géométrique : pour chaque démonstration capturée via caméra RGB, le système génère automatiquement son équivalent en miroir, transformant simultanément l'image, les données proprioceptives et les tuples d'action en espace 6-DOF (six degrés de liberté du préhenseur). Les auteurs résument l'idée en une formule : "collect one, get one for free". La méthode s'intègre soit comme stratégie d'augmentation de données dans des pipelines existants, notamment le clonage comportemental standard et la diffusion policy, soit comme prior structurel pour des réseaux de politique réflexion-équivariants. L'enjeu pratique est direct : le coût de collecte de démonstrations diversifiées reste l'un des principaux freins au déploiement de robots manipulateurs en milieu industriel. MirrorDuo apporte un gain de performance mesurable à budget de données constant, particulièrement lorsque les démonstrations sont distribuées de façon équilibrée des deux côtés de l'espace de travail. Mieux : lorsque les démonstrations sont concentrées d'un seul côté, la méthode permet un transfert de compétence vers le côté symétrique avec seulement zéro à cinq démonstrations dans la configuration cible. C'est un résultat significatif dans un domaine où la généralisation inter-configuration reste coûteuse et fragile. Cela dit, les auteurs ne fournissent pas de métriques absolues de taux de succès dans le résumé, ce qui rend difficile d'évaluer l'ampleur réelle du gain sans lire les expériences complètes. Cette approche s'inscrit dans une tendance plus large visant à maximiser l'extraction d'information depuis un volume limité de démonstrations humaines. Les méthodes concurrentes incluent l'augmentation classique par transformation géométrique 2D, l'apprentissage en simulation avec transfert sim-to-real, et les architectures équivariantes déjà explorées pour des tâches planaires. MirrorDuo étend ce raisonnement au cas 6-DOF en espace 3D, ce qui est techniquement plus exigeant. L'article ne mentionne pas de partenaires industriels ni de calendrier de déploiement, et les validations restent confinées à des environnements de laboratoire contrôlés. La prochaine étape logique serait une évaluation sur des morphologies robotiques variées et des scènes non contraintes, là où la symétrie de l'espace de travail est moins garantie.

RecherchePaper
1 source
Apprentissage robotique ludique à base d'agents
405arXiv cs.RO 

Apprentissage robotique ludique à base d'agents

RATs (Robotics Agent Teams) est un système d'apprentissage robotique agentic présenté dans le preprint arXiv 2606.19419 qui introduit une phase de "jeu" auto-dirigé avant toute tâche explicite. L'agent, basé sur le paradigme Code-as-Policy (CaP), propose lui-même des tâches exploratoires, exécute des politiques en code, vérifie les progrès intermédiaires, diagnostique les échecs avec un feedback dense à chaque étape et distille les exécutions réussies dans une bibliothèque de compétences persistante. À l'inférence, cette bibliothèque gelée est réutilisée par d'autres agents pour résoudre des tâches inédites, sans fine-tuning du modèle sous-jacent. Sur les benchmarks LIBERO-PRO et MolmoSpaces, RATs surpasse la baseline CaP-Agent0 de 20,6 et 17,0 points de pourcentage respectivement ; les compétences acquises sont également transférables à d'autres agents CaP, avec des gains de 8,9 points sur RoboSuite et 8,8 points en déploiement réel. La portée industrielle de cette approche tient principalement à deux éléments. La séparation entre phase d'acquisition de compétences et phase d'exécution crée une bibliothèque réutilisable partageable entre agents hétérogènes sans réentraînement, ouvrant la voie à des bibliothèques de primitives robotiques mutualisées sur des flottes entières. Les gains en transfert réel (+8,8 points) suggèrent par ailleurs que l'apprentissage par jeu améliore la robustesse sim-to-real, défi persistant pour les systèmes VLA (Vision-Language-Action) déployés hors simulation. Il convient toutefois de nuancer : le preprint ne détaille ni les conditions de déploiement réel ni le profil précis des tâches testées, ce qui limite l'évaluation en contexte industriel non contrôlé. Le paradigme Code-as-Policy, introduit par Google DeepMind avec SayCan et Code as Policies entre 2022 et 2023, utilise des LLMs pour générer du code Python interprétable comme politique robotique. RATs y greffe un mécanisme d'exploration issu de la robotique développementale, prolongeant une lignée de travaux sur les agents curieux et l'apprentissage non supervisé de compétences. Dans un paysage dominé par des architectures VLA end-to-end, comme Pi-0 et Helix de Physical Intelligence ou Figure 03 de Figure Robotics, cette approche code-first se distingue par sa modularité et sa moindre dépendance aux données d'annotation denses. Le travail reste à ce stade non revu par des pairs, et des validations à plus grande échelle dans des environnements variés et non structurés seront nécessaires pour confirmer sa portée opérationnelle.

💬 La vraie idée ici, c'est pas le "jeu" (ça fait bien dans un abstract), c'est la bibliothèque de compétences gelée et partageable entre agents sans ré-entraînement. Si ça tient hors labo, tu peux imaginer des flottes entières qui mutualisent leurs primitives robotiques comme des développeurs partagent des packages. Les +8,8 points en déploiement réel sont le seul chiffre qui compte, et il est là.

IA physiqueOpinion
1 source
Mem-World : modèles du monde conditionnés par l'action et augmentés par la mémoire pour la manipulation robotique persistante
406arXiv cs.RO 

Mem-World : modèles du monde conditionnés par l'action et augmentés par la mémoire pour la manipulation robotique persistante

Des chercheurs ont publié Mem-World sur arXiv (réf. 2606.18960, juin 2026), un modèle du monde multi-vues augmenté par mémoire pour la manipulation robotique. Le problème adressé est fondamental aux modèles du monde conditionnés par l'action (action-conditioned world models) : lors d'une tâche de manipulation, l'effecteur terminal occulte fréquemment la scène, et les mouvements rapides de la caméra embarquée au poignet rendent l'observation courante insuffisante pour prédire les vues futures, poussant les modèles à halluciner ou oublier des détails observés antérieurement. L'innovation centrale est W-VMem, une mémoire indicée par surfels (éléments de surface 3D) en 4D, centrée sur la vue poignet, qui ancre les observations historiques à des éléments de surface évoluant dans le temps. Cette structure permet une récupération de contexte conditionnée sur les actions futures et consciente de la géométrie de scène, via rendu et scoring basés sur les surfels. Sur les tâches de long horizon, le taux de réussite progresse de 58 % à 72 % grâce à la génération de données synthétiques, et la corrélation de Pearson entre évaluations simulées et performances réelles s'améliore de 14,5 % par rapport à Ctrl-World, le modèle de référence. Ce gain en corrélation est directement actionnable pour les équipes robotique : il indique qu'on peut davantage faire confiance aux rollouts simulés pour prédire le comportement réel d'une politique, réduisant la dépendance aux expérimentations physiques coûteuses. L'hallucination de scène était jusqu'ici un verrou majeur à l'utilisation des world models pour l'entraînement de politiques dextres ; en séparant explicitement quand et où chaque élément a été observé, W-VMem produit un contexte historique non-redondant et pertinent. Il convient toutefois de noter que les scénarios de test et les métriques d'évaluation ne sont pas détaillés dans le résumé disponible, ce qui limite l'interprétation directe des chiffres annoncés. Les world models conditionnés par l'action sont apparus d'abord en jeu vidéo et conduite autonome (DreamerV3, GAIA-1) avant d'être adaptés à la manipulation, domaine plus exigeant en raison des occlusions proches et de la dynamique de caméra embarquée. Ctrl-World est la référence directe contre laquelle Mem-World se positionne. Cette publication reste un preprint, non encore évalué par des pairs, sans partenaire industriel ni timeline de déploiement annoncé. Les suites naturelles incluent une évaluation sur des benchmarks standardisés comme RLBench et une intégration dans des pipelines de modèles Visual Language Action (VLA), où la cohérence temporelle des rollouts est un prérequis à l'entraînement à grande échelle.

RechercheOpinion
1 source
Les modèles VLA maîtrisent-ils les bases ? Évaluation de la rétention du sens commun et des connaissances du monde
407arXiv cs.RO 

Les modèles VLA maîtrisent-ils les bases ? Évaluation de la rétention du sens commun et des connaissances du monde

Une équipe de recherche a publié sur arXiv (arXiv:2606.19297) un protocole d'évaluation baptisé Act2Answer, conçu pour mesurer objectivement combien de connaissances de sens commun et de savoirs factuels les modèles Vision-Language-Action (VLA) conservent après leur fine-tuning sur des données robotiques. Le protocole transforme les benchmarks classiques d'évaluation de modèles de langage visuels (VLM) en épisodes tabulaires courts : l'agent doit répondre à une question en plaçant physiquement un objet parmi plusieurs candidats sur une surface, ce qui ancre l'évaluation dans une action réelle plutôt que dans un output textuel. L'étude couvre 7 modèles VLA et 9 modèles VLM de référence, testés sur une suite de scénarios couvrant plusieurs catégories de connaissances. À cela s'ajoute une technique de sondage couche par couche (layerwise intent probing) pour localiser où l'information pertinente à la réponse est encodée dans le backbone VLM et la tête d'action. Les résultats révèlent une dégradation systématique, mais inégale, des connaissances après adaptation robotique. Les VLA maintiennent des performances solides sur les concepts simples, mais accusent des écarts significatifs sur les catégories sémantiquement plus riches par rapport à leurs VLM d'origine. Autrement dit, le fine-tuning robotique érode préférentiellement les représentations de haut niveau, celles qui portent le raisonnement nuancé. Le probing couche par couche montre que les signaux pertinents culminent dans les couches intermédiaires du réseau, puis s'atténuent dans les couches supérieures, ce qui suggère que la tête d'action interfère avec la propagation des connaissances sémantiques. Fait notable : l'entraînement conjoint avec des données VQA (Visual Question Answering) est associé à une meilleure rétention des connaissances, ouvrant une piste concrète pour les architectures futures. L'outil résout aussi un problème méthodologique persistant : il devient difficile de distinguer un échec dû à une connaissance absente d'un échec de contrôle moteur de bas niveau. Act2Answer s'inscrit dans un débat plus large sur le sim-to-real gap et la robustesse des VLA en déploiement industriel. Les modèles VLA actuels, comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de modèles comme LLaVA et Qwen-VL, héritent de VLMs préentraînés sur des corpus massifs, puis sont spécialisés sur des datasets robotiques relativement restreints. La question de la rétention des connaissances est directement pertinente pour les intégrateurs qui misent sur ces modèles pour des tâches impliquant une compréhension contextuelle du monde réel, au-delà du simple pick-and-place. Aucun acteur européen n'est mentionné dans l'étude. Le code et les environnements Act2Answer sont disponibles publiquement, ce qui permettra à d'autres équipes de compléter les comparaisons avec d'autres architectures et de tester l'impact de stratégies d'entraînement alternatives.

UELes équipes de recherche et les intégrateurs européens travaillant sur les VLA peuvent exploiter le benchmark Act2Answer (code public) pour évaluer la rétention de connaissances de leurs modèles et tester la stratégie d'entraînement conjoint VQA.

RechercheOpinion
1 source
Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots
408arXiv cs.RO 

Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots

Des chercheurs ont publié le 18 juin 2026 sur arXiv (2606.18328) un article présentant ReSYNC, pour Recovery-Driven Synthesis of Relational Concepts, un système d'apprentissage robotique capable d'extraire automatiquement des abstractions conceptuelles à partir de ses propres erreurs. Le principe repose sur un double cycle d'apprentissage incrémental : une phase d'apprentissage de compétences, où le robot utilise le renforcement (RL) pour récupérer d'échecs observés durant l'entraînement, et une phase d'apprentissage de concepts, où il construit et raffine des prédicats relationnels, c'est-à-dire des règles symboliques décrivant les états du monde pertinents pour éviter ces mêmes échecs. Testé sur quatre domaines simulés incluant des tâches de manipulation non préhensile (pousser, faire glisser des objets sans saisie ferme), ReSYNC surpasse les méthodes de référence de plus de 50 % sur des problèmes à horizon long et non vus à l'entraînement. Un transfert sim-to-réel est également démontré, avec exécution de comportements de manipulation en conditions physiques réelles. L'enjeu industriel central que pointe ce travail est l'inefficacité structurelle du RL classique face à la diversité des pannes : entraîner une politique distincte pour chaque mode d'échec ne passe pas à l'échelle. ReSYNC propose une alternative en transformant des récupérations locales, apprises sur des tâches spécifiques, en capacité d'évitement global sur des scénarios inédits. Pour les intégrateurs industriels ou les équipes de robotique mobile, cela suggère un chemin vers des robots capables de se "réparer" conceptuellement sans intervention humaine entre chaque environnement de déploiement. Le transfert sim-to-réel reste cependant présenté sur des tâches de manipulation relativement contraintes, et les vidéos de démonstration sélectionnées dans un preprint ne permettent pas encore d'évaluer la robustesse sur des cycles de production réels. ReSYNC s'inscrit dans un courant de recherche qui tente de réconcilier planification symbolique classique (TAMP, PDDL) et apprentissage par renforcement, un problème ouvert depuis plus d'une décennie. Des approches concurrentes incluent les méthodes guidées par LLM pour la génération de prédicats (Code as Policies, SayCan) ainsi que les travaux sur la découverte automatique de prédicats en TAMP (LEGO, GROOT). Ce qui distingue ReSYNC est son ancrage explicite dans l'expérience d'échec plutôt que dans des démonstrations d'expert. Le code et les environnements de simulation ne semblent pas encore publics au moment de la soumission, et aucun partenaire industriel ni calendrier de déploiement n'est mentionné, ce qui classe ce travail comme une contribution académique prometteuse plutôt qu'un produit opérationnel.

RecherchePaper
1 source
DREAM-Chunk : regroupement d'actions réactif avec modèle du monde latent
409arXiv cs.RO 

DREAM-Chunk : regroupement d'actions réactif avec modèle du monde latent

DREAM-Chunk (arXiv:2606.18589, juin 2026) est une méthode d'inférence conçue pour corriger une fragilité structurelle des modèles vision-language-action (VLA) : l'exécution en boucle ouverte lors de l'action chunking. Ce paradigme, devenu standard dans les VLA actuels, consiste à inférer à basse fréquence un bloc d'actions (un "chunk") que le robot exécute séquentiellement à haute fréquence, sans rétroaction intermédiaire. Dès qu'un chunk est lancé, le robot le suit à l'aveugle, vulnérable aux perturbations dynamiques, aux erreurs matérielles et à l'observabilité partielle. DREAM-Chunk adresse ce problème sans modifier ni réentraîner la politique sous-jacente : à l'inférence, il génère plusieurs chunks candidats, simule leurs trajectoires dans un espace latent via un world model léger, et sélectionne celui dont l'état prédit correspond le mieux à l'observation réelle. La méthode est validée sur le benchmark Kinetix et sur quatre tâches de manipulation couvrant deux plateformes robotiques et deux architectures VLA distinctes. L'intérêt pratique est direct pour les intégrateurs industriels qui déploient des VLA pré-entraînés sans accès au pipeline d'entraînement : DREAM-Chunk s'insère comme une couche plug-and-play, sans fine-tuning requis. La méthode s'inscrit dans la tendance du test-time compute scaling, bien établie côté LLM mais encore naissante en robotique physique, où dépenser davantage de calcul à l'inférence peut compenser les limites d'un modèle sans passer par un nouveau cycle d'entraînement coûteux. Les résultats montrent que les gains augmentent avec le nombre de chunks candidats échantillonnés, et que l'avantage est particulièrement marqué lorsque les démonstrations contiennent des comportements correctifs, ce qui soulève une question pratique sur la composition des datasets de démo. Les world models latents en robotique ont une longue tradition (DREAMER, TD-MPC2, DreamerV3), mais leur couplage avec des VLA basés sur le chunking reste récent. Physical Intelligence avec pi-0, Figure AI et des équipes de Stanford, CMU et Berkeley explorent simultanément comment améliorer la robustesse en déploiement sans réentraînement complet. DREAM-Chunk se distingue par son caractère agnostique au modèle sous-jacent, ce qui facilite son adoption sur des architectures hétérogènes. La prochaine étape logique serait une validation sur des plateformes commerciales à manipulation dextre (Fourier GR1, Unitree G1) et des tâches à dynamiques hautement stochastiques comme l'assemblage de précision. Le papier ne mentionne ni partenaires industriels ni pilotes commerciaux annoncés.

💬 Le test-time compute scaling arrive enfin en robotique physique, et DREAM-Chunk en est un premier signal propre : générer des trajectoires candidates, simuler dans un espace latent, choisir la meilleure, sans toucher au modèle sous-jacent. Le chunking en boucle ouverte, c'est le point faible silencieux de tous les VLA actuels (ça marche dans 80% des cas, alors on n'en parle pas trop). Pour les intégrateurs qui déploient sans accès au pipeline d'entraînement, une couche qui corrige à l'inférence sans réentraîner, c'est la pièce manquante.

IA physiqueOpinion
1 source
R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique
410arXiv cs.RO 

R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique

Des chercheurs ont publié sur arXiv en octobre 2024 (arXiv:2510.18085v2) une méthode baptisée R2BC (Round-Robin Behavior Cloning), conçue pour entraîner des systèmes multi-robots à partir de démonstrations réalisées par un seul opérateur humain. Le principe : l'humain téléopère un robot à la fois, de façon séquentielle en "round-robin", sans jamais avoir à contrôler plusieurs agents simultanément ni à fournir des démonstrations dans l'espace d'action conjoint. La méthode a été évaluée sur quatre tâches simulées multi-agents, puis déployée sur deux tâches physiques avec des démonstrations humaines réelles. Résultat : R2BC atteint, voire dépasse dans certains cas, les performances d'une approche oracle de behavior cloning entraînée sur des démonstrations synchronisées privilégiées, c'est-à-dire des données idéales rarement disponibles en pratique. L'intérêt de R2BC tient à son approche de la collecte de données d'imitation learning. En robotique collaborative multi-bras ou en manipulation industrielle coordonnée, constituer des démonstrations synchronisées entre plusieurs agents représente un goulot d'étranglement logistique majeur : cela exige plusieurs opérateurs, une coordination temporelle précise, et multiplie les coûts d'instrumentation. R2BC supprime cette contrainte en permettant à un seul technicien de construire progressivement un dataset multi-agent, ce qui rend la méthode directement applicable aux déploiements à budget contraint. Que R2BC tienne la comparaison face à un oracle entraîné sur des données idéales constitue une validation empirique solide, même si les tâches physiques testées restent relativement simples et que les détails sur les configurations matérielles ne sont pas communiqués dans le préprint. L'imitation learning par clonage comportemental s'est imposé comme une voie centrale pour l'apprentissage robot depuis les travaux fondateurs de DAgger (Ross et al., 2011) et, plus récemment, avec les architectures VLA (Vision-Language-Action) portées notamment par Physical Intelligence (pi0) et Google DeepMind. Son extension au multi-agent reste néanmoins peu explorée : la plupart des travaux existants supposent des démonstrations conjointes ou une coordination centralisée, là où des méthodes de renforcement multi-agent comme MAPPO ou QMIX opèrent sans contrainte de collecte humaine. R2BC occupe ce blanc de la littérature avec une approche pragmatique. Les suites naturelles seraient de tester la méthode sur des équipes de robots plus nombreuses, dans des environnements dynamiques proches des standards industriels, et d'évaluer sa robustesse sur des tâches longue-horizon.

RecherchePaper
1 source
Guava : un cadre efficace et universel pour la manipulation incarnée
411arXiv cs.RO 

Guava : un cadre efficace et universel pour la manipulation incarnée

Des chercheurs ont publié en juin 2026 sur arXiv (identifiant 2606.18363) Guava, un cadre de harness pour agents robotiques de manipulation. Le système repose sur trois ingrédients identifiés après une exploration systématique de l'espace de conception : des boucles itératives perception-raisonnement-action, des abstractions d'action sémantiques et des observations multimodales. À partir de ces principes, les auteurs ont entraîné un modèle open-source de 4 milliards de paramètres en utilisant moins de 2 000 trajectoires collectées entièrement en simulation, sans aucune donnée réelle. Les évaluations en environnement simulé et en conditions réelles montrent des performances comparables aux modèles propriétaires de pointe, avec une généralisation robuste à des objets non vus en entraînement, des instructions inédites et des tâches longues à plusieurs étapes. Le résultat le plus significatif est qu'un modèle compact peut atteindre des performances compétitives avec des systèmes propriétaires massifs à condition que l'architecture de harness soit bien conçue, et non que le modèle soit immense. Cela conteste directement l'hypothèse dominante selon laquelle les systèmes VLA (Vision-Language-Action) end-to-end nécessitent des millions de trajectoires réelles pour franchir le sim-to-real gap. L'approche par tool use découple le raisonnement de haut niveau des modules de perception et de contrôle, rendant le cadre agnostique au modèle sous-jacent, un avantage concret pour les intégrateurs industriels souhaitant substituer les composants sans réentraîner l'ensemble du système. Ce travail s'inscrit dans un débat structurant de la manipulation robotique qui oppose les VLA end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, aux approches modulaires par harness, qui misent sur la composabilité et le raisonnement émergent des LLM. L'approche rappelle SayCan (Google/Everyday Robots) ou Code as Policies, mais avec une validation sim-to-real plus explicite et sur modèle open-source. Le modèle 4B utilisé n'est pas nommé dans le papier, et aucun déploiement industriel ni partenariat commercial n'est mentionné : Guava demeure pour l'instant un résultat de recherche, sans timeline de productisation annoncée.

UELes laboratoires de recherche et intégrateurs robotiques européens peuvent s'appuyer sur ce cadre open-source pour développer des systèmes de manipulation compétitifs sans infrastructure de données réelles à grande échelle.

RechercheOpinion
1 source
Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée
412arXiv cs.RO 

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper
1 source
OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes
413arXiv cs.RO 

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

OmniRetarget est un pipeline de génération de données pour l'apprentissage par renforcement (RL) sur robots humanoïdes, présenté dans un préprint arXiv (2509.26633, v3). Face au problème du retargeting, qui consiste à convertir des captures de mouvement humain en références cinématiques exploitables par un robot, les méthodes existantes produisent des artefacts physiquement incohérents comme le glissement des pieds (foot-skating) ou la pénétration de surfaces, et ignorent les interactions humain-objet et humain-environnement. OmniRetarget introduit un "interaction mesh", un maillage intermédiaire qui modélise et préserve explicitement les relations spatiales et de contact entre l'agent, le terrain et les objets manipulés, via une minimisation par déformation laplacienne sous contraintes cinématiques. Évalué sur les datasets OMOMO, LAFAN1 et des données MoCap propriétaires, il génère plus de 8 heures de trajectoires de meilleure qualité que les baselines de référence. Appliqué au robot humanoïde Unitree G1, il permet d'exécuter des tâches de parkour et de loco-manipulation sur des horizons allant jusqu'à 30 secondes, entraîné avec seulement 5 termes de récompense et sans curriculum d'apprentissage. L'intérêt pour les chercheurs et intégrateurs réside dans deux apports combinés : la qualité cinématique améliorée réduit le sim-to-real gap, tandis que la préservation des interactions permet d'augmenter une démonstration unique vers différentes morphologies de robots, terrains et configurations d'objets, multipliant l'efficacité de la donnée. Plus significatif encore, l'obtention de comportements de loco-manipulation longs et complexes avec seulement 5 termes de récompense partagés entre toutes les tâches contredit l'hypothèse sectorielle selon laquelle ce type de compétences exige un reward engineering élaboré ou un curriculum progressif. Le paradigme dominant pour l'apprentissage humanoïde repose sur le retargeting MoCap vers des références RL, aux côtés de la télé-opération et de l'imitation directe. Le Unitree G1, produit par le fabricant chinois Unitree Robotics, s'est imposé comme plateforme académique de facto dans ce domaine, face à l'Atlas de Boston Dynamics, aux humanoïdes de Figure AI et d'Agility Robotics. OmniRetarget reste à ce stade une contribution de recherche sans annonce de déploiement industriel ; sa robustesse dans des environnements non structurés, où la géométrie de contact est imprévisible, reste à démontrer hors laboratoire.

RecherchePaper
1 source
Surveillance respiratoire sans contact sur robots mobiles hétérogènes : un cadre multimodal de calcul embarqué
414arXiv cs.RO 

Surveillance respiratoire sans contact sur robots mobiles hétérogènes : un cadre multimodal de calcul embarqué

Des chercheurs ont publié le 17 juin 2026 sur arXiv (réf. 2606.17376) un cadre logiciel de surveillance respiratoire sans contact déployé sur des robots mobiles hétérogènes embarquant des unités de calcul en périphérie (edge computing). Le système mesure la fréquence respiratoire (FR) d'une victime sans capteur porté ni contact physique, en combinant quatre modalités d'imagerie : RGB, thermique, proche infrarouge (NIR) et caméra basse lumière. Une sélection adaptative au niveau lumineux choisit automatiquement la modalité optimale, tandis qu'un module d'extraction de région d'intérêt thoracique guidé par points-clés squelettiques garantit la robustesse aux changements de posture. Un indice de qualité de signal (SQI) filtre les estimations peu fiables avant transmission. Le cadre a été évalué sur trois plateformes robotiques couvrant la locomotion quadrupède et à roues, sans recalibration algorithmique par plateforme. Les portées opérationnelles mesurées sont : RGB jusqu'à 8 m, NIR jusqu'à 6 m, thermique efficace uniquement à courte distance, basse lumière jusqu'à 8 m en obscurité totale. Ce travail répond à un verrou opérationnel concret : lors d'opérations de recherche et sauvetage (SAR) ou de triage en zone contaminée, équiper chaque victime d'un capteur porté est impraticable, et l'exposition des secouristes doit être minimisée. Démontrer qu'un robot mobile standard peut estimer la fréquence respiratoire de manière fiable à plusieurs mètres, sur des sujets en postures variées et dans des conditions d'éclairage dégradées, valide une brique essentielle du triage autonome. La portabilité sans retuning entre plateformes hétérogènes est un résultat notable : elle suggère une intégration possible sur des robots existants via une couche logicielle, sans exiger un matériel dédié. Les limites thermiques à courte portée restent cependant un point de vigilance pour les environnements chauds ou encombrés. Le domaine du triage autonome en SAR mobilise plusieurs équipes académiques et industriels depuis la catastrophe de Fukushima (2011), qui avait mis en évidence le manque de robots capables d'évaluer l'état de victimes sans intervention humaine directe. Dans l'espace des robots d'intervention, Boston Dynamics (Spot), ANYbotics (ANYmal) et Ghost Robotics fournissent des plateformes quadrupèdes sur lesquelles ce type de module pourrait se greffer. Côté français, les travaux du LAAS-CNRS et d'entreprises comme Shark Robotics (robots d'intervention COLOSSUS) s'inscrivent dans ce continuum. Les prochaines étapes logiques incluent la validation sur victimes réelles en exercice USAR (Urban Search and Rescue), l'intégration avec des modules de détection de signe de vie supplémentaires (pouls, mouvement), et le passage à des plateformes certifiées pour les environnements ATEX ou CBRN.

UELes équipes françaises LAAS-CNRS et Shark Robotics, actives sur les robots d'intervention, pourraient intégrer ce framework logiciel sans recalibration sur leurs plateformes existantes pour renforcer les capacités de triage autonome en opérations SAR.

RecherchePaper
1 source
Un cadre d'optimisation hybride pour la synthèse de saisie sous observations partielles
415arXiv cs.RO 

Un cadre d'optimisation hybride pour la synthèse de saisie sous observations partielles

Des chercheurs ont publié sur arXiv (référence 2606.18053) un framework hybride de synthèse de préhension robotique capable de générer des saisies robustes à partir de nuages de points partiels, c'est-à-dire des scènes où le robot ne perçoit qu'une vue incomplète de l'objet à manipuler. L'approche combine un modèle à énergie (EBM) entraîné par apprentissage avec une méthode géométrique analytique d'ICP (Iterative Closest Point), les deux étant intégrés dans un cadre d'optimisation SVGD (Stein Variational Gradient Descent) qui raffine itérativement les configurations de préhension candidates. Évalué sur 67 objets distincts avec 5 360 tentatives de saisie, le système atteint un taux de succès moyen de 60,9 %, contre 31,1 % pour AnyGrasp, 48,4 % pour Grasp Pose Detection et 56,6 % pour AS-ICP, son concurrent hybride le plus proche. Ces résultats adressent un problème central en robotique de manipulation industrielle : la dégradation des performances lorsque le capteur ne dispose que d'une vue partielle de la scène, situation quasi systématique en cellule de picking réel. Le gain de 4,3 points sur AS-ICP, méthode purement géométrique, et de près de 30 points sur AnyGrasp, approche purement data-driven, indique que l'hybridation n'est pas un compromis mais une complémentarité structurelle : l'EBM apporte une prior apprise sur la géométrie des objets, tandis que l'ICP ancre le résultat dans une contrainte physique vérifiable. Pour les intégrateurs B2B, cela réduit la dépendance à des datasets massifs spécifiques à chaque référence produit, un frein bien connu au déploiement en logistique et en assemblage. La synthèse de préhension sous observations partielles est un sujet actif depuis les travaux fondateurs de Dex-Net (Berkeley, 2017) et l'émergence des architectures VLA appliquées à la manipulation. AnyGrasp, développé par l'équipe de Hao Su (UC San Diego), reste une référence industrielle largement utilisée ; sa sous-performance ici sur nuages incomplets souligne une limite connue des méthodes purement apprises sans contrainte géométrique explicite. Ce travail n'est pas accompagné d'une annonce de déploiement ou de partenariat industriel ; il s'agit d'une contribution de recherche publiée en preprint, sans validation en environnement industriel réel déclarée. Les prochaines étapes naturelles seraient des tests sur robots physiques (bras 6-DOF type UR ou Franka) et une intégration dans des pipelines de bin picking.

RecherchePaper
1 source
Quel point de départ pour générer des actions ? Un prior source apprenable pour les politiques robotiques génératives
416arXiv cs.RO 

Quel point de départ pour générer des actions ? Un prior source apprenable pour les politiques robotiques génératives

Une équipe de chercheurs publie sur arXiv (2606.17408) LeaP, un Learnable source Prior qui modifie le point de départ de la génération d'actions dans les politiques robotiques génératives. Là où les approches classiques comme les diffusion policies ou le flow-matching initialisent la génération depuis un bruit gaussien standard indépendant de l'état du robot, LeaP le remplace par une gaussienne diagonale conditionnée sur la proprioception, paramétrée par un MLP léger qui prédit conjointement moyenne et variance adaptative sur des action chunks. Évalué sur 15 tâches de manipulation du benchmark RoboTwin, LeaP atteint 81,6 % de taux de succès moyen, surpassant quatre baselines de référence de 6,5 à 25,5 points de pourcentage. La méthode s'applique indifféremment aux générateurs flow-matching et diffusion-bridge, avec moins de paramètres, une convergence plus rapide, et des gains confirmés en déploiement réel. L'intérêt industriel de LeaP tient à sa nature modulaire : il s'agit d'un composant drop-in qui améliore toute politique générative existante sans modifier l'architecture du générateur ni le solveur d'inférence. Pour les équipes R&D travaillant sur la manipulation robotique en contexte industriel, qu'il s'agisse d'assemblage, de tri ou de logistique, cela signifie qu'un prior appris sur l'état interne du robot réduit la charge computationnelle à l'inférence tout en améliorant la précision des gestes. La publication valide une hypothèse jusque-là sous-explorée : la distribution source est un axe de conception indépendant, au même titre que le choix du type de générateur. Initialiser la génération depuis un bruit "informé" réduit la distance que le modèle doit parcourir dans l'espace des actions, ce qui se traduit directement en précision sur des tâches millimétriques. Les politiques génératives pour la manipulation ont émergé avec les diffusion policies (Chi et al., 2023) et le flow-matching appliqué à la robotique, popularisé notamment par Pi-0 de Physical Intelligence et les architectures VLA (Vision-Language-Action). Ces approches héritent toutes du même point aveugle : une initialisation gaussienne standard issue des modèles génératifs d'image, sans justification propre à la robotique. Dans l'espace des politiques génératives pour la manipulation, les concurrents directs incluent Diffusion Policy de Columbia et MIT, les variantes flow-matching de Physical Intelligence, ainsi que les architectures embarquées dans les humanoïdes de Figure AI et Agility Robotics. Les suites attendues portent sur l'intégration de ce prior dans des architectures VLA multimodales et son évaluation sur des benchmarks industriels de plus grande diversité.

RechercheOpinion
1 source
Adaptation aux dommages en quelques secondes pour les matériaux architecturés
417arXiv cs.RO 

Adaptation aux dommages en quelques secondes pour les matériaux architecturés

Des chercheurs du Murphey Lab publient sur arXiv (référence 2606.17394, juin 2026) LEAP, un algorithme d'adaptation proprioceptive permettant à un robot souple de compenser des dommages catastrophiques, coupures, brûlures ou défaillances d'actionneurs, en moins d'une minute sans recours à la simulation. La démonstration porte sur une tâche de traçage menée par un poignet souple à 6 degrés de liberté (6DoF) à base d'actionneurs HSA (Handed Shearing Auxetic), une classe de matériaux dits architecturés dont la géométrie interne est conçue pour coupler rotation et translation. L'algorithme exploite uniquement des signaux proprioceptifs internes pour inférer une représentation latente des dommages dans un espace de faible dimension, puis une méthode d'ensemble robuste permet d'adapter le contrôle en temps réel à des dommages non anticipés lors de l'entraînement. Le résultat théorique central est que, pour les matériaux architecturés, la complexité d'échantillonnage nécessaire à l'apprentissage de représentations de dommages croît de façon linéaire plutôt qu'exponentielle, un avantage structurel par rapport aux composants rigides ou aux mécanismes souples continus. Pour les intégrateurs, l'absence de dépendance à un simulateur supprime le problème du sim-to-real gap, fréquemment bloquant en production réelle. La capacité à s'adapter à des dommages imprévus en moins d'une minute constitue un verrou critique pour l'autonomie longue durée des robots de service et industriels, que LEAP adresse ici sur un effecteur physique réel. À noter que la validation reste limitée à un unique type d'effecteur et à des scénarios de dommages relativement ciblés. LEAP s'inscrit dans la dynamique de la robotique souple où des acteurs comme Harvard (Soft Robotics Toolkit), l'EPFL (laboratoire Biorobotics) et Festo du côté européen travaillent sur la résilience matérielle et l'adaptation en service. Les actionneurs HSA sont une innovation issue de recherches antérieures sur les matériaux auxétiques, connus pour leur comportement mécanique non conventionnel. Ce travail est un preprint académique, pas un produit commercialisé ni un déploiement industriel annoncé. Les suites naturelles incluent l'intégration sur un bras complet, des tests hors laboratoire en environnement non structuré, et la validation sur des cycles de vie prolongés.

UEL'EPFL (laboratoire Biorobotics) et Festo, acteurs européens de la robotique souple résiliente, opèrent dans le même périmètre ; LEAP constitue une référence académique directement pertinente pour leurs travaux sur l'adaptation en service sans dépendance au simulateur.

RecherchePaper
1 source
GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée
418arXiv cs.RO 

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

Une équipe de chercheurs a publié fin juin 2026 un système baptisé GASE (Gaussian Splatting-Based Automated System for Reconstructing Embodied-Simulation Environments), conçu pour automatiser la construction de scènes de simulation photoréalistes destinées à l'entraînement de robots. Le pipeline exploite des réseaux de caméras panoramiques multivues pour capturer l'environnement réel, extrait automatiquement les objets de premier plan via une stratégie basée sur les poses de caméras dans le domaine 2D, puis reconstruit séparément objets et arrière-plan statique par 3D Gaussian Splatting avant de les importer dans un simulateur physique avec inpainting haute-fidélité des zones manquantes. Sur des benchmarks de segmentation, GASE surpasse les méthodes 3DGS concurrentes de plus de 10 %. Surtout, lors de déploiements réels sur des tâches de manipulation et de navigation, les politiques entraînées en simulation n'affichent qu'un écart de performance inférieur à 10 % par rapport à celles entraînées sur données réelles, arXiv:2606.17520. Ce résultat chiffré est l'argument central du papier. Le sim-to-real gap, soit la dégradation des performances lors du passage du simulateur au robot physique, reste l'un des obstacles majeurs au déploiement à grande échelle de l'apprentissage robotique. Un écart sous les 10 % suggère que la simulation générée automatiquement depuis des scans réels peut constituer un vecteur de data augmentation viable, réduisant la dépendance à des opérateurs qualifiés et à du matériel coûteux pour la collecte terrain. Pour les intégrateurs et les industriels engagés dans des projets de manipulation ou de navigation autonome, la promesse est de compresser significativement le coût des pipelines d'entraînement, à condition que la méthode tienne à l'échelle et sur des environnements plus complexes que ceux testés. GASE s'inscrit dans la trajectoire tracée par l'émergence du 3D Gaussian Splatting en 2023 comme alternative temps-réel aux NeRF pour la reconstruction de scènes. Les approches concurrentes, notamment SplatSim, Gaussian Grouping et les pipelines d'assets manuels dans Isaac Sim ou MuJoCo, progressent en parallèle, mais l'automatisation complète de l'acquisition jusqu'à l'import simulateur reste un problème ouvert. Le preprint ne mentionne ni institution ni partenaires industriels, ce qui rend difficile l'évaluation des perspectives de transfert applicatif. Le code doit être publié ultérieurement mais n'est pas encore disponible au moment de la soumission. Le périmètre limité des tâches testées et l'absence de comparaison avec des environnements synthétiques construits manuellement laissent plusieurs questions ouvertes à la communauté.

RecherchePaper
1 source
WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles
419arXiv cs.RO 

WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles

Une équipe de recherche a publié sur arXiv (ref. 2606.18097) WireCraft, un benchmark de simulation dédié à la manipulation industrielle d'objets linéaires déformables (DLO), typiquement les câbles et faisceaux électriques omniprésents dans les lignes d'assemblage. Le benchmark couvre trois familles de tâches représentatives du câblage industriel réel : l'insertion de connecteurs, le routage de clips et la mise en place de goulottes (channel seating). Il intègre deux modèles physiques complémentaires pour simuler le comportement des câbles, l'un articulé et l'autre véritablement déformable, et les trajectoires de référence proviennent à la fois de la simulation et d'un bras UR5 physique. Les auteurs ont évalué trois familles de politiques de contrôle : apprentissage par renforcement (RL), apprentissage par imitation (IL) et politiques vision-langage-action (VLA). Sous conditions de RL avec état privilégié (accès direct aux variables d'état internes de la simulation), chaque famille de tâches est résolue avec un taux de succès supérieur à 82 %, confirmant que les tâches sont bien posées et non artificiellement impossibles. Ces résultats exposent un écart critique entre manipulation sous état privilégié et manipulation guidée uniquement par la vision, un problème central pour tout intégrateur cherchant à déployer des cellules robotisées sur des opérations de câblage. Le vrai verrou identifié par WireCraft n'est pas la phase d'approche, mais la transition entre atteindre un connecteur et exécuter l'alignement en contact riche, où les politiques visuelles (RL vision, IL et VLA) échouent de façon significative. Cela contredit implicitement plusieurs narratifs optimistes autour des VLA polyvalents : malgré des performances impressionnantes sur des objets rigides, ces architectures peinent dès que la géométrie est déformable et que le retour d'état est limité à la perception visuelle. Pour un COO industriel ou un intégrateur, le message est pragmatique : les câbles ne sont pas encore un problème résolu, même en simulation propre avec des benchmarks bien construits. Le manque de benchmarks partagés et reproductibles pour les DLO freine depuis longtemps la comparaison objective des approches dans ce domaine. Les benchmarks existants sont généralement liés à du matériel propriétaire ou traitent des objets déformables génériques sans les contraintes de fixation propres au câblage industriel. WireCraft comble cette lacune avec des assets configurables en difficulté et des protocoles d'évaluation communs. Le code, les données et les outils seront mis en open source après acceptation de l'article. Côté concurrence, des acteurs comme OpenAI (avec ses travaux sur la manipulation déformable) ou des laboratoires comme Physical Intelligence (pi) avec Pi-0 poussent également sur la manipulation généraliste, mais aucun benchmark industriel câble de ce type n'était encore disponible publiquement. La prochaine étape naturelle sera le sim-to-real transfer systématique : WireCraft pose les rails, mais la question de savoir quelle architecture franchira le gap reste entièrement ouverte.

RecherchePaper
1 source
DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine
420arXiv cs.RO 

DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine

Une équipe de chercheurs a publié fin juin 2026 sur arXiv (arXiv:2606.17418) les spécifications techniques de la DexLink Hand, une main robotique anthropomorphe à 16 degrés de liberté intégrant 20 articulations commandées par 16 actionneurs indépendants. Le prototype, de la taille d'une main humaine, pèse 320 grammes et affiche un coût total inférieur à 400 dollars, un seuil rarissime pour ce niveau de polyvalence. L'architecture mécanique repose sur un système hybride de mécanismes à liaisons planes et spatiales, permettant des mouvements multidirectionnels découplés, des synergies articulaires biomimétiques et une forte capacité de charge passive sans actionnement. Le pouce intègre des caractéristiques biomimétiques supportant les mouvements de reconfiguration et d'opposition propres à la main humaine. Lors des évaluations expérimentales, la main a atteint le score de Kapandji maximal (référence standard en chirurgie et robotique pour évaluer l'amplitude de mouvement du pouce) et a reproduit les 33 types de préhension du catalogue Feix, couvrant l'intégralité des prises répertoriées sur des sujets humains. L'intérêt industriel du travail réside principalement dans le ratio coût/dextérité : les mains robotiques commerciales atteignant un niveau comparable (Shadow Dexterous Hand, Allegro Hand) se situent entre 5 000 et 70 000 dollars, rendant leur déploiement en série peu viable. Un module à moins de 400 dollars change les calculs pour les intégrateurs de robots humanoïdes ou de cellules de téléopération. La masse de 320 g est également compatible avec les bras des humanoïdes de nouvelle génération, dont les payloads distaux sont souvent contraints à moins de 500 g. La reproduction de l'intégralité des types Feix constitue une donnée concrète pour le robot learning : les datasets entraînés sur des démonstrations humaines deviennent directement exploitables sans remapping cinématique, ce qui réduit le gap sim-to-real pour les approches VLA (vision-language-action). Le défi de la main dextère est structurel dans le secteur : la majorité des plateformes humanoïdes commerciales (Figure 03, Tesla Optimus Gen 3, Agility Digit, Unitree H1) utilisent encore des mains simplifiées à 2 à 6 DOF pour des raisons de robustesse et de coût. Ce prototype reste pour l'heure un démonstrateur académique sans annonce de commercialisation ni partenariat industriel déclaré. Les chercheurs le positionnent explicitement pour la manipulation dextère, la téléopération et le robot learning en environnements centrés sur l'humain, des cas d'usage directement alignés avec les feuilles de route de Boston Dynamics, de 1X Technologies ou des équipes travaillant sur Pi-0 (Physical Intelligence). Aucune timeline d'intégration sur un bras complet ni d'évaluation en conditions industrielles n'est communiquée.

HumanoïdesPaper
1 source
Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques
421arXiv cs.RO 

Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques

Des chercheurs ont publié (arXiv:2602.02773, mise à jour juin 2026) les résultats d'un système permettant à des utilisateurs atteints de lésions cervicales de la moelle épinière (cSCI, quadriplégie) de piloter un manipulateur mobile domestique via des manchettes électromyographiques haute densité (HDEMG). Le dispositif consiste en deux manchettes textiles intégrées, portées sur les deux avant-bras, qui captent l'activité neuromotrice résiduelle de membres cliniquement paralysés et la convertissent en commandes gestuelles temps réel pour le robot. Sur deux participants avec cSCI, le système atteint un taux de classification des intentions motrices allant jusqu'à 98,0 %. L'étude s'est déroulée sur douze jours en conditions réelles, dans le domicile même des participants, pour des tâches quotidiennes de type ADL (activities of daily living). Ce résultat est significatif pour plusieurs raisons. D'abord, il démontre qu'une interface de contrôle non invasive et portable peut extraire un signal moteur exploitable depuis des membres dont la paralysie est établie cliniquement, ce qui remet en cause l'hypothèse selon laquelle les interfaces robustes nécessitent obligatoirement une implantation chirurgicale (BCI intracrânien) ou des capacités motrices résiduelles importantes. Ensuite, l'architecture d'autonomie partagée, combinant vision, langage naturel et planification de mouvement, réduit la charge cognitive de l'opérateur pour les tâches de navigation, qui sont habituellement les plus pénibles dans un environnement domestique non structuré. Pour un intégrateur ou un décideur industriel, cela valide un paradigme de téléopération augmentée où l'IA complète les intentions de l'utilisateur sans les supplanter. Ce travail s'inscrit dans un champ de recherche qui, depuis une décennie, explore l'EMG de surface pour le contrôle prothétique et robotique, mais qui peinait à franchir le cap du test en laboratoire vers un déploiement prolongé hors-lab. Côté concurrence, des acteurs comme Aescape, Wandercraft (exosquelettes) ou des programmes DARPA/NSF travaillent sur des interfaces haptiques et neurales, mais peu ont publié des études en domicile réel sur plusieurs jours. Les prochaines étapes probables incluent l'élargissement de la cohorte au-delà de n=2, l'intégration avec des plateformes commerciales comme le Stretch de Hello Robot ou le spot-arm de Boston Dynamics, et l'évaluation des effets d'adaptation sur le long terme.

UEImpact indirect pour les acteurs français comme Wandercraft qui développent des interfaces neuromotrices pour exosquelettes, mais l'étude provient de chercheurs non identifiés comme européens et ne cible pas le marché UE.

RecherchePaper
1 source
Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1
422arXiv cs.RO 

Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1

Des chercheurs ont publié sur arXiv (référence 2606.15915) un modèle physique linéaire-en-paramètres permettant de prédire avec précision la consommation électrique du bras gauche à sept degrés de liberté (7-DOF) du robot humanoïde Unitree G1. Le modèle intègre des termes de pertes actuateur, une correction de couple de base capturant les variations de charge en compensation gravitationnelle, et des termes d'interaction par paires pour modéliser le couplage de puissance lors de mouvements multi-articulaires simultanés. Les paramètres ont été identifiés à partir de données expérimentales collectées sur un G1 physique, en utilisant les mesures de puissance embarquées comme cible de régression. Sur 897 trajectoires couvrant des mouvements mono-articulaires et coordonnés à plusieurs vitesses, le modèle atteint un R² de 0,933 avec un RMSE de 1,07 W. La validation sur 46 trajectoires à des vitesses non vues lors de l'entraînement donne un R² de 0,965, confirmant une bonne capacité de généralisation. Ces résultats sont directement utiles pour les équipes qui intègrent des humanoïdes dans des contextes industriels ou logistiques. Un modèle de consommation précis et léger à l'inférence constitue un prérequis pour la planification de mouvement énergétiquement consciente, la gestion de batterie en temps réel et la surveillance thermique des actionneurs, trois points critiques pour tout déploiement prolongé hors laboratoire. La performance du modèle sur des vitesses non vues suggère qu'il est exploitable sans recalibration systématique, ce qui réduit le coût d'intégration. L'analyse des paramètres identifiés révèle par ailleurs des signatures distinctes selon les articulations : les pertes par frottement visqueux dominent l'épaule en tangage et les trois articulations du poignet, les pertes cuivre dominent l'abduction d'épaule et le coude, tandis que le roulis d'épaule présente un profil atypique dominé par le frottement de Coulomb. Unitree, constructeur chinois connu pour ses robots quadrupèdes à prix agressifs, a élargi sa gamme aux humanoïdes avec le G1, positionné comme une plateforme de recherche abordable face au Spot de Boston Dynamics ou aux robots de Figure et Apptronik. Ce travail s'inscrit dans un effort croissant de la communauté académique pour produire des modèles physiques fiables sur du matériel commercial accessible, en complément des approches par apprentissage (comme les VLA ou les politiques neuronales). La prochaine étape logique serait d'étendre le modèle au bras droit et aux membres inférieurs, puis de l'intégrer dans une boucle de planification de trajectoire en ligne. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint.

UELes équipes de recherche européennes utilisant le Unitree G1 comme plateforme académique abordable peuvent réutiliser directement ce modèle sans recalibration pour réduire le coût d'intégration dans leurs pipelines de planification de mouvement.

RecherchePaper
1 source
Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot
423arXiv cs.RO 

Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot

Des chercheurs ont publié sur arXiv (référence 2601.08514v2) une architecture modulaire pour ROS2 qui sépare explicitement la logique de gestion des références de celle des lois de contrôle. Le composant central, baptisé Reference Generator, reçoit des références depuis des noeuds externes (planificateurs de trajectoire, operateurs humains) sous forme de points isolés ou de trajectoires complètes, puis écrit des références point-à-point à la période d'échantillonnage du contrôleur via le mécanisme de chaînage existant de ros2control. Deux générateurs de références ont été implémentés : un pour l'espace articulaire (joint-space) et un pour les références cartésiennes. Trois nouveaux contrôleurs accompagnent l'architecture : un contrôleur PD avec compensation de gravité, un contrôleur de pose cartésienne, et un contrôleur d'admittance. La validation a été conduite en simulation et sur du matériel réel, avec des manipulateurs Universal Robots et Franka Emika. L'enjeu n'est pas anodin pour les intégrateurs robotiques : aujourd'hui, chaque contrôleur ros2control qui veut gérer des trajectoires doit embarquer sa propre logique d'acquisition, de validation et d'interpolation de références, ce qui génère du code dupliqué difficile à maintenir et à faire évoluer. L'architecture proposée factorise ce code en un composant réutilisable et robot-agnostique, ce qui simplifie la construction de pipelines de contrôle complexes (par exemple, chaîner un contrôleur d'admittance en aval d'un planificateur cartésien). Les résultats montrent un suivi fiable des références dans tous les scénarios testés, sans dégradation des performances de contrôle, ce qui valide l'approche sur des plateformes industrielles courantes plutôt que sur du matériel expérimental. Le contexte est celui de la maturité croissante de l'écosystème ros2control, devenu le standard de fait pour le contrôle de manipulateurs sous ROS2. Universal Robots (UR3, UR5, UR10) et Franka Emika (Panda/FR3) sont les deux références canoniques du marché des cobots de recherche et d'intégration légère, ce qui donne à cette validation une portée pratique immédiate. L'approche s'inscrit dans une tendance plus large vers des architectures de contrôle composables, comparable aux efforts du projet ros2control community et aux frameworks comme mcrtc (CNRS/AIST). Les auteurs ne mentionnent pas de timeline de contribution upstream ni de release packagée, et il reste à voir si ce Reference Generator sera proposé en merge request dans le dépôt officiel ros2control.

UELa validation sur des cobots Universal Robots (danois) et Franka Emika (allemand), standards de l'intégration robotique européenne, et la parenté avec mcrtc (CNRS/AIST) rendent cette architecture directement applicable aux intégrateurs FR/EU travaillant sous ROS2.

RecherchePaper
1 source
LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche
424arXiv cs.RO 

LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche

Une équipe de chercheurs publie LoComposition (arXiv:2606.15896, juin 2026), une méthode d'apprentissage par renforcement pour la locomotion quadrupède qui décompose les objectifs en mécanismes distincts plutôt que de les fusionner dans une fonction de récompense monolithique. Le système confie à des composants séparés ce que les approches classiques entremêlent : les récompenses gèrent la spécification de tâche, des contraintes encadrent les limites opérationnelles, la minimisation d'énergie pilote les préférences de démarche, et la perception extéroceptive (cartographie d'élévation LiDAR) adapte la consommation énergétique à la difficulté du terrain. Par rapport à une baseline conventionnelle à récompense complexe, LoComposition atteint des performances comparables de franchissement de terrain tout en réduisant le coût de transport de 56 % et les violations de limites opérationnelles de 96 %. La politique entraînée en simulation se transfère ensuite en zero-shot sur un robot quadrupède Unitree Go2 physique sans recalibration manuelle. L'apport central est la suppression des gait priors explicites, c'est-à-dire les cibles de temps de vol, de nombre de contacts au sol et de clairance des pieds, au profit de comportements de démarche émergents. Pour les équipes d'intégration, cela signifie moins d'ingénierie manuelle des récompenses et une meilleure généralisation à des terrains non vus en entraînement. La réduction de 56 % du coût de transport est directement pertinente pour les déploiements sur batteries à autonomie prolongée, scénario typique de l'inspection industrielle ou de la surveillance de site. L'analyse par ablation des chercheurs, montrant que retirer chaque composant expose un mode d'échec distinct, valide la cohérence de l'architecture et confirme que les gains ne sont pas le résultat d'un ajustement opportuniste des hyperparamètres. Cette contribution s'inscrit dans la dynamique de locomotion quadrupède par renforcement dominée depuis 2020 par le Robotics Systems Lab de l'ETH Zurich (ANYmal, séries RMA et Parkour) et Carnegie Mellon University. Le Unitree Go2, plateforme commerciale accessible, est devenu un banc d'essai standard pour la recherche académique, ce qui facilite la reproductibilité des résultats. Du côté industriel, ANYbotics et Boston Dynamics (Spot) développent des solutions propriétaires sur des trajectoires similaires mais ne publient pas leurs méthodes. LoComposition reste à ce stade une contribution de recherche fondamentale : aucun pilote industriel ni timeline de commercialisation n'est annoncé dans le preprint.

RecherchePaper
1 source
QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux
425arXiv cs.RO 

QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux

Des chercheurs publient QPILOTS (arXiv:2606.14801, juin 2026), une méthode permettant d'optimiser à l'inférence les politiques de diffusion et de flow-matching sans modifier leurs poids. Le problème central : appliquer l'apprentissage par renforcement basé sur la différence temporelle (TD-RL) à ces générateurs d'actions multi-étapes provoque des instabilités numériques lors du backpropagation à travers la chaîne de débruitage. QPILOTS laisse la politique originale intacte et l'oriente à chaque étape de débruitage via le gradient d'un critique de valeur Q. L'astuce clé : plutôt que d'évaluer le critique sur l'action intermédiaire bruitée (où ses prédictions sont peu fiables), la méthode projette cet état vers une estimation de l'action finale propre, puis calcule le gradient à ce point stable. Deux variantes sont proposées : QPILOTS-U utilise une approximation rapide en point unique, QPILOTS-M tire des échantillons postérieurs différentiables via un réseau auxiliaire appris. Sur un benchmark standard offline-to-online RL couvrant 50 tâches, QPILOTS atteint 90 % de taux de succès moyen, meilleure performance agrégée du comparatif. Appliquée à un modèle fondation Vision-Language-Action (VLA) pré-entraîné et gelé, la méthode surpasse ou égale les approches concurrentes sur six tâches de manipulation en simulation. L'enjeu est concret pour quiconque développe des politiques de manipulation basées sur la diffusion. Les solutions actuelles face au problème de gradient imposent chacune un compromis lourd : abandonner l'information de gradient, distiller la politique en un acteur one-step moins expressif, ou relancer un cycle de fine-tuning à chaque amélioration du critique. QPILOTS propose une quatrième voie compatible avec les modèles fondation gelés, ce qui le rend particulièrement pertinent dans un secteur où Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA) sont déployés comme bases pré-entraînées. Pouvoir piloter ces modèles via RL sans re-entraînement réduit drastiquement le coût d'adaptation à de nouvelles tâches, et apporte un argument concret au débat sur le "sim-to-real gap" des VLAs : le steering à l'inférence pourrait suffire là où le fine-tuning est prohibitif. QPILOTS s'inscrit dans la lignée des travaux sur les Diffusion Policies (Chi et al., 2023, Columbia) et des méthodes comme DDPO qui cherchent à coupler RL et processus de débruitage. Le terrain concurrent inclut les approches de distillation (simplifiantes) et les méthodes de reward-guided sampling déjà appliquées aux VLAs. À noter : cet article reste un preprint en simulation uniquement, sans validation sur hardware réel ni annonce de déploiement industriel. La robustesse des résultats à 90 % sur 50 tâches est encourageante, mais l'évaluation se limite à des environnements simulés, et les performances en conditions réelles, notamment la latence induite par l'étape de projection à chaque débruitage, restent à démontrer.

IA physiqueOpinion
1 source
La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques
426arXiv cs.RO 

La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques

Une étude publiée sur arXiv le 16 juin 2026 (réf. 2606.15587) remet en cause un postulat fondamental de l'apprentissage par imitation en robotique : les démonstrations expertes fluides ne sont pas nécessairement les meilleures données d'entraînement. Pour des tâches de manipulation fine (insertion, empilement, alignement), les chercheurs montrent qu'un opérateur habile compresse précisément les instants décisifs de correction dans une fenêtre temporelle très courte, noyant la politique apprise sous des mouvements de transit redondants et lui fournissant trop peu de supervision aux moments où la précision est déterminante. Expérimentalement, une politique entraînée sur des démonstrations fluides standard plafonne à 50,0 % de taux de succès sur ces tâches. Ce résultat a des implications directes pour les équipes qui constituent des datasets pour entraîner des modèles vision-langage-action (VLA) comme Pi-0 ou GR00T N2. Deux axes de correction sont testés. Au niveau des données, ralentir la capture autour des moments d'alignement et rééchantillonner les segments critiques améliore les performances, mais l'essentiel du gain vient de l'élargissement de la couverture des états de récupération, pas d'un simple rééquilibrage des frames existantes. Au niveau de la représentation, les auteurs introduisent STAIR (Spatio-Temporal feature As an Interface for Robot learning), un module compact qui s'intercale entre le backbone vision-langage et le réseau d'action, en distillant les dynamiques de mouvement à court horizon déjà enregistrées dans chaque trajectoire. Entraîné uniquement sur des données fluides, STAIR atteint 62,2 % de succès, contre 64,4 % pour les démonstrations délibérément ralenties. Ces travaux s'inscrivent dans une vague de recherche qui remet en question la stratégie de collecte de données pour l'imitation learning, notamment dans le sillage des politiques de diffusion (Diffusion Policy, ACT) et des architectures VLA à grande échelle. L'idée que "plus de données expertes = meilleure politique" est directement challengée : la learnability machine peut diverger de l'efficacité humaine. La prochaine étape logique est de valider STAIR sur des tâches de contact plus complexes (vis, connecteurs électroniques) et sur des robots physiques déployés en dehors de l'environnement de laboratoire, ce que le papier ne montre pas encore. À surveiller lors des soumissions de conférences de fin 2026 (CoRL, ICRA).

UELes équipes R&D européennes développant des modèles VLA pour la manipulation fine pourraient adapter leurs protocoles de collecte de données en ralentissant la capture sur les segments critiques d'alignement.

RechercheOpinion
1 source
IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement
427arXiv cs.RO 

IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement

Les modèles Vision-Language-Action (VLA) souffrent d'un défaut structurel bien documenté : en aplatissant les patches d'image en une séquence 1D de tokens, ils perdent les repères spatiaux 2D nécessaires à la manipulation précise d'objets. Des chercheurs ont publié sur arXiv (référence 2601.16207v2) IVRA, une méthode d'inférence légère et sans réentraînement qui corrige ce problème en exploitant des signaux d'affinité déjà présents dans l'encodeur visuel natif du modèle. Ces signaux sont injectés sélectivement dans une couche du modèle de langage où résident les caractéristiques au niveau des instances, réalignant les interactions entre tokens visuels et préservant mieux la structure géométrique sans modifier aucun paramètre. Appliqué à trois architectures distinctes, LLaRA, OpenVLA et FLOWER, IVRA a été évalué sur les benchmarks VIMA (manipulation 2D) et LIBERO (manipulation 3D), ainsi que sur des tâches en environnement physique réel. Sur VIMA en régime de faibles données, il améliore le taux de succès moyen de +4,2 % par rapport à la baseline LLaRA. Sur LIBERO 3D, les gains restent cohérents même proches de la saturation (96,3 % vers 97,1 %). L'intérêt industriel est direct : un intégrateur qui a déjà déployé un VLA peut appliquer IVRA à l'inférence sans réentraînement, sans capteur supplémentaire, sans encodeur externe. C'est un avantage immédiat en time-to-value pour des systèmes en production. Le fait que la méthode fonctionne même à 96,3 % de baseline suggère qu'elle améliore la précision géométrique locale plutôt que la compréhension globale de scène, précisément le point de défaillance des VLA sur des tâches de manipulation fine (saisie d'objets proches, tri par forme, assemblage). Pour la recherche, IVRA valide l'hypothèse que les encodeurs visuels embarqués contiennent des informations spatiales latentes exploitables sans supervision supplémentaire, une direction "training-free adapter" qui mérite davantage d'exploration. La perte de structure spatiale dans les VLA est connue depuis les premières publications sur RT-2 (Google DeepMind, 2023) et OpenVLA (Berkeley/Stanford, 2024). Les réponses habituelles consistent à modifier l'architecture ou à ajouter des flux de données supplémentaires (depth, point clouds), augmentant la complexité de déploiement. Physical Intelligence avec pi-0 et NVIDIA avec GR00T N2 misent sur des architectures propriétaires plus lourdes ; IVRA propose une correction orthogonale applicable sur des modèles ouverts, en compétition directe avec les méthodes de spatial token resampling et d'attention guidée comme RoboFlamingo. L'étape suivante logique serait une validation sur des benchmarks plus exigeants (RLBench, BridgeData v2) et sur des manipulateurs industriels à 6 DOF ou plus en conditions réelles, là où la précision spatiale est critique.

IA physiqueOpinion
1 source
Prise de décision bio-inspirée dans les essaims de robots soumis à des biais
428arXiv cs.RO 

Prise de décision bio-inspirée dans les essaims de robots soumis à des biais

Des chercheurs présentent dans un preprint arXiv (2509.07561, version 2, juin 2026) une étude comparative sur les mécanismes de prise de décision collective dans les essaims de robots minimalistes. Le scénario central : des robots individuels commettent fréquemment des erreurs de perception environnementale, mais le groupe doit néanmoins converger rapidement et fiablement vers la meilleure option parmi n alternatives discrètes. L'étude compare deux règles canoniques issues de la dynamique d'opinion observée dans les systèmes biologiques, le "direct-switch" (bascule directe) et la "cross-inhibition" (inhibition croisée), en les soumettant à des biais asociaux, c'est-à-dire des prédispositions individuelles indépendantes de l'interaction sociale. Les modèles de champ moyen existants sont généralisés pour intégrer ces perturbations. Les résultats ont une implication directe pour quiconque conçoit des systèmes multi-agents décentralisés : la cross-inhibition, mécanisme inspiré des colonies d'insectes et des populations neuronales, surpasse systématiquement le direct-switch en présence de biais. Là où le direct-switch se révèle performant en conditions idéales, il conduit à des blocages décisionnels ("decision deadlocks") dès que des biais individuels entrent en jeu. La cross-inhibition, elle, produit des décisions plus rapides, plus cohésives, plus précises et plus robustes sur une large gamme de conditions biaisées, et ce à des échelles croissantes d'essaims. C'est un résultat concret contre l'hypothèse que des règles simples suffisent sans distinction dans des environnements bruités. Cette recherche s'inscrit dans un corpus plus large sur la robotique en essaim (swarm robotics), domaine porté notamment par des équipes comme celles de Marco Dorigo (Université Libre de Bruxelles) et Vito Trianni (CNR-ISTC, Rome), avec des applications visées en surveillance environnementale, réponse aux catastrophes et logistique médicale. Sur le plan compétitif, les approches centralisées (flottes AMR coordonnées par un orchestrateur central, comme chez Exotec ou 6 River Systems) offrent des performances prévisibles mais restent fragiles à la perte de communication. L'enjeu ici est de prouver qu'une architecture entièrement distribuée peut égaler cette fiabilité sans infrastructure centralisée. La prochaine étape naturelle serait la validation expérimentale sur robots physiques, absente de cette version de l'étude.

UELes équipes européennes porteuses de ces travaux (Marco Dorigo, ULB Bruxelles ; Vito Trianni, CNR-ISTC Rome) positionnent la recherche EU en tête sur la robotique en essaim décentralisée, avec des retombées potentielles pour les applications de logistique et de réponse aux catastrophes en Europe.

RecherchePaper
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
429arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source
X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA
430arXiv cs.RO 

X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.14752) les résultats de X-Tokenizer, une architecture légère de type encodeur-SRQ-décodeur conçue pour améliorer la couche d'interface entre le raisonnement visio-linguistique et le contrôle moteur continu des bras robotiques. Le système introduit une technique appelée Semantic Residual Quantization (SRQ), une variante asymétrique de la quantification vectorielle résiduelle classique : le premier niveau est entraîné via un mécanisme de Masked Action Modeling (MAM) pour former un "langage d'actions" discret capturant l'intention de mouvement à gros grain, tandis que les niveaux suivants restent orientés reconstruction pour préserver les détails fins. X-Tokenizer a été pré-entraîné sur 2,4 millions de trajectoires, soit 2,0 milliards de frames d'actions, couvrant des bras robotiques d'embodiments variés. Une fois gelé, il se branche comme signal de supervision dans un VLA hybride discret-continu. Les résultats rapportés sur RoboTwin 2.0 et sur des benchmarks réels montrent des performances de premier rang en agrégat, avec +13,5 % de grounding multimodal et +8,25 points sur les tâches long-horizon par rapport au tokenizer FAST, référence actuelle du domaine. L'enjeu central est ce qu'on appelle le "demo-to-deployment gap" dans les modèles Vision-Language-Action : des VLA comme pi-0, GR00T N2 ou OpenVLA apprennent à raisonner en langage naturel mais peinent à traduire ce raisonnement en commandes motrices précises et stables. Les tokenizers d'action existants se contentent de comprimer les trajectoires pour les reconstruire fidèlement, sans ancrer les codes discrets dans la sémantique du backbone visio-linguistique. Ce que démontre X-Tokenizer, c'est qu'il est possible de faire des tokens d'action des objets sémantiquement cohérents avec le reste du modèle, en ajoutant un alignement contrastif vers l'espace de représentation d'un modèle fondationnel et une prédiction de features visio-linguistiques sur la frame suivante. L'impact pour les intégrateurs et les chercheurs est direct : un tokenizer partagé, gelé et interchangeable entre embodiments réduit le coût de fine-tuning par robot tout en améliorant la robustesse sur les tâches multi-étapes. Du côté du contexte compétitif, la tokenisation d'actions est devenue un verrou clé dans la course aux VLA généralistes depuis 2024. FAST (Fourier Action Sequence Tokenizer, DeepMind) s'est imposé comme baseline de référence en représentation fréquentielle des trajectoires. Des approches comme ACT (Action Chunking with Transformers) ou GROOT ont montré des gains sur des tâches courtes, mais les tâches longues restent difficiles faute de supervision sémantique cohérente. X-Tokenizer se positionne explicitement comme une alternative à FAST sur ce point précis. À noter que les gains annoncés (+13,5 %, +8,25) sont mesurés sur des benchmarks spécifiques et sur une sélection de tâches ; la généralisation à des environnements industriels non structurés reste à démontrer. Aucune timeline de déploiement ni partenaire industriel n'est mentionné dans le papier, ce qui situe ce travail clairement dans la phase recherche, non dans celle du produit expédié.

IA physiqueOpinion
1 source
Pilotage de politique d'inférence par vision et toucher
431arXiv cs.RO 

Pilotage de politique d'inférence par vision et toucher

Des chercheurs ont publié sur arXiv (réf. 2606.14981, juin 2026) ViTaL, un framework de pilotage à l'inférence combinant vision et toucher pour affiner les politiques de manipulation robotique. Le principe : plutôt que de ré-entraîner un modèle génératif pré-entraîné, ViTaL intervient au moment de l'exécution en vérifiant et corrigeant les séquences d'actions candidates avant qu'elles ne soient jouées. Le système repose sur une optimisation bi-niveaux, un niveau haut visuel qui sélectionne le comportement global à longue portée, et un niveau bas tactile qui édite en diffusion la séquence retenue pour satisfaire les contraintes de contact locales. Un monde latent visuo-tactile appris permet d'évaluer des récompenses tactiles futures via un verifieur conditionné en texte, sans avoir besoin de capteur physique au moment de la prédiction. Sur trois tâches réelles de manipulation à contact riche (assemblage, insertion, dépose sous contrainte), ViTaL améliore le taux de succès global de 51 % par rapport à la politique de base, dépasse les approches unimodales (vision seule) d'au moins 33 %, et surpasse la fusion multimodale naïve d'au moins 20 %. Ces résultats pèsent dans un débat central de la robotique de manipulation : la vision seule suffit-elle à piloter des robots en environnement de contact ? ViTaL répond non, et quantifie l'écart. Pour les intégrateurs et les équipes R&D travaillant sur l'assemblage industriel ou la manipulation d'objets déformables, la démonstration que l'information tactile peut être injectée à l'inférence sans retraining complet est directement exploitable, elle ouvre une voie vers des politiques génériques adaptables à de nouveaux contextes de contact via du "steering" léger. L'édition par diffusion guidée par le toucher est particulièrement notable : elle permet de préserver le comportement global appris tout en rectifiant les micro-interactions, ce qui réduit le risque de régression comportementale souvent observé lors du fine-tuning. ViTaL s'inscrit dans la vague des approches "inference-time compute" appliquées à la robotique, popularisées par les travaux sur les VLA (Vision-Language-Action models) et les politiques de diffusion de type π0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'idée de vérifier les actions à l'exécution plutôt qu'au train-time est également explorée par des équipes comme Covariant et Figure AI, mais sans capteurs tactiles intégrés dans la boucle de correction. La spécificité de ViTaL est de traiter le retour tactile comme une source de supervision temporelle courte portée, complémentaire à la vision longue portée. L'article reste un preprint et les tâches testées sont de complexité modérée ; une validation sur des scénarios industriels réels (tolérance sub-millimétrique, variabilité de pièces) sera nécessaire pour confirmer la généralisation.

IA physiqueOpinion
1 source
Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA
432arXiv cs.RO 

Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2606.14375) une nouvelle méthode appelée Elastic Queries Reinforcement Learning (EQRL), conçue pour rendre l'exécution des modèles VLA (Vision-Language-Action) adaptative plutôt que rigide. Dans les systèmes actuels, ces modèles qui pilotent la manipulation robotique s'exécutent selon des plannings d'inférence fixes : même fréquence de requête, même budget de débruitage, même longueur de chunk d'actions, quelle que soit la complexité de l'état courant. EQRL introduit un adaptateur léger qui sélectionne dynamiquement, pour chaque requête, trois paramètres : l'entrée latente, le budget de débruitage, et la longueur du chunk à exécuter en boucle ouverte. La méthode entraîne un critique sur l'espace joint et dérive un signal de difficulté d'état via le désaccord entre un ensemble de critiques (critic ensemble disagreement), guidant le calcul vers les états difficiles sans modifier les poids du modèle VLA sous-jacent. Sur bancs de simulation et en manipulation sur robot réel, les auteurs rapportent une réduction du coût d'inférence amorti avec un taux de succès préservé ou amélioré. L'enjeu concret concerne directement le coût de déploiement des politiques fondées sur des modèles de diffusion, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Ces architectures souffrent d'un goulot d'étranglement identique : le nombre d'évaluations de fonction (NFE) du processus de débruitage est fixe, qu'on soit sur une prise de contact incertaine ou un simple transit en espace libre. EQRL démontre qu'il est possible d'allouer dynamiquement ce budget de calcul selon la difficulté estimée, sans retraining du modèle de base. Pour un intégrateur ou un COO, la promesse est directe : même capacité de manipulation, moins de GPU sur les états faciles, meilleure scalabilité sur flotte. Le travail s'inscrit dans une course à l'efficacité d'inférence pour les VLA, accélérée par la publication de Pi-0 fin 2024 et les modèles de diffusion successifs (Octo, OpenVLA, GR00T N2, Helix de Figure AI). Des approches parallèles comme FAST ou DiT-Policy attaquent le même problème sous d'autres angles : compression de trajectoire, distillation, ou batch adaptatif. EQRL se distingue en opérant au-dessus du modèle sans le modifier et en intégrant un signal de difficulté appris par RL. Les auteurs annoncent des résultats positifs en simulation et sur robot réel, mais les métriques précises et les conditions expérimentales restent à examiner dans le corps du papier : la validité des gains annoncés dépendra de la représentativité des benchmarks choisis.

UELes équipes R&D européennes développant ou déployant des politiques de manipulation sur modèles de diffusion (VLA) pourraient appliquer EQRL pour réduire leurs coûts GPU d'inférence sans retraining, mais aucun acteur français ou européen n'est directement impliqué.

RechercheOpinion
1 source
PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique
433arXiv cs.RO 

PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique

Des chercheurs ont publié sur arXiv (arXiv:2606.13886, juin 2026) PhysVLA, un module d'inférence plug-and-play conçu pour corriger en temps réel les actions générées par n'importe quel modèle VLA (Vision-Language-Action) existant, sans rétro-entraînement ni accès aux poids. Le système intercepte les commandes produites par le backbone VLA et applique deux couches de correction successives : une machine à états finis sensible à la phase de la tâche (approche, saisie, transport, dépôt), puis un filtre sélectif basé sur les équations d'Euler-Lagrange qui ne s'active que lorsqu'un oracle de dynamique détecte une incohérence cinodynamique. Le surcoût de calcul est inférieur à 1 ms par pas de contrôle. Évalué sur quatre architectures distinctes (OpenVLA, OpenVLA-OFT, Force-VLA, Generalist-VLA) sur le benchmark LIBERO-Spatial avec un bras Franka Panda 7-DOF, PhysVLA améliore le taux de succès absolu jusqu'à 17 points, la stabilité jusqu'à 19 points, et l'efficacité de trajectoire jusqu'à 15 %, sans régression sur aucune tâche. Sur un sweep cross-simulateur (Robosuite Lift), la robustesse au jerk de trajectoire progresse d'un facteur 10. La validation sur un bras physique Agilex Piper (tâche pick-and-place réelle) confirme le transfert sim-to-real sans rétro-entraînement, avec une amélioration du taux de succès allant jusqu'à 50 %. L'intérêt industriel de cette approche tient à son caractère composable et backbone-agnostique. Les VLA actuels apprennent à imiter des démonstrations comportementales sans contraindre explicitement la physique des corps rigides ni les contacts, ce que les chercheurs nomment un "physics gap". Les correcteurs temporels classiques (temporal smoothing) masquent le problème sans le résoudre, et introduisent leurs propres échecs. PhysVLA propose une solution d'intégration légère pour les équipes qui déploient des VLA existants en production : pas de réentraînement, pas d'accès aux poids, un wrapper autour du modèle gelé. Pour un intégrateur ou un OEM, cela signifie potentiellement améliorer des systèmes déjà en ligne sans toucher aux pipelines de formation, ce qui réduit le risque et le coût de mise à niveau. PhysVLA s'inscrit dans la montée en puissance des approches de contrôle physique fondé pour les VLA généralistes, une problématique que des laboratoires comme Physical Intelligence (avec π0), Stanford (OpenVLA) ou Google DeepMind travaillent activement. Le papier positionne explicitement son framework comme complémentaire à ces backbones plutôt que concurrent. Il reste à ce stade un prototype de recherche validé en laboratoire sur deux plateformes matérielles (Franka Panda et Agilex Piper) ; aucun déploiement industriel ni partenariat commercial n'est annoncé. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus larges (RoboMimic, DROID) et sur des robots à plus haute cinématique, notamment des humanoïdes où la gestion des contacts et de la dynamique des corps rigides est critique.

UELes équipes R&D et intégrateurs européens déployant des VLA en production peuvent directement tester ce wrapper plug-and-play sans rétro-entraînement, mais aucun acteur ou déploiement européen n'est impliqué dans ce travail de recherche.

RechercheOpinion
1 source
FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles
434arXiv cs.RO 

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.13102) FTP-1, une politique tactile fondatrice généraliste préentraînée sur environ 3 000 heures de données de manipulation tactile agrégées depuis 26 sources distinctes, couvrant des démonstrations humaines et robotiques sur 21 capteurs différents. L'architecture repose sur des encodeurs hétérogènes qui projettent des signaux tactiles de natures variées -- images, tableaux de valeurs, états discrets -- en tokens latents unifiés et conscients de la morphologie, traités ensuite par un Transformer tactile partagé. Lors des expériences de fine-tuning sur 5 configurations matérielles distinctes, FTP-1 améliore les performances en manipulation riche en contacts de +17,2 % sur les capteurs vus à l'entraînement, et atteint un gain de +31 % sur deux configurations de capteurs jamais rencontrées lors du préentraînement. Ces chiffres sont issus d'un preprint académique et n'ont pas encore été soumis à évaluation par les pairs. Le résultat clé ici n'est pas la performance absolue mais la généralisation hors distribution. Depuis plusieurs années, les politiques tactiles restent prisonnières de leur hardware : un modèle entraîné sur un capteur GelSight ne transfère pas sur un capteur BioTac ou un réseau de pression matriciel. FTP-1 casse cette contrainte en proposant un point de départ partagé au niveau modèle, analogue à ce que les grands modèles de vision-langage-action (VLA) comme Pi-0 ou OpenVLA ont fait pour la manipulation visuelle. Pour un intégrateur industriel ou un laboratoire robotique, cela signifie potentiellement réduire le coût de collecte de données par capteur cible, en capitalisant sur un préentraînement généraliste plutôt que de repartir de zéro à chaque changement de gripper ou de skin tactile. Le chantier des politiques tactiles généralisables reste neuf. Les approches précédentes, comme celles développées autour des capteurs DIGIT (Meta) ou des grippers instrumentés de Stanford et MIT, sont restées cantonnées à des benchmarks monosenseurs. FTP-1 s'inscrit dans la tendance plus large des foundation models appliqués à la robotique physique, portée notamment par Physical Intelligence (Pi-0), Google DeepMind (RoboVLMs) et Figure AI. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; les poids préentraînés, les données et le code d'entraînement sont mis à disposition publiquement sur le site du projet, ce qui pourrait accélérer l'adoption par la communauté académique et les startups robotiques cherchant une base tactile mutualisée.

UELes laboratoires et startups européens travaillant sur la manipulation en contact peuvent exploiter directement les poids, données et code open-source de FTP-1 pour démarrer le développement de politiques tactiles sur leurs propres capteurs sans collecter de données from scratch.

💬 Le +31% sur les capteurs jamais vus pendant l'entraînement, c'est ça le vrai chiffre à retenir. Depuis des années, chaque politique tactile restait coincée sur son hardware, impossible de capitaliser d'un gripper à l'autre sans tout recommencer de zéro. Là on a enfin une base commune open-source pour le toucher, et ça c'est du concret.

IA physiqueOpinion
1 source
WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique
435arXiv cs.RO 

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.13672) WEAVER (World Estimation Across Views for Embodied Reasoning), une architecture de modèle de monde (world model, WM) dédiée à la manipulation robotique. Le système, multi-vue, est entraîné à prédire des représentations latentes futures et des valeurs de récompense via une perte de flow-matching. Sur robot physique, WEAVER atteint une corrélation ρ = 0,870 entre trajectoires simulées et taux de succès réel en évaluation de politique (policy evaluation). Appliqué à l'amélioration de politique (policy improvement), il produit un gain de 38 % de taux de succès réel au-dessus du modèle de fondation robotique π₀.₅ de Physical Intelligence. En planification à l'inférence (test-time planning), il ajoute 14 % de succès supplémentaires, avec une vitesse de génération 5 à 10 fois supérieure aux WMs précédents. Le code, les modèles et les vidéos sont publiquement accessibles. Les modèles de monde représentent un levier structurant pour la robotique : évaluer ou améliorer des politiques de contrôle, planifier à l'exécution, sans multiplier les interactions coûteuses en environnement réel. Le verrou technique est triple, fidélité (les trajectoires simulées doivent refléter la réalité), cohérence sur longue horizon (les simulations ne doivent pas diverger dans le temps), et efficacité computationnelle. WEAVER satisfait simultanément ces trois critères là où les architectures précédentes échouaient généralement sur au moins l'un d'eux, en particulier sur la cohérence à long horizon pour des tâches de manipulation dynamique complexes. Le gain de 38 % sur π₀.₅ est particulièrement significatif : il démontre qu'un WM peut améliorer un modèle de fondation déjà performant sans collecte de données additionnelles en conditions réelles, réduisant ainsi les coûts de déploiement pour les intégrateurs industriels. Ce travail s'inscrit dans une compétition accélérée autour des world models pour la robotique embodied. Physical Intelligence avec π₀ et π₀.₅, Google DeepMind avec ses variantes RT et RoboDreamer, ainsi que des équipes académiques de Berkeley, CMU et Stanford ont chacun proposé des approches partielles. WEAVER se positionne comme une synthèse architecturale, avec un soin particulier apporté à la gestion de la mémoire et au traitement multi-vue. Aucun partenariat industriel ni calendrier commercial n'est annoncé à ce stade, et la validation reste circonscrite à des environnements de laboratoire contrôlés. La question centrale du sim-to-real gap à l'échelle, dans des environnements industriels non structurés, reste entièrement ouverte.

💬 38 % de gain sur π₀.₅ sans ajouter une seule donnée en conditions réelles, c'est du concret. Ce qui est rare, c'est qu'ils résolvent les trois verrous en même temps : fidélité, cohérence à long horizon, vitesse de génération. Le sim-to-real à l'échelle industrielle reste entier, mais pour l'instant c'est l'architecture la plus sérieuse que j'ai vue sur le sujet.

IA physiqueOpinion
1 source
EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots
436arXiv cs.RO 

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

Une équipe de chercheurs a publié EmbodiSteer, un cadre d'inférence sans réentraînement conçu pour déployer des politiques visuomotrices généralistes sur des robots arbitraires sans adaptation préalable. Le problème qu'il résout est structurel : l'apprentissage par imitation à grande échelle (imitation learning) s'appuie aujourd'hui sur des données hétérogènes collectées sur des robots différents, ce qui pousse les architectures modernes à raisonner dans l'espace cartésien de l'effecteur terminal, un espace agnostique au corps. Cette abstraction est utile pour la généralisation, mais elle rend les politiques aveugles aux contraintes cinématiques propres à chaque robot, notamment la détection de collision avec le propre corps de la machine. EmbodiSteer corrige ce défaut au moment de l'inférence : il projette chaque pas de débruitagede diffusion depuis l'espace cartésien vers l'espace articulaire du robot cible via la cinématique directe et des mises à jour jacobiennes, puis applique un guidage de trajectoire tenant compte des collisions corps entier avant de rebasculer en cartésien pour l'étape suivante. Sur neuf robots simulés, le taux de collision chute de 46,1 % et le taux de succès augmente de 28,5 % par rapport à une exécution purement cartésienne. Sur deux robots physiques dans des scénarios très contraints, les gains montent respectivement à 90,0 % et 36,7 %. L'intérêt industriel de ce résultat réside dans ce qu'il évite : un réentraînement complet du modèle à chaque changement de plateforme matérielle. Pour un intégrateur qui déploie une politique généraliste (type pi-0, GR00T N2, ou toute VLA diffusion-based) sur plusieurs variantes d'un bras industriel, EmbodiSteer représente une couche d'adaptation plug-and-play à l'inférence, sans toucher aux poids. C'est une réponse directe au "sim-to-real gap" qui frappe les politiques cartésiennes lorsqu'elles rencontrent des obstacles inattendus dans le référentiel articulaire du robot réel. La méthode valide aussi une hypothèse importante : les politiques diffusion en espace cartésien ne sont pas intrinsèquement fragiles, elles manquent simplement d'un pont vers la géométrie du corps déployé, un pont que l'on peut construire sans données supplémentaires. EmbodiSteer s'inscrit dans un mouvement plus large vers les politiques universelles (cross-embodiment), dont les représentants notables incluent pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les travaux du Columbia Robotics Lab sur les transformers multi-robot. La plupart de ces architectures partagent le même talon d'Achille cartésien qu'EmbodiSteer cible. Le papier, déposé sur arXiv (2606.12965) en juin 2026, ne mentionne pas de partenaire industriel ni de calendrier de commercialisation : il s'agit d'une contribution académique, sans produit shipé ni déploiement annoncé. Le code et la page projet sont publics, ce qui facilite l'expérimentation par des tiers. La prochaine étape logique serait de tester le cadre sur des robots à configuration non standard, comme des bras à redondance élevée ou des humanoïdes complets, où le guidage jacobien pose des défis d'ambiguïté cinématique plus sérieux.

UELes intégrateurs robotiques européens déployant des politiques VLA sur plusieurs plateformes matérielles pourraient adopter EmbodiSteer comme couche d'adaptation plug-and-play, mais aucun acteur FR/EU n'est impliqué dans ces travaux.

💬 Une couche d'adaptation à l'inférence sans réentraînement, ça semble anodin, mais c'est exactement ce qui manque quand tu veux déployer une politique généraliste sur plusieurs bots différents sans exploser ton budget GPU. Les chiffres de simulation, je les prends avec des pincettes, mais 90% de réduction de collisions sur robot physique en conditions contraintes, c'est pas du flan. Le code est public, donc si t'es intégrateur robotique, t'as déjà ta prochaine expérimentation du vendredi.

IA physiqueOpinion
1 source
DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?
437arXiv cs.RO 

DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?

Une équipe de chercheurs a publié en juin 2026 DIRECT (arXiv:2606.12402), un cadre de routage conçu pour allouer dynamiquement le calcul à l'inférence, ce que le milieu appelle test-time compute, dans les agents embarqués pilotés par des modèles de vision-langage (VLMs). Plutôt que d'appliquer uniformément plus de puissance de calcul à chaque requête, DIRECT utilise le contexte visuel et multimodal de la scène pour décider, prompt par prompt, combien de ressources mobiliser. Le système a été évalué sur deux benchmarks de référence, VLABench et RoboMME, puis validé sur un bras Franka physique dans une configuration DROID couvrant manipulation zero-shot et enchaînements de tâches longues. Le résultat clé : DIRECT égale ou dépasse un modèle plus puissant tout en réduisant la latence moyenne jusqu'à 65 %. L'apport scientifique dépasse l'optimisation des coûts. Les auteurs montrent que les trois grands axes de montée en puissance à l'inférence, profondeur de la chaîne de pensée (chain-of-thought), taille du modèle, et longueur de l'historique mémoire, ne sont pas interchangeables : chacun produit des gains qualitativement distincts selon le type de tâche. Cela contredit l'hypothèse implicite de nombreux travaux récents selon laquelle "plus de compute = meilleures performances" de façon uniforme. Pour un intégrateur ou un COO industriel, l'implication est directe : un routeur intelligent peut tenir les contraintes de latence des applications temps réel sans sacrifier les capacités de planification, rendant les VLMs plausibles hors des environnements lab. Ce travail s'inscrit dans une accélération marquée de l'usage des VLMs comme planificateurs de haut niveau pour la robotique, portée notamment par des modèles comme GPT-4o, Gemini 2.0 ou les architectures Vision-Language-Action (VLA) type pi0 de Physical Intelligence. Le setup DROID utilisé pour la validation physique est un environnement de manipulation à grande échelle devenu standard dans la recherche académique américaine. Côté concurrence, les approches alternatives, décodage spéculatif, distillation, sélection statique de modèle, n'exploitent pas le contexte de scène pour router dynamiquement. DIRECT ouvre la voie à des pipelines adaptatifs, mais reste à ce stade une contribution de recherche : aucun déploiement industriel ni partenariat industriel n'est annoncé.

IA physiqueOpinion
1 source
DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé
438arXiv cs.RO 

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Une équipe du groupe Intuitive Robots publie DAM-VLA (Decoupled Asynchronous Multimodal Vision-Language-Action), un modèle VLA déposé sur arXiv le 11 juin 2026 (2606.12105) qui remet en cause le paradigme d'horloge synchrone des architectures VLA actuelles. Le problème identifié est structurel : les modèles vision-langage-action héritent d'un préentraînement où toutes les modalités partagent la même fréquence de traitement. Or en manipulation physique, les capteurs proprioceptifs opèrent à plusieurs centaines de hertz, la vision évolue bien plus lentement, et les instructions langagières restent constantes sur l'ensemble d'un épisode. Oversampler la vision et sous-échantillonner la proprioception plafonne la qualité du contrôle. DAM-VLA maintient des tampons latents par modalité, chacun rafraîchi à la fréquence de son propre capteur et consulté en continu par la tête d'action via gated cross-attention, sans modifier le backbone préentraîné. Sur sept tâches de manipulation en contact réel (contact-rich), le modèle atteint 95,2 % de succès contre 40,95 % pour la meilleure baseline synchrone, tout en assurant un contrôle fluide à 100 Hz. Ce doublement du taux de succès sur des tâches contact-rich est un résultat conséquent. Il suggère que le sim-to-real gap dans les VLA est aussi un problème de temporalité : rater des transitions haptiques critiques lors d'une insertion ou d'un vissage dégrade le contrôle plus que la généralisation visuelle. Pour un intégrateur industriel, 100 Hz en sortie d'action passe le seuil minimal pour des tâches de précision en cellule automatisée. L'architecture ne modifiant pas le backbone, elle préserve la réutilisabilité des poids préentraînés, ce qui réduit le coût d'adoption pour les équipes déjà investies sur des bases VLA existantes. Les VLA déployés en production récente, Pi-0 de Physical Intelligence, OpenVLA et Octo, ainsi que les approches commerciales de Figure AI (Figure 03) ou NVIDIA (GR00T N2), opèrent sur le paradigme synchrone. DAM-VLA propose une troisième voie entre la boucle unifiée et le découpage hiérarchique dual-system. Quelques réserves s'imposent : il s'agit d'un preprint sans revue par les pairs confirmée, les sept tâches évaluées restent de portée laboratoire, et aucun déploiement industriel ni partenariat commercial n'est annoncé. Les étapes critiques, validation sur manipulateurs bi-bras et intégration de capteurs force-couple haute fréquence comme modalité principale, restent à démontrer hors contexte académique.

IA physiqueOpinion
1 source
Fourier Features permet aux agents d'apprendre des politiques haute précision par apprentissage par imitation
439arXiv cs.RO 

Fourier Features permet aux agents d'apprendre des politiques haute précision par apprentissage par imitation

Un article soumis sur arXiv (2606.12334, juin 2026) présente une méthode simple mais efficace pour améliorer la précision des politiques de manipulation robotique par apprentissage par imitation : projeter les nuages de points 3D dans un espace de Fourier haute dimension avant de les passer à l'encodeur neuronal. L'idée part d'un diagnostic connu en apprentissage automatique : les réseaux de neurones souffrent d'un biais spectral qui les pousse à privilégier les fonctions basse fréquence, ce qui pénalise les architectures conditionnées sur des coordonnées cartésiennes lentes et peu discriminantes. En remplaçant ces coordonnées brutes par leurs projections sinusoïdales haute fréquence, les chercheurs donnent à l'encodeur un accès direct aux détails géométriques fins, là où se jouent les contraintes d'assemblage ou d'insertion. Les expériences couvrent les benchmarks RoboCasa et ManiSkill3, ainsi qu'un banc de test en robotique réelle, et montrent des gains consistants sur des tâches de manipulation à haute précision. L'apport principal n'est pas tant algorithmique que diagnostique : les politiques basées sur nuages de points surpassent théoriquement les approches RGB-only (qui souffrent d'ambiguïté de profondeur et de problèmes d'échelle en perspective), mais leurs performances restent fortement dépendantes de la tâche. Ce papier identifie le biais spectral comme mécanisme explicatif de cet écart et propose un correctif robuste aux hyperparamètres, agnostique à l'architecture d'encodeur. Pour les équipes qui développent des politiques VLA (Vision-Language-Action) ou des contrôleurs d'imitation pour manipulation fine (vissage, assemblage, tri de pièces), cette couche de Fourier s'intègre sans refonte majeure du pipeline. C'est le type de contribution "multiplicateur silencieux" qui peut débloquer des cas d'usage industriels où le gap sim-to-real reste un obstacle pratique. Ce travail s'inscrit dans un contexte de recherche actif sur les représentations 3D pour la robotique apprenante, en concurrence avec des approches comme les encodeurs PointNet et PointTransformer, les champs de distances signées ou les représentations implicites neuronales. Les benchmarks RoboCasa (Berkeley) et ManiSkill3 (UCSD/Carnegie Mellon) sont devenus des standards d'évaluation pour la manipulation simulée, bien que le vrai test reste le transfert sim-to-real en conditions industrielles non structurées. Les auteurs mettent à disposition le code source et des vidéos sur fourier-il.github.io, ce qui facilite la reproduction et l'adoption. La prochaine étape naturelle serait d'évaluer la technique sur des manipulateurs industriels en production et de tester sa compatibilité avec les architectures Diffusion Policy et ACT, actuellement dominantes dans le domaine.

RechercheOpinion
1 source
PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper
440arXiv cs.RO 

PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12112v1) les spécifications de PEBRE, un module matériel et logiciel open-source conçu pour augmenter les capacités du robot Pepper. Le module intègre une carte Jetson Orin Nano de NVIDIA pour le calcul embarqué, une caméra RGB Logitech BRIO 4K, une caméra de profondeur Intel RealSense D435i pour la perception 3D, un microphone USB Samson UB1 et un micro directionnel RØDE VideoMicro II pour la capture audio. L'ensemble forme un add-on modulaire, conçu pour s'intégrer physiquement sur Pepper sans modifier son architecture d'origine. Les auteurs rapportent des améliorations mesurables en capacités de perception et en puissance de calcul, sans toutefois publier de benchmarks chiffrés comparatifs dans le résumé disponible. L'intérêt concret de PEBRE pour la communauté académique et les intégrateurs tient à une problématique bien réelle : Pepper approche ou dépasse sa durée de vie commerciale prévue, et SoftBank Robotics a progressivement réduit son support. Des dizaines de labos de recherche mondiaux disposent de plateformes Pepper dont la chaîne logicielle devient obsolète et dont le matériel interne (processeur Intel Atom, caméras grand-angle basiques) ne permet plus d'exécuter des modèles modernes de vision ou de traitement du langage en local. En proposant une solution open-hardware, les auteurs cherchent à mutualiser l'effort de mise à niveau, évitant à chaque labo de réinventer sa propre solution de retrofitting. C'est une approche pragmatique face à l'abandon progressif d'une plateforme encore présente dans de nombreux établissements. Pepper a été conçu à l'origine par Aldebaran Robotics, entreprise française rachetée par SoftBank en 2012, puis commercialisé à partir de 2014 comme robot d'accueil et d'interaction sociale. Malgré l'arrêt de sa production pour le marché grand public annoncé en 2021, Pepper reste présent dans plusieurs centaines de laboratoires et sites industriels en Europe et en Asie. Côté concurrence sur le segment des plateformes académiques humanoïdes légères, Pepper fait face à des alternatives comme le NAO (lui aussi Aldebaran/SoftBank), le Furhat ou des plateformes bras-et-torse comme Hello Robot Stretch. PEBRE ne repositionne pas Pepper dans la course aux humanoïdes mobiles de nouvelle génération, mais tente de lui donner une seconde vie utile dans des contextes de recherche appliquée en HRI (Human-Robot Interaction), là où le coût d'acquisition d'une nouvelle plateforme reste prohibitif.

UELes laboratoires européens équipés de robots Pepper, nombreux en France et en Europe, héritiers du rachat d'Aldebaran Robotics, peuvent bénéficier directement de ce module open-source pour prolonger la durée de vie de leurs plateformes et exécuter des modèles modernes de perception et de traitement du langage sans investissement dans une nouvelle plateforme.

RecherchePaper
1 source
TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense
441arXiv cs.RO 

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Des chercheurs ont publié sur arXiv (référence 2606.11184) TacForeSight, un framework léger d'anticipation tactile guidée par la force pour la manipulation en contact riche. Le système repose sur deux composants : TacForceWM, un modèle du monde tactile qui prédit les dynamiques latentes tactiles à court horizon à partir de capteurs bi-doigts conditionnés par les signaux de force et de couple au poignet à haute fréquence, et une politique conditionnée par l'anticipation tactile (Predictive Tactile-Conditioned Policy) qui exploite ces prédictions comme priors de contact, modélise l'évolution tactile courante-vers-future via cross-attention, et fusionne les features visuo-tactiles via un module de gating adaptatif. Les expériences portent sur cinq tâches représentatives de manipulation sur robot réel et trois scénarios de perturbation en cours de manipulation, avec des résultats supérieurs aux baselines existantes dans tous les cas, notamment sous perturbations de contact dynamiques. Le code et les datasets seront mis à disposition publiquement sur tacforesight.github.io. L'apport technique central est de modéliser explicitement les rôles asymétriques de la force globale au poignet (basse résolution spatiale, haute fréquence) et du toucher local bi-doigts (haute résolution spatiale, dynamique plus lente), distinction que la plupart des méthodes d'imitation learning actuelles ignorent. En opérant entièrement dans un espace latent compact, le framework permet un raisonnement de contact proactif compatible avec le contrôle haute fréquence, là où les approches réactives échouent sous perturbations imprévues. Pour les intégrateurs industriels et les équipes travaillant sur l'assemblage ou le conditionnement robotisé, c'est une démonstration concrète que la fusion force+tactile dans un world model améliore la robustesse réelle sans alourdir l'inférence en temps réel. Ce travail s'inscrit dans une vague de recherche combinant world models et retour tactile pour la manipulation dextre, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur GR00T N2 de NVIDIA qui intègrent également des politiques tactile-aware. Aucun concurrent français ou européen direct n'est identifié sur ce créneau précis, bien que des acteurs comme Pollen Robotics ou Enchanted Tools s'appuient aussi sur la manipulation fine. Il s'agit ici d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenaire annoncé : les résultats, bien que prometteurs sur cinq tâches de laboratoire, devront être reproduits sur des géométries et conditions de contact plus variées avant de valider la généralisation à l'échelle industrielle.

UEImpact indirect : le code open-source prévu sur tacforesight.github.io pourrait être exploité par des équipes européennes travaillant sur la manipulation fine, comme Pollen Robotics ou les labos CEA-List, mais aucun acteur FR/EU n'est impliqué dans ce travail.

RecherchePaper
1 source
Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire
442arXiv cs.RO 

Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire

Une équipe de chercheurs présente un cadre neuro-symbolique de bout en bout conçu pour l'assemblage robotique multi-paires en environnements non structurés, publié sur arXiv (2606.10808). Le système fonctionne à partir d'une caméra RGB-D montée sur le bras (configuration eye-on-hand) et s'appuie sur un bras UR3 d'Universal Robots. Le pipeline traite chaque paire pièce-cible en générant un sous-graphe optimal via un grand modèle de langage (LLM), puis coordonne l'ensemble des sous-graphes en une séquence globale cohérente grâce à une étape de résolution topologique. Des arbres de comportement dynamiques intégrant des compétences atomiques pilotées par retour d'effort ferment la boucle d'exécution physique. Sur 100 scènes réelles évaluées hors ligne, le framework atteint 97 % d'exécutabilité globale, et le déploiement sur robot réel obtient un taux de succès de 90 % avec une tolérance de 0,5 mm sous forte interférence entre pièces. Ce résultat est notable parce qu'il adresse deux défauts symétriques qui bloquent l'industrialisation de la planification autonome d'assemblage. Les planificateurs classiques (recherche d'état, PDDl) explosent combinatoirement dès que le nombre de pièces augmente. Les approches purement neuronales ou LLM-only produisent des "hallucinations logiques" : séquences d'actions syntaxiquement valides mais physiquement incohérentes (conflits topologiques, collisions ignorées). Le framework proposé découple les deux niveaux : le LLM génère uniquement des actions basiques pour limiter les hallucinations, tandis qu'un discriminateur léger insère les actions de support pour les cas limites. La tolérance de 0,5 mm sous interférence forte est un indicateur concret de robustesse, même si les vidéos de démonstration disponibles ne couvrent pas l'ensemble des 100 configurations testées, ce qui limite la vérification indépendante des chiffres annoncés. Le problème de l'assemblage multi-paires est un verrou industriel identifié depuis les années 1990 dans la robotique manufacturière, avec des applications directes en électronique, aéronautique et assemblage de sous-systèmes automobiles. Les approches concurrentes actuelles incluent les planificateurs symboliques classiques (MoveIt, OpenRAVE), les politiques d'imitation learning (ACT, Diffusion Policy) et les Visual Language Action models (pi-0 de Physical Intelligence, RoboFlamingo). Ce framework se positionne entre la planification symbolique vérifiable et l'inférence neuronale généraliste. Les auteurs soulignent que l'architecture est extensible à faible coût par ajout de nouvelles paires ou actions. Les prochaines étapes logiques seraient un déploiement sur des bras à plus haute charge utile et une validation sur des lignes d'assemblage industrielles réelles, domaine où des acteurs européens comme Wandercraft ou Enchanted Tools pourraient trouver des synergies applicatives.

UELes équipes R&D robotique européennes (notamment dans l'aéronautique et l'électronique) pourraient intégrer cette architecture pour automatiser des tâches d'assemblage multi-pièces à tolérance serrée, un verrou industriel non résolu par les planificateurs classiques.

RecherchePaper
1 source
Analyse de la locomotion d'un quadrupède sur le sol granulaire lunaire
443arXiv cs.RO 

Analyse de la locomotion d'un quadrupède sur le sol granulaire lunaire

Une équipe de recherche a publié en juin 2026 sur arXiv (preprint 2606.10273) une analyse de la locomotion d'un robot quadrupède conçu pour l'exploration lunaire, avec un focus sur l'interaction avec le régolithe lunaire. Le régolithe est un matériau granulaire meuble qui recouvre la surface de la Lune et qui diffère radicalement d'un sol rigide terrestre. Les chercheurs ont intégré un modèle physique de contact entre pied de robot et régolithe dans un environnement de simulation, puis ont entraîné des politiques de locomotion par apprentissage par renforcement (RL). Deux politiques ont été comparées : l'une entraînée sur des contacts rigides, l'autre sur des contacts mous simulant le régolithe. Résultats : les contacts granulaires génèrent une allure qualitativement différente, augmentent la dépense énergétique globale et provoquent instabilité et perte de tracking. Ce résultat touche directement l'un des angles morts majeurs du RL appliqué à la robotique terrain : les algorithmes de locomotion sont quasi-systématiquement entraînés sous hypothèse de contact rigide, ce qui suffit sur des sols durs mais s'effondre dès que le sol cède sous la patte. Pour la conception mécanique d'un quadrupède lunaire, cela se traduit concrètement par un sous-dimensionnement des couples moteurs et une sous-estimation du coût énergétique de transport, deux variables critiques dans un contexte où les contraintes thermiques et énergétiques sont dimensionnantes pour toute mission. Cette étude fournit des métriques quantitatives sur le surcoût locomoteur induit par le régolithe, un élément manquant dans la majorité des papiers de robotique planétaire. Le contexte est celui d'un regain d'intérêt intense pour la robotique lunaire, porté par le programme Artemis de la NASA et par plusieurs missions commerciales prévues d'ici 2028. La question du sim-to-real sur surfaces granulaires est connue dans la communauté depuis les travaux sur le sable et la neige, mais reste peu traitée dans le cadre spécifiquement lunaire. Du côté européen, l'ESA finance plusieurs projets de robots à pattes pour surfaces extraterrestres, sans qu'un programme quadrupède lunaire opérationnel ne soit encore annoncé publiquement. Ce papier reste un preprint non relu par des pairs, et ses conclusions, bien que cohérentes avec la littérature sur les milieux granulaires, n'ont pas encore été validées sur un prototype physique en environnement simulé en laboratoire.

UEL'ESA finançant plusieurs projets de robots à pattes pour surfaces extraterrestres, les métriques quantitatives sur le surcoût locomoteur du régolithe et les limites du RL entraîné sur contact rigide pourraient directement informer les choix de simulation et de conception des équipes européennes impliquées dans ces programmes.

RecherchePaper
1 source
Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel
444arXiv cs.RO 

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

Des chercheurs présentent dans un preprint arXiv (2606.08666, juin 2026) un système permettant aux robots de traiter les descriptions spatiales en langage naturel comme un signal capteur à part entière. Le coeur de la contribution est le Language Sensor Model (LSM), qui convertit chaque énoncé ("j'ai laissé mon sac à dos sur la table") et son graphe de scène en une distribution de probabilités 3D multimodale. Cette distribution encode simultanément l'ambiguïté référentielle ("quelle table parmi plusieurs") via des poids de mélange, et l'incertitude spatiale ("où exactement sur la table") via des covariances par composante. Le LSM s'intègre dans VL-Map (Vision-Language Metric-Semantic Mapping), un framework probabiliste qui fusionne ces prédictions linguistiques avec la perception embarquée dans une carte de croyance unifiée. Évalué sur le benchmark VLA-3D et sur un robot mobile réel, le LSM est le seul prédicteur dont les estimations de covariance restent dans le régime calibré, et produit environ 70 % de masse de probabilité supplémentaire sur la cible correcte par rapport au meilleur modèle de fondation testé. L'enjeu pour les intégrateurs est direct : les robots déployés en environnement humain (logistique, soins, assistance) reçoivent constamment des instructions verbales qui référencent des objets hors de leur champ perceptif. La cartographie métrique-sémantique classique ignore ce canal d'information ; les grands modèles multimodaux généralistes ne produisent pas d'estimations calibrées fusionnables dans un filtre bayésien. La calibration est un point critique souvent sous-estimé : un modèle non calibré surestime ou sous-estime sa confiance, rendant la fusion de capteurs instable et potentiellement dangereuse. Ce travail démontre que le langage peut jouer le rôle d'un vrai capteur réducteur d'incertitude, ce qui modifie le calcul architectural pour tout système de navigation ou manipulation en milieu non structuré. La contribution s'inscrit dans la lignée de la cartographie visuosémantique 3D (ConceptFusion, LERF, OpenScene), qui ancre des embeddings visuolinguistiques dans des représentations de scènes mais demeure passive vis-à-vis du langage conversationnel. Les approches VLA actuelles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA traitent le langage comme déclencheur d'actions, sans produire de distribution spatiale exploitable par un planificateur externe. Ce système s'y positionne orthogonalement : non pas un planificateur ni un annotateur, mais un capteur probabiliste intégrable à un pipeline SLAM existant. Les expériences décrites restent à un stade exploratoire, sans partenaire industriel ni calendrier de déploiement annoncés dans la publication.

RecherchePaper
1 source
CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
445arXiv cs.RO 

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif). Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement. Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.

UEL'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.

RecherchePaper
1 source
Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire
446arXiv cs.RO 

Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire

Des chercheurs présentent dans un preprint arXiv publié en juin 2026 (2606.08542) une formalisation et une solution partielle à un problème mal documenté de la planification robotique : les grands modèles de vision-langage actuels (VLMs, LLMs multimodaux incarnés) ne savent pas lire les traces d'exploration robotique. Le cas typique : un robot tire sur un tiroir verrouillé, échoue, puis réussit après avoir ouvert le verrou. Cet échec initial n'est pas du bruit, c'est la preuve d'une précondition latente (le tiroir était verrouillé), et donc la clé pour inférer la séquence minimale d'actions correcte. Les auteurs formalisent ce problème sous le nom EMT-QA (Exploratory Manipulation Trace QA) et proposent la Closed-Loop Trace Distillation : un agent de codage par tâche inspecte les traces d'entraînement étiquetées et en distille une heuristique de lecture en une seule ligne de langage naturel, appelée DRH (Distilled Reading Heuristic). À l'inférence, pas d'agent invoqué, pas de mise à jour de poids : un VLM figé reçoit la trace brute augmentée du DRH. Sur cinq tâches (trois en simulateur, deux sur robot réel), le DRH améliore la précision de la chaîne d'actions de +0,38 à +0,47 par rapport aux meilleures baselines en modalité brute. Ce résultat contredit une hypothèse courante dans le secteur : que des VLMs suffisamment puissants "verront" naturellement les préconditions cachées dans une vidéo d'exécution. L'étude démontre que ni la vidéo brute, ni la proprioception, ni leur combinaison ne suffisent. Pour les équipes qui intègrent des VLMs comme backbone de planification dans des systèmes de manipulation industrielle, cela signifie qu'une couche de distillation d'heuristiques peut s'avérer indispensable, sans nécessiter de fine-tuning ni d'infrastructure supplémentaire à l'inférence. Fait notable : le même DRH sert également de spécification unique pour des classifieurs programmatiques one-shot qui égalent les performances du VLM prompté, ouvrant une voie vers des pipelines de validation auditables et plus légers. Ces travaux s'inscrivent dans la dynamique des politiques robotiques fondées sur la vidéo et le langage (VLA), portée notamment par Physical Intelligence (Pi-0), NVIDIA (GR00T N2) ou Google DeepMind, qui s'appuient tous sur des VLMs comme planificateurs. La lecture fiable des traces d'exécution est un angle mort reconnu dans la communauté, souvent masqué dans les démos par des conditions expérimentales favorables. Le périmètre de validation reste restreint (cinq tâches au total), et la généralisation à des préconditions plus complexes ou à des chaînes d'actions plus longues n'est pas encore établie. Les suites naturelles incluent l'évaluation sur des benchmarks de manipulation plus larges et, surtout, la génération de DRH sans traces étiquetées en amont, condition nécessaire à la scalabilité réelle de l'approche.

RechercheOpinion
1 source
Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence
447arXiv cs.RO 

Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence

Une équipe de recherche a publié sur arXiv (ref. 2606.09390) une étude portant sur la reconnaissance d'intention communicative à partir de la seule pose corporelle 2D, sans recours au visage, à la voix ou au texte. Le travail cible explicitement des scénarios de communication personne-robot à longue distance et à faible coût, comme les missions de secours en terrain dégradé. Les chercheurs publient un nouveau dataset de frames réels couvrant dix intents communicatifs distincts, et le comparent à des jeux de données existants : IPC (réel) et trois sources synthétiques, MotionLCM, VEO3.1 et Kimodo, qui couvrent un gradient de difficulté croissant. Plusieurs architectures sont évaluées, des classifieurs graph sur squelette jusqu'aux réseaux de prédiction de mouvement articulaire. Tous les benchmarks sont conduits sur une NVIDIA Orin Nano, un GPU embarqué représentatif des contraintes matérielles d'un robot de terrain, ce qui permet de rapporter à la fois précision de classification et cadence d'inférence en conditions réelles. Le point le plus notable n'est pas le dataset mais la mesure de fiabilité non supervisée proposée : les auteurs montrent que l'auto-cohérence autorégressive d'un modèle, c'est-à-dire la stabilité de ses propres prédictions successives sur une séquence, constitue un signal de confiance exploitable sans étiquettes. Ils fournissent une preuve courte bornant la probabilité qu'une prédiction auto-cohérente soit correcte, et montrent que cette probabilité croît avec le nombre de pas cohérents, tout en identifiant les conditions où une prédiction confiante peut rester fausse. C'est directement utile pour un intégrateur robotique : déployer un tel module sans ground truth disponible en opération reste aujourd'hui un frein majeur, et une mesure de fiabilité embarquée change l'équation. Ce travail s'inscrit dans une lacune documentée de la littérature : les corpus affectifs (combinant corps, visage, voix, texte) et les benchmarks de reconnaissance d'action squelettique étiquètent l'action réalisée, pas le message transmis, ce qui les rend inutilisables pour la communication HRI (human-robot interaction) à distance. Le choix de la pose 2D plutôt que 3D reflète une contrainte de déploiement réaliste : pas de LiDAR, pas de caméra de profondeur. Côté concurrence, les travaux sur VLA (Vision-Language-Action) type Pi-0 ou GR00T N2 de NVIDIA visent des interactions à courte portée en environnement structuré ; ce dataset et ce cadre de fiabilité adressent le segment complémentaire, non-verbal et longue distance. Les prochaines étapes naturelles incluent l'extension à davantage d'intents, l'évaluation sur robot physique en extérieur, et potentiellement une intégration dans des pipelines de perception multi-modale pour robots d'intervention.

RecherchePaper
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
448arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
449arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source
SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques
450arXiv cs.RO 

SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques

Des chercheurs ont publié SynthICL (arXiv:2606.08154), un framework d'apprentissage par imitation en contexte (ICIL) capable d'entraîner une politique robotique entièrement à partir de données synthétiques RGB. Le principe de l'ICIL consiste à conditionner une politique pré-entraînée sur quelques démonstrations fournies au moment du test, sans réentraînement, à l'image du prompting en contexte des grands modèles de langage. SynthICL construit un pipeline de génération de données pour produire des jeux d'entraînement ICIL haute fidélité, puis entraîne un transformer basé sur le flow-matching sur ce corpus. Le modèle intègre également un module de prédiction de sous-objectifs visuels (subgoal prediction), qui génère des images intermédiaires cibles pour ancrer visuellement le contrôle. Évalué sur 16 tâches de manipulation inédites en environnement réel, SynthICL atteint un taux de succès moyen de 79 % avec une seule démonstration fournie à l'inférence, surpassant les méthodes comparables. Le résultat le plus significatif n'est pas tant le score brut que ce qu'il ne requiert pas : ni capteur de profondeur, ni calibration précise de caméra, ni données d'entraînement collectées en conditions réelles. Ces trois contraintes constituent des frictions majeures dans le déploiement de politiques robotiques généralisables, en particulier pour les intégrateurs industriels qui opèrent sur des lignes hétérogènes. Un taux de transfert sim-to-real de 79 % sur des tâches non vues, avec une seule démonstration, commence à réduire sérieusement le fossé entre preuve de concept et déploiement opérationnel, même si les 16 tâches testées restent des manipulations relativement contraintes et que les conditions de tournage des vidéos de démonstration ne sont pas détaillées dans l'abstract. Le champ de l'ICIL robotique s'est structuré en parallèle de l'essor des VLA (Vision-Language-Action models). Des approches comme Octo (UC Berkeley), RT-2 (Google DeepMind) ou pi-zero de Physical Intelligence explorent des paradigmes comparables de généralisation multi-tâches, mais s'appuient en grande partie sur des données réelles coûteuses à collecter. La dépendance croissante aux simulateurs physiques (IsaacSim, Genesis, MuJoCo) pour générer des données d'entraînement est une tendance de fond que SynthICL illustre directement. Le projet dispose d'une page dédiée (synth-icl.github.io) ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné à ce stade, ce qui en fait pour l'instant une contribution académique solide plutôt qu'un produit annoncé.

RechercheActu
1 source