Aller au contenu principal

Dossier arXiv cs.RO — page 9

1981 articles · page 9 sur 40

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée
401arXiv cs.RO IA physiqueOpinion

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée

Une équipe associée à JD Cloud publie DataLadder (arXiv:2606.16776, juin 2026), un pipeline de conversion bidirectionnel entre robots réels, simulation et démonstrations humaines, conçu pour scaler la génération de données d'entraînement et l'évaluation de politiques robotiques généralistes. L'outil repose sur deux flux complémentaires via le simulateur JoySim. Le premier, Robot vers Simulation vers Human, reconstruit des tâches réelles de rangement sur table en jumeaux numériques calibrés, puis mobilise des retours humains pour affiner la naturalité des trajectoires simulées, permettant une évaluation reproductible sans mobiliser de robot physique en continu. Le second, Human vers Simulation vers Robot, projette des démonstrations humaines filmées en vue égocentrique dans JoySim, les confronte aux contraintes physiques du robot cible, et en extrait trajectoires, annotations et observations visuelles directement utilisables en entraînement. Les modules de reconstruction, rendu et augmentation de réalisme sont exposés en services cloud sur JD Cloud. Ce travail adresse une asymétrie bien documentée : les données issues de robots réels restent la source la plus fiable, mais leur collecte est lente et coûteuse, tandis que la simulation seule souffre du sim-to-real gap. DataLadder introduit un filtre de cohérence physique dans la boucle de conversion human-to-robot, ce qui dépasse les approches de retargeting naïves. Pour les équipes développant des architectures VLA (vision-language-action), cette infrastructure pourrait réduire significativement la dépendance aux démos téléopérées, dont le coût est souvent estimé à plusieurs milliers de dollars par heure de collecte. L'accessibilité via API cloud simplifie également le déploiement pour des équipes sans cluster de simulation dédié. DataLadder s'inscrit dans la course au "data flywheel" pour robots généralistes, lancée par RT-2 (Google DeepMind, 2023) et accélérée par des politiques comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). JD.com, conglomérat e-commerce chinois opérant une large flotte logistique autonome, a un intérêt direct à industrialiser cette chaîne pour ses propres lignes de tri et de picking. Aucun benchmark comparatif avec les simulateurs concurrents Isaac Lab (NVIDIA) ou MuJoCo Playground (DeepMind) n'est fourni dans ce preprint, ce qui rend les affirmations de performance difficiles à évaluer pour l'instant. La prochaine étape attendue serait une validation quantitative sur des benchmarks standardisés de manipulation comme LIBERO ou MetaWorld.

1 source
IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement
402arXiv cs.RO 

IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement

Les modèles Vision-Language-Action (VLA) souffrent d'un défaut structurel bien documenté : en aplatissant les patches d'image en une séquence 1D de tokens, ils perdent les repères spatiaux 2D nécessaires à la manipulation précise d'objets. Des chercheurs ont publié sur arXiv (référence 2601.16207v2) IVRA, une méthode d'inférence légère et sans réentraînement qui corrige ce problème en exploitant des signaux d'affinité déjà présents dans l'encodeur visuel natif du modèle. Ces signaux sont injectés sélectivement dans une couche du modèle de langage où résident les caractéristiques au niveau des instances, réalignant les interactions entre tokens visuels et préservant mieux la structure géométrique sans modifier aucun paramètre. Appliqué à trois architectures distinctes, LLaRA, OpenVLA et FLOWER, IVRA a été évalué sur les benchmarks VIMA (manipulation 2D) et LIBERO (manipulation 3D), ainsi que sur des tâches en environnement physique réel. Sur VIMA en régime de faibles données, il améliore le taux de succès moyen de +4,2 % par rapport à la baseline LLaRA. Sur LIBERO 3D, les gains restent cohérents même proches de la saturation (96,3 % vers 97,1 %). L'intérêt industriel est direct : un intégrateur qui a déjà déployé un VLA peut appliquer IVRA à l'inférence sans réentraînement, sans capteur supplémentaire, sans encodeur externe. C'est un avantage immédiat en time-to-value pour des systèmes en production. Le fait que la méthode fonctionne même à 96,3 % de baseline suggère qu'elle améliore la précision géométrique locale plutôt que la compréhension globale de scène, précisément le point de défaillance des VLA sur des tâches de manipulation fine (saisie d'objets proches, tri par forme, assemblage). Pour la recherche, IVRA valide l'hypothèse que les encodeurs visuels embarqués contiennent des informations spatiales latentes exploitables sans supervision supplémentaire, une direction "training-free adapter" qui mérite davantage d'exploration. La perte de structure spatiale dans les VLA est connue depuis les premières publications sur RT-2 (Google DeepMind, 2023) et OpenVLA (Berkeley/Stanford, 2024). Les réponses habituelles consistent à modifier l'architecture ou à ajouter des flux de données supplémentaires (depth, point clouds), augmentant la complexité de déploiement. Physical Intelligence avec pi-0 et NVIDIA avec GR00T N2 misent sur des architectures propriétaires plus lourdes ; IVRA propose une correction orthogonale applicable sur des modèles ouverts, en compétition directe avec les méthodes de spatial token resampling et d'attention guidée comme RoboFlamingo. L'étape suivante logique serait une validation sur des benchmarks plus exigeants (RLBench, BridgeData v2) et sur des manipulateurs industriels à 6 DOF ou plus en conditions réelles, là où la précision spatiale est critique.

IA physiqueOpinion
1 source
λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes
403arXiv cs.RO 

λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes

Une équipe de chercheurs publie sur arXiv (arXiv:2606.16022, juin 2026) une nouvelle méthode d'analyse de sécurité pour robots humanoïdes à haute dimension, baptisée λ-Reachability. L'approche reformule les équations de Bellman Hamilton-Jacobi, qui permettent de délimiter le "safe set" d'un système dynamique, en remplaçant les mises à jour TD à un seul pas par un estimateur stochastique multi-pas à horizon géométrique. Un paramètre λ contrôle l'interpolation entre cohérence locale et objectifs sur horizon long, par analogie avec TD(λ) en apprentissage par renforcement. Un second paramètre δ < 1 garantit formellement que la mise à jour est une contraction, permettant l'apprentissage par différence temporelle avec convergence prouvée. Les auteurs appliquent la méthode à des humanoïdes en simulation et en conditions réelles, sur des tâches d'équilibre et d'évitement de collision, avec une amélioration significative de la classification des frontières du safe set et de l'estimation des marges de sécurité par rapport aux baselines TD à un seul pas. Le verrou que cherche à lever ce travail est central pour la commercialisation des humanoïdes : garantir formellement la sécurité d'un système à plusieurs dizaines de degrés de liberté opérant près d'humains. L'analyse Hamilton-Jacobi est mathématiquement rigoureuse mais ne passait pas à l'échelle au-delà de six ou sept dimensions. L'estimateur multi-pas à horizon géométrique améliore l'estimation de valeur de sécurité sans exploser la variance, un compromis que les méthodes à un seul pas gèrent mal sur des espaces d'état élevés. L'inclusion d'expériences sur vrai robot renforce la crédibilité des résultats, même si la nature précise du robot et les conditions expérimentales exactes ne sont pas détaillées dans le résumé du preprint. L'analyse de reachability Hamilton-Jacobi est un domaine actif depuis les années 1990, mais les toolboxes classiques (helperOC, BEACLS) butaient sur la malédiction de la dimensionnalité. Les méthodes concurrentes incluent les Control Barrier Functions (CBF), très utilisées dans les laboratoires de CMU, MIT et Berkeley, et le safe RL à contraintes Lagrangiennes. La connexion avec TD(λ) positionne ce travail à l'intersection du contrôle optimal et du deep RL, un territoire que convoitent Figure, 1X, Agility Robotics et Unitree pour obtenir des garanties de sécurité certifiables en déploiement industriel. Il s'agit d'un preprint académique sans partenariat industriel annoncé : les équipes robotique qui évaluent des approches de safety pour homologation auront intérêt à surveiller la suite de ces travaux.

UELes laboratoires européens comme le CEA-List et l'INRIA, actifs sur la vérification formelle des systèmes robotiques, pourraient intégrer cette approche à horizon géométrique dans leurs travaux de certification sécurité pour humanoïdes.

RecherchePaper
1 source
La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif
404arXiv cs.RO 

La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif

Une équipe de chercheurs publie sur arXiv (identifiant 2606.15064) un résultat négatif sur la curation de démonstrations pour l'apprentissage par imitation en robotique. L'hypothèse testée était la suivante : segmenter chaque trajectoire en phases temporelles, appliquer à chaque phase la métrique de qualité localement la plus informative, puis agréger les scores pour sélectionner les meilleures démonstrations. Les expériences portent sur trois tâches de saisie-dépose ("pick-and-place") de la suite de benchmarks LIBERO, avec un défaut structurel contrôlé dit "early-release" (relâchement prématuré de l'objet saisi), évalué sur cinq seeds aléatoires par condition. Résultat sans ambiguïté : la curation par phase n'est jamais la meilleure stratégie, et s'avère la pire sur deux tâches sur trois. Les chiffres sont nets : tâche 1, 86,0 % de taux de succès pour la méthode phasée contre 92,0 % pour la métrique globale unique ; tâche 3, 22,7 % contre 48,0 % pour l'application uniforme de la même métrique. Le mécanisme d'échec est tracé précisément : lorsque le signal de défaut est concentré dans une seule phase, l'agrégation des scores sur l'ensemble des phases dilue ce signal avec des valeurs non informatives issues des segments sans défaut, dégradant la sélection du sous-ensemble de démonstrations. Second problème structurel : les métriques gagnantes par phase ne se transfèrent pas d'une tâche à l'autre, aucune phase ne partageant la même métrique optimale entre deux tâches distinctes. La méthode est donc non réutilisable et exige une re-dérivation coûteuse pour chaque nouveau contexte. Pour les praticiens du "behavior cloning" et de l'apprentissage par imitation, ce résultat recadre une intuition répandue : la structure temporelle des démonstrations ne justifie pas une curation localisée quand le défaut est ponctuel. Ce travail s'inscrit dans la problématique croissante de la qualité des données en imitation learning. Des travaux antérieurs avaient établi qu'une métrique globale unique peut être le meilleur détecteur d'un défaut tout en étant le pire curateur de la politique résultante, tension qui avait motivé l'hypothèse phasée. La conclusion pratique est inverse : identifier une seule métrique informative sur le défaut et l'appliquer uniformément surpasse systématiquement la décomposition par phase. Le pipeline complet, les implémentations de métriques et les résultats par seed sont publiés en open source. Le sujet gagne en importance industrielle à mesure que les pipelines VLA (vision-language-action) et les systèmes de collecte téléopérée à grande échelle, notamment pour les robots humanoïdes en cours de déploiement chez Figure, 1X ou Apptronik, font du filtrage de démonstrations un levier critique pour la qualité des politiques apprises.

RecherchePaper
1 source
FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes
405arXiv cs.RO 

FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes

FlashNav, un framework d'entraînement de politiques de navigation robotique présenté dans une préprint arXiv (2606.15846) publiée en juin 2026, annonce un entraînement en moins de 20 secondes sur GPU pour des politiques de navigation déployables sur robots réels. Les auteurs ont testé le système sur deux plateformes matérielles : le robot à roues TurtleBot2 et le robot quadrupède Unitree Go2. Sur une carte RTX 5090, FlashNav atteint un taux de succès de 100 % en dessous de 20 secondes, et reste dans les dizaines de secondes sur des GPU de bureau grand public. L'architecture repose sur un simulateur bitmap batché et un pipeline d'entraînement entièrement résidant sur GPU, piloté par un algorithme baptisé FastDSAC, qui génère en parallèle un volume massif de transitions de navigation sans jamais quitter la mémoire GPU. La clé du gain de vitesse est architecturale : FlashNav aligne strictement la simulation sur le MDP (processus de décision markovien) de navigation, en conservant uniquement les composantes utiles à l'apprentissage, géométrie d'occupation, capteurs de distance (range sensing), contrôle conditionné par objectif, dynamique de mouvement, gestion des collisions, terminaison et réinitialisation, tout en éliminant le rendu graphique et les détails physiques haute-fidélité habituellement présents dans les simulateurs. Ce choix réduit drastiquement le coût computationnel sans sacrifier la transférabilité : les politiques apprises se transfèrent sur robots physiques, en environnement intérieur statique et dynamique. Pour les intégrateurs robotiques, c'est un signal fort : le sim-to-real gap reste gérable même avec une simulation volontairement appauvrie, à condition que le MDP soit correctement modélisé. Le deep reinforcement learning pour la navigation autonome souffrait jusqu'ici d'un frein majeur à l'adoption industrielle : des cycles d'entraînement de plusieurs heures, voire de plusieurs jours, incompatibles avec l'itération rapide en production. FlashNav attaque directement ce verrou. Sur le plan concurrentiel, il se positionne face aux approches de navigation basées sur des cartes (SLAM classique) et aux VLA (Vision-Language-Action models) qui nécessitent des ressources de calcul bien supérieures. La prochaine étape naturelle sera de valider le passage à l'échelle dans des environnements dynamiques plus complexes et sur des flottes de robots, ce que la préprint ne couvre pas encore.

RecherchePaper
1 source
PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique
406arXiv cs.RO 

PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique

Des chercheurs ont publié sur arXiv (arXiv:2606.13886, juin 2026) PhysVLA, un module d'inférence plug-and-play conçu pour corriger en temps réel les actions générées par n'importe quel modèle VLA (Vision-Language-Action) existant, sans rétro-entraînement ni accès aux poids. Le système intercepte les commandes produites par le backbone VLA et applique deux couches de correction successives : une machine à états finis sensible à la phase de la tâche (approche, saisie, transport, dépôt), puis un filtre sélectif basé sur les équations d'Euler-Lagrange qui ne s'active que lorsqu'un oracle de dynamique détecte une incohérence cinodynamique. Le surcoût de calcul est inférieur à 1 ms par pas de contrôle. Évalué sur quatre architectures distinctes (OpenVLA, OpenVLA-OFT, Force-VLA, Generalist-VLA) sur le benchmark LIBERO-Spatial avec un bras Franka Panda 7-DOF, PhysVLA améliore le taux de succès absolu jusqu'à 17 points, la stabilité jusqu'à 19 points, et l'efficacité de trajectoire jusqu'à 15 %, sans régression sur aucune tâche. Sur un sweep cross-simulateur (Robosuite Lift), la robustesse au jerk de trajectoire progresse d'un facteur 10. La validation sur un bras physique Agilex Piper (tâche pick-and-place réelle) confirme le transfert sim-to-real sans rétro-entraînement, avec une amélioration du taux de succès allant jusqu'à 50 %. L'intérêt industriel de cette approche tient à son caractère composable et backbone-agnostique. Les VLA actuels apprennent à imiter des démonstrations comportementales sans contraindre explicitement la physique des corps rigides ni les contacts, ce que les chercheurs nomment un "physics gap". Les correcteurs temporels classiques (temporal smoothing) masquent le problème sans le résoudre, et introduisent leurs propres échecs. PhysVLA propose une solution d'intégration légère pour les équipes qui déploient des VLA existants en production : pas de réentraînement, pas d'accès aux poids, un wrapper autour du modèle gelé. Pour un intégrateur ou un OEM, cela signifie potentiellement améliorer des systèmes déjà en ligne sans toucher aux pipelines de formation, ce qui réduit le risque et le coût de mise à niveau. PhysVLA s'inscrit dans la montée en puissance des approches de contrôle physique fondé pour les VLA généralistes, une problématique que des laboratoires comme Physical Intelligence (avec π0), Stanford (OpenVLA) ou Google DeepMind travaillent activement. Le papier positionne explicitement son framework comme complémentaire à ces backbones plutôt que concurrent. Il reste à ce stade un prototype de recherche validé en laboratoire sur deux plateformes matérielles (Franka Panda et Agilex Piper) ; aucun déploiement industriel ni partenariat commercial n'est annoncé. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus larges (RoboMimic, DROID) et sur des robots à plus haute cinématique, notamment des humanoïdes où la gestion des contacts et de la dynamique des corps rigides est critique.

UELes équipes R&D et intégrateurs européens déployant des VLA en production peuvent directement tester ce wrapper plug-and-play sans rétro-entraînement, mais aucun acteur ou déploiement européen n'est impliqué dans ce travail de recherche.

RechercheOpinion
1 source
Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA
407arXiv cs.RO 

Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2606.14375) une nouvelle méthode appelée Elastic Queries Reinforcement Learning (EQRL), conçue pour rendre l'exécution des modèles VLA (Vision-Language-Action) adaptative plutôt que rigide. Dans les systèmes actuels, ces modèles qui pilotent la manipulation robotique s'exécutent selon des plannings d'inférence fixes : même fréquence de requête, même budget de débruitage, même longueur de chunk d'actions, quelle que soit la complexité de l'état courant. EQRL introduit un adaptateur léger qui sélectionne dynamiquement, pour chaque requête, trois paramètres : l'entrée latente, le budget de débruitage, et la longueur du chunk à exécuter en boucle ouverte. La méthode entraîne un critique sur l'espace joint et dérive un signal de difficulté d'état via le désaccord entre un ensemble de critiques (critic ensemble disagreement), guidant le calcul vers les états difficiles sans modifier les poids du modèle VLA sous-jacent. Sur bancs de simulation et en manipulation sur robot réel, les auteurs rapportent une réduction du coût d'inférence amorti avec un taux de succès préservé ou amélioré. L'enjeu concret concerne directement le coût de déploiement des politiques fondées sur des modèles de diffusion, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Ces architectures souffrent d'un goulot d'étranglement identique : le nombre d'évaluations de fonction (NFE) du processus de débruitage est fixe, qu'on soit sur une prise de contact incertaine ou un simple transit en espace libre. EQRL démontre qu'il est possible d'allouer dynamiquement ce budget de calcul selon la difficulté estimée, sans retraining du modèle de base. Pour un intégrateur ou un COO, la promesse est directe : même capacité de manipulation, moins de GPU sur les états faciles, meilleure scalabilité sur flotte. Le travail s'inscrit dans une course à l'efficacité d'inférence pour les VLA, accélérée par la publication de Pi-0 fin 2024 et les modèles de diffusion successifs (Octo, OpenVLA, GR00T N2, Helix de Figure AI). Des approches parallèles comme FAST ou DiT-Policy attaquent le même problème sous d'autres angles : compression de trajectoire, distillation, ou batch adaptatif. EQRL se distingue en opérant au-dessus du modèle sans le modifier et en intégrant un signal de difficulté appris par RL. Les auteurs annoncent des résultats positifs en simulation et sur robot réel, mais les métriques précises et les conditions expérimentales restent à examiner dans le corps du papier : la validité des gains annoncés dépendra de la représentativité des benchmarks choisis.

UELes équipes R&D européennes développant ou déployant des politiques de manipulation sur modèles de diffusion (VLA) pourraient appliquer EQRL pour réduire leurs coûts GPU d'inférence sans retraining, mais aucun acteur français ou européen n'est directement impliqué.

RechercheOpinion
1 source
EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots
408arXiv cs.RO 

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

Une équipe de chercheurs a publié EmbodiSteer, un cadre d'inférence sans réentraînement conçu pour déployer des politiques visuomotrices généralistes sur des robots arbitraires sans adaptation préalable. Le problème qu'il résout est structurel : l'apprentissage par imitation à grande échelle (imitation learning) s'appuie aujourd'hui sur des données hétérogènes collectées sur des robots différents, ce qui pousse les architectures modernes à raisonner dans l'espace cartésien de l'effecteur terminal, un espace agnostique au corps. Cette abstraction est utile pour la généralisation, mais elle rend les politiques aveugles aux contraintes cinématiques propres à chaque robot, notamment la détection de collision avec le propre corps de la machine. EmbodiSteer corrige ce défaut au moment de l'inférence : il projette chaque pas de débruitagede diffusion depuis l'espace cartésien vers l'espace articulaire du robot cible via la cinématique directe et des mises à jour jacobiennes, puis applique un guidage de trajectoire tenant compte des collisions corps entier avant de rebasculer en cartésien pour l'étape suivante. Sur neuf robots simulés, le taux de collision chute de 46,1 % et le taux de succès augmente de 28,5 % par rapport à une exécution purement cartésienne. Sur deux robots physiques dans des scénarios très contraints, les gains montent respectivement à 90,0 % et 36,7 %. L'intérêt industriel de ce résultat réside dans ce qu'il évite : un réentraînement complet du modèle à chaque changement de plateforme matérielle. Pour un intégrateur qui déploie une politique généraliste (type pi-0, GR00T N2, ou toute VLA diffusion-based) sur plusieurs variantes d'un bras industriel, EmbodiSteer représente une couche d'adaptation plug-and-play à l'inférence, sans toucher aux poids. C'est une réponse directe au "sim-to-real gap" qui frappe les politiques cartésiennes lorsqu'elles rencontrent des obstacles inattendus dans le référentiel articulaire du robot réel. La méthode valide aussi une hypothèse importante : les politiques diffusion en espace cartésien ne sont pas intrinsèquement fragiles, elles manquent simplement d'un pont vers la géométrie du corps déployé, un pont que l'on peut construire sans données supplémentaires. EmbodiSteer s'inscrit dans un mouvement plus large vers les politiques universelles (cross-embodiment), dont les représentants notables incluent pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les travaux du Columbia Robotics Lab sur les transformers multi-robot. La plupart de ces architectures partagent le même talon d'Achille cartésien qu'EmbodiSteer cible. Le papier, déposé sur arXiv (2606.12965) en juin 2026, ne mentionne pas de partenaire industriel ni de calendrier de commercialisation : il s'agit d'une contribution académique, sans produit shipé ni déploiement annoncé. Le code et la page projet sont publics, ce qui facilite l'expérimentation par des tiers. La prochaine étape logique serait de tester le cadre sur des robots à configuration non standard, comme des bras à redondance élevée ou des humanoïdes complets, où le guidage jacobien pose des défis d'ambiguïté cinématique plus sérieux.

UELes intégrateurs robotiques européens déployant des politiques VLA sur plusieurs plateformes matérielles pourraient adopter EmbodiSteer comme couche d'adaptation plug-and-play, mais aucun acteur FR/EU n'est impliqué dans ces travaux.

💬 Une couche d'adaptation à l'inférence sans réentraînement, ça semble anodin, mais c'est exactement ce qui manque quand tu veux déployer une politique généraliste sur plusieurs bots différents sans exploser ton budget GPU. Les chiffres de simulation, je les prends avec des pincettes, mais 90% de réduction de collisions sur robot physique en conditions contraintes, c'est pas du flan. Le code est public, donc si t'es intégrateur robotique, t'as déjà ta prochaine expérimentation du vendredi.

IA physiqueOpinion
1 source
WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique
409arXiv cs.RO 

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.13672) WEAVER (World Estimation Across Views for Embodied Reasoning), une architecture de modèle de monde (world model, WM) dédiée à la manipulation robotique. Le système, multi-vue, est entraîné à prédire des représentations latentes futures et des valeurs de récompense via une perte de flow-matching. Sur robot physique, WEAVER atteint une corrélation ρ = 0,870 entre trajectoires simulées et taux de succès réel en évaluation de politique (policy evaluation). Appliqué à l'amélioration de politique (policy improvement), il produit un gain de 38 % de taux de succès réel au-dessus du modèle de fondation robotique π₀.₅ de Physical Intelligence. En planification à l'inférence (test-time planning), il ajoute 14 % de succès supplémentaires, avec une vitesse de génération 5 à 10 fois supérieure aux WMs précédents. Le code, les modèles et les vidéos sont publiquement accessibles. Les modèles de monde représentent un levier structurant pour la robotique : évaluer ou améliorer des politiques de contrôle, planifier à l'exécution, sans multiplier les interactions coûteuses en environnement réel. Le verrou technique est triple, fidélité (les trajectoires simulées doivent refléter la réalité), cohérence sur longue horizon (les simulations ne doivent pas diverger dans le temps), et efficacité computationnelle. WEAVER satisfait simultanément ces trois critères là où les architectures précédentes échouaient généralement sur au moins l'un d'eux, en particulier sur la cohérence à long horizon pour des tâches de manipulation dynamique complexes. Le gain de 38 % sur π₀.₅ est particulièrement significatif : il démontre qu'un WM peut améliorer un modèle de fondation déjà performant sans collecte de données additionnelles en conditions réelles, réduisant ainsi les coûts de déploiement pour les intégrateurs industriels. Ce travail s'inscrit dans une compétition accélérée autour des world models pour la robotique embodied. Physical Intelligence avec π₀ et π₀.₅, Google DeepMind avec ses variantes RT et RoboDreamer, ainsi que des équipes académiques de Berkeley, CMU et Stanford ont chacun proposé des approches partielles. WEAVER se positionne comme une synthèse architecturale, avec un soin particulier apporté à la gestion de la mémoire et au traitement multi-vue. Aucun partenariat industriel ni calendrier commercial n'est annoncé à ce stade, et la validation reste circonscrite à des environnements de laboratoire contrôlés. La question centrale du sim-to-real gap à l'échelle, dans des environnements industriels non structurés, reste entièrement ouverte.

💬 38 % de gain sur π₀.₅ sans ajouter une seule donnée en conditions réelles, c'est du concret. Ce qui est rare, c'est qu'ils résolvent les trois verrous en même temps : fidélité, cohérence à long horizon, vitesse de génération. Le sim-to-real à l'échelle industrielle reste entier, mais pour l'instant c'est l'architecture la plus sérieuse que j'ai vue sur le sujet.

IA physiqueOpinion
1 source
FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles
410arXiv cs.RO 

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.13102) FTP-1, une politique tactile fondatrice généraliste préentraînée sur environ 3 000 heures de données de manipulation tactile agrégées depuis 26 sources distinctes, couvrant des démonstrations humaines et robotiques sur 21 capteurs différents. L'architecture repose sur des encodeurs hétérogènes qui projettent des signaux tactiles de natures variées -- images, tableaux de valeurs, états discrets -- en tokens latents unifiés et conscients de la morphologie, traités ensuite par un Transformer tactile partagé. Lors des expériences de fine-tuning sur 5 configurations matérielles distinctes, FTP-1 améliore les performances en manipulation riche en contacts de +17,2 % sur les capteurs vus à l'entraînement, et atteint un gain de +31 % sur deux configurations de capteurs jamais rencontrées lors du préentraînement. Ces chiffres sont issus d'un preprint académique et n'ont pas encore été soumis à évaluation par les pairs. Le résultat clé ici n'est pas la performance absolue mais la généralisation hors distribution. Depuis plusieurs années, les politiques tactiles restent prisonnières de leur hardware : un modèle entraîné sur un capteur GelSight ne transfère pas sur un capteur BioTac ou un réseau de pression matriciel. FTP-1 casse cette contrainte en proposant un point de départ partagé au niveau modèle, analogue à ce que les grands modèles de vision-langage-action (VLA) comme Pi-0 ou OpenVLA ont fait pour la manipulation visuelle. Pour un intégrateur industriel ou un laboratoire robotique, cela signifie potentiellement réduire le coût de collecte de données par capteur cible, en capitalisant sur un préentraînement généraliste plutôt que de repartir de zéro à chaque changement de gripper ou de skin tactile. Le chantier des politiques tactiles généralisables reste neuf. Les approches précédentes, comme celles développées autour des capteurs DIGIT (Meta) ou des grippers instrumentés de Stanford et MIT, sont restées cantonnées à des benchmarks monosenseurs. FTP-1 s'inscrit dans la tendance plus large des foundation models appliqués à la robotique physique, portée notamment par Physical Intelligence (Pi-0), Google DeepMind (RoboVLMs) et Figure AI. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; les poids préentraînés, les données et le code d'entraînement sont mis à disposition publiquement sur le site du projet, ce qui pourrait accélérer l'adoption par la communauté académique et les startups robotiques cherchant une base tactile mutualisée.

UELes laboratoires et startups européens travaillant sur la manipulation en contact peuvent exploiter directement les poids, données et code open-source de FTP-1 pour démarrer le développement de politiques tactiles sur leurs propres capteurs sans collecter de données from scratch.

💬 Le +31% sur les capteurs jamais vus pendant l'entraînement, c'est ça le vrai chiffre à retenir. Depuis des années, chaque politique tactile restait coincée sur son hardware, impossible de capitaliser d'un gripper à l'autre sans tout recommencer de zéro. Là on a enfin une base commune open-source pour le toucher, et ça c'est du concret.

IA physiqueOpinion
1 source
Fourier Features permet aux agents d'apprendre des politiques haute précision par apprentissage par imitation
411arXiv cs.RO 

Fourier Features permet aux agents d'apprendre des politiques haute précision par apprentissage par imitation

Un article soumis sur arXiv (2606.12334, juin 2026) présente une méthode simple mais efficace pour améliorer la précision des politiques de manipulation robotique par apprentissage par imitation : projeter les nuages de points 3D dans un espace de Fourier haute dimension avant de les passer à l'encodeur neuronal. L'idée part d'un diagnostic connu en apprentissage automatique : les réseaux de neurones souffrent d'un biais spectral qui les pousse à privilégier les fonctions basse fréquence, ce qui pénalise les architectures conditionnées sur des coordonnées cartésiennes lentes et peu discriminantes. En remplaçant ces coordonnées brutes par leurs projections sinusoïdales haute fréquence, les chercheurs donnent à l'encodeur un accès direct aux détails géométriques fins, là où se jouent les contraintes d'assemblage ou d'insertion. Les expériences couvrent les benchmarks RoboCasa et ManiSkill3, ainsi qu'un banc de test en robotique réelle, et montrent des gains consistants sur des tâches de manipulation à haute précision. L'apport principal n'est pas tant algorithmique que diagnostique : les politiques basées sur nuages de points surpassent théoriquement les approches RGB-only (qui souffrent d'ambiguïté de profondeur et de problèmes d'échelle en perspective), mais leurs performances restent fortement dépendantes de la tâche. Ce papier identifie le biais spectral comme mécanisme explicatif de cet écart et propose un correctif robuste aux hyperparamètres, agnostique à l'architecture d'encodeur. Pour les équipes qui développent des politiques VLA (Vision-Language-Action) ou des contrôleurs d'imitation pour manipulation fine (vissage, assemblage, tri de pièces), cette couche de Fourier s'intègre sans refonte majeure du pipeline. C'est le type de contribution "multiplicateur silencieux" qui peut débloquer des cas d'usage industriels où le gap sim-to-real reste un obstacle pratique. Ce travail s'inscrit dans un contexte de recherche actif sur les représentations 3D pour la robotique apprenante, en concurrence avec des approches comme les encodeurs PointNet et PointTransformer, les champs de distances signées ou les représentations implicites neuronales. Les benchmarks RoboCasa (Berkeley) et ManiSkill3 (UCSD/Carnegie Mellon) sont devenus des standards d'évaluation pour la manipulation simulée, bien que le vrai test reste le transfert sim-to-real en conditions industrielles non structurées. Les auteurs mettent à disposition le code source et des vidéos sur fourier-il.github.io, ce qui facilite la reproduction et l'adoption. La prochaine étape naturelle serait d'évaluer la technique sur des manipulateurs industriels en production et de tester sa compatibilité avec les architectures Diffusion Policy et ACT, actuellement dominantes dans le domaine.

RechercheOpinion
1 source
DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé
412arXiv cs.RO 

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Une équipe du groupe Intuitive Robots publie DAM-VLA (Decoupled Asynchronous Multimodal Vision-Language-Action), un modèle VLA déposé sur arXiv le 11 juin 2026 (2606.12105) qui remet en cause le paradigme d'horloge synchrone des architectures VLA actuelles. Le problème identifié est structurel : les modèles vision-langage-action héritent d'un préentraînement où toutes les modalités partagent la même fréquence de traitement. Or en manipulation physique, les capteurs proprioceptifs opèrent à plusieurs centaines de hertz, la vision évolue bien plus lentement, et les instructions langagières restent constantes sur l'ensemble d'un épisode. Oversampler la vision et sous-échantillonner la proprioception plafonne la qualité du contrôle. DAM-VLA maintient des tampons latents par modalité, chacun rafraîchi à la fréquence de son propre capteur et consulté en continu par la tête d'action via gated cross-attention, sans modifier le backbone préentraîné. Sur sept tâches de manipulation en contact réel (contact-rich), le modèle atteint 95,2 % de succès contre 40,95 % pour la meilleure baseline synchrone, tout en assurant un contrôle fluide à 100 Hz. Ce doublement du taux de succès sur des tâches contact-rich est un résultat conséquent. Il suggère que le sim-to-real gap dans les VLA est aussi un problème de temporalité : rater des transitions haptiques critiques lors d'une insertion ou d'un vissage dégrade le contrôle plus que la généralisation visuelle. Pour un intégrateur industriel, 100 Hz en sortie d'action passe le seuil minimal pour des tâches de précision en cellule automatisée. L'architecture ne modifiant pas le backbone, elle préserve la réutilisabilité des poids préentraînés, ce qui réduit le coût d'adoption pour les équipes déjà investies sur des bases VLA existantes. Les VLA déployés en production récente, Pi-0 de Physical Intelligence, OpenVLA et Octo, ainsi que les approches commerciales de Figure AI (Figure 03) ou NVIDIA (GR00T N2), opèrent sur le paradigme synchrone. DAM-VLA propose une troisième voie entre la boucle unifiée et le découpage hiérarchique dual-system. Quelques réserves s'imposent : il s'agit d'un preprint sans revue par les pairs confirmée, les sept tâches évaluées restent de portée laboratoire, et aucun déploiement industriel ni partenariat commercial n'est annoncé. Les étapes critiques, validation sur manipulateurs bi-bras et intégration de capteurs force-couple haute fréquence comme modalité principale, restent à démontrer hors contexte académique.

IA physiqueOpinion
1 source
PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper
413arXiv cs.RO 

PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12112v1) les spécifications de PEBRE, un module matériel et logiciel open-source conçu pour augmenter les capacités du robot Pepper. Le module intègre une carte Jetson Orin Nano de NVIDIA pour le calcul embarqué, une caméra RGB Logitech BRIO 4K, une caméra de profondeur Intel RealSense D435i pour la perception 3D, un microphone USB Samson UB1 et un micro directionnel RØDE VideoMicro II pour la capture audio. L'ensemble forme un add-on modulaire, conçu pour s'intégrer physiquement sur Pepper sans modifier son architecture d'origine. Les auteurs rapportent des améliorations mesurables en capacités de perception et en puissance de calcul, sans toutefois publier de benchmarks chiffrés comparatifs dans le résumé disponible. L'intérêt concret de PEBRE pour la communauté académique et les intégrateurs tient à une problématique bien réelle : Pepper approche ou dépasse sa durée de vie commerciale prévue, et SoftBank Robotics a progressivement réduit son support. Des dizaines de labos de recherche mondiaux disposent de plateformes Pepper dont la chaîne logicielle devient obsolète et dont le matériel interne (processeur Intel Atom, caméras grand-angle basiques) ne permet plus d'exécuter des modèles modernes de vision ou de traitement du langage en local. En proposant une solution open-hardware, les auteurs cherchent à mutualiser l'effort de mise à niveau, évitant à chaque labo de réinventer sa propre solution de retrofitting. C'est une approche pragmatique face à l'abandon progressif d'une plateforme encore présente dans de nombreux établissements. Pepper a été conçu à l'origine par Aldebaran Robotics, entreprise française rachetée par SoftBank en 2012, puis commercialisé à partir de 2014 comme robot d'accueil et d'interaction sociale. Malgré l'arrêt de sa production pour le marché grand public annoncé en 2021, Pepper reste présent dans plusieurs centaines de laboratoires et sites industriels en Europe et en Asie. Côté concurrence sur le segment des plateformes académiques humanoïdes légères, Pepper fait face à des alternatives comme le NAO (lui aussi Aldebaran/SoftBank), le Furhat ou des plateformes bras-et-torse comme Hello Robot Stretch. PEBRE ne repositionne pas Pepper dans la course aux humanoïdes mobiles de nouvelle génération, mais tente de lui donner une seconde vie utile dans des contextes de recherche appliquée en HRI (Human-Robot Interaction), là où le coût d'acquisition d'une nouvelle plateforme reste prohibitif.

UELes laboratoires européens équipés de robots Pepper, nombreux en France et en Europe, héritiers du rachat d'Aldebaran Robotics, peuvent bénéficier directement de ce module open-source pour prolonger la durée de vie de leurs plateformes et exécuter des modèles modernes de perception et de traitement du langage sans investissement dans une nouvelle plateforme.

RecherchePaper
1 source
DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?
414arXiv cs.RO 

DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?

Une équipe de chercheurs a publié en juin 2026 DIRECT (arXiv:2606.12402), un cadre de routage conçu pour allouer dynamiquement le calcul à l'inférence, ce que le milieu appelle test-time compute, dans les agents embarqués pilotés par des modèles de vision-langage (VLMs). Plutôt que d'appliquer uniformément plus de puissance de calcul à chaque requête, DIRECT utilise le contexte visuel et multimodal de la scène pour décider, prompt par prompt, combien de ressources mobiliser. Le système a été évalué sur deux benchmarks de référence, VLABench et RoboMME, puis validé sur un bras Franka physique dans une configuration DROID couvrant manipulation zero-shot et enchaînements de tâches longues. Le résultat clé : DIRECT égale ou dépasse un modèle plus puissant tout en réduisant la latence moyenne jusqu'à 65 %. L'apport scientifique dépasse l'optimisation des coûts. Les auteurs montrent que les trois grands axes de montée en puissance à l'inférence, profondeur de la chaîne de pensée (chain-of-thought), taille du modèle, et longueur de l'historique mémoire, ne sont pas interchangeables : chacun produit des gains qualitativement distincts selon le type de tâche. Cela contredit l'hypothèse implicite de nombreux travaux récents selon laquelle "plus de compute = meilleures performances" de façon uniforme. Pour un intégrateur ou un COO industriel, l'implication est directe : un routeur intelligent peut tenir les contraintes de latence des applications temps réel sans sacrifier les capacités de planification, rendant les VLMs plausibles hors des environnements lab. Ce travail s'inscrit dans une accélération marquée de l'usage des VLMs comme planificateurs de haut niveau pour la robotique, portée notamment par des modèles comme GPT-4o, Gemini 2.0 ou les architectures Vision-Language-Action (VLA) type pi0 de Physical Intelligence. Le setup DROID utilisé pour la validation physique est un environnement de manipulation à grande échelle devenu standard dans la recherche académique américaine. Côté concurrence, les approches alternatives, décodage spéculatif, distillation, sélection statique de modèle, n'exploitent pas le contexte de scène pour router dynamiquement. DIRECT ouvre la voie à des pipelines adaptatifs, mais reste à ce stade une contribution de recherche : aucun déploiement industriel ni partenariat industriel n'est annoncé.

IA physiqueOpinion
1 source
Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire
415arXiv cs.RO 

Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire

Une équipe de chercheurs présente un cadre neuro-symbolique de bout en bout conçu pour l'assemblage robotique multi-paires en environnements non structurés, publié sur arXiv (2606.10808). Le système fonctionne à partir d'une caméra RGB-D montée sur le bras (configuration eye-on-hand) et s'appuie sur un bras UR3 d'Universal Robots. Le pipeline traite chaque paire pièce-cible en générant un sous-graphe optimal via un grand modèle de langage (LLM), puis coordonne l'ensemble des sous-graphes en une séquence globale cohérente grâce à une étape de résolution topologique. Des arbres de comportement dynamiques intégrant des compétences atomiques pilotées par retour d'effort ferment la boucle d'exécution physique. Sur 100 scènes réelles évaluées hors ligne, le framework atteint 97 % d'exécutabilité globale, et le déploiement sur robot réel obtient un taux de succès de 90 % avec une tolérance de 0,5 mm sous forte interférence entre pièces. Ce résultat est notable parce qu'il adresse deux défauts symétriques qui bloquent l'industrialisation de la planification autonome d'assemblage. Les planificateurs classiques (recherche d'état, PDDl) explosent combinatoirement dès que le nombre de pièces augmente. Les approches purement neuronales ou LLM-only produisent des "hallucinations logiques" : séquences d'actions syntaxiquement valides mais physiquement incohérentes (conflits topologiques, collisions ignorées). Le framework proposé découple les deux niveaux : le LLM génère uniquement des actions basiques pour limiter les hallucinations, tandis qu'un discriminateur léger insère les actions de support pour les cas limites. La tolérance de 0,5 mm sous interférence forte est un indicateur concret de robustesse, même si les vidéos de démonstration disponibles ne couvrent pas l'ensemble des 100 configurations testées, ce qui limite la vérification indépendante des chiffres annoncés. Le problème de l'assemblage multi-paires est un verrou industriel identifié depuis les années 1990 dans la robotique manufacturière, avec des applications directes en électronique, aéronautique et assemblage de sous-systèmes automobiles. Les approches concurrentes actuelles incluent les planificateurs symboliques classiques (MoveIt, OpenRAVE), les politiques d'imitation learning (ACT, Diffusion Policy) et les Visual Language Action models (pi-0 de Physical Intelligence, RoboFlamingo). Ce framework se positionne entre la planification symbolique vérifiable et l'inférence neuronale généraliste. Les auteurs soulignent que l'architecture est extensible à faible coût par ajout de nouvelles paires ou actions. Les prochaines étapes logiques seraient un déploiement sur des bras à plus haute charge utile et une validation sur des lignes d'assemblage industrielles réelles, domaine où des acteurs européens comme Wandercraft ou Enchanted Tools pourraient trouver des synergies applicatives.

UELes équipes R&D robotique européennes (notamment dans l'aéronautique et l'électronique) pourraient intégrer cette architecture pour automatiser des tâches d'assemblage multi-pièces à tolérance serrée, un verrou industriel non résolu par les planificateurs classiques.

RecherchePaper
1 source
Analyse de la locomotion d'un quadrupède sur le sol granulaire lunaire
416arXiv cs.RO 

Analyse de la locomotion d'un quadrupède sur le sol granulaire lunaire

Une équipe de recherche a publié en juin 2026 sur arXiv (preprint 2606.10273) une analyse de la locomotion d'un robot quadrupède conçu pour l'exploration lunaire, avec un focus sur l'interaction avec le régolithe lunaire. Le régolithe est un matériau granulaire meuble qui recouvre la surface de la Lune et qui diffère radicalement d'un sol rigide terrestre. Les chercheurs ont intégré un modèle physique de contact entre pied de robot et régolithe dans un environnement de simulation, puis ont entraîné des politiques de locomotion par apprentissage par renforcement (RL). Deux politiques ont été comparées : l'une entraînée sur des contacts rigides, l'autre sur des contacts mous simulant le régolithe. Résultats : les contacts granulaires génèrent une allure qualitativement différente, augmentent la dépense énergétique globale et provoquent instabilité et perte de tracking. Ce résultat touche directement l'un des angles morts majeurs du RL appliqué à la robotique terrain : les algorithmes de locomotion sont quasi-systématiquement entraînés sous hypothèse de contact rigide, ce qui suffit sur des sols durs mais s'effondre dès que le sol cède sous la patte. Pour la conception mécanique d'un quadrupède lunaire, cela se traduit concrètement par un sous-dimensionnement des couples moteurs et une sous-estimation du coût énergétique de transport, deux variables critiques dans un contexte où les contraintes thermiques et énergétiques sont dimensionnantes pour toute mission. Cette étude fournit des métriques quantitatives sur le surcoût locomoteur induit par le régolithe, un élément manquant dans la majorité des papiers de robotique planétaire. Le contexte est celui d'un regain d'intérêt intense pour la robotique lunaire, porté par le programme Artemis de la NASA et par plusieurs missions commerciales prévues d'ici 2028. La question du sim-to-real sur surfaces granulaires est connue dans la communauté depuis les travaux sur le sable et la neige, mais reste peu traitée dans le cadre spécifiquement lunaire. Du côté européen, l'ESA finance plusieurs projets de robots à pattes pour surfaces extraterrestres, sans qu'un programme quadrupède lunaire opérationnel ne soit encore annoncé publiquement. Ce papier reste un preprint non relu par des pairs, et ses conclusions, bien que cohérentes avec la littérature sur les milieux granulaires, n'ont pas encore été validées sur un prototype physique en environnement simulé en laboratoire.

UEL'ESA finançant plusieurs projets de robots à pattes pour surfaces extraterrestres, les métriques quantitatives sur le surcoût locomoteur du régolithe et les limites du RL entraîné sur contact rigide pourraient directement informer les choix de simulation et de conception des équipes européennes impliquées dans ces programmes.

RecherchePaper
1 source
Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel
417arXiv cs.RO 

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

Des chercheurs présentent dans un preprint arXiv (2606.08666, juin 2026) un système permettant aux robots de traiter les descriptions spatiales en langage naturel comme un signal capteur à part entière. Le coeur de la contribution est le Language Sensor Model (LSM), qui convertit chaque énoncé ("j'ai laissé mon sac à dos sur la table") et son graphe de scène en une distribution de probabilités 3D multimodale. Cette distribution encode simultanément l'ambiguïté référentielle ("quelle table parmi plusieurs") via des poids de mélange, et l'incertitude spatiale ("où exactement sur la table") via des covariances par composante. Le LSM s'intègre dans VL-Map (Vision-Language Metric-Semantic Mapping), un framework probabiliste qui fusionne ces prédictions linguistiques avec la perception embarquée dans une carte de croyance unifiée. Évalué sur le benchmark VLA-3D et sur un robot mobile réel, le LSM est le seul prédicteur dont les estimations de covariance restent dans le régime calibré, et produit environ 70 % de masse de probabilité supplémentaire sur la cible correcte par rapport au meilleur modèle de fondation testé. L'enjeu pour les intégrateurs est direct : les robots déployés en environnement humain (logistique, soins, assistance) reçoivent constamment des instructions verbales qui référencent des objets hors de leur champ perceptif. La cartographie métrique-sémantique classique ignore ce canal d'information ; les grands modèles multimodaux généralistes ne produisent pas d'estimations calibrées fusionnables dans un filtre bayésien. La calibration est un point critique souvent sous-estimé : un modèle non calibré surestime ou sous-estime sa confiance, rendant la fusion de capteurs instable et potentiellement dangereuse. Ce travail démontre que le langage peut jouer le rôle d'un vrai capteur réducteur d'incertitude, ce qui modifie le calcul architectural pour tout système de navigation ou manipulation en milieu non structuré. La contribution s'inscrit dans la lignée de la cartographie visuosémantique 3D (ConceptFusion, LERF, OpenScene), qui ancre des embeddings visuolinguistiques dans des représentations de scènes mais demeure passive vis-à-vis du langage conversationnel. Les approches VLA actuelles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA traitent le langage comme déclencheur d'actions, sans produire de distribution spatiale exploitable par un planificateur externe. Ce système s'y positionne orthogonalement : non pas un planificateur ni un annotateur, mais un capteur probabiliste intégrable à un pipeline SLAM existant. Les expériences décrites restent à un stade exploratoire, sans partenaire industriel ni calendrier de déploiement annoncés dans la publication.

RecherchePaper
1 source
Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence
418arXiv cs.RO 

Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence

Une équipe de recherche a publié sur arXiv (ref. 2606.09390) une étude portant sur la reconnaissance d'intention communicative à partir de la seule pose corporelle 2D, sans recours au visage, à la voix ou au texte. Le travail cible explicitement des scénarios de communication personne-robot à longue distance et à faible coût, comme les missions de secours en terrain dégradé. Les chercheurs publient un nouveau dataset de frames réels couvrant dix intents communicatifs distincts, et le comparent à des jeux de données existants : IPC (réel) et trois sources synthétiques, MotionLCM, VEO3.1 et Kimodo, qui couvrent un gradient de difficulté croissant. Plusieurs architectures sont évaluées, des classifieurs graph sur squelette jusqu'aux réseaux de prédiction de mouvement articulaire. Tous les benchmarks sont conduits sur une NVIDIA Orin Nano, un GPU embarqué représentatif des contraintes matérielles d'un robot de terrain, ce qui permet de rapporter à la fois précision de classification et cadence d'inférence en conditions réelles. Le point le plus notable n'est pas le dataset mais la mesure de fiabilité non supervisée proposée : les auteurs montrent que l'auto-cohérence autorégressive d'un modèle, c'est-à-dire la stabilité de ses propres prédictions successives sur une séquence, constitue un signal de confiance exploitable sans étiquettes. Ils fournissent une preuve courte bornant la probabilité qu'une prédiction auto-cohérente soit correcte, et montrent que cette probabilité croît avec le nombre de pas cohérents, tout en identifiant les conditions où une prédiction confiante peut rester fausse. C'est directement utile pour un intégrateur robotique : déployer un tel module sans ground truth disponible en opération reste aujourd'hui un frein majeur, et une mesure de fiabilité embarquée change l'équation. Ce travail s'inscrit dans une lacune documentée de la littérature : les corpus affectifs (combinant corps, visage, voix, texte) et les benchmarks de reconnaissance d'action squelettique étiquètent l'action réalisée, pas le message transmis, ce qui les rend inutilisables pour la communication HRI (human-robot interaction) à distance. Le choix de la pose 2D plutôt que 3D reflète une contrainte de déploiement réaliste : pas de LiDAR, pas de caméra de profondeur. Côté concurrence, les travaux sur VLA (Vision-Language-Action) type Pi-0 ou GR00T N2 de NVIDIA visent des interactions à courte portée en environnement structuré ; ce dataset et ce cadre de fiabilité adressent le segment complémentaire, non-verbal et longue distance. Les prochaines étapes naturelles incluent l'extension à davantage d'intents, l'évaluation sur robot physique en extérieur, et potentiellement une intégration dans des pipelines de perception multi-modale pour robots d'intervention.

RecherchePaper
1 source
SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques
419arXiv cs.RO 

SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques

Des chercheurs ont publié SynthICL (arXiv:2606.08154), un framework d'apprentissage par imitation en contexte (ICIL) capable d'entraîner une politique robotique entièrement à partir de données synthétiques RGB. Le principe de l'ICIL consiste à conditionner une politique pré-entraînée sur quelques démonstrations fournies au moment du test, sans réentraînement, à l'image du prompting en contexte des grands modèles de langage. SynthICL construit un pipeline de génération de données pour produire des jeux d'entraînement ICIL haute fidélité, puis entraîne un transformer basé sur le flow-matching sur ce corpus. Le modèle intègre également un module de prédiction de sous-objectifs visuels (subgoal prediction), qui génère des images intermédiaires cibles pour ancrer visuellement le contrôle. Évalué sur 16 tâches de manipulation inédites en environnement réel, SynthICL atteint un taux de succès moyen de 79 % avec une seule démonstration fournie à l'inférence, surpassant les méthodes comparables. Le résultat le plus significatif n'est pas tant le score brut que ce qu'il ne requiert pas : ni capteur de profondeur, ni calibration précise de caméra, ni données d'entraînement collectées en conditions réelles. Ces trois contraintes constituent des frictions majeures dans le déploiement de politiques robotiques généralisables, en particulier pour les intégrateurs industriels qui opèrent sur des lignes hétérogènes. Un taux de transfert sim-to-real de 79 % sur des tâches non vues, avec une seule démonstration, commence à réduire sérieusement le fossé entre preuve de concept et déploiement opérationnel, même si les 16 tâches testées restent des manipulations relativement contraintes et que les conditions de tournage des vidéos de démonstration ne sont pas détaillées dans l'abstract. Le champ de l'ICIL robotique s'est structuré en parallèle de l'essor des VLA (Vision-Language-Action models). Des approches comme Octo (UC Berkeley), RT-2 (Google DeepMind) ou pi-zero de Physical Intelligence explorent des paradigmes comparables de généralisation multi-tâches, mais s'appuient en grande partie sur des données réelles coûteuses à collecter. La dépendance croissante aux simulateurs physiques (IsaacSim, Genesis, MuJoCo) pour générer des données d'entraînement est une tendance de fond que SynthICL illustre directement. Le projet dispose d'une page dédiée (synth-icl.github.io) ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné à ce stade, ce qui en fait pour l'instant une contribution académique solide plutôt qu'un produit annoncé.

RechercheActu
1 source
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
420arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source
Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire
421arXiv cs.RO 

Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire

Des chercheurs présentent dans un preprint arXiv publié en juin 2026 (2606.08542) une formalisation et une solution partielle à un problème mal documenté de la planification robotique : les grands modèles de vision-langage actuels (VLMs, LLMs multimodaux incarnés) ne savent pas lire les traces d'exploration robotique. Le cas typique : un robot tire sur un tiroir verrouillé, échoue, puis réussit après avoir ouvert le verrou. Cet échec initial n'est pas du bruit, c'est la preuve d'une précondition latente (le tiroir était verrouillé), et donc la clé pour inférer la séquence minimale d'actions correcte. Les auteurs formalisent ce problème sous le nom EMT-QA (Exploratory Manipulation Trace QA) et proposent la Closed-Loop Trace Distillation : un agent de codage par tâche inspecte les traces d'entraînement étiquetées et en distille une heuristique de lecture en une seule ligne de langage naturel, appelée DRH (Distilled Reading Heuristic). À l'inférence, pas d'agent invoqué, pas de mise à jour de poids : un VLM figé reçoit la trace brute augmentée du DRH. Sur cinq tâches (trois en simulateur, deux sur robot réel), le DRH améliore la précision de la chaîne d'actions de +0,38 à +0,47 par rapport aux meilleures baselines en modalité brute. Ce résultat contredit une hypothèse courante dans le secteur : que des VLMs suffisamment puissants "verront" naturellement les préconditions cachées dans une vidéo d'exécution. L'étude démontre que ni la vidéo brute, ni la proprioception, ni leur combinaison ne suffisent. Pour les équipes qui intègrent des VLMs comme backbone de planification dans des systèmes de manipulation industrielle, cela signifie qu'une couche de distillation d'heuristiques peut s'avérer indispensable, sans nécessiter de fine-tuning ni d'infrastructure supplémentaire à l'inférence. Fait notable : le même DRH sert également de spécification unique pour des classifieurs programmatiques one-shot qui égalent les performances du VLM prompté, ouvrant une voie vers des pipelines de validation auditables et plus légers. Ces travaux s'inscrivent dans la dynamique des politiques robotiques fondées sur la vidéo et le langage (VLA), portée notamment par Physical Intelligence (Pi-0), NVIDIA (GR00T N2) ou Google DeepMind, qui s'appuient tous sur des VLMs comme planificateurs. La lecture fiable des traces d'exécution est un angle mort reconnu dans la communauté, souvent masqué dans les démos par des conditions expérimentales favorables. Le périmètre de validation reste restreint (cinq tâches au total), et la généralisation à des préconditions plus complexes ou à des chaînes d'actions plus longues n'est pas encore établie. Les suites naturelles incluent l'évaluation sur des benchmarks de manipulation plus larges et, surtout, la génération de DRH sans traces étiquetées en amont, condition nécessaire à la scalabilité réelle de l'approche.

RechercheOpinion
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
422arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
423arXiv cs.RO 

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif). Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement. Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.

UEL'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.

RecherchePaper
1 source
Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués
424arXiv cs.RO 

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

Des chercheurs de l'Université de Tampere (Finlande) publient sur arXiv (2606.06061) un framework distribué permettant à un opérateur humain de piloter un robot manipulateur par commandes vocales ou textuelles en langage naturel. L'architecture repose sur ROS 2, avec quatre nœuds indépendants : compréhension linguistique (LLM local), ancrage visuel (VLM), orchestration, et exécution moteur. À partir d'une instruction libre, le système génère des requêtes structurées pour des tâches de saisie, dépose et transfert d'objet. Le VLM retourne des cibles en espace-image, ensuite converties en objectifs métriques dans le référentiel robot grâce à la profondeur et à la calibration. Les expériences sont menées sur un bras Franka FR3 ; les auteurs mesurent la fiabilité bout-en-bout et la latence en faisant varier le degré d'ambiguïté de la scène sur la table de travail, et comparent plusieurs configurations LLM/VLM dans le même pipeline. Un tableau de bord web affiche les intentions intermédiaires et les superpositions d'ancrage visuel (pixel, profondeur, référentiel robot), et exige une confirmation explicite de l'opérateur avant tout mouvement. L'intérêt principal de cette approche pour un intégrateur ou un COO industriel tient à trois points. Premièrement, le choix de modèles locaux, pas de dépendance cloud, répond directement aux contraintes de latence et de confidentialité en environnement de production. Deuxièmement, la modularité ROS 2 permet de substituer un modèle par un autre sans refondre la stack, ce qui facilite le benchmarking et la mise à jour. Troisièmement, la boucle de confirmation opérateur est un signal clair que les auteurs ne cherchent pas à masquer le gap demo-versus-réalité : le système ne prétend pas être autonome, il vise une collaboration vérifiable. À noter que les métriques de fiabilité ne sont pas chiffrées dans l'abstract, les résultats quantitatifs précis restent à vérifier dans le corps du papier. Ce travail s'inscrit dans un courant de recherche actif autour des VLA (vision-language-action) pour la manipulation, où Physical Intelligence (Pi-0), Google DeepMind (RT-2, π0) et Stanford (Mobile ALOHA) occupent le devant de la scène avec des approches end-to-end à grande échelle. Le choix de Tampere d'utiliser des modèles légers et locaux contraste délibérément avec ces acteurs : c'est un positionnement orienté déploiement industriel frugal plutôt que performance brute. Le code est disponible en open source sur GitHub (cogrob-tuni/franka-llm), ce qui facilite la reproductibilité. La prochaine étape logique serait d'étendre le framework à des scènes dynamiques ou multi-robots, et de publier des benchmarks comparatifs sur des tâches standardisées comme celles de RoboAgent ou BridgeData.

UETravaux issus de l'Université de Tampere (Finlande, UE) proposant une architecture LLM/VLM entièrement locale et open source pour la manipulation collaborative, directement alignée sur les contraintes RGPD et de souveraineté industrielle du marché européen.

RechercheOpinion
1 source
Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif
425arXiv cs.RO 

Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif

Des chercheurs ont publié en juin 2026 MiTaS (Multi-Resolution Tactile Sensing), un cadre de représentation sensorielle pour la manipulation robotique à contact riche (arXiv:2606.06281). L'architecture fusionne trois modalités : un flux caméra RGB, un capteur tactile visuel GelSight Mini (basse fréquence) et un capteur événementiel haute fréquence Evetac. Des réseaux convolutifs dédiés traitent chaque flux avant une fusion par transformeur, produisant une représentation multi-résolution temporelle qui conditionne une politique apprise par flow-matching. Sur cinq tâches de manipulation à contact, MiTaS atteint un taux de réussite moyen de 80 %, contre 31 % pour la vision seule et 54 % pour une fusion vision-tactile à capteur unique. L'entraînement conjoint multi-tactile permet en outre un gain de plus de 10 % sur certaines tâches, même lorsque le capteur Evetac est absent à l'inférence. Ces résultats isolent empiriquement la contribution de la résolution temporelle hétérogène entre capteurs tactiles : les 26 points d'écart entre vision seule et MiTaS quantifient l'apport du toucher, et les points supplémentaires gagnés sur une fusion mono-capteur montrent que la complémentarité temporelle est effectivement exploitée par le transformeur. Pour les intégrateurs robotiques travaillant sur l'assemblage de précision ou l'insertion de connecteurs, cela suggère qu'associer un capteur événementiel rapide à un capteur optique classique apporte un gain mesurable sans nécessairement disposer du capteur haute fréquence au déploiement. L'analyse d'attention incluse dans l'article identifie quels capteurs dominent à chaque phase de tâche, ce qui aide à dimensionner un setup expérimental. Ces chiffres restent toutefois issus d'un laboratoire : leur robustesse face à l'usure des capteurs ou à la variabilité des surfaces industrielles n'est pas encore documentée. La manipulation à contact riche constitue l'un des verrous persistants de la robotique, où des politiques généralisées comme Pi-0 (Physical Intelligence) progressent vite sur les tâches visuelles mais peinent sur les contacts fins. GelSight, développé au MIT, est depuis plusieurs années le capteur de référence en recherche tactile, tandis qu'Evetac représente une génération plus récente de capteurs événementiels appliqués au toucher. MiTaS se positionne à l'intersection de ces deux domaines, avec une page projet et du code disponibles sur mitas-touch.github.io. Les suites naturelles incluraient des évaluations en transfert sim-to-real et une extension à des politiques sans démonstration humaine directe.

IA physiquePaper
1 source
La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances
426arXiv cs.RO 

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

Une équipe de chercheurs présente A4D, un système de planification robotique qui raisonne sur ce que les objets permettent de faire plutôt que sur leur apparence visuelle. Publié sur arXiv (ref. 2606.05533), le système encode les observations visuelles dans un espace latent dit "fonctionnel", structuré autour d'affordances comme "déplaçable" ou "saisissable", au lieu de regrouper les objets par similitude visuelle. Les performances annoncées : 94 % de précision sur les affordances connues, soit plus de 15 points au-dessus des approches de l'état de l'art, une montée de 70 % à plus de 90 % de précision sur des affordances inédites avec moins de 10 % des données d'entraînement initiales, et une inférence 100 fois plus rapide. Un mécanisme de découverte automatique d'affordances permet au système de s'adapter aux scénarios non vus en étendant dynamiquement cet espace latent. Le problème que cible A4D est central en manipulation robotique : la généralisation à des objets nouveaux. Les systèmes actuels échouent dès qu'un robot rencontre un objet visuellement différent de ceux vus à l'entraînement, même si sa fonction est identique. Raisonner par fonction plutôt que par apparence permettrait aux robots industriels et de service de s'adapter sans cycle de réentraînement complet, ce qui représente un verrou majeur pour le déploiement en environnements non structurés. L'efficacité en données est ici particulièrement notable : atteindre 90 % de précision sur de nouvelles catégories avec moins de 10 % du dataset original réduit drastiquement le coût d'intégration pour un nouvel environnement de travail. Ces résultats restent toutefois issus d'évaluations de laboratoire, et la robustesse en conditions industrielles réelles n'est pas encore documentée. Le concept d'affordance en robotique est hérité de la psychologie écologique de James Gibson (années 1970), mais son opérationnalisation dans des systèmes de planification automatisée reste un défi ouvert depuis deux décennies. Les approches concurrentes incluent les Vision-Language-Action models (VLA) type pi0 de Physical Intelligence ou OpenVLA, qui misent sur des modèles fondation massifs pour la généralisation, et les méthodes de représentation basées sur des descripteurs sémantiques. A4D se positionne comme une alternative plus légère et interprétable. Le code, les vidéos et les données sont disponibles sur le site du projet ; aucun partenariat industriel ni déploiement pilote n'est annoncé à ce stade.

RecherchePaper
1 source
La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)
427arXiv cs.RO 

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.05737, juin 2026) une méthode simplifiée pour accélérer la génération d'actions dans les modèles VLA (vision-language-action) à base de diffusion. L'observation centrale: là où les pipelines diffusion classiques requièrent dix étapes de débruitage itératif pour produire un chunk d'actions, un simple biais de la distribution d'entraînement vers les états à bruit élevé suffit à obtenir des politiques efficaces en une seule étape, sans modèle enseignant, sans distillation et sans objectif auxiliaire. Sur les benchmarks LIBERO, LIBERO-Plus et LIBERO-Pro devenus quasi-standards pour la manipulation dextre simulée, les politiques one-step entraînées avec ce calendrier biaisé égalent ou dépassent des politiques à décodage dix-étapes entraînées avec une distribution uniforme. Sur LIBERO-Long spécifiquement, un modèle combinant un LVM de 1,4 milliard de paramètres et une tête d'action de 30 millions de paramètres atteint 95,6 % de taux de succès en une seule étape. Une validation croisée sur robot bimanual réel (plateforme YAM, dans le cadre d'une évaluation RSS) confirme la tendance, sur un échantillon limité. L'enjeu opérationnel est direct: réduire le décodage d'un facteur dix libère de la latence critique pour les applications temps-réel. Mais l'argument de fond est plus structurel. Les auteurs identifient une asymétrie fondamentale entre génération d'images et génération d'actions robotiques: un espace d'action (quelques degrés de liberté, un chunk de positions articulaires) est incomparablement plus compact qu'une image de millions de pixels. Cette différence implique que les méthodes one-step avancées développées pour la synthèse d'images (distillation de consistency models, score distillation, flow matching accéléré) ne sont pas nécessairement requises ici. Pour un intégrateur ou un décideur industriel, cela simplifie significativement le pipeline d'entraînement: pas de phase de distillation en deux étapes, pas de teacher freezing, et donc moins de complexité opérationnelle pour déployer un VLA performant. Les VLA à base de diffusion ont connu une montée en puissance rapide depuis mi-2024, portée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, tous construits autour d'architectures à flux diffusion ou flow-matching pour la génération d'actions. Ce travail s'inscrit dans un mouvement de simplification qui cherche à réduire la friction entre recherche et déploiement industriel. Les benchmarks LIBERO restent cantonnés à la manipulation de petits objets en environnement simulé, et la validation sur robot réel présentée ici reste préliminaire. Les prochaines étapes naturelles seront de tester cette approche à plus grande échelle sur des architectures de référence comme pi0 ou GR00T, dans des contextes d'assemblage ou de logistique où la latence d'inférence est un critère de déploiement direct.

IA physiqueOpinion
1 source
EVE : un système générateur-vérificateur pour les politiques génératives
428arXiv cs.RO 

EVE : un système générateur-vérificateur pour les politiques génératives

Des chercheurs ont publié en décembre 2024 sur arXiv (2512.21430) EVE, un framework modulaire de type générateur-vérificateur visant à améliorer les politiques visuomotrices génératives en robotique, au moment de l'inférence et sans aucun réentraînement. Le système enveloppe une politique de base figée, reposant sur la diffusion ou le flow-matching, avec plusieurs agents vérificateurs VLM (Vision-Language Model) opérant en mode zéro-shot. Chaque vérificateur propose des raffinements d'actions candidates générées par la politique de base ; un module d'incorporation fusionne ensuite les retours agrégés via un guidage par classifieur intégré dans le processus de débruitage de l'action. Les évaluations couvrent des tâches de manipulation simulées et réelles sur différents embodiments robotiques, avec des gains de taux de succès mesurés dans chaque configuration testée, sans modifier ni la politique ni les vérificateurs. L'intérêt principal réside dans le transfert d'une technique émergente des LLMs, le scaling du compute au test-time, vers la commande robotique incarnée. Des systèmes comme OpenAI o1 ou DeepSeek-R1 ont montré qu'allouer davantage de calcul à l'inférence améliore significativement les performances, sans toucher aux poids du modèle. EVE applique cette logique aux politiques génératives : là où une politique de diffusion dégrade sous distribution shift (scènes inédites, objets non vus à l'entraînement, perturbations), les vérificateurs VLM guident la correction sans fine-tuning coûteux. Pour les intégrateurs et décideurs B2B, le signal est concret : améliorer les performances d'un modèle déployé pourrait devenir une question de ressources de calcul à l'inférence, non de nouveaux cycles d'entraînement sur des données supplémentaires. Les politiques visuomotrices par diffusion ont émergé à partir de 2023 avec Diffusion Policy (Columbia University) et ACT, suivies d'architectures flow-matching comme pi0 de Physical Intelligence. Ces modèles performent correctement sur leur distribution d'entraînement mais peinent hors distribution, un frein central au déploiement industriel. EVE s'inscrit dans une tendance plus large qui consiste à coupler des VLMs généralistes avec des politiques spécialisées sans réentraînement. Les approches concurrentes incluent le Best-of-N sampling appliqué à la robotique et les méthodes de récompense dense au test-time (SuSIE, GROOT). La suite logique serait de valider EVE sur des plateformes physiques à plus grande échelle et de quantifier le trade-off latence/qualité en fonction du nombre de vérificateurs actifs simultanément.

💬 Le test-time compute en robotique, c'était la suite évidente après o1, et j'attendais que quelqu'un le fasse proprement. Améliorer une politique déployée sans relancer un cycle d'entraînement, c'est le genre d'approche qui va vraiment intéresser les intégrateurs si ça tient en prod. Tu gardes un oeil sur le trade-off latence/nombre de vérificateurs, parce que là ça peut vite coûter cher.

IA physiqueOpinion
1 source
HORIZON : un curriculum gouverné par la récupérabilité pour le passage à l'échelle en domaine physique
429arXiv cs.RO 

HORIZON : un curriculum gouverné par la récupérabilité pour le passage à l'échelle en domaine physique

Des chercheurs proposent HORIZON (arXiv:2606.05143, juin 2026), un curriculum d'entraînement pour politiques robotiques qui régule l'expansion des domaines physiques via un principe de recouvrabilité. Évalué sur la locomotion quadrupède, HORIZON remplace la randomisation fixe des paramètres physiques par un processus de frontière adaptative : la politique n'est exposée à des conditions dynamiques plus difficiles que si elle reste capable de générer des données correctrices à partir de ces nouvelles conditions, sans s'effondrer en échecs irrécupérables. Concrètement, le curriculum s'étend par étapes vérifiées avec mécanisme de rollback si la frontière de recouvrabilité est franchie, transformant une randomisation statique en croissance continue du domaine physique. L'article documente trois régularités qui contredisent des pratiques répandues. Premièrement, l'élargissement direct des domaines est non uniforme selon les axes physiques et souvent impossible à apprendre sans ordonnancement progressif. Deuxièmement, la composition de domaines est non monotone : au-delà d'un noyau compact, ajouter des domaines supplémentaires dilue les échantillons recouvrables conjoints et dégrade la robustesse globale plutôt que de l'améliorer. Troisièmement, la distillation hors-politique d'experts isolés ne peut pas substituer l'interaction jointe produite par le curriculum on-policy. Ces résultats ont des implications directes pour les équipes sim-to-real : la stratégie courante "plus de randomisation égale plus de robustesse" est invalidée dans certains régimes, et la séquence d'exposition aux domaines devient un paramètre de conception critique au même titre que l'architecture du réseau. Le sim-to-real gap reste l'un des verrous centraux de la robotique embodied. Les approches de domain randomization, popularisées notamment par OpenAI et ETH Zurich avec ANYmal, postulaient qu'une couverture suffisamment large des variations physiques produit des politiques robustes. HORIZON s'inscrit dans un courant émergent qui déplace le facteur limitant de la couverture vers la recouvrabilité. Les travaux concurrents incluent les curriculums adaptatifs ALP-GMM et PAIRED, ainsi que les approches teacher-student. La méthode est présentée sur le quadrupède mais les auteurs suggèrent une généralisation à d'autres plateformes embodied. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit d'une contribution de recherche fondamentale, sans produit ni annonce commerciale associée.

RecherchePaper
1 source
M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements
430arXiv cs.RO 

M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements

Des chercheurs de Renforce Dynamics ont publié le 5 juin 2026 sur arXiv un article présentant M3imic (Multi-Modal Mimic), un contrôleur corps entier destiné aux robots humanoïdes. L'objectif : unifier dans une seule politique d'apprentissage par renforcement trois types de références de mouvement jusqu'ici traités séparément, les trajectoires articulaires du robot (angles de joints), les trajectoires de pose humaine capturées par motion capture, et les poses d'effecteurs terminaux (end-effector poses). Le système exploite des encodeurs spécialisés par modalité pour projeter ces données hétérogènes dans un espace latent commun, puis entraîne une politique unique à grande échelle en simulation. Les expériences sont conduites sur le robot humanoïde Unitree G1 : en simulation, la politique atteint un taux de succès maximal de 98,42 % sur un jeu de test non vu, et un transfert sim-to-réel est démontré sans réentraînement spécifique à chaque modalité. Le code source est disponible publiquement sur GitHub. Le problème que M3imic cherche à résoudre est structurel : les contrôleurs corps entier existants traitent la locomotion et la manipulation comme deux domaines distincts, avec des formats de données incompatibles, des vecteurs denses d'angles articulaires d'un côté, des poses 6-DOF d'effecteurs creuses de l'autre. Forcer une seule politique à ingérer ces deux représentations sans architecture dédiée dégrade les performances. M3imic propose une solution architecturale rather than une solution de données : un espace latent partagé avec encodeurs par modalité, ce qui permet à une même politique de piloter aussi bien la marche que la manipulation sans compromis de performance. Pour les intégrateurs et équipes robotiques, cela réduit potentiellement le coût de développement en éliminant le besoin de pipelines parallèles par type de tâche. Le robot cible, le Unitree G1, est un humanoïde commercialisé depuis 2024 à environ 16 000 dollars, devenu une plateforme de référence pour la recherche en locomotion et loco-manipulation grâce à son accessibilité. Renforce Dynamics est un laboratoire ou startup dont M3imic constitue l'une des premières publications publiques. Dans le paysage concurrent, les approches comparables incluent les travaux de Berkeley Humanoid (Pi-0 de Physical Intelligence), les contrôleurs corps entier de CMU et ETH Zurich, et les politiques VLA de Figure AI, tous confrontés au même défi du sim-to-real gap sur tâches mixtes locomotion-manipulation. M3imic se positionne explicitement sur l'unification multimodale plutôt que sur la performance brute d'une seule tâche. Les prochaines étapes naturelles seraient des déploiements en environnement non structuré et une évaluation sur des humanoïdes à plus haute cinématique (plus de DOF, payload supérieur).

IA physiqueOpinion
1 source
SoftPINCH : un exosquelette souple piloté par EMG pour la flexion des doigts et la préhension
431arXiv cs.RO 

SoftPINCH : un exosquelette souple piloté par EMG pour la flexion des doigts et la préhension

Des chercheurs ont publié en préprint (arXiv:2606.04776) SoftPINCH, un exosquelette souple portable commandé par EMG de surface, conçu pour assister la flexion du pouce et de l'index ainsi que la prise en pince. Le système combine un actionneur tendineux souple, des capteurs magnétiques de contact au bout des doigts, et un décodeur neuronal temps réel des signaux EMG captés sur les muscles de l'avant-bras. Trois architectures ont été évaluées en validation croisée leave-one-subject-out (LOSO) : LSTM seul (97,8 % de précision), CNN+LSTM et CNN+LSTM avec mécanisme d'attention (99,4 % tous deux). Le modèle CNN+LSTM a été retenu pour le déploiement temps réel, l'attention n'apportant pas d'amélioration significative. Lors des essais fonctionnels, l'assistance a réduit l'effort musculaire de 92,6 % à la charge maximale testée, avec un décodage conçu pour être sujet-indépendant, sans calibration individuelle. Le résultat le plus significatif est précisément ce décodage sujet-indépendant : les systèmes EMG classiques nécessitent une calibration par utilisateur, frein majeur au déploiement clinique et industriel. Atteindre 99,4 % de précision LOSO sans recalibration ouvre la voie à des dispositifs plug-and-play. La réduction de 92,6 % de l'effort musculaire est spectaculaire, mais mérite prudence : les essais ont été conduits en laboratoire sur un nombre limité de sujets dont les détails restent à paraître dans la version complète. La conception souple à actionneur tendineux répond à une critique récurrente des exosquelettes rigides, dont le manque de compliance mécanique compromet le confort et les mouvements naturels, particulièrement critique en réhabilitation post-AVC. La prise en pince est une priorité clinique de premier ordre, souvent la première altérée après un AVC ou dans les pathologies neuromusculaires comme la SLA. Le marché des exosquelettes de main est occupé par Bioservo Technologies avec son système Ironhand, déjà déployé en milieu industriel, ainsi que par plusieurs laboratoires académiques en Corée, en Europe et aux États-Unis, mais les solutions combinant décodage sujet-indépendant, actionnement souple et retour de contact tactile restent rares. SoftPINCH demeure un preprint académique non évalué par les pairs : aucun essai clinique ni pilote industriel n'est annoncé à ce stade. Les suites logiques incluent des études sur populations AVC ou blessés médullaires et une validation hors laboratoire pour confirmer la robustesse du décodage EMG en conditions réelles d'utilisation.

UEBioservo Technologies (Suède), leader européen des exosquelettes de main industriels avec l'Ironhand, est directement exposé à cette avancée en décodage EMG sujet-indépendant qui, si confirmée hors laboratoire, pourrait redéfinir les standards du marché européen des dispositifs d'assistance à la préhension.

ExosquelettesPaper
1 source
VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA
432arXiv cs.RO 

VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA

Une équipe de chercheurs publie VISTA (Vision-grounded and Physics-Validated Adaptation), un framework visant à entraîner des modèles Vision-Language-Action (VLA) à partir de données collectées via l'Universal Manipulation Interface (UMI). L'UMI permet une collecte robotique à grande échelle sans téléopération hardware-spécifique, mais son exploitation pour les VLA bute sur deux incompatibilités identifiées par les auteurs : les caméras fisheye montées au poignet génèrent une distorsion radiale sévère, hors distribution pour les modèles de vision pré-entraînés ; et les trajectoires humaines enregistrées violent fréquemment les limites cinématiques du robot ou dépassent la bande passante du contrôleur, enseignant ainsi des actions physiquement irréalisables. VISTA répond avec trois composants : UMI-VQA, un premier dataset VQA à grande échelle conçu spécifiquement pour les vues fisheye au poignet ; un pipeline de validation physique scorant chaque trajectoire sur la continuité, le risque d'auto-collision et la fidélité d'exécution ; et une recette d'entraînement en deux étapes combinant ancrage vision-langage et prédiction d'actions. Le modèle, les données et le pipeline sont publiés en open source sous forme de preprint arXiv. L'enjeu est directement opérationnel : les VLA actuels souffrent d'un écart persistant entre démonstration et déploiement réel. VISTA apporte une réponse méthodologique en filtrant les trajectoires défectueuses avant l'entraînement, plutôt qu'en espérant que le modèle les absorbe. Les auteurs montrent que les scores de validation physique sont fortement prédictifs du succès en déploiement, ce qui plaide pour une approche data-quality-first plutôt que data-volume-first, un argument qui contredit la logique dominante du secteur. En simulation et sur des tâches réelles de manipulation, VISTA surpasse des baselines solides incluant π0.5 (Physical Intelligence), LingBot-VLA et Wall-X. Pour un intégrateur ou un décideur industriel, cela valide une voie vers des pipelines de collecte scalables via UMI, compatibles avec les VLA modernes, sans recourir à un hardware propriétaire coûteux. L'UMI avait été conçu initialement pour découpler la collecte de données du hardware robotique spécifique, mais son intégration aux VLA restait largement non documentée à grande échelle. Physical Intelligence a popularisé l'approche VLA avec π0 et π0.5 ; Figure AI, 1X et Apptronik misent sur des architectures concurrentes. VISTA s'attaque à un goulot d'étranglement rarement traité en publication : la qualité intrinsèque des données d'entraînement avant qu'elles n'entrent dans le pipeline. En libérant pipeline de validation, dataset UMI-VQA et modèle pré-entraîné, les auteurs positionnent VISTA comme un outil d'infrastructure pour la communauté robotique cherchant à industrialiser la collecte et le filtrage de données manipulation, en amont des choix d'architecture VLA.

IA physiqueOpinion
1 source
Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes
433arXiv cs.RO 

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes

Un groupe de chercheurs présente dans un preprint arXiv (2606.03536, soumis le 3 juin 2026) un framework de transfert de style de mouvement pour robots humanoïdes. Le système prend en entrée un court clip humain illustrant un style moteur désiré (rythme de marche, balancement des bras, posture) et un mouvement cible distinct, puis génère un mouvement corps entier stylisé adapté au robot. Le modèle central est un modèle de diffusion latente multi-condition, sensible à la physique, fusionnant conditions de style, de contenu et de trajectoire. La guidance classifier-free permet d'ajuster l'intensité du style sans réentraîner le modèle. Les références générées sont ensuite converties pour le robot Unitree G1 et exécutées par une politique de suivi corps entier entraînée via une stratégie "cluster-and-distill". Sur 125 essais sur robot réel, la méthode atteint un taux de réussite de 96,0 %, avec moins d'artefacts de contact et de jitter que les baselines orientées animation. Ce résultat remet en question le paradigme dominant où chaque comportement expressif d'un humanoïde est soit capturé en démonstration directe, soit scripté manuellement, deux approches coûteuses et non réutilisables entre contenus de mouvement différents. En permettant à un court clip humain de servir de source de style transférable sur des contenus arbitraires, le framework ouvre la voie à une personnalisation motrice procédurale. L'écart simulation-hardware est adressé directement par des régularisations de cohérence de contact et de lissage temporel imposées lors de l'entraînement, un point de friction récurrent dans la chaîne génération-contrôle. Un taux de 96 % sur 125 essais réels représente un résultat solide pour de la recherche académique dans ce domaine, où beaucoup de travaux restent confinés à la simulation. Le Unitree G1 (environ 16 000 dollars) s'est imposé ces 18 derniers mois comme la plateforme de référence pour la recherche humanoïde académique. Ces travaux s'inscrivent dans la tendance des modèles de diffusion appliqués à la génération de mouvement (MDM, MotionDiffuse), prolongée ici jusqu'au contrôle physique sur hardware réel. Dans la course à l'expression motrice des humanoïdes, Boston Dynamics (Atlas), Figure et 1X investissent massivement côté imitation learning et VLA end-to-end, tandis que ce preprint se positionne sur la génération procédurale contrôlée, approche complémentaire. Du côté européen, Wandercraft et Enchanted Tools (France, robot Mirokaï) travaillent sur des problématiques d'expression motrice proches, sur des architectures distinctes. La suite logique serait l'intégration de ce framework dans des pipelines de téléopération ou d'interfaces humain-robot en conditions industrielles réelles.

UEWandercraft et Enchanted Tools (France) travaillent sur des problématiques d'expression motrice similaires et pourraient s'inspirer de cette approche de transfert de style procédural sur hardware réel.

HumanoïdesPaper
1 source
La variance du débruitage guide la replanification : découpage adaptatif pour politiques robotiques à base de flux
434arXiv cs.RO 

La variance du débruitage guide la replanification : découpage adaptatif pour politiques robotiques à base de flux

Des chercheurs ont publié le 3 juin 2026 sur arXiv (preprint non encore évalué par les pairs) une méthode baptisée DVAC (Denoising-Variance Adaptive Chunking), conçue pour améliorer l'inférence des politiques robotiques basées sur les flux de débruitage (flow-based policies, catégorie qui inclut les modèles de type diffusion). Le problème ciblé est précis : l'action chunking, stratégie qui consiste à prédire et exécuter plusieurs actions consécutives en un seul bloc, utilise aujourd'hui un horizon d'exécution fixe déterminé de manière empirique. DVAC remplace ce paramètre statique par un seuil adaptatif calculé à l'exécution, sans nécessiter de réentraînement. Le signal exploité est la variance des estimations d'actions nettes sur les dernières étapes du débruitage : faible lors des phases de déplacement en espace libre, élevée à l'approche de contacts ou d'opérations requérant de la précision. Appliqué à une politique basée sur π0.5 (Physical Intelligence), DVAC fait passer le taux de succès sur le benchmark LIBERO de 94,75 % à 98,00 %, tout en réduisant la fréquence de replanification de 43,0 %. Des gains sont également mesurés sur RoboTwin et CALVIN, ainsi qu'en manipulation réelle. L'intérêt industriel de cette approche tient à son applicabilité immédiate : DVAC s'insère en test-time sans modifier les poids du modèle, ce qui signifie qu'un intégrateur peut l'appliquer sur un pipeline existant basé sur des politiques de diffusion. Sur le plan technique, la méthode confirme que le processus de débruitage encode implicitement la structure de la tâche, une hypothèse structurante pour la recherche VLA (Vision-Language-Action). Réduire la replanification améliore aussi la latence effective et la fluidité d'exécution, deux critères critiques pour un déploiement en cellule industrielle. DVAC s'inscrit dans un effort plus large de la communauté pour rendre les politiques de diffusion exploitables en production, après les travaux fondateurs sur ACT, Diffusion Policy et π0 de Physical Intelligence. La calibration par estimation glissante de la variance locale suggère une robustesse aux variations entre tâches, point qui restera à valider sur des manipulateurs à morphologie variée (bras 7-DOF, mains dextres). Aucun déploiement commercial ni partenariat industriel n'est annoncé dans le preprint ; il s'agit pour l'instant d'une contribution de recherche avec évaluation sur benchmarks standard et une démonstration en environnement réel à périmètre non précisé.

RechercheOpinion
1 source
Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain
435arXiv cs.RO 

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Une équipe de chercheurs a publié en juin 2026 sur arXiv (identifiant 2606.00054) un état de l'art sur l'utilisation de vidéos humaines pour entraîner des modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le papier recense et structure les travaux existants en quatre familles d'approches selon le type d'information extraite : les représentations d'action latentes (encodage des changements entre frames successives), les modèles du monde prédictifs (prévision des frames futures), la supervision 2D explicite (extraction de cues dans le plan image) et la reconstruction 3D explicite (récupération de géométrie ou de mouvement). Les auteurs identifient en parallèle trois verrous ouverts : la structuration de vidéos non annotées en épisodes d'entraînement exploitables, l'ancrage des supervisions vidéo en actions exécutables malgré l'hétérogénéité des embodiments et des points de vue, et la conception de protocoles d'évaluation prédictifs des performances de déploiement réel. L'enjeu derrière cette consolidation est direct : collecter des démonstrations robotiques à grande échelle coûte cher, prend du temps et reste intimement lié à un hardware spécifique. Les vidéos humaines, elles, sont disponibles en quantité quasi illimitée sur internet et capturent une richesse d'interactions physiques et sémantiques inaccessible autrement. Si les méthodes recensées parviennent à combler l'écart d'embodiment, elles pourraient réduire drastiquement le coût de généralisation des VLA, aujourd'hui l'un des principaux freins à leur déploiement industriel. Ce survey arrive à un moment où le gap entre démo de laboratoire et transfert réel reste le problème n°1 du secteur : aucune approche n'y répond complètement, mais la taxonomie proposée clarifie où en est la recherche. Le contexte est celui d'une accélération des VLA generalistes depuis 2024, portée par des modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) ou Octo. Ces architectures ont montré une capacité de généralisation prometteuse mais toutes dépendent encore massivement de données de téléopération humaine, coûteuses à acquérir. Ce survey s'inscrit dans un effort collectif pour identifier des alternatives scalables, et les ressources compilées sont accessibles publiquement sur GitHub. Les prochaines étapes naturelles incluent des benchmarks standardisés croisant vidéos humaines et transfert zero-shot vers des robots industriels, un angle encore peu exploré par les acteurs européens comme Enchanted Tools ou Wandercraft, qui pourraient y trouver un levier de différenciation.

UELes acteurs français comme Enchanted Tools et Wandercraft pourraient exploiter la taxonomie proposée pour réduire leur coût d'acquisition de données VLA, mais aucun impact opérationnel direct n'est documenté à ce stade.

RechercheOpinion
1 source
SceneSmith : génération à base d'agents de scènes intérieures prêtes pour la simulation
436arXiv cs.RO 

SceneSmith : génération à base d'agents de scènes intérieures prêtes pour la simulation

SceneSmith est un framework agentique hiérarchique, présenté dans un preprint arXiv (2602.09153v2), qui génère des environnements intérieurs prêts pour la simulation robotique à partir de prompts en langage naturel. Le pipeline décompose la génération en trois étapes successives : layout architectural, placement de meubles, peuplement d'objets de petite taille. Chaque étape est pilotée par un trio d'agents VLM (vision-language model) jouant les rôles de designer, critique et orchestrateur. Pour les objets statiques, SceneSmith utilise la synthèse texte-vers-3D ; pour les objets articulés (portes, tiroirs, armoires), il interroge des bases de données d'assets existantes et estime automatiquement les propriétés physiques. Les résultats mesurés : 3 à 6 fois plus d'objets que les méthodes concurrentes, moins de 2 % de collisions inter-objets, 96 % des objets stables sous simulation physique. Une étude utilisateur conduite auprès de 205 participants donne à SceneSmith 92 % de taux de victoire sur le réalisme et 91 % sur la fidélité aux prompts face aux baselines -- des chiffres à interpréter avec prudence, les études perceptuelles restant par nature subjectives. L'enjeu central est le sim-to-real gap : les environnements synthétiques actuels sont trop épars et trop ordonnés pour que les politiques apprises soient transférables dans un foyer réel. SceneSmith cible directement ce problème en générant des scènes denses et encombrées, avec des objets articulés et des propriétés physiques cohérentes. Si les métriques annoncées résistent à une évaluation indépendante, cela réduit significativement le coût de constitution de jeux de données de simulation pour l'entraînement de politiques de manipulation, qu'il s'agisse de VLA ou de diffusion policies -- un besoin direct d'équipes comme Physical Intelligence ou Skild AI. Les auteurs démontrent que le pipeline s'intègre dans une boucle d'évaluation automatique de politiques robotiques, ce qui est précisément l'étape manquante pour industrialiser le cycle entraînement-évaluation en simulation. La génération automatique d'environnements intérieurs pour la robotique repose depuis des années sur des datasets à annotation manuelle coûteuse comme AI2-THOR, iGibson ou BEHAVIOR-1K, ou sur la génération procédurale (ProcTHOR), dont les scènes manquent de réalisme et de densité. SceneSmith s'inscrit dans une tendance plus large d'orchestration par LLM et VLM pour la génération 3D, une voie également explorée par Holodeck (Allen Institute for AI) et RoomDreamer. Aucun partenariat industriel ni timeline de déploiement n'est mentionné dans le papier, ce qui en fait pour l'instant une contribution de recherche, sans acteur français ou européen identifiable dans l'écosystème décrit. La connexion directe à l'évaluation de politiques signale néanmoins une ambition claire d'intégration dans des pipelines d'entraînement réels, à mesure que la course aux robots domestiques s'intensifie.

RecherchePaper
1 source
Construction d'un jeu de données robotique modélisée comme un processus de build par artefacts
437arXiv cs.RO 

Construction d'un jeu de données robotique modélisée comme un processus de build par artefacts

Des chercheurs de l'Université de la Bundeswehr Munich (UniBwTAS) ont publié Bagzel, une extension open source pour le système de build Bazel qui modélise la construction de jeux de données robotiques comme un processus basé sur des artefacts et un graphe de dépendances. Présenté sur arXiv (référence 2606.00162), l'outil convertit des enregistrements ROS bag en jeux de données prêts pour l'entraînement ML, avec export natif au format nuScenes. Les auteurs évaluent Bagzel et une variante Bagzel-xattr (gestion des digests côté serveur) contre un pipeline séquentiel de référence rosbag2nuscenes, sur des volumes de 5,1 à 20,4 Go. En mode warm build (recalcul sur données déjà traitées), Bagzel atteint une accélération jusqu'à 386,26x par rapport au baseline séquentiel ; en mode incrémental (après modification partielle du dataset), le gain est de 7,21x. Bagzel-xattr réduit en outre le temps d'exécution de 5,9 % en moyenne par rapport à Bagzel standard. Le goulet d'étranglement que cible Bagzel est bien connu des équipes de robotique appliquée : les scripts séquentiels ad hoc imposent de recalculer l'intégralité du dataset à chaque modification, allongeant les cycles d'itération de plusieurs heures. En appliquant les principes de reproductibilité et de build incrémental du génie logiciel au traitement de données capteurs multimodales, Bagzel rend viable l'exploration rapide de paramètres de preprocessing, le débogage de pipelines de perception, et la maintenance de datasets versionnés de manière déterministe. Pour un intégrateur ou une équipe de recherche manipulant régulièrement des dizaines de gigaoctets de données capteurs, réduire le temps de rebuild d'un facteur plusieurs centaines change concrètement le rythme d'expérimentation. Le format ROS bag reste le standard de facto pour l'enregistrement de données capteurs (lidar, caméra, IMU) en conditions réelles, tant en recherche qu'en industrie, mais sa conversion vers des formats ML exploitables est généralement assurée par des scripts maison non maintenables. Bagzel s'inscrit dans une tendance de professionnalisation du MLOps en robotique, un espace où des outils comme DVC ou Foxglove Studio couvrent des parties du problème sans offrir la cohérence d'un système de build unifié. Le laboratoire TAS de l'UniBwM est actif sur les thématiques de conduite autonome et de perception embarquée. Les prochaines étapes naturelles pour Bagzel concernent l'intégration avec des pipelines d'entraînement continu et l'extension à d'autres formats standardisés comme le Waymo Open Dataset.

UEL'outil est développé par l'Université de la Bundeswehr Munich (Allemagne/UE), renforçant l'outillage MLOps open source européen pour les équipes de robotique et de conduite autonome manipulant des données capteurs ROS.

InfrastructureOpinion
1 source
Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes
438arXiv cs.RO 

Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes

Un article de revue de littérature déposé sur arXiv le 2 juin 2026 (identifiant 2606.00090) pose un problème de sécurité systémique pour les systèmes d'IA physique : les modèles de fondation, modèles vision-langage-action (VLA) et modèles du monde qui pilotent des robots, véhicules, drones et machines industrielles peuvent émettre des commandes physiquement dangereuses tout en paraissant confiants, plausibles et sémantiquement corrects. Les auteurs nomment ce phénomène "silent failure" (défaillance silencieuse) : une action physiquement conséquente est déclenchée avant qu'un contrôleur matériel en aval détecte une anomalie, sous l'effet d'une dérive de capteur, d'une occlusion, d'une erreur d'estimation d'état, d'un glissement de distribution, d'affordances hallucinées ou d'hypothèses physiques invalides. Ces défaillances ne sont capturées ni par la modération de contenu classique des systèmes d'IA, ni par les normes de sécurité robotique traditionnelles. L'enjeu industriel est direct : là où les intégrateurs s'appuient sur des couches de sécurité fonctionnelle (normes ISO 10218, IEC 61508) pensées pour des automates déterministes, les VLA introduisent un générateur d'actions opaque dont les sorties ne respectent aucune enveloppe formellement vérifiable. La revue synthétise un écart récurrent : sur l'ensemble des corpus analysés, modèles de fondation incarnés, simulation robotique, benchmarks de sécurité embodied, contrôle sûr, assurance runtime, estimation d'incertitude, vérification formelle et évaluation de guardrails, aucun flux technique ne fournit à lui seul une frontière d'autorisation complète entre le modèle boîte noire et l'exécution physique. Cela signifie que les déploiements actuels de robots humanoïdes ou d'AGV pilotés par des LLM reposent sur des garde-fous fragmentés dont la couverture n'est pas évaluée de manière unifiée. Pour combler ce vide, les auteurs proposent une formalisation bornée du problème, une définition rigoureuse de la "défaillance physique silencieuse", une taxonomie des fonctions de guardrail runtime, et des critères d'évaluation permettant de comparer ces guardrails comme mécanismes d'assurance. Le papier ne décrit pas de système déployé ni de résultats expérimentaux : c'est une revue structurante, dont l'utilité principale est de fournir un cadre commun à une communauté fragmentée entre labs robotique, sécurité IA et contrôle formel. Les acteurs comme Boston Dynamics (Spot + foundation models), Figure, 1X ou Apptronik, qui poussent vers des déploiements industriels de robots à base de VLA, sont implicitement concernés, tout comme les équipes de recherche travaillant sur Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La prochaine étape naturelle serait une validation empirique de la taxonomie proposée sur des benchmarks embodied existants comme RoboSuite ou Open-X Embodiment.

UELa mise en évidence d'un vide normatif entre les standards industriels EU (ISO 10218, IEC 61508) et les systèmes VLA opaques concerne directement les intégrateurs européens déployant des robots autonomes sous le régime de l'AI Act.

RechercheOpinion
1 source
Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA
439arXiv cs.RO 

Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA

Des chercheurs ont publié sur arXiv (réf. 2508.20072, quatrième révision) Discrete Diffusion VLA, une architecture de politique robot qui intègre la diffusion discrète directement au sein du backbone transformeur unifié d'un modèle Vision-Language-Action (VLA). Sur le benchmark LIBERO, le système atteint 96,4 % de taux de réussite moyen, 71,2 % de correspondance visuelle sur SimplerEnv-Fractal et 54,2 % sur SimplerEnv-Bridge. Des évaluations en conditions réelles ont été conduites sur la plateforme AgileX Cobot Magic, un bras collaboratif de l'équipementier chinois du même nom. Le mécanisme central est un décodage adaptatif par ordre de confiance : le modèle résout d'abord les éléments d'action à haute certitude, puis revisite les prédictions incertaines via un re-masquage secondaire, permettant une correction d'erreur itérative sans générer une séquence de gauche à droite. L'enjeu architectural est concret. Les VLA actuels souffrent de deux compromis : la génération autorégressive classique (ordre fixe gauche-à-droite) affiche des performances limitées, tandis que les architectures à tête de diffusion continue externe, comme celle de Pi-0 de Physical Intelligence, fragmentent les flux d'information entre backbone et module d'action. En maintenant la diffusion à l'intérieur du backbone, cette approche préserve les représentations visuelles et linguistiques pré-entraînées. Le résultat chiffré est parlant : seulement 0,8 % de dégradation sur les tâches hors-distribution en langage, contre 8,0 % pour le décodage parallèle conventionnel, et 20,4 % en vision contre 29,0 % pour la diffusion continue. Pour un intégrateur ou un responsable technique évaluant une stack de manipulation généraliste, c'est un signal que la robustesse hors-distribution peut être préservée sans compromis sur la scalabilité. Les VLA se sont imposés comme paradigme dominant pour la manipulation généraliste, portés par OpenVLA, Octo, puis Pi-0 qui a popularisé la diffusion continue comme tête de décodage séparée, précisément l'architecture remise en question ici. La diffusion discrète, mieux connue dans le domaine du texte (MDLM, DMDM), est ici appliquée aux séquences d'actions robotiques, un transfert non trivial. La quatrième révision du preprint signale un travail en maturation active. Les prochaines étapes probables incluent le scaling sur des datasets larges de type Open X-Embodiment et l'évaluation sur des plateformes humanoïdes, où la gestion de l'incertitude en temps réel sera le vrai critère discriminant.

IA physiqueOpinion
1 source
URDF-Anything+ : génération bout-en-bout d'actifs articulés prêts pour la simulation
440arXiv cs.RO 

URDF-Anything+ : génération bout-en-bout d'actifs articulés prêts pour la simulation

Une équipe de chercheurs a publié sur arXiv en mars 2026 URDF-Anything+, un modèle de diffusion autorégressive générant des fichiers URDF (Unified Robot Description Format) à partir d'une seule image RGB. Le URDF est le format standard dans l'écosystème ROS et les simulateurs physiques (MuJoCo, Isaac Sim, Gazebo) pour décrire la géométrie et la cinématique des objets articulés. Le système opère dans un espace latent structuré et prédit séquentiellement chaque partie de l'objet avec ses paramètres de joint (type, axe, limites de mouvement), un token de terminaison déterminant dynamiquement le nombre de segments à générer. Évalué sur des benchmarks à grande échelle d'objets articulés, il surpasse les méthodes existantes en reconstruction géométrique, en précision des paramètres de joints et en "physical executability", soit la capacité des URDF produits à s'exécuter directement dans un simulateur sans post-traitement manuel. L'enjeu pour les roboticiens et ingénieurs de simulation est direct : produire des digital twins d'objets articulés réels (tiroirs, portes, vannes, équipements industriels) reste un goulot d'étranglement dans les pipelines de sim-to-real. Les approches classiques imposent segmentation manuelle, retrieval depuis des bibliothèques 3D (PartNet, ShapeNet) ou des pipelines multi-étapes coûteux à maintenir. URDF-Anything+ compresse ce processus en une passe unique, sans retrieval ni post-traitement externe. Le résultat le plus significatif est le transfert zero-shot : des politiques de manipulation entraînées exclusivement en simulation sur des URDF générés ont été transférées dans des environnements réels sans fine-tuning supplémentaire, ce qui constitue une validation directe que le sim-to-real gap sur les objets articulés peut être partiellement absorbé par la fidélité du jumeau numérique. La reconstruction d'objets articulés depuis des observations visuelles est un problème ouvert depuis plus d'une décennie. Des travaux antérieurs comme PARIS, ArticulatedFormer et NSM avaient progressé sur la segmentation et l'estimation cinématique, mais butaient sur la généralisation et l'utilisabilité directe en simulateur. URDF-Anything+ s'inscrit dans la tendance des modèles génératifs 3D orientés simulation, aux côtés des Gaussian Splattings dynamiques et des NeRF articulés. La recherche (arXiv:2603.14010) ne mentionne pas d'affiliation industrielle ni de plan de commercialisation : il s'agit d'un résultat purement académique. L'intégration naturelle serait dans les pipelines de génération de données synthétiques pour la manipulation robotique, domaine où Physical Intelligence, le Boston Dynamics AI Institute et les équipes Nvidia Isaac Lab investissent massivement en ce moment.

UELes équipes académiques européennes en manipulation robotique (INRIA, DLR, TU Munich) pourraient intégrer cet outil dans leurs pipelines de données synthétiques, mais aucun acteur français ou européen n'est directement impliqué.

RecherchePaper
1 source
HALO : apprentissage de la collaboration humain-robot par optimisation de politique de Lyapunov multi-agents
441arXiv cs.RO 

HALO : apprentissage de la collaboration humain-robot par optimisation de politique de Lyapunov multi-agents

Des chercheurs de Tsinghua University ont publié HALO (Heterogeneous-Agent Lyapunov Policy Optimization), un framework d'apprentissage par renforcement multi-agents (MARL) dédié à la collaboration humain-robot (HRC), disponible sur arXiv (2603.03741, version 2). Le problème ciblé est ce que les auteurs nomment le "rationality gap" (RG) : en apprentissage décentralisé, les mises à jour de politique du robot et de l'humain divergent structurellement, car l'humain n'optimise pas selon le même objectif formel que l'algorithme. Le problème d'entraînement devient alors un jeu différentiable à somme générale, où les gradients de politique indépendants peuvent osciller ou diverger sans contrainte supplémentaire. HALO résout ce verrou en imposant une contraction au sens de Lyapunov dans l'espace des paramètres de politique, via des projections quadratiques optimales qui rectifient les gradients décentralisés pour garantir une contraction monotone du RG. Les validations couvrent des simulations étendues et des expériences en conditions réelles sur des robots humanoïdes. La contribution centrale est d'avoir transposé la certification de Lyapunov, outil classique de la théorie du contrôle pour garantir la stabilité d'un système dynamique, à la stabilisation de la dynamique d'apprentissage elle-même dans un jeu multi-agents hétérogènes. En pratique, le système peut explorer des espaces d'interaction ouverts, incluant des comportements humains imprévus, sans que l'entraînement ne diverge. Les résultats montrent une meilleure généralisation sur les cas limites collaboratifs où MAPPO ou HATRPO échouent. Pour un intégrateur déployant un humanoïde en co-manutention, cela adresse directement le gap sim-to-real : une stabilité garantie à l'entraînement se traduit par une robustesse accrue face à la variabilité comportementale humaine, condition non-négociable pour tout déploiement industriel. Ce travail s'inscrit dans une littérature croissante sur le MARL pour HRC, où les approches CTDE (Centralized Training, Decentralized Execution) comme QMIX peinent face à l'hétérogénéité humain-robot. L'utilisation de la théorie de Lyapunov en RL existait déjà dans le safe RL pour contraindre les trajectoires d'état ; HALO l'applique à un objectif différent et moins exploré, celui de stabiliser la convergence dans un jeu multi-agents. Les détails des expériences humanoïdes en conditions réelles ne figurent pas dans le résumé et méritent une lecture approfondie avant de conclure sur la portée pratique. Le code et les résultats sont accessibles sur le site du projet, ce qui facilitera la reproductibilité. Des extensions naturelles concerneraient des équipes mixtes impliquant plusieurs humains, ou des scénarios où la politique humaine est elle-même apprise plutôt que supposée fixe.

UEImpact indirect pour les intégrateurs européens en co-manutention humanoïde : HALO adresse le gap sim-to-real dans les scénarios HRC, un verrou clé pour toute certification industrielle en Europe.

RecherchePaper
1 source
Suivi corporel intégral contraint pour robots humanoïdes
442arXiv cs.RO 

Suivi corporel intégral contraint pour robots humanoïdes

Des chercheurs ont publié sur arXiv (2606.00374) un framework de contrôle baptisé ConstrainedMimic, conçu pour imposer des contraintes de sécurité en temps réel sur des robots humanoïdes pilotés par apprentissage par renforcement. La démonstration s'appuie sur un Unitree G1 simulé : le système fait tourner la politique de suivi de mouvement whole-body à 300-500 Hz, indifféremment sur CPU, GPU ou TPU, tout en garantissant simultanément l'évitement de collisions (auto-collisions et obstacles externes), le respect des butées articulaires et la stabilité du centre de masse. Les expériences couvrent le suivi de mouvements cinématiques référencés et la téléopération. Le code sera libéré à la publication. L'enjeu sous-jacent est structurant pour l'industrialisation des humanoïdes : les politiques RL apprennent des comportements agiles mais ne savent pas, par défaut, respecter des contraintes ajoutées après entraînement, ce qui bloque le déploiement dans des environnements où les exigences de sécurité évoluent (cellule de travail reconfigurée, proximité opérateur, certification CE). ConstrainedMimic répond à ce problème en combinant deux outils de contrôle classiques, le contrôle en espace opérationnel (OSC) et les control barrier functions (CBF), pour projeter la commande du réseau de neurones dans un espace faisable respectant les contraintes actives. La méthode est entièrement différentiable et n'altère la politique que le strict minimum lorsqu'une contrainte entre en jeu, ce qui la distingue des approches d'override brutales. C'est un pas vers la séparation propre entre performance et sécurité dans les pipelines RL pour humanoïdes. Le sujet s'inscrit dans une course active à la robustesse des politiques whole-body : Figure (Figure 02/03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Unitree investissent massivement en RL locomotion, mais la question des garanties formelles reste un angle mort industriel. Les CBF sont bien établies en robotique mobile (AMR, véhicules autonomes) mais leur intégration dans des politiques RL pour humanoïdes à haute dimension cinématique est encore exploratoire. À noter : l'évaluation reste entièrement en simulation, ce qui laisse ouverte la question du sim-to-real gap sur les contraintes dynamiques, un point que les auteurs n'adressent pas dans cet abstract. La publication du code facilitera la reproductibilité et pourrait accélérer l'adoption dans des labos comme le DLR, l'INRIA ou des intégrateurs industriels européens travaillant sur la certification de robots collaboratifs.

UELa publication du code pourrait permettre à des laboratoires européens comme l'INRIA ou le DLR d'intégrer des garanties formelles de sécurité dans leurs pipelines RL pour humanoïdes, facilitant la certification CE de robots collaboratifs en environnement industriel partagé.

HumanoïdesPaper
1 source
Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements
443arXiv cs.RO 

Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements

Un article de position déposé sur arXiv en juin 2026 (arXiv:2606.01036) soulève un problème structurel dans l'entraînement des robots fondationnels : les modèles de récompense embarqués (embodied reward models), centraux dans toute boucle d'apprentissage par renforcement, sont quasi-exclusivement entraînés sur des comportements réussis. Les auteurs ont évalué trois modèles de récompense de l'état de l'art et constatent qu'ils sur-récompensent systématiquement trois catégories de comportements qu'un évaluateur humain pénaliserait : interactions non sécurisées avec l'environnement, exécution de mauvaise qualité, et stratégies de raccourci qui satisfont l'apparence d'une tâche sans en remplir l'objectif réel. La cause pointée est le manque chronique de données négatives dans les datasets robotiques existants : comportements ratés, sous-optimaux ou dangereux, coûteux à collecter et systématiquement filtrés ou retenus par les équipes. Ce biais a des implications directes pour tout déploiement de robot généraliste en environnement industriel. Un modèle de récompense qui valide des comportements non sécurisés ou des raccourcis fonctionne comme un juge défaillant au coeur même de la boucle d'entraînement, produisant des systèmes validés en simulation mais problématiques en production. Les auteurs montrent qu'une exposition modeste à de vraies données de comportements négatifs améliore l'alignement avec les préférences humaines et réduit les faux positifs coûteux, argument pour une action corrective accessible à court terme plutôt qu'un problème structurel insoluble. La problématique s'impose avec l'essor des modèles vision-langage-action (VLA) tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure. Dans ce contexte, collecter des données d'échec reste plus contraignant qu'en NLP : chaque trajectoire ratée mobilise du matériel physique et présente un risque opérationnel réel. Les auteurs appellent la communauté à quatre actions concrètes : publier les données négatives aujourd'hui retenues, construire des moteurs de génération synthétique de mauvais comportements, déployer des systèmes d'évaluation physique décentralisés, et créer des benchmarks dédiés à l'évaluation fine des reward models. Aucun partenaire institutionnel ni calendrier opérationnel n'est annoncé dans le document, ce qui en fait pour l'instant un manifeste académique sans engagement opérationnel identifié.

IA physiqueOpinion
1 source
Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements
444arXiv cs.RO 

Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements

Des chercheurs présentent MPVI (Motion Planner / VLA Interleaving), une architecture hybride qui intègre la planification de mouvement classique dans les modèles VLA (Vision-Language-Action) pour renforcer leur robustesse en manipulation mobile sans nécessiter de données supplémentaires. Publiée sur arXiv (2606.00985), cette approche s'attaque à un problème documenté des VLA : leur difficulté à enchaîner des séquences longues de sous-tâches spatialement distribuées. Sur le benchmark BEHAVIOR-1K, MPVI affiche une amélioration de 113 % de la progression des tâches par rapport au meilleur VLA bout-en-bout de référence, sans aucun ré-entraînement du modèle de base. Le diagnostic des auteurs est net : dans les tâches à long horizon, les erreurs d'exécution précoces s'amplifient à mesure que la séquence s'allonge, et le fine-tuning sur de larges volumes de données téléopérées humaines n'y change rien. MPVI découple la navigation et la manipulation : un planificateur classique prend en charge la localisation et le déplacement vers des objets distants ou occultés, en s'appuyant sur la détection à vocabulaire ouvert et l'exploration de frontière, tandis que le VLA gère les manipulations de précision. La commutation entre les deux modules est pilotée par un mécanisme de vérification d'état via un modèle vision-langage (VLM), couplé à des déclencheurs proprioceptifs, sans entraînement supplémentaire. La course aux architectures VLA bout-en-bout est aujourd'hui dominée par Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses successeurs, et des initiatives comme LeRobot de Hugging Face, toutes misant sur des données à grande échelle pour gagner en généralité. MPVI s'inscrit dans un courant concurrent qui défend l'hybridation avec la robotique classique planifiée, une position partagée notamment par les travaux SayCan de Google Research. Le benchmark BEHAVIOR-1K, développé à Stanford et évalué en simulation, est conçu pour mesurer la robustesse sur des tâches domestiques variées et longues, ce qui en fait un terrain de test exigeant. Les auteurs ne revendiquent aucun déploiement physique réel : MPVI reste à ce stade une contribution académique, sans plateforme hardware ni partenaire industriel annoncé.

UEHugging Face (entreprise française) est cité comme acteur de référence dans l'espace VLA avec LeRobot, mais MPVI reste une contribution académique en simulation sans déploiement ni partenariat européen annoncé.

IA physiqueOpinion
1 source
Exploitation de la parcimonie chordale pour une estimation globalement optimale avec des graphes de facteurs
445arXiv cs.RO 

Exploitation de la parcimonie chordale pour une estimation globalement optimale avec des graphes de facteurs

Une équipe de chercheurs associée au Borg Lab (Georgia Tech) a publié fin mai 2026 un préprint arXiv (2605.30617) présentant une méthode pour rendre l'estimation d'état globalement optimale dans les graphes de facteurs, sans effort de formulation manuelle. Le travail s'intègre directement à GTSAM, la bibliothèque de référence pour le SLAM et la navigation, et repose sur deux contributions : une procédure automatisée de construction de relaxations SDP (semi-definite programming) convexes pour tout graphe de facteurs utilisant les types de variables et de facteurs courants, et l'exploitation de la structure creuse chorale native de l'arbre de Bayes (Bayes tree) de GTSAM pour décomposer le problème SDP. Les deux cas d'usage évalués sont un problème de SLAM 3D par pose-graph en anneau et un problème de localisation 2D en chaîne, sur lesquels le nouvel estimateur démontre une meilleure scalabilité que les solveurs locaux standards. Le code est disponible sur le dépôt borglab/gtsam. L'enjeu est directement lié à la sécurité des systèmes robotiques : les solveurs locaux embarqués dans GTSAM ou g2o peuvent converger vers de mauvais minima locaux, ce qui dans un contexte de navigation autonome ou de perception industrielle représente un risque réel. Les approches par relaxations convexes garantissent l'optimalité globale ou permettent de certifier la solution, mais elles étaient jusqu'ici réservées à des cas formulés manuellement par des spécialistes, et pénalisées par le coût de résolution d'un SDP de grande taille. En automatisant la construction de la relaxation et en exploitant la sparsité du problème, les auteurs réduisent substantiellement ce surcoût computationnel, rendant l'approche crédible pour des applications embarquées ou temps-réel. Les graphes de facteurs sont l'outil dominant en estimation robotique depuis les travaux séminaux de Dellaert et Kaess (iSAM, iSAM2) au début des années 2010, et GTSAM en est l'implémentation la plus utilisée en recherche. Les relaxations SDP pour le SLAM ont été explorées depuis une dizaine d'années, notamment par Rosen et al. avec SE-Sync (2019), qui ciblait spécifiquement la synchronisation de poses. Ce nouveau travail généralise l'approche à des graphes de facteurs arbitraires, ce qui constitue un pas vers une intégration praticable dans des pipelines SLAM existants. Il s'agit d'un préprint non encore soumis à révision par les pairs, et les gains de performance annoncés restent à confirmer sur des benchmarks plus complexes ou des architectures embarquées contraintes.

RecherchePaper
1 source
Caspar : un accélérateur CUDA pour la programmation symbolique avec réordonnancement adaptatif
446arXiv cs.RO 

Caspar : un accélérateur CUDA pour la programmation symbolique avec réordonnancement adaptatif

Une équipe de chercheurs a présenté Caspar (CUDA Accelerator for Symbolic Programming with Adaptive Reordering), une bibliothèque open source qui génère automatiquement des noyaux CUDA optimisés à partir d'expressions symboliques définies en Python, sans que l'utilisateur n'écrive une seule ligne de C++. Construite sur SymForce, elle prend en charge les opérations sur les groupes de Lie et la différentiation symbolique automatique : l'utilisateur formule ses fonctions résiduelles de façon expressive, et Caspar compile l'ensemble en code GPU haute performance. Pour valider l'approche, l'équipe a mesuré les performances sur le jeu de données BAL (Bundle Adjustment in the Large), référence académique standard pour les problèmes d'ajustement de faisceaux en vision 3D, en comparant Caspar aux meilleurs solveurs disponibles. Sur ce benchmark, Caspar s'avère 5 à 20 fois plus rapide que la meilleure alternative existante, avec une empreinte mémoire moindre et une précision comparable. C'est un résultat notable pour toute application robotique reposant sur l'optimisation non linéaire temps réel : SLAM (Simultaneous Localization and Mapping), calibration de capteurs multiples, planification de trajectoires, ou reconstruction 3D embarquée. En abstrayant la complexité CUDA derrière une interface Python symbolique, Caspar abaisse substantiellement la barrière à l'accélération GPU dans les pipelines robotiques industriels, un domaine où la maîtrise du CUDA reste rare et coûteuse. Le résultat illustre qu'une approche de compilation symbolique automatisée peut rivaliser, voire dépasser, des implémentations GPU écrites à la main par des experts. SymForce a été initialement développé chez Skydio, fabricant américain de drones autonomes, avant d'être publié en open source. Dans l'espace des solveurs non linéaires, Caspar entre en concurrence directe avec Ceres Solver (Google), g2o et GTSAM, qui dominent les applications de SLAM et de robotique. La bibliothèque est disponible librement dans le dépôt GitHub symforce-org/symforce ; la publication présentée ici est un preprint arXiv, non encore évalué par les pairs. Les benchmarks portent exclusivement sur des jeux de données académiques standards : les gains annoncés restent à confirmer sur des cas d'usage robotiques temps réel embarqués, où les contraintes de latence et de mémoire GPU sont sensiblement plus sévères.

RecherchePaper
1 source
CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur
447arXiv cs.RO 

CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur

CoMo3R-SLAM est un système de SLAM dense collaboratif monoculaire présenté en preprint sur arXiv (2605.30488) en mai 2026. Il permet à plusieurs robots de construire ensemble une carte 3D dense d'un environnement extérieur en n'utilisant que des caméras RGB monoculaires, sans capteurs de profondeur de type LiDAR ou RGB-D. Chaque agent embarque un front-end guidé par des priors de reconstruction appris pour assurer le suivi en temps réel et la fusion dense locale. Un coordinateur centralisé prend ensuite en charge la cohérence globale via correspondance de pointmaps denses, synchronisation géométrique Sim(3) en forme fermée, et ajustement de faisceaux global accéléré GPU avec optimisation de profondeur par segments. Le système ne requiert ni capteur de profondeur ni calibration d'intrinsèques paramétriques. Tournant en ligne à 8 FPS, il obtient le meilleur ATE (erreur de trajectoire absolue) sur trois des quatre scènes Tanks and Temples, et des résultats compétitifs sur les séquences Waymo, égalant ou dépassant les méthodes RGB-D état de l'art. L'impact concret pour l'industrie est d'abord matériel : supprimer les capteurs de profondeur réduit significativement le poids embarqué, le coût unitaire et la complexité de calibration des plateformes robotiques. LiDAR et caméras RGB-D représentent souvent plusieurs kilogrammes et plusieurs milliers d'euros par unité, ce qui pénalise le déploiement en flotte. Que des priors d'apprentissage profond permettent de lever l'ambiguïté d'échelle monoculaire en extérieur valide une hypothèse forte du secteur : les modèles feed-forward de reconstruction 3D sont désormais suffisamment robustes pour opérer hors conditions contrôlées. Pour les intégrateurs et décideurs B2B, cela ouvre la voie à des flottes de robots légers capables de cartographier collaborativement des environnements vastes sans infrastructure capteur lourde. Le SLAM collaboratif dense est un défi ouvert depuis une décennie. Des systèmes comme COVINS ou Kimera-Multi s'appuient encore majoritairement sur des capteurs de profondeur ou des environnements intérieurs. La montée en puissance des modèles de reconstruction 3D appris, notamment DUSt3R (2023) et MASt3R (2024), issus de Naver Labs Europe à Grenoble, a rendu accessible la reconstruction dense monoculaire sans calibration explicite. CoMo3R-SLAM est la première application de ces priors dans un cadre multi-agents outdoor. Les benchmarks Tanks and Temples et Waymo constituent une validation pertinente pour des conditions de déploiement réelles. Côté concurrents, les systèmes multi-robots embarqués de Boston Dynamics, ANYbotics ou de spécialistes SLAM comme SLAMcore restent ancrés sur des architectures multi-capteurs. Ce preprint, non encore évalué par les pairs, ouvre la voie à des pilotes sur drones d'inspection ou robots mobiles légers où le rapport poids/performance est critique.

UECoMo3R-SLAM s'appuie directement sur DUSt3R et MASt3R développés par Naver Labs Europe à Grenoble, validant l'apport fondamental de la recherche française comme socle des futurs systèmes SLAM multi-agents légers en extérieur.

RecherchePaper
1 source
Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes
448arXiv cs.RO 

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source
VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA
449arXiv cs.RO 

VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA

Des chercheurs ont publié fin mai 2026 sur arXiv (référence 2605.29605) VLAConf, un framework de détection de confiance pour les modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le principe repose sur un module léger ("confidence head") branché sur les représentations internes d'un VLA préentraîné et figé, capable de calculer en un seul passage (single forward pass) un score d'anomalie à chaque étape de la trajectoire. Le système intègre également un mécanisme de "step-conditioned modeling" qui encode la phase d'exécution le long du rollout. Les performances sont évaluées sur le benchmark LIBERO, référence académique pour la manipulation multi-tâches, et validées sur robot physique. L'enjeu est direct pour le déploiement industriel des VLA : anticiper l'échec d'une tâche avant qu'il ne survienne est une condition nécessaire pour les applications à risque, de la chaîne de montage au laboratoire pharmaceutique. Les méthodes existantes souffrent de deux limitations majeures. Les approches par ensembles requièrent des échantillonnages répétés qui pénalisent fortement le temps d'inférence. Les méthodes basées sur les probabilités de tokens d'action sont incompatibles avec les espaces d'action continus, ce qui exclut de facto les VLA les plus récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). VLAConf contourne ces deux obstacles en un seul forward pass, sans modifier l'architecture du modèle hôte, ce qui lui confère une portabilité inter-architectures notable. Les auteurs revendiquent une nette supériorité sur les baselines en termes de qualité du signal de confiance et d'efficacité à l'inférence, bien que les marges précises ne soient pas détaillées dans le résumé disponible. Les VLA connaissent une accélération marquée depuis 2024 : pi-0 de Physical Intelligence, OpenVLA (Berkeley) et GR00T N2 de NVIDIA ont chacun proposé des approches pour généraliser la manipulation en monde ouvert. La robustesse à l'échelle reste cependant le principal frein au déploiement commercial, et la confiance calibrée en constitue une composante critique. VLAConf se positionne comme une brique d'infrastructure transversale, là où ses prédécesseurs restaient cantonnés aux sorties discrètes. Le code source est rendu public. Ce travail est académique, sans partenariat commercial annoncé.

IA physiqueOpinion
1 source
Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage
450arXiv cs.RO 

Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage

Une équipe de chercheurs a publié le 29 mai 2026 Embodied3DBench, un benchmark conçu pour évaluer les capacités de perception spatiale bas niveau des modèles de vision-langage (VLMs) dans des environnements 3D incarnés. Le benchmark couvre 6 catégories de tâches réparties en deux groupes : la compréhension structurelle spatiale (ancrage d'objets, prédiction de relations spatiales, correspondance multi-vues) et la perception orientée interaction (prédiction d'affordances, prédiction de points de saisie, prédiction de trajectoires). Il totalise 12 sous-catégories et plus de 21 000 paires questions-réponses annotées. Treize modèles de pointe ont été évalués sur ce corpus. En parallèle, les auteurs ont synthétisé un dataset d'entraînement à grande échelle de 1,3 million de paires QA pour tenter de combler les lacunes identifiées. Les résultats révèlent une dissociation nette dans les capacités des VLMs actuels : ces modèles affichent des performances raisonnables sur le raisonnement spatial de haut niveau, notamment les relations de position entre objets, mais restent très fragiles dès qu'il s'agit de perception orientée interaction, c'est-à-dire prédire où saisir un objet, anticiper une trajectoire de manipulation, ou estimer l'affordance d'une surface. Pour les équipes qui développent des modèles vision-langage-action (VLA) destinés à la manipulation robotique, ce résultat est structurant : il indique que les fondations perceptuelles nécessaires au déploiement réel restent insuffisantes dans les architectures actuelles, y compris les plus récentes. Le fine-tuning sur le dataset de 1,3M paires améliore significativement les scores bas niveau, ce qui suggère que le problème est en partie un déficit de données d'entraînement ciblées plutôt qu'une limite architecturale fondamentale. Ce travail s'inscrit dans un effort plus large de la communauté robotique pour doter les VLMs de capacités d'interaction physique, au-delà de la simple description de scènes. Des systèmes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) reposent sur ces mêmes briques perceptuelles pour passer de la compréhension sémantique à l'action motrice. Jusqu'ici, l'évaluation de ces capacités bas niveau manquait d'un cadre standardisé : la plupart des benchmarks existants (ScanQA, EmbodiedScan) ciblent la compréhension de scènes plutôt que la manipulation. Embodied3DBench comble ce vide méthodologique en proposant à la fois un protocole d'évaluation reproductible et un levier de progression via son dataset synthétique. L'article est disponible en preprint (arXiv:2605.29074) et le code devrait être rendu public prochainement.

RechercheActu
1 source