Aller au contenu principal

Recherche

50 sur 1125 articles

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?
1arXiv cs.RO RecherchePaper

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

Une équipe de chercheurs publie sur arXiv (référence 2507.06219) une étude systématique sur le rôle de la diversité des données dans l'apprentissage de la manipulation robotique, remettant en cause l'intuition du "plus c'est divers, mieux c'est". Trois dimensions sont examinées indépendamment. La diversité des tâches s'avère plus critique que le volume de démonstrations par tâche pour le transfert vers de nouveaux scénarios. L'entraînement multi-robots (multi-embodiment) n'est pas nécessaire au transfert inter-plateformes : un modèle entraîné sur un seul type de robot avec des données de haute qualité transfère aussi efficacement, avec de meilleures propriétés de scaling au fine-tuning. Enfin, la diversité des experts humains peut nuire à l'apprentissage via la multimodalité des vitesses d'exécution, chaque opérateur ayant ses propres rythmes et préférences gestuelles. Pour corriger ce biais, les auteurs introduisent une méthode de distribution debiasing appliquée à leur modèle GO-1-Pro, qui gagne 15% de performance, l'équivalent de multiplier par 2,5 le volume de pré-entraînement. Ces résultats ont des implications directes pour les équipes qui conçoivent des pipelines de collecte de données. La conclusion sur le multi-embodiment est particulièrement contre-intuitive : constituer un corpus mono-robot de haute qualité avant de fine-tuner est plus efficace qu'accumuler des datasets disparates multi-robots. Pour un intégrateur ou un décideur industriel, cela redéfinit les priorités de curation : couvrir un maximum de tâches prime sur l'accumulation brute de démonstrations, et standardiser les démonstrations expert devient un levier de performance mesurable. La multimodalité des vitesses est désormais un biais identifiable et corrigeable en amont du pipeline, pas une fatalité inhérente à la collecte humaine. Ce travail s'inscrit dans la dynamique portée par Google DeepMind (RT-2), Physical Intelligence (Pi-0) et les équipes de Berkeley (OpenVLA, Octo), qui cherchent à construire des fondations généralistes pour la manipulation depuis 2023. Contrairement au texte ou aux images, les données de démonstration robotique restent coûteuses à produire, ce qui rend les choix de stratégie de scaling particulièrement stratégiques. Les conclusions orientent directement les acteurs comme Figure AI (Figure 03), Agility Robotics ou, en France, Enchanted Tools (Mirokaï), qui investissent dans de larges datasets de manipulation. Ce travail est purement académique : aucun déploiement ni partenariat commercial n'est annoncé.

UEEnchanted Tools (Mirokaï) est explicitement citée comme acteur concerné par ces stratégies de scaling des données de manipulation, rendant les conclusions directement applicables à leur R&D en France.

1 source
PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes
2arXiv cs.RO 

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Une équipe de chercheurs du laboratoire DAVIAN a publié en juin 2026 PHUMA (Physically Reliable HUMAnoid locomotion dataset), un corpus de 73 heures de données de locomotion humanoide produit via un pipeline en deux étapes : une curation physiquement consciente suivie d'un retargeting contraint par des lois physiques. La base de données agrège à la fois des données de motion capture traditionnelles et des vidéos issues d'internet, les deux étant traitées pour éliminer les artefacts physiques récurrents dans les datasets existants, notamment le flottement, la pénétration géométrique et le foot skating. Entraînées sur PHUMA, les politiques de contrôle obtiennent des taux de succès supérieurs à ceux obtenus avec AMASS et Humanoid-X sur les benchmarks de motion tracking standards, et transfèrent en zero-shot vers un Unitree G1 réel. Le code et les données sont disponibles publiquement via davian-robotics.github.io/PHUMA. Le principal verrou que PHUMA prétend lever est la qualité physique des données d'entraînement pour l'imitation de mouvement humanoide. Les approches par imitation sont attractives parce qu'elles permettent d'acquérir des comportements naturels sans reward engineering fastidieux, mais leur efficacité dépend directement de la cohérence physique des données sources. Les artefacts présents dans les datasets basés sur des vidéos internet (comme Humanoid-X) se propagent dans les politiques entraînées, produisant des robots qui glissent ou oscillent de façon instable. La démonstration de transfert zero-shot sur un Unitree G1 physique est le point le plus concret : elle suggère que le filtrage physique en amont réduit effectivement le sim-to-real gap, sans fine-tuning additionnel sur hardware. Reste à qualifier l'ampleur du gain : les métriques de benchmarks internes ne se substituent pas à des comparaisons en conditions réelles standardisées. AMASS, publié en 2019, est resté longtemps la référence en motion capture humanoide, mais sa taille limitée et son coût d'acquisition ont freiné la scalabilité des approches data-driven. Humanoid-X a tenté de combler ce vide en exploitant des vidéos YouTube à grande échelle, au prix d'une dégradation qualitative. PHUMA s'inscrit dans une dynamique plus large où plusieurs équipes cherchent à constituer des datasets de locomotion humanoide à la fois volumineux et physiquement valides, en parallèle des travaux de Figure AI (Figure 03), Boston Dynamics, et des équipes derrière GR00T N2 chez NVIDIA. La prochaine étape logique serait de tester PHUMA sur d'autres plateformes humanoïdes commerciales (H1, Digit) et d'élargir les tâches au-delà de la locomotion simple vers la manipulation en déplacement.

UELe dataset PHUMA étant en accès libre, les équipes de recherche européennes en locomotion humanoïde (INRIA, CEA-List, LAAS-CNRS) peuvent l'intégrer directement dans leurs pipelines d'entraînement sans coût d'acquisition.

RecherchePaper
1 source
Apprentissage de la représentation du contact pour l'odométrie des jambes
3arXiv cs.RO 

Apprentissage de la représentation du contact pour l'odométrie des jambes

Une équipe de chercheurs a publié sur arXiv (référence 2606.05501) une approche d'apprentissage de représentation auto-supervisée pour la détection de contact dans les robots à pattes, visant à améliorer l'odométrie locomotrice sans recourir à des capteurs de force aux extrémités. Le système repose exclusivement sur les encodeurs articulaires standard, présents sur la quasi-totalité des plateformes commerciales existantes. En modélisant les phases d'appui et de vol (stance et swing) de façon probabiliste, le framework permet d'estimer la vitesse du corps principal à partir de la chaîne cinématique des membres, en s'appuyant sur l'hypothèse classique que la vitesse du pied par rapport au monde est nulle en phase d'appui. Les résultats expérimentaux indiquent des performances supérieures aux méthodes supervisées nécessitant des capteurs additionnels et aux approches probabilistes de référence. Le code est publié en open source. L'enjeu est concret : l'odométrie par jambes est une brique fondamentale pour la navigation autonome des robots quadrupèdes et bipèdes, notamment lorsque le GNSS ou la vision sont dégradés. Or, les capteurs de réaction au sol (GRF sensors) alourdissent les pieds, augmentent la complexité mécanique et sont souvent aveugles aux glissements en contact, ce qui produit des dérives d'estimation même lorsque le pied est techniquement "posé". En éliminant cette dépendance sensorielle, cette approche ouvre la voie à un déploiement sur des plateformes à budget contraint, et surtout améliore la robustesse sur surfaces glissantes ou irrégulières, scénario typique des environnements industriels ou d'inspection. La nature auto-supervisée supprime également le coût d'annotation de données, un frein classique dans les pipelines de locomotion. Le problème de la détection fiable de la phase d'appui est étudié depuis l'essor des robots quadrupèdes comme ANYmal (ANYbotics) et Go1/Go2 (Unitree), ainsi que des bipèdes comme Spot (Boston Dynamics) ou Atlas. La majorité des stacks d'odométrie actuels, y compris ceux utilisés dans des frameworks open source comme Legged Gym ou OCS2, conservent une dépendance aux GRF sensors ou à des heuristiques de seuillage. Cette contribution s'inscrit dans une tendance plus large visant à rendre la locomotion avancée accessible sur des plateformes sans instrumentation de pointe, une direction également explorée par des labos européens comme le DLR ou l'INRIA. La prochaine étape naturelle sera la validation sur plusieurs morphologies de robots et dans des conditions de terrain dégradé, un benchmark que les auteurs n'ont pas encore publié.

UEL'approche intéresse directement des équipes comme l'INRIA qui travaillent sur la locomotion avancée, et pourrait être intégrée sans modification matérielle sur des plateformes européennes à budget contraint.

RecherchePaper
1 source
MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet
4arXiv cs.RO 

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

Des chercheurs ont publié MoDex, une politique de diffusion conçue pour saisir séquentiellement plusieurs objets avec une seule main robotique dextère, sans relâcher ceux déjà tenus. Le système, présenté dans un preprint arXiv (2606.05407), a été évalué sur un bras Franka Emika Panda équipé d'une main Allegro à 16 degrés de liberté, en simulation MuJoCo et sur plateforme physique réelle. MoDex prédit la prochaine pose du préhenseur directement depuis les observations, conditionnée sur un nuage de points 3D et un espace dit "d'opposition" qui détermine quels doigts participent à la saisie courante. Ce mécanisme permet de n'utiliser qu'un sous-ensemble des DOF disponibles pour l'objet en cours, en réservant le reste pour les saisies suivantes. L'entraînement se déroule en deux phases : d'abord par imitation learning sur des démonstrations expertes, puis par fine-tuning par renforcement (RL), qui améliore systématiquement les taux de succès. En simulation, MoDex surpasse les baselines d'apprentissage évalués de 2,92 à 17,92 % ; en conditions réelles, le gain s'établit entre 6,67 et 17,78 %. L'enjeu technique est significatif : la quasi-totalité des méthodes de saisie dextère existantes mobilisent l'intégralité des DOF de la main pour chaque objet, la rendant inutilisable pour une prise successive sans reposer les objets intermédiaires. MoDex démontre qu'une politique de diffusion conditionnée sur l'espace d'opposition permet de résoudre ce problème de coordination des doigts avec des gains mesurables, y compris en transfert sim-to-réel. Le fait que le fine-tuning RL améliore systématiquement la politique pré-entraînée confirme l'intérêt de l'approche hybride imitation plus renforcement pour des tâches de manipulation complexe. Pour les intégrateurs industriels et les équipes de robotique, ce résultat suggère que des préhenseurs dextères multi-doigts peuvent être exploités de manière nettement plus efficace qu'aujourd'hui, notamment pour des tâches d'assemblage ou de tri où l'agent doit accumuler plusieurs pièces sans cycle de dépôt intermédiaire. Ce travail s'inscrit dans un champ de recherche actif autour de la manipulation dextère, où la main Allegro, commercialisée par Wonik Robotics, sert de plateforme de référence dans de nombreux laboratoires. Les approches concurrentes incluent des méthodes d'imitation pure comme DexGraspNet ou des politiques RL entraînées sur des saisies à un seul objet. Il s'agit d'un preprint académique sans partenaire industriel annoncé ni calendrier de déploiement. La page projet (modex2026.github.io) et le code sont disponibles, ce qui facilite la reproductibilité. La suite logique serait d'étendre l'évaluation à un plus grand nombre d'objets simultanés et à des géométries plus complexes, et de tester sur des plates-formes alternatives comme la Shadow Hand de Shadow Robot Company.

UELa plateforme Franka Emika Panda, d'origine allemande, est utilisée comme banc de test de référence, ce qui donne aux laboratoires européens un accès direct pour reproduire ces résultats, mais le travail reste académique sans partenariat industriel ou déploiement EU annoncé.

RecherchePaper
1 source
Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation
5arXiv cs.RO 

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

Une étude soumise sur arXiv (arXiv:2606.05588, juin 2026) audit sept métriques de curation de démonstrations robotiques utilisées en apprentissage par imitation. Les chercheurs ont construit un banc d'essai contrôlé dans lequel des défauts sont injectés avec un type connu, puis évalué chaque métrique selon deux axes : sa capacité à séparer démonstrations défectueuses et saines, et son impact réel sur le taux de succès d'une politique de behavior cloning entraînée sur le sous-ensemble filtré. Les perturbations subtiles (bruit d'action corrélé, tremblements, troncatures) sont détectées par scoring outlier multivarié ; leur suppression restaure l'intégralité de l'écart de performance en aval. Les erreurs structurelles, en revanche, où une action incorrecte est exécutée à un moment décisif, restent invisibles à toutes les métriques action-only testées. Deux d'entre elles sont même inversées : elles notent ces démonstrations défectueuses comme étant de meilleure qualité et laissent la politique au niveau ou en dessous de la baseline non filtrée. Seules les métriques examinant la trajectoire d'état détectent ces erreurs, mais même la meilleure ne récupère qu'un tiers de l'écart de performance downstream. Ce résultat interpelle directement les équipes qui entraînent des politiques robotiques à partir de données de téléopération. Le filtrage standard par métriques d'action seules s'avère insuffisant dès que les défauts sont de nature structurelle, précisément les cas les plus difficiles à labelliser manuellement : ceux qu'un opérateur humain commet lors d'une hésitation ou d'un mauvais geste à un instant clé. L'étude établit également que haute précision de détection ne garantit pas d'amélioration downstream, une nuance critique pour toute pipeline industrielle de curation automatique prétendant améliorer la qualité des données à l'échelle. La course à la donnée de démonstration s'est accélérée avec des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques d'Optimus (Tesla), dont les performances en déploiement dépendent directement de la qualité des corpus téléopérés. Avec la multiplication des infrastructures de collecte, la curation automatique est devenue un noeud critique dans les pipelines de formation. Les chercheurs publient le banc d'essai et les implémentations en open source, offrant à la communauté un outil de référence pour auditer rigoureusement tout système de filtrage. Leurs conclusions confirment que la trajectoire d'état doit être intégrée à tout scoring sérieux, et que l'erreur structurelle reste le talon d'Achille des approches action-only.

RecherchePaper
1 source
IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique
6arXiv cs.RO 

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Une équipe de chercheurs publie sur arXiv (identifiant 2606.05660, juin 2026) une revue systématique de la sécurité dans les systèmes d'IA incarnée (embodied AI) appliqués à la manipulation robotique à long horizon. Ce survey structure la littérature selon trois niveaux d'intervention : la sécurité au stade de la planification (planning-time), au niveau de la politique de contrôle (policy-time) et pendant l'exécution (execution-time). Les auteurs identifient quatre vecteurs de risque pouvant s'accumuler dans un même système en boucle fermée : le misgrounding sémantique (l'agent interprète mal l'instruction de haut niveau), la propagation d'erreur entre sous-tâches, la dérive d'exécution (execution drift) et les risques physiques liés aux contacts. Ils distinguent par ailleurs trois catégories de garanties dans la littérature existante : formelles, statistiques et heuristiques empiriques, et concluent que les preuves formelles font défaut à chaque couche. L'enjeu est direct pour les intégrateurs et les décideurs industriels. Un bras robotique déployé en entrepôt ou en ligne de production enchaîne des dizaines d'actions sur des horizons temporels étendus, et chaque sous-tâche peut propager silencieusement une erreur vers les suivantes. Or le survey révèle que la sécurité au niveau de la politique de contrôle, au coeur même des modèles VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est la couche la moins documentée empiriquement. Les mécanismes d'intervention déclenchés par l'incertitude (uncertainty-triggered intervention) restent immatures, et les benchmarks spécifiques à la sécurité en manipulation longue durée sont quasi-inexistants, ce qui rend toute validation rigoureuse avant déploiement aujourd'hui difficile. Ce travail paraît dans un contexte d'accélération industrielle : Figure AI, Boston Dynamics, Unitree et Physical Intelligence multiplient les démonstrations de manipulation dextère, souvent en conditions semi-contrôlées, alimentant un écart potentiel entre annonces marketing et réalité opérationnelle. Il convient de souligner que ce papier est une analyse critique de l'existant, pas un nouveau système ou algorithme. Ses recommandations prioritaires portent sur trois axes : des assurances cross-couche cohérentes de la planification jusqu'à l'exécution physique, des benchmarks dédiés à la sécurité en manipulation longue durée, et des protocoles de déploiement progressifs pour les agents robotiques en environnements réels. En creux, le constat est que les capacités du secteur progressent plus vite que les outils pour en évaluer la sécurité.

UEL'absence de benchmarks formels de sécurité pour la manipulation longue durée concerne directement les industriels européens déployant des bras robotisés, et pourrait alimenter les exigences de validation dans le cadre de l'AI Act pour les systèmes robotiques à haut risque.

RecherchePaper
1 source
La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances
7arXiv cs.RO 

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

Une équipe de chercheurs présente A4D, un système de planification robotique qui raisonne sur ce que les objets permettent de faire plutôt que sur leur apparence visuelle. Publié sur arXiv (ref. 2606.05533), le système encode les observations visuelles dans un espace latent dit "fonctionnel", structuré autour d'affordances comme "déplaçable" ou "saisissable", au lieu de regrouper les objets par similitude visuelle. Les performances annoncées : 94 % de précision sur les affordances connues, soit plus de 15 points au-dessus des approches de l'état de l'art, une montée de 70 % à plus de 90 % de précision sur des affordances inédites avec moins de 10 % des données d'entraînement initiales, et une inférence 100 fois plus rapide. Un mécanisme de découverte automatique d'affordances permet au système de s'adapter aux scénarios non vus en étendant dynamiquement cet espace latent. Le problème que cible A4D est central en manipulation robotique : la généralisation à des objets nouveaux. Les systèmes actuels échouent dès qu'un robot rencontre un objet visuellement différent de ceux vus à l'entraînement, même si sa fonction est identique. Raisonner par fonction plutôt que par apparence permettrait aux robots industriels et de service de s'adapter sans cycle de réentraînement complet, ce qui représente un verrou majeur pour le déploiement en environnements non structurés. L'efficacité en données est ici particulièrement notable : atteindre 90 % de précision sur de nouvelles catégories avec moins de 10 % du dataset original réduit drastiquement le coût d'intégration pour un nouvel environnement de travail. Ces résultats restent toutefois issus d'évaluations de laboratoire, et la robustesse en conditions industrielles réelles n'est pas encore documentée. Le concept d'affordance en robotique est hérité de la psychologie écologique de James Gibson (années 1970), mais son opérationnalisation dans des systèmes de planification automatisée reste un défi ouvert depuis deux décennies. Les approches concurrentes incluent les Vision-Language-Action models (VLA) type pi0 de Physical Intelligence ou OpenVLA, qui misent sur des modèles fondation massifs pour la généralisation, et les méthodes de représentation basées sur des descripteurs sémantiques. A4D se positionne comme une alternative plus légère et interprétable. Le code, les vidéos et les données sont disponibles sur le site du projet ; aucun partenariat industriel ni déploiement pilote n'est annoncé à ce stade.

RecherchePaper
1 source
Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués
8arXiv cs.RO 

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

Des chercheurs de l'Université de Tampere (Finlande) publient sur arXiv (2606.06061) un framework distribué permettant à un opérateur humain de piloter un robot manipulateur par commandes vocales ou textuelles en langage naturel. L'architecture repose sur ROS 2, avec quatre nœuds indépendants : compréhension linguistique (LLM local), ancrage visuel (VLM), orchestration, et exécution moteur. À partir d'une instruction libre, le système génère des requêtes structurées pour des tâches de saisie, dépose et transfert d'objet. Le VLM retourne des cibles en espace-image, ensuite converties en objectifs métriques dans le référentiel robot grâce à la profondeur et à la calibration. Les expériences sont menées sur un bras Franka FR3 ; les auteurs mesurent la fiabilité bout-en-bout et la latence en faisant varier le degré d'ambiguïté de la scène sur la table de travail, et comparent plusieurs configurations LLM/VLM dans le même pipeline. Un tableau de bord web affiche les intentions intermédiaires et les superpositions d'ancrage visuel (pixel, profondeur, référentiel robot), et exige une confirmation explicite de l'opérateur avant tout mouvement. L'intérêt principal de cette approche pour un intégrateur ou un COO industriel tient à trois points. Premièrement, le choix de modèles locaux, pas de dépendance cloud, répond directement aux contraintes de latence et de confidentialité en environnement de production. Deuxièmement, la modularité ROS 2 permet de substituer un modèle par un autre sans refondre la stack, ce qui facilite le benchmarking et la mise à jour. Troisièmement, la boucle de confirmation opérateur est un signal clair que les auteurs ne cherchent pas à masquer le gap demo-versus-réalité : le système ne prétend pas être autonome, il vise une collaboration vérifiable. À noter que les métriques de fiabilité ne sont pas chiffrées dans l'abstract, les résultats quantitatifs précis restent à vérifier dans le corps du papier. Ce travail s'inscrit dans un courant de recherche actif autour des VLA (vision-language-action) pour la manipulation, où Physical Intelligence (Pi-0), Google DeepMind (RT-2, π0) et Stanford (Mobile ALOHA) occupent le devant de la scène avec des approches end-to-end à grande échelle. Le choix de Tampere d'utiliser des modèles légers et locaux contraste délibérément avec ces acteurs : c'est un positionnement orienté déploiement industriel frugal plutôt que performance brute. Le code est disponible en open source sur GitHub (cogrob-tuni/franka-llm), ce qui facilite la reproductibilité. La prochaine étape logique serait d'étendre le framework à des scènes dynamiques ou multi-robots, et de publier des benchmarks comparatifs sur des tâches standardisées comme celles de RoboAgent ou BridgeData.

UETravaux issus de l'Université de Tampere (Finlande, UE) proposant une architecture LLM/VLM entièrement locale et open source pour la manipulation collaborative, directement alignée sur les contraintes RGPD et de souveraineté industrielle du marché européen.

RechercheOpinion
1 source
PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée
9arXiv cs.RO 

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

Des chercheurs ont publié PiL-World (arXiv:2606.05773), un modèle de monde (world model) en boucle fermée conçu pour évaluer les politiques VLA (Vision-Language-Action) sans exécution physique continue. Le système fonctionne par blocs d'actions (action chunks) : à chaque itération, la politique VLA génère une séquence d'actions, PiL-World simule les observations multi-vues résultantes, et ces observations alimentent le cycle d'inférence suivant. Évalué sur trois tâches de manipulation bimanuelle réelles, PiL-World réduit l'écart entre le taux de succès mesuré sur robot physique et celui estimé en simulation boucle fermée de 63,2 % à 12,0 % par rapport à la baseline, soit plus de cinq fois moins d'erreur d'évaluation. Le modèle conditionne la génération vidéo sur le mouvement du robot en vue de tête et sur un historique latent encodant le contexte d'exécution de la tâche, et apprend à la fois sur des démonstrations téléopérées réussies et sur des trajectoires d'échec. L'évaluation des politiques VLA en boucle fermée est un goulot d'étranglement critique dans le développement robotique : chaque cycle de test sur hardware coûte du temps, de l'usure mécanique et une supervision humaine. Un écart de 63,2 % entre simulation et réalité rend une baseline en boucle ouverte essentiellement inexploitable pour prédire les performances terrain. Ramené à 12,0 %, ce delta commence à être utilisable pour screener des politiques avant validation physique. Le fait que PiL-World apprenne aussi sur des rollouts d'échec est notable : cela corrige un biais classique des world models entraînés uniquement sur démonstrations positives, et rapproche la distribution simulée de celle des exécutions politiques réelles, qui incluent naturellement des tentatives ratées. La demande pour des boucles d'évaluation sans robot s'intensifie depuis que les VLA, notamment Pi-0 de Physical Intelligence, OpenVLA, ou GR00T N2 de NVIDIA, sont devenues les architectures de référence pour la manipulation généraliste. Les simulateurs physiques classiques comme Isaac Lab ou MuJoCo souffrent du sim-to-real gap pour les tâches de contact fin, d'où l'intérêt croissant pour les world models appris directement sur données réelles. PiL-World rejoint une tendance émergente aux côtés de travaux comme UniSim ou IRASim, qui visent à remplacer partiellement l'exécution physique par des modèles génératifs vidéo conditionnés sur les actions. Les résultats sur trois tâches bimanuelles restent limités en diversité de scènes et de morphologies robotiques, et aucun déploiement industriel ni partenariat n'est annoncé à ce stade, ce qui positionne PiL-World comme une contribution de recherche prometteuse plutôt qu'un outil prêt pour l'intégration.

RechercheOpinion
1 source
Adaptation de politique sans mise à jour du modèle par flux normalisant
10arXiv cs.RO 

Adaptation de politique sans mise à jour du modèle par flux normalisant

Des chercheurs du laboratoire RIPL ont publié sur arXiv (2606.06461) GLOVES, une famille de méthodes d'adaptation fondées sur le flow matching permettant de corriger les actions d'agents robotiques non experts, politiques pré-entraînées, modèles de fondation ou opérateurs humains, sans modifier leurs poids ni leur logique de contrôle. Le principe : plutôt que de remplacer l'agent par un système entièrement autonome, GLOVES "transporte" ses actions vers une distribution cible apprise d'un expert, à partir d'un petit nombre de démonstrations ou de segments de compétences réutilisables. Un mécanisme de score par flux inverse (reverse flow evaluation) sert de portail d'intervention sélective : les actions déjà cohérentes avec la distribution experte passent inchangées, seules les actions anomales ou hors distribution (OOD) sont corrigées. Ce travail répond à un problème concret et croissant dans le déploiement des modèles de fondation robotiques de type VLA (Vision-Language-Action) : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA produisent des comportements génériques qui échouent souvent sur des tâches spécifiques ou dans des environnements non vus à l'entraînement. GLOVES propose une couche d'adaptation légère qui ne nécessite pas de réentraîner le modèle de base, quelques démonstrations suffisent, et les segments de compétences réussis sont réutilisables sur plusieurs tâches. L'intervention conditionnelle préserve l'autonomie de l'agent sous-jacent, ce qui est pertinent pour des déploiements industriels où l'opérateur veut conserver le contrôle sémantique du comportement sans tout reconstruire. GLOVES s'inscrit dans un courant actif de recherche sur la correction de politiques et le contrôle partagé (shared autonomy), distinct de l'imitation learning classique ou de l'IRL. Le flow matching est en forte progression depuis son adoption dans Pi-0 (diffusion policies) ; GLOVES l'applique non à la génération d'actions brutes mais à leur correction post-hoc, ce qui est architecturalement plus modulaire et plus facile à greffer sur un système existant. Le code et les démonstrations sont disponibles à ripl.github.io/GLOVES_web. Les suites naturelles incluent l'intégration dans des pipelines de téléopération augmentée, bien que le preprint n'annonce pas encore de déploiements industriels concrets ni de partenariats commerciaux.

RechercheOpinion
1 source
Nouveau manipulateur redondant à câbles et joints quaternions : commande par FABRIK et renforcement résiduel
11arXiv cs.RO 

Nouveau manipulateur redondant à câbles et joints quaternions : commande par FABRIK et renforcement résiduel

Des chercheurs ont publié sur arXiv (référence 2606.05236) une nouvelle configuration de bras manipulateur redondant à câbles, contrôlé par apprentissage par renforcement résiduel. L'architecture proposée repose sur 4 segments et 8 joints de type quaternion, une géométrie qui permet d'atteindre un espace de travail plus large que les configurations existantes tout en réduisant le coût matériel. Le point central des résultats : l'algorithme Residual Reinforcement Learning (RRL) surpasse de trois ordres de grandeur l'algorithme FABRIK (Forward And Backward Reaching Inverse Kinematics), référence actuelle du domaine, aussi bien en précision positionnelle qu'orientationnelle. L'implémentation du système de contrôle est décrite dans son intégralité, FABRIK inclus, ce qui rend la méthodologie directement reproductible. Ce résultat est notable parce qu'il s'attaque à un problème structurel des manipulateurs à câbles redondants : leur modèle cinématique, fondé sur des joints quaternion, est non-linéaire et amplifie les écarts entre conception et artefact physique, notamment les imprécisions de fabrication. Le fait que RRL absorbe ces non-linéarités et batte FABRIK de mille fois en précision suggère que l'apprentissage par renforcement résiduel -- qui combine un contrôleur analytique de base avec un réseau correcteur appris -- est une piste sérieuse pour les systèmes hyper-redondants à câbles, là où les méthodes géométriques classiques atteignent leurs limites. Pour les intégrateurs industriels travaillant sur des bras destinés à des espaces confinés (inspection, chirurgie, maintenance aéronautique), c'est un levier de précision sans surcoût hardware majeur. Les manipulateurs redondants à câbles existent depuis plusieurs décennies, mais l'introduction des joints quaternion est récente et a relancé l'intérêt pour cette classe de robots en réduisant le nombre de moteurs par degré de liberté, ouvrant la voie à des architectures plus compactes. Les acteurs industriels positionnés sur les bras flexibles -- dont plusieurs startups européennes dans l'endoscopie et la maintenance -- suivent ces travaux de près. Ce papier reste un preprint sans validation en environnement industriel réel ; les prochaines étapes attendues sont un prototype physique et des tests en workspace obstrué pour confirmer les gains simulés.

UEPlusieurs startups européennes dans l'endoscopie et la maintenance industrielle suivent ces travaux sur les bras à câbles redondants, qui pourraient améliorer leur précision de contrôle sans surcoût hardware, sous réserve de validation sur prototype physique.

RecherchePaper
1 source
RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique
12arXiv cs.RO 

RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique

RealDexUMI est une interface de téléopération portable présentée en juin 2026 par des chercheurs de BeingBeyond dans un preprint arXiv (arXiv:2606.06033). Le dispositif repose sur un module d'effecteur terminal partagé combinant une main robotique légère, une caméra embarquée dans la paume et des capteurs tactiles au bout des doigts. Un gant isomorphe porté par l'opérateur humain traduit les mouvements des doigts en commandes articulaires directes sur la main robotique, sans retargeting ni conversion d'incarnation. Le système a été évalué sur huit tâches réelles couvrant des manipulations fines, riches en contacts, à longue durée et bimanuelles, obtenant un taux de succès moyen de 88,75%. Les politiques apprises se généralisent à des poses initiales non vues lors de l'entraînement et ont été transférées vers trois morphologies de robots différentes. Le verrou que RealDexUMI cherche à lever est connu dans le secteur sous le nom de "collection-to-deployment gap". Les pipelines classiques de collecte de données pour la manipulation dextre font face à un dilemme : la motion capture ou les gants souples permettent une collecte rapide mais nécessitent un retargeting qui dégrade la fidélité des contacts, tandis que la téléopération robot-spécifique préserve cette fidélité mais reste onéreuse et difficile à passer à l'échelle. RealDexUMI propose un troisième chemin via un effecteur "zéro-gap" : les observations (images embarquées, signaux tactiles, contacts, commandes articulaires) sont identiques entre collecte et déploiement, supprimant le biais d'observation qui dégrade souvent les politiques d'imitation. Un taux de 88,75% sur des tâches bimanuelles longue durée est significatif si les conditions expérimentales sont représentatives, bien que le preprint ne détaille pas encore la distribution des tentatives par tâche ni les protocoles de randomisation des scènes. La question de l'interface universelle de manipulation dextre est activement travaillée depuis plusieurs années, notamment depuis les travaux UMI de Columbia University (2023-2024), qui instrumentaient une spatule pour des robots standard. RealDexUMI étend ce paradigme aux mains multi-doigts, terrain nettement plus difficile. La démarche entre en compétition directe avec des approches comme ALOHA 2 et ACT de Carnegie Mellon, les systèmes de DexHand Research, ou les plateformes bimanuelle d'Apptronik et Agility Robotics. En Europe, des équipes de l'ISIR à Sorbonne Université et du DLR en Allemagne travaillent sur des thématiques proches de capture et transfert de manipulation dextre. BeingBeyond reste discret sur son positionnement commercial et ses partenaires industriels : la prochaine étape naturelle serait une validation dans des environnements non structurés ou une intégration sur des plateformes humanoïdes commerciales comme Figure 03, Unitree G1 ou Fourier GR-1, où la manipulation dextre demeure le principal goulot d'étranglement.

UELes équipes européennes de manipulation dextre (ISIR/Sorbonne, DLR) pourraient intégrer l'approche zéro-gap de RealDexUMI pour accélérer leurs pipelines de collecte de données sans retargeting.

RechercheOpinion
1 source
Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains
13arXiv cs.RO 

Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains

Des chercheurs ont publié Meridian, une méthode de localisation globale pour robots terrestres qui exploite des images aériennes à la place du GNSS, avec une erreur de trajectoire moyenne de 2,4 mètres sur 19 kilomètres parcourus dans des environnements variés. L'algorithme met en correspondance des primitives métrique-sémantiques extraites d'images satellites ou de drones avec les données RGB-D collectées par la caméra embarquée du robot, sans nécessiter d'entraînement ni d'ajustement sur les données locales de la zone ciblée. Les expériences couvrent un dataset de conduite autonome urbaine, une zone de parc et campus, ainsi qu'un camp en milieu naturel, trois contextes distincts sur lesquels le même modèle généraliste a été appliqué sans adaptation préalable. Ce résultat est notable car la localisation sans GPS dans des terrains non structurés reste l'un des problèmes ouverts les plus persistants de la robotique mobile. Les approches existantes s'appuient généralement sur des modèles entraînés pour un environnement précis et peinent face aux géométries répétitives et aux paysages peu texturés, forêts, prairies, zones périurbaines, où les méthodes basées sur des points d'intérêt visuels classiques échouent. Meridian contourne ce problème en formalisant des métriques de cohérence pour estimer une distribution sur les poses du sous-graphe robot et rejeter les hypothèses aberrantes via une optimisation robuste du graphe de poses. L'absence de dépendance à des données d'entraînement spécifiques est le point le plus opérationnellement significatif : elle rend le système déployable sur zones inconnues sans phase de cartographie préalable. Le travail s'inscrit dans un courant actif de localisation visuelle croisée (cross-view localization) qui bénéficie de la disponibilité croissante d'imagerie aérienne haute résolution via satellites commerciaux ou drones. Des méthodes concurrentes comme OrienterNet (Meta AI, 2023) ciblent principalement les environnements urbains structurés via OpenStreetMap. Meridian se distingue en visant explicitement les terrains naturels, ce qui l'oriente vers des applications de recherche et sauvetage, de surveillance agricole ou d'opérations militaires en zone dégradée, secteurs où des plateformes comme Boston Dynamics Spot ou des robots de terrain industriels pourraient directement tirer parti de l'approche. L'article est disponible en prépublication sur arXiv (2606.06312) et n'a pas encore été soumis à révision par les pairs, ce qui invite à traiter les métriques annoncées avec prudence en attendant une validation indépendante.

RecherchePaper
1 source
ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active
14arXiv cs.RO 

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

Des chercheurs ont publié ActiveMimic (arXiv:2606.06194, juin 2026), un framework de pré-entraînement robotique qui exploite des vidéos égocentrées humaines captées par une simple caméra RGB portée sur le corps. La contribution technique centrale : plutôt que de traiter les mouvements de caméra comme du bruit, comme le font les pipelines standards, ActiveMimic récupère des trajectoires synchronisées de la caméra et du poignet depuis ce seul flux vidéo, puis modélise le déplacement de la caméra comme une "action de point de vue" à part entière. Le framework apprend ainsi simultanément la perception active et la manipulation à partir de vidéos humaines capturées en conditions réelles, avant d'être adapté à un robot cible via fine-tuning. Sur plusieurs tâches de manipulation impliquant des degrés variés de perception active, les expériences en conditions réelles montrent qu'ActiveMimic surpasse les baselines pré-entraînées sur vidéo humaine classique et atteint les performances des modèles pré-entraînés sur données robotiques. Ce résultat est notable car la vidéo égocentrée humaine est disponible à grande échelle sans nécessiter de robot, mais les modèles qui en étaient issus sous-performaient systématiquement face à ceux entraînés sur données robotiques. ActiveMimic identifie le signal manquant : la perception active, soit le comportement naturel par lequel un humain repositionne continuellement son point de vue pendant une manipulation. Ce mécanisme, invisible pour les pipelines qui traitent la motion de caméra comme artefact, s'avère être le facteur clé pour extraire la valeur de ces vidéos. Les expériences indiquent en outre que la capacité de perception active émerge du pré-entraînement sur vidéo humaine et non du fine-tuning robot-spécifique, ce qui suggère une transférabilité potentielle à d'autres architectures et morphologies. Ce travail s'inscrit dans une compétition dense autour des modèles vision-action (VLA) pour la manipulation robotique généraliste. Physical Intelligence avec Pi-0, Google DeepMind avec RT-2, et les équipes de Figure AI exploitent des architectures VLA pré-entraînées, mais s'appuient majoritairement sur des données de téléopération robotique, coûteuses et lentes à collecter. Si l'approche d'ActiveMimic se confirme sur des benchmarks indépendants et des environnements non contrôlés, elle pourrait réduire significativement ce goulot d'étranglement en substituant une partie des données robotiques par de la vidéo humaine abondante. Les prochaines étapes naturelles incluent la validation industrielle, l'extension à des morphologies variées, et l'évaluation de la scalabilité avec des volumes de vidéo égocentrée plus importants.

RechercheOpinion
1 source
Flash-WAM : distillation sensible aux modalités pour les modèles monde-action
15arXiv cs.RO 

Flash-WAM : distillation sensible aux modalités pour les modèles monde-action

Des chercheurs ont publié Flash-WAM (arXiv:2606.05254v1), une méthode de distillation conçue pour accélérer les "world-action models" (WAMs), des architectures de diffusion qui génèrent simultanément une prédiction vidéo du futur et les commandes robot associées. Le verrou que Flash-WAM tente de lever : ces modèles nécessitent des dizaines de passes de débruitage par chunk d'actions, aboutissant à une latence de 8,1 secondes par chunk sur GPU NVIDIA L40S, ce qui exclut tout contrôle en temps réel. En compressant l'inférence à une seule étape par modalité via une distillation par consistance adaptée, Flash-WAM ramène cette latence à 348 ms, soit un facteur 23x. Appliqué au modèle LingBot-VA, il atteint 85,5% de succès sur le benchmark RoboTwin 2.0, 95,7% sur LIBERO, et 60% en moyenne sur un humanoïde réel Unitree G1. L'originalité de Flash-WAM réside dans le traitement asymétrique des deux modalités. Le flux action et le flux vidéo dans un WAM opèrent sur des schedules de bruit fondamentalement différents (SNR-shifted noise schedules) : appliquer une seule paramétrisation à l'ensemble dégrade les performances de façon sévère, la distillation naïve par consistance chutant à 24% de succès en conditions réelles. Flash-WAM contourne ce problème avec une paramétrisation linéaire à gradient scalé pour le flux action (régime faible bruit) et une paramétrisation variance-preserving pour le flux vidéo (régime fort bruit). Ce résultat valide l'idée qu'un robot peut boucler en temps réel sur ses prédictions de monde sans matériel exotique, à condition d'adapter la distillation à la nature propre de chaque signal. Les WAMs s'inscrivent dans une tendance récente fusionnant prédiction vidéo et politique robot dans un modèle de diffusion unifié, une approche portée par des travaux comme GR00T N2 de NVIDIA, Pi-0.5 de Physical Intelligence, ou les VLAs (vision-language-action models) au sens large. LingBot-VA est l'un de ces modèles joints récents sur lequel Flash-WAM est instancié. Le sim-to-real gap demeure visible dans les résultats (60% en réel contre 85,5% en simulation sur RoboTwin 2.0), mais le gain de 36 points sur la distillation naïve confirme la pertinence de l'approche pour des déploiements futurs sur manipulateurs industriels ou humanoïdes à usage général.

RechercheOpinion
1 source
MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes
16arXiv cs.RO 

MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes

Des chercheurs ont publié sur arXiv (réf. 2606.06139, juin 2026) MotionDisco, un cadre méthodologique capable de générer automatiquement des séquences de mouvements corps entier pour robots humanoïdes, sans recourir à la téleopération ni au retargeting de mouvements humains. Le système couple une recherche évolutionnaire guidée par un grand modèle de langage (LLM) sur des séquences d'interactions de contact, un optimiseur de trajectoire cinodynamique séquentiel et une stratégie d'élagage. Les trajectoires ainsi découvertes servent à entraîner des politiques de suivi par apprentissage par renforcement (RL), déployées ensuite sur un robot humanoïde physique dans des tâches de loco-manipulation longue durée. Des études d'ablation documentent que la recherche guidée par LLM produit des trajectoires corps entier cohérentes sur plusieurs tâches à long horizon impliquant des contacts riches avec l'environnement. L'enjeu principal est de contourner la téleopération, aujourd'hui le principal mode d'acquisition de données pour les humanoïdes en manipulation, approche coûteuse et difficile à passer à l'échelle. La difficulté est fondamentalement combinatoire: le nombre d'interactions de contact possibles croît exponentiellement avec l'horizon temporel et le nombre d'objets en scène. En automatisant la découverte de compétences, MotionDisco ouvre une voie potentiellement scalable pour les intégrateurs industriels sans infrastructure de téleopération. Le transfert sim-to-real sur robot physique est démontré, ce qui distingue ce travail de nombreuses contributions demeurant en simulation. Les auteurs revendiquent une première mondiale: la découverte et le déploiement de compétences humanoïdes loco-manipulation longue durée par recherche évolutionnaire entièrement automatisée, une affirmation qui reste à valider indépendamment par la communauté. Ce travail s'inscrit dans un paysage où les principaux acteurs humanoïdes, tels que Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), Unitree et NVIDIA (GR00T N2), misent massivement sur la téleopération et les démonstrations humaines pour entraîner leurs politiques de manipulation. L'utilisation d'un LLM comme moteur de recherche pour guider l'exploration de contacts s'apparente aux travaux récents sur les VLA (Vision-Language-Action models), mais positionnée en amont comme générateur de curriculum plutôt que comme politique de contrôle direct. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, qui demeure une contribution de recherche fondamentale sans affiliation ou plateforme matérielle spécifiée. Les extensions naturelles porteraient sur des scènes multi-objets plus complexes et la validation sur une gamme élargie de plateformes humanoïdes commerciales.

RecherchePaper
1 source
EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot
17arXiv cs.RO 

EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot

EgoHumanoid, publié sur arXiv (identifiant 2602.10106), propose un framework pour entraîner des robots humanoïdes à la loco-manipulation, c'est-à-dire la coordination simultanée de la locomotion et de la manipulation d'objets, en exploitant des démonstrations humaines égocentrées plutôt que de la télé-opération robotique classique. L'architecture co-entraîne une politique VLA (vision-language-action) sur un corpus mixte composé de larges volumes de vidéos humaines en vue à la première personne, complétés par un volume limité de données robot. Pour réduire le fossé morphologique entre humains et robots, les auteurs ont développé un système portable de collecte de données et deux modules d'alignement : un alignement de vue corrigeant les différences de hauteur et de perspective entre caméra humaine et capteur robot, et un alignement d'action transposant les mouvements humains vers un espace cinématiquement réalisable par le robot. Les expériences en environnements réels montrent que l'ajout des données égocentrées humaines dépasse les baselines entraînées sur données robot seules de 51 %, avec un gain particulièrement marqué sur des environnements non vus lors de l'entraînement. La loco-manipulation humanoïde est l'un des problèmes les plus gourmands en données de la robotique moderne : le robot doit simultanément planifier ses déplacements et interagir avec des objets dans des espaces non structurés. EgoHumanoid valide l'hypothèse que la diversité des démonstrations humaines compense la différence morphologique, à condition de résoudre correctement les alignements de vue et d'action. Pour les intégrateurs et décideurs industriels, cela signale une voie de scaling de la donnée nettement moins chère que la télé-opération spécialisée, sans dépendre de simulateurs dont le transfert sim-to-real reste incertain. La démonstration humaine pour les robots manipulateurs d'établis est une pratique établie, mais son extension aux humanoïdes en loco-manipulation restait peu explorée. EgoHumanoid se positionne directement face aux pipelines de collecte adoptés par les grands acteurs, notamment Figure AI avec Helix, Physical Intelligence avec Pi-0 et NVIDIA avec GR00T N2, qui s'appuient tous sur des approches intensives en télé-opération ou en simulation. Il s'agit d'une publication académique, sans annonce de produit ni déploiement commercial associé. Les suites logiques seraient une validation à plus grande échelle du protocole de collecte humaine et une intégration dans des frameworks VLA existants pour tester la montée en charge sur des tâches industrielles réelles.

RechercheOpinion
1 source
Génération de données synthétiques et détection visuelle de plis et points clés pour la manipulation bimanuelle de tissu
18arXiv cs.RO 

Génération de données synthétiques et détection visuelle de plis et points clés pour la manipulation bimanuelle de tissu

Des chercheurs ont publié sur arXiv (arXiv:2606.06292) un système de perception et de planification dédié à la manipulation bimanurale de textiles, l'un des problèmes les plus résistants en robotique industrielle. L'approche repose sur un pipeline synthétique construit sous Blender qui génère automatiquement des données annotées en keypoints, complété par des rendus labellisés manuellement et des données réelles pour entraîner un détecteur de plis. Le résultat est un framework à deux composantes : un CNN invariant aux permutations pour localiser les coins d'un vêtement, et un pipeline YOLOv8-OpenCV pour extraire les points de préhension à partir des plis structurels. L'algorithme bimanual résultant étire d'abord un vêtement entièrement plié en s'accrochant aux plis, puis bascule automatiquement vers un mode de repassage guidé par keypoints dès que les coins deviennent visibles. L'erreur de position moyenne (MPE) du modèle de keypoints atteint 1,7615 pixels, et le système se transfère directement sur des tissus physiques sans fine-tuning supplémentaire. L'enjeu principal est le sim-to-real gap, problème central pour tous les objets déformables : un tissu n'a pas de forme fixe, et ses auto-occultations lors du pliage font échouer la majorité des pipelines de perception standard. Que ce système transfère sans fine-tuning là où les baselines produisent des faux positifs sur les plis sévères ou s'effondrent en haute occlusion est un résultat concret, pas un argument marketing. Pour les intégrateurs industriels, notamment en blanchisserie automatisée ou en logistique textile, cela valide l'hypothèse que la génération de données synthétiques peut compenser l'absence de datasets réels annotés, coûteux à constituer. Le passage automatique plis-vers-coins montre également qu'une stratégie de manipulation multi-phase pilotée par l'état perçu est implémentable sans recours à un modèle de déformation explicite. La manipulation de textiles est un défi académique ouvert depuis au moins une décennie, avec des contributions notables des groupes de Berkeley, ETH Zurich et de l'université de Tokyo, sans qu'aucune solution n'ait encore atteint le déploiement industriel à grande échelle. Ce preprint s'inscrit dans un courant récent qui mise sur la synthèse de données visuelles plutôt que sur la modélisation physique exhaustive, une tendance portée aussi par des travaux sur les Vision-Language-Action models (VLA) pour les déformables. Aucun acteur français ou européen n'est cité, bien que des laboratoires comme ceux de l'INRIA ou des industriels comme Enchanted Tools travaillent sur des problématiques adjacentes de manipulation dextère. Le papier est un preprint sans déploiement annoncé ; les prochaines étapes naturelles seraient une validation sur une plus grande diversité de textiles et une intégration sur une plateforme robotique commerciale.

RecherchePaper
1 source
Livraison et collecte dynamiques multi-agents dans les systèmes d'entrepôt robotisé cellulaire
19arXiv cs.RO 

Livraison et collecte dynamiques multi-agents dans les systèmes d'entrepôt robotisé cellulaire

Une équipe de chercheurs publie sur arXiv (réf. 2606.05669, juin 2026) la première formalisation du problème de collecte et livraison multi-agents (MAPD) intégrant l'évolution dynamique des commandes dans les entrepôts robotisés à cellules (RCWS). Le constat de départ est un angle mort opérationnel connu: les algorithmes MAPD classiques supposent des tâches figées, alors que dans la réalité industrielle, de nouvelles références (SKU) s'ajoutent à une commande pendant son exécution. Pour y répondre, les auteurs proposent deux algorithmes de replanification en ligne déclenchés par événements, construits sur le paradigme du token passing. Le premier, Dynamic Token Passing (DTP), effectue une replanification localisée à chaque mise à jour via une décomposition add-order et un ordonnancement prioritaire des accès, tout en garantissant l'absence de collisions entre robots. Le second, Cooperative Token Passing (CTP), mobilise en plus les robots inactifs pour absorber opportunément les nouveaux pickups ajoutés en cours d'exécution. Des simulations en environnement RCWS montrent une réduction significative du flowtime de commandes par rapport aux baselines statiques et non coopératives, sans que les auteurs ne publient de chiffres précis à ce stade. L'enjeu pour les intégrateurs d'entrepôts automatisés est direct: toute modification de commande en cours force aujourd'hui soit une replanification globale coûteuse en temps de calcul, soit une dégradation de la qualité de service. Ce travail comble pour la première fois l'écart entre la littérature académique sur le MAPD et les contraintes opérationnelles réelles des ERP industriels. Le mécanisme coopératif du CTP est particulièrement notable: il exploite la capacité oisive des flottes denses plutôt que de relancer un planning complet, remettant en question l'hypothèse selon laquelle la planification statique par vagues suffit aux RCWS commerciaux actuels. Le token passing est un paradigme bien établi dans la recherche en planification multi-agents (MAPF), notamment autour des travaux de Sven Koenig. Son application aux RCWS cible des architectures déployées par AutoStore (Norvège), Ocado Technology et Hai Robotics, ainsi que par l'acteur français Exotec (Villeneuve-d'Ascq) avec son système Skypod, dont les configurations à grille dense concentrent des centaines de robots sur un volume compact. Ces environnements sont précisément ceux où la coordination dynamique devient critique à mesure que les densités de flotte augmentent. Ce travail reste à ce stade une contribution académique sans déploiement ni partenariat industriel annoncé; la prochaine étape logique serait une validation sur environnement physique et une intégration avec des WMS industriels existants.

UEExotec (Villeneuve-d'Ascq), dont le système Skypod est explicitement cité comme architecture cible, pourrait bénéficier de ces algorithmes si intégrés dans un WMS industriel, renforçant sa compétitivité face à AutoStore et Ocado dans les entrepôts à haute densité de flotte.

RecherchePaper
1 source
TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation
20arXiv cs.RO 

TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation

Des chercheurs ont publié sur arXiv (arXiv:2606.06218) le Torque Adaptation Module (TAM), un module appris qui corrige les commandes de couple envoyées au robot pour aligner son comportement sur celui d'un robot de référence idéal. TAM s'insère entre le contrôleur bas niveau et l'interface couple du robot, et opère via deux composants : un encodeur d'historique proprioceptif, qui compresse les états mécaniques récents en représentation latente, et un adaptateur de couple calculant des corrections résiduelles en temps réel. L'évaluation porte sur un bras Franka Panda réel, en transfert zéro-shot, sur trois tâches de manipulation dynamique : un pushing de boîte guidé par vision (apprentissage par renforcement), un retournement d'objet par imitation comportementale (BC), et un équilibrage balle-sur-plateau par MPC. Le problème adressé est structurant pour l'industrialisation robotique : une politique entraînée sur un robot se dégrade sur une autre instance du même modèle, ou lors d'un changement de charge utile non caractérisée. En manipulation de contact dynamique, un écart de timing de quelques millisecondes suffit à rompre la séquence de contact et faire échouer la tâche. TAM décharge la politique de toute domain randomization sur les paramètres dynamiques du robot, technique qui produit habituellement des comportements trop conservateurs. Sa propriété clé est l'indépendance vis-à-vis de l'espace d'action : les mêmes poids TAM s'appliquent indifféremment à des politiques en cibles articulaires, en cibles d'effecteur terminal, ou en couples directs, ce qui élargit considérablement la portée de réutilisation. En benchmark, TAM surpasse l'identification de système en ligne et la baseline RMA (Rapid Motor Adaptation). La transférabilité inter-robots constitue l'un des obstacles majeurs à la mise à l'échelle des déploiements industriels. Les approches classiques présentent des compromis bien documentés : la domain randomization sacrifie la performance, la system identification exige des données collectées pour chaque robot ou configuration. TAM propose une troisième voie via un préentraînement multi-robot en simulation randomisée, suivi d'un fine-tuning robot-spécifique sans aucune donnée réelle. L'idée d'adaptation par historique proprioceptif avait été popularisée par RMA autour de 2021 pour les robots quadrupèdes ; TAM l'étend à la manipulation de contact en bras articulé, domaine où la dynamique est nettement plus imprévisible. L'article ne mentionne ni partenaire industriel ni timeline de déploiement : il s'agit d'un travail académique dont la validation à plus grande échelle et sur robots variés reste à établir.

RecherchePaper
1 source
LadderMan : apprentissage de l'escalade d'échelles par un humanoïde perceptif
21arXiv cs.RO 

LadderMan : apprentissage de l'escalade d'échelles par un humanoïde perceptif

Des chercheurs ont publié le 5 juin 2026 sur arXiv (preprint 2606.05873) un système baptisé LadderMan, conçu pour permettre à des robots humanoïdes de grimper des échelles de géométries variées et d'effectuer des tâches de manipulation en position perchée. L'architecture repose sur un pipeline d'apprentissage en deux étapes : une phase de suivi de mouvement hybride extrait plusieurs politiques d'escalade expertes à partir d'une seule motion de référence, puis une phase de distillation fusionne ces experts en une politique visuomotrice unifiée, pilotée par caméra de profondeur, via une combinaison d'imitation et de renforcement. Pour combler l'écart simulation-réel sur la perception de profondeur, l'équipe exploite des modèles de vision fondationnels. La manipulation en hauteur est gérée par une formulation dite "dual-agent" : un agent dédié à la stabilité sur l'échelle, un autre à la manipulation, avec télé-opération comme signal superviseur. Les expériences rapportent un transfert zéro-shot vers le hardware réel, sans fine-tuning supplémentaire. L'escalade d'échelle constitue l'un des tests les plus discriminants pour les humanoïdes : les points d'appui sont rares et fixes, la coordination corps entier est critique, et la moindre erreur de perception ou de contrôle peut provoquer une chute. Le transfert zéro-shot réussi de la simulation au réel est ici le résultat le plus significatif : il suggère que les modèles de vision fondationnels permettent d'atténuer suffisamment le sim-to-real gap sur des tâches perceptivo-motrices contraintes, une hypothèse longtemps débattue dans la communauté. La capacité à manipuler des objets depuis une position instable ouvre des perspectives concrètes pour l'inspection industrielle, la maintenance en hauteur et les chantiers de construction. Il convient cependant de souligner qu'il s'agit d'un preprint de recherche, non d'un produit commercialisé, et que les vidéos publiées sur ladderman-robot.github.io restent sélectionnées par les auteurs. Ce travail s'inscrit dans une vague active de recherche poussant les humanoïdes vers des environnements contraints et à risque élevé. Aucune entreprise commerciale n'est identifiée dans le preprint, ce qui suggère une origine académique. Sur le plan concurrentiel, aucun constructeur humanoïde majeur, ni Boston Dynamics (Atlas), ni Figure (Figure 03), ni Tesla (Optimus Gen 3), ni Agility Robotics (Digit), n'a à ce jour publié de démonstration d'escalade d'échelle à ce niveau de robustesse et de transfert zéro-shot. Les prochaines étapes logiques seraient un test sur une gamme plus large de robots humanoïdes commerciaux et une intégration de la manipulation autonome, sans télé-opération.

RecherchePaper
1 source
VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique
22arXiv cs.RO 

VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique

Des chercheurs ont publié sur arXiv (identifiant 2606.05395) un framework nommé VASO, pour "Verification-guided Self-evolution of LLM-generated robot skill contracts", qui vise à rendre les compétences robotiques générées par des grands modèles de langage à la fois réutilisables et formellement vérifiables. L'idée centrale : chaque compétence n'est plus un simple script exécutable mais un contrat sémantique à double interface, une interface formelle qui aligne états du robot, observations et commandes de contrôle avec des propositions logiques pour le model checking, et une interface orientée planificateur qui guide la génération de comportements exécutables. Lorsqu'un plan généré échoue à la vérification, VASO traduit la trace de contre-exemple en un gradient textuel qui met à jour le contrat de compétence réutilisable, sans toucher aux poids du modèle de fondation. Sur des plateformes Clearpath Jackal et PX4 (quadrocoptère), le framework atteint 97,2 % de conformité aux spécifications temporelles formelles en moins de 100 échantillons d'optimisation, surpassant les baselines de feedback d'exécution, d'optimisation de prompt et de fine-tuning. Le problème adressé est précis et rarement traité : les boucles d'évolution de compétences existantes, retour d'exécution, tests unitaires, récompenses d'environnement, auto-critique LLM, ne fournissent que des preuves au niveau de la trace. Elles montrent qu'une compétence a fonctionné sur des exécutions échantillonnées, pas qu'elle satisfait des contrats de sécurité temporelle dans des conditions non testées. Pour un intégrateur ou un COO industriel, c'est la différence entre une démo convaincante en lab et un déploiement certifiable en production. Le fait que VASO maintienne les poids du modèle gelés est également notable sur le plan économique : pas de fine-tuning, pas de GPU dédié à la mise à jour du modèle. Ce travail s'inscrit dans la tendance des "physical AI agents" où les LLM orchestrent des comportements robotiques à long horizon depuis des instructions en langage naturel. Les compétences réutilisables sont devenues les unités de base de ces architectures, mais leur fiabilité formelle reste un angle mort notable. Des approches concurrentes comme les VLA (Vision-Language-Action models) ou les frameworks d'optimisation de prompts comme OPRO ne ferment pas cette boucle vérification-évolution. VASO affirme être le premier à le faire explicitement. Il s'agit néanmoins d'un preprint sans validation industrielle publiée, et les résultats obtenus sur deux plateformes relativement simples devront être confirmés sur des environnements plus complexes et des chaînes de compétences plus longues avant d'envisager un déploiement en conditions réelles.

RecherchePaper
1 source
Accélérer et étendre l'apprentissage par renforcement guidé par MPC pour la locomotion et la manipulation humanoïdes
23arXiv cs.RO 

Accélérer et étendre l'apprentissage par renforcement guidé par MPC pour la locomotion et la manipulation humanoïdes

Une équipe de recherche publie sur arXiv (arXiv:2606.05687v1) une méthode hybride MPC-RL pour le contrôle moteur des robots humanoïdes, baptisée MPC-RL. Le principe : intégrer un contrôleur prédictif par modèle (MPC) directement dans la boucle d'entraînement par renforcement (RL), en utilisant les trajectoires générées par le MPC comme signal de récompense basé sur la dynamique centroïdale du robot. La contribution technique centrale est un solveur GPU appelé pi-n-MPC, parallélisé à la fois sur l'horizon temporel et sur les instances de simulation, sans nécessiter de précompilation ni de construction explicite du problème à chaque pas. Les auteurs reportent des validations sur hardware réel, sans préciser les plateformes matérielles ni les cycles de tests. Le code est disponible en open source sur GitHub. L'enjeu industriel derrière ce travail est réel : le RL massif en simulation parallèle (Isaac Gym, Mujoco MJX) est devenu le standard pour entraîner des compétences de locomotion et de manipulation humanoïde, mais y injecter un MPC est historiquement coûteux en temps de construction et en mémoire GPU. Pi-n-MPC contourne ces deux goulots d'étranglement en opérant directement sur des dynamiques variables dans le temps, sans accumuler de mémoire excessive. Si les gains revendiqués se confirment à l'échelle, cela ouvre la voie à des politiques hybrides MPC/RL entraînables sur des clusters GPU standard, sans infrastructure spécialisée. Attention toutefois : le papier s'appuie sur des études comparatives internes et des validations hardware dont les conditions exactes (charges, cycles, environnements) ne sont pas détaillées dans le résumé disponible, ce qui limite l'évaluation externe des performances annoncées. La combinaison MPC-RL n'est pas nouvelle dans la recherche en locomotion : des travaux comme ceux de DeepMind sur le contrôle de quadrupèdes ou les approches whole-body de CMU et ETH Zurich ont exploré des directions similaires. La spécificité ici réside dans l'accent mis sur la scalabilité GPU et l'absence de précompilation, deux verrous pratiques qui freinent l'adoption dans les pipelines d'entraînement industriels. Les acteurs qui déploient activement des humanoïdes en environnement réel, comme Figure AI, Apptronik ou Agility Robotics, travaillent tous à réduire le sim-to-real gap sur la manipulation dextre : une infrastructure d'entraînement MPC-RL plus légère pourrait accélérer leurs cycles d'itération. La prochaine étape naturelle serait une validation sur des plateformes nommées et des tâches de manipulation avec contraintes de contact.

RecherchePaper
1 source
DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils
24arXiv cs.RO 

DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils

Des chercheurs ont publié DexFuture (arXiv:2606.05699), une architecture hiérarchique pour la manipulation bimanuelle dextre avec des outils. Le système se décompose en deux niveaux : un prédicteur de cibles visuomotrices futures (Future-State Visuomotor Target Predictor) en haute couche, et une politique d'exécution bas niveau conditionnée sur ces cibles (Target-Conditioned Structured Dexterous Policy). Le prédicteur exploite un flux RGB égocentrique, des données proprioceptives et un historique géométrique pour générer une trajectoire multi-étape via un transformeur conditionné sur l'horizon temporel ; le module d'exécution suit ensuite ces cibles articulation par articulation (per-link) à 60 Hz. Sur le benchmark OakInk2 de tâches bimanuelles avec outils, DexFuture atteint 90 % des performances d'un oracle disposant d'états privilégiés (informations inaccessibles en déploiement réel), contre seulement 7 % pour une politique sans référence future, et s'exécute environ 250 fois plus vite que les approches de planification CEM de type DexWM. Ce résultat est notable car il s'attaque à l'un des verrous fondamentaux de la robotique dextre : comment générer une référence future dynamiquement cohérente sans s'appuyer sur des états privilégiés issus de démonstrations humaines, et sans planification contrefactuelle lente sur des séquences d'actions à haute dimension. L'écart de performance entre la politique sans référence (7 %) et DexFuture (90 %) illustre à quel point le conditionnement sur un horizon temporel est déterminant pour la manipulation fine à deux mains. Pour les intégrateurs et décideurs B2B, l'exécution à 60 Hz est compatible avec du contrôle temps-réel sur hardware standard, là où les approches CEM nécessitaient des cycles bien trop longs pour un déploiement industriel. La séparation explicite entre prédiction sémantique lente (long horizon) et exécution haute fréquence (bas niveau) est une architecture qui se répand dans la robotique de précision, et DexFuture en fournit une validation quantitative significative sur benchmark public. Le benchmark OakInk2 est une référence académique établie pour évaluer la manipulation d'outils à deux mains avec des mains anthropomorphes, couvrant des tâches réalistes de préhension, transfert et utilisation d'outils courants. Le champ des politiques visuomotrices pour mains dextres est en pleine effervescence : DexWM (world models pour la dextérité), Pi-0 de Physical Intelligence, et les approches VLA (Vision-Language-Action) de Google DeepMind et Figure AI poussent la généralisation vers des niveaux inédits. DexFuture se distingue en ciblant la cohérence dynamique de la trajectoire future sans supervision privilégiée, une contrainte plus réaliste que les méthodes supposant un accès complet à l'état du système. L'article n'annonce ni déploiement physique ni timeline commerciale : il s'agit d'un résultat de recherche fondamentale validé en simulation et sur données de démonstration. Les étapes naturelles seraient le passage à des mains physiques (sim-to-real), l'extension à des outils non vus à l'entraînement, et l'intégration dans des pipelines VLA pour des tâches de longue durée.

RecherchePaper
1 source
Apprentissage de la coordination visuomotrice prédictive
25arXiv cs.RO 

Apprentissage de la coordination visuomotrice prédictive

Des chercheurs ont publié sur arXiv (référence 2503.23300, version 2, juin 2026) un système de prédiction de la coordination visuomotrice humaine à partir de flux égocentrés. Concrètement, le modèle prend en entrée des images capturées par une caméra portée par l'utilisateur ainsi que des données cinématiques (positions et orientations corporelles), et prédit en sortie la pose de la tête, la direction du regard et les mouvements du haut du corps. L'architecture proposée, baptisée Visuomotor Coordination Representation (VCR), apprend des dépendances temporelles structurées entre ces signaux multimodaux. Elle s'appuie sur un cadre de modélisation du mouvement par diffusion, une famille de modèles génératifs capables de produire des trajectoires cohérentes dans le temps. L'évaluation porte sur EgoExo4D, le jeu de données à grande échelle de Meta combinant vidéos égocentrées et exocentrées d'activités du quotidien, ce qui confère aux résultats une portée de généralisation sur des scénarios variés. L'enjeu pratique est significatif pour la robotique collaborative et les interfaces homme-machine. Anticiper où un opérateur va regarder et comment il va bouger son bras dans la seconde à venir est une brique fondamentale pour des robots industriels capables d'adapter leur trajectoire sans collision, ou pour des exosquelettes qui doivent pré-charger l'assistance musculaire avant le geste. L'approche démontre que la fusion vision-cinématique surpasse les approches unimodales, ce qui valide l'hypothèse que le regard et le mouvement corporel sont couplés de façon prévisible et exploitable par un modèle appris. Pour les technologies d'assistance (aide à la mobilité, interfaces de compensation du handicap), la prédiction de l'intention motrice ouvre des pistes concrètes de réduction de latence. Ce travail s'inscrit dans un courant de recherche en pleine accélération autour de la modélisation du comportement humain en vue première personne, nourri par la montée en puissance de dispositifs portables comme les lunettes AR et les capteurs inertiels embarqués. Les approches concurrentes incluent les modèles de prédiction de gaze sur vidéo statique (Aleatoric, GazeTR) et les frameworks de prédiction de mouvement full-body comme HumanMAC ou MDM, mais peu croisent explicitement regard et cinématique dans un cadre de prédiction temporelle unifiée. La publication ne mentionne pas de calendrier de déploiement industriel ni de partenariat applicatif ; il s'agit pour l'instant d'une contribution académique, avec page projet disponible, dont la suite naturelle serait une intégration dans des pipelines d'imitation learning pour robots humanoïdes ou cobots.

RecherchePaper
1 source
Exploration multi-robots améliorée par priorisation probabiliste des frontières avec mélanges gaussiens de Dirichlet
26arXiv cs.RO 

Exploration multi-robots améliorée par priorisation probabiliste des frontières avec mélanges gaussiens de Dirichlet

Des chercheurs ont publié sur arXiv (identifiant 2604.03042) une méthode d'amélioration des algorithmes d'exploration autonome multi-robots, fondée sur une priorisation probabiliste des frontières d'exploration. L'approche repose sur un modèle de mélange gaussien à processus de Dirichlet (DP-GMM), combiné à une formulation probabiliste du gain d'information, pour classer les zones frontières, ces limites entre les régions déjà cartographiées et les espaces encore inconnus. Testée sur deux algorithmes multi-agents de référence dans la littérature, elle affiche des gains moyens de 10 % et 14 % respectivement sur l'ensemble des configurations simulées : environnements à densité d'obstacles variable, contraintes de communication différentes, et équipes de tailles diverses. Un déploiement en conditions réelles avec un système à deux drones a confirmé ces résultats. L'intérêt principal de cette contribution réside dans sa modularité : il ne s'agit pas d'un nouvel algorithme complet, mais d'un module de priorisation greffable sur des pipelines existants. Les méthodes frontier-based classiques évaluent la valeur d'une frontière à partir de critères géométriques simples comme la distance euclidienne ou la taille de zone. La formulation probabiliste proposée estime mieux l'utilité réelle de chaque frontière, ce qui réduit les chevauchements de couverture entre agents sans requérir de bande passante supplémentaire. Pour un intégrateur déployant des flottes de drones ou de robots mobiles autonomes (AMR) en inspection industrielle ou surveillance de sites, un gain de 10 à 14 % en efficacité d'exploration se traduit concrètement par une réduction du temps de mission ou une diminution du nombre d'unités nécessaires. L'exploration par frontières remonte aux travaux fondateurs de Yamauchi en 1997 et reste l'un des paradigmes dominants pour la navigation autonome en environnement inconnu. Son extension aux systèmes multi-agents souffre depuis d'un problème de coordination sous contraintes de communication, que diverses approches ont tenté de résoudre via les marchés d'enchères, les graphes de communication ou l'apprentissage par renforcement distribué. Le DP-GMM se positionne ici comme une couche d'amélioration légère, potentiellement intégrable sans refonte architecturale dans des stacks existants comme ROS 2. La validation sur drones physiques renforce la crédibilité de la méthode dans un domaine où le sim-to-real gap reste une critique systématique. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade : il s'agit d'une contribution académique ouverte.

RecherchePaper
1 source
Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement
27arXiv cs.RO 

Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement

Des chercheurs ont publié sur arXiv (arXiv:2606.06041) un framework baptisé iCEM+TL, qui combine la méthode évolutionnaire iCEM (improved Cross-Entropy Method) avec du Transfer Learning pour améliorer la planification de mouvement bas-niveau en robotique de manipulation. L'approche transfère directement les paramètres-clés d'iCEM appris sur des tâches simples vers des tâches plus complexes -- empilage d'objets, glissement, placement en étagère -- sans réentraîner depuis zéro. Complétée par une refonte des fonctions de récompense (Reward Redesign) via décomposition de tâche pour les scénarios d'empilage et de placement en étagère, la méthode atteint des gains de taux de succès allant jusqu'à 23 % en simulation. Elle a ensuite été validée sur un robot réel Franka Emika Panda dans un scénario d'empilage, confirmant la transférabilité sim-to-real de l'approche. L'intérêt principal réside dans l'efficacité d'échantillonnage : iCEM+TL contourne le besoin de longues phases d'entraînement en réutilisant explicitement la connaissance déjà acquise sur des tâches amont. Pour les intégrateurs industriels ou les équipes R&D robotique, cela signifie qu'ajouter une nouvelle tâche de manipulation à un bras existant ne nécessite pas un réentraînement complet -- un gain direct en temps et en coût de déploiement. Le fait que le transfert soit qualifié de "zero-shot" dans le titre mérite toutefois une nuance : il s'agit ici d'un transfert de paramètres entre tâches proches dans un même domaine, et non d'une généralisation à des environnements radicalement différents. Les résultats restent majoritairement issus de simulation, avec une validation robotique limitée à un seul scénario d'empilage -- la robustesse à l'échelle industrielle reste à établir. iCEM est un algorithme de planification en temps réel apparu comme alternative légère aux méthodes d'apprentissage par renforcement profond, notamment pour la manipulation sur bras sériels. Le Franka Emika Panda (7 DOF) est devenu un banc de test standard de la communauté académique, utilisé par des dizaines d'équipes dans le monde. Dans ce paysage, iCEM+TL se positionne en dehors des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou des policies à diffusion qui dominent actuellement les benchmarks de référence tels que RLBench. La suite naturelle serait de tester le framework sur des tâches à horizon plus long, sur d'autres morphologies de robots, et de comparer formellement les gains de temps d'entraînement face aux baselines RL modernes.

RecherchePaper
1 source
L-SDPPO : optimisation de politique par diffusion à impulsions pour la manipulation robotique en véhicule
28arXiv cs.RO 

L-SDPPO : optimisation de politique par diffusion à impulsions pour la manipulation robotique en véhicule

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.06049) un framework baptisé L-SDPPO, conçu pour la manipulation robotique à bord des engins spatiaux. L'objectif : permettre à des bras robotiques opérant à l'intérieur de vaisseaux habités de réaliser des tâches précises, comme l'ouverture de trappes ou le bouchage de contenants, dans des conditions de micropesanteur. Le système combine une politique de diffusion à spics neuronaux (Spiking Diffusion Policy, SDP) avec un algorithme d'apprentissage par renforcement de type PPO. À cela s'ajoute un mécanisme original, le SDLI (state-dependent latency injection), qui module dynamiquement le timing des signaux d'entrée en imitant les délais biologiques des neurones. Les auteurs rapportent des taux de succès supérieurs à l'état de l'art sur cinq tâches représentatives, avec une consommation énergétique réduite par rapport aux architectures classiques. Le défi adressé est réel : dans un environnement sans gravité, les objets dérivent librement et de manière imprévisible, rendant les distributions d'actions multimodales difficiles à modéliser. Les politiques de diffusion classiques (Diffusion Policy, DP) gèrent bien cette complexité, mais leur processus d'échantillonnage itératif est coûteux en énergie, ce qui pose problème dans des systèmes embarqués aux budgets énergétiques serrés. Le recours aux réseaux de neurones à impulsions (spiking neural networks), naturellement plus frugaux, combiné à l'optimisation par RL, constitue une réponse architecturale cohérente. Si les résultats présentés sont prometteurs, les benchmarks utilisés restent des simulations de tâches intravéhiculaires, et aucune validation en conditions orbitales réelles n'est rapportée à ce stade. Ce travail s'inscrit dans un effort plus large pour doter les stations spatiales et vaisseaux habités de robots capables d'assister ou de remplacer les astronautes lors de tâches répétitives ou risquées, une priorité affichée par la NASA et l'ESA. Côté concurrence académique, des travaux antérieurs ont exploré les politiques de diffusion en robotique terrestre (Pi-0 de Physical Intelligence, par exemple), mais leur adaptation aux contraintes orbitales reste largement ouverte. La prochaine étape naturelle serait une validation sur hardware embarqué, voire un test en environnement parabolique ou en orbite basse, un saut qui conditionne l'adoption réelle de ce type de système.

UEL'ESA figure parmi les organisations dont la feuille de route en robotique spatiale est directement concernée par ce type de travaux, mais l'absence de validation hors simulation limite l'impact concret à court terme.

RecherchePaper
1 source
T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches
29arXiv cs.RO 

T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches

Une équipe de recherche présente sur arXiv (identifiant 2606.05975, juin 2026) T-FunS3D, une méthode de segmentation 3D fonctionnelle à vocabulaire ouvert, pilotée par la tâche. Le système prend en entrée un nuage de points 3D et des images RGB-D posées d'une scène intérieure, à partir desquels il construit un graphe de scène à vocabulaire ouvert en extrayant les instances visuelles et leurs embeddings. Lorsqu'une description de tâche en langage naturel est fournie (par exemple "ouvrir le tiroir"), T-FunS3D interroge ce graphe pour identifier les instances pertinentes, puis localise leurs composants fonctionnels précis (poignée, loquet, bouton) via un modèle vision-langage (VLM). Évalué sur le jeu de données de référence SceneFun3D, le système affiche des performances comparables à l'état de l'art en segmentation fonctionnelle 3D, tout en réduisant le temps d'exécution et la consommation mémoire par rapport aux approches exhaustives. L'enjeu est structurant pour la perception robotique en manipulation. Les méthodes existantes de segmentation 3D à vocabulaire ouvert s'arrêtent généralement au niveau objet : elles savent qu'une tasse est présente, pas où se trouve l'anse. Les approches de segmentation scénique exhaustive, elles, traitent l'intégralité de la scène indépendamment de la tâche, ce qui les rend prohibitives en temps de calcul et en mémoire pour un déploiement embarqué. T-FunS3D adopte une logique hiérarchique et sélective, seuls les objets pertinents pour la tâche courante étant analysés au niveau partie, un compromis plus réaliste pour une exécution temps réel sur un robot physique. Ce type de perception "actionnnable" est un prérequis non résolu à l'échelle pour les architectures vision-langage-action (VLA) aujourd'hui au coeur de la robotique de manipulation. La méthode s'inscrit dans un effort plus large autour de la représentation sémantique des scènes pour la robotique, dont SceneFun3D constitue le banc d'essai de référence. La tendance à intégrer des VLMs comme raisonneurs sémantiques dans la boucle de perception, plutôt que comme générateurs d'actions directs, gagne du terrain dans des travaux concurrents tels que RoboPoint ou les approches fondées sur ConceptGraphs. T-FunS3D se différencie par son architecture en graphe de scène et sa focalisation explicite sur les composants fonctionnels plutôt que sur les objets entiers. Il s'agit d'une contribution académique sans annonce de déploiement industriel. Les suites naturelles incluent l'extension à des scènes dynamiques, des objets articulés complexes et l'intégration directe dans des pipelines VLA de bout en bout.

RecherchePaper
1 source
Vers un cycle vertueux de données pour l'IA physique en logistique
30arXiv cs.RO 

Vers un cycle vertueux de données pour l'IA physique en logistique

Une équipe de chercheurs publie sur arXiv (réf. 2606.05960) un cadre de recherche baptisé "data flywheel" pour l'intelligence incarnée appliquée à la logistique. L'idée centrale : transformer les opérations quotidiennes d'un robot déployé en actifs de données réutilisables pour entraîner et améliorer les politiques de contrôle. La contribution technique principale est WM-DAgger (World Model-based Data Aggregation), une extension de l'algorithme classique DAgger qui exploite un modèle du monde pour synthétiser des données de récupération hors-distribution. En clair, lorsqu'un robot rencontre un colis dans une configuration rare qu'il n'a jamais vue, le modèle du monde génère des trajectoires de correction synthétiques sans nécessiter une nouvelle intervention humaine. Le cadre intègre également trois types de données multimodales : démonstrations humaines étiquetées, vidéos opérationnelles non étiquetées, et journaux système du robot en conditions réelles. L'enjeu industriel est direct. Les pipelines robotiques traditionnels en perception-planification-contrôle, dominants en entrepôt, ne généralisent pas bien aux cas rares, or c'est précisément là que se concentrent les défaillances en conditions réelles. Les systèmes d'apprentissage par imitation promettent plus de flexibilité, mais se heurtent au problème du "long tail" : les configurations atypiques de colis (forme, poids, orientation, emballage dégradé) représentent une fraction infime du volume mais la majorité des erreurs. WM-DAgger s'attaque à ce goulet en générant synthétiquement les données de récupération manquantes, ce qui réduit théoriquement le besoin de collecte terrain coûteuse pour chaque variante. Si le concept tient à l'échelle, il change l'équation économique du déploiement : le robot s'améliore en opérant, sans interrompre la chaîne logistique pour des sessions de collecte dédiées. Sur le plan du contexte, la recherche s'inscrit dans un mouvement plus large d'industrialisation de la manipulation apprenable, porté côté startups par Covariant (racheté par ABB), Dexterity, Nimble Robotics ou encore Pickle Robot aux États-Unis, et en Europe par des acteurs comme Exotec, dont le Skypod reste cependant dans le registre AMR plutôt que manipulation fine. La logistique de colis est devenue le banc d'essai favori de la communauté robotique pour tester le passage du laboratoire au déploiement réel. Ce papier reste pour l'instant un preprint de recherche : WM-DAgger est décrit comme un "résultat initial" et les travaux en cours sont présentés comme exploratoires. Aucun chiffre de performance en conditions industrielles n'est communiqué, et aucun partenaire industriel n'est mentionné. À surveiller pour les résultats de validation à venir.

RecherchePaper
1 source
Conception et évaluation d'un embout pour robots-lianes à haute vitesse
31arXiv cs.RO 

Conception et évaluation d'un embout pour robots-lianes à haute vitesse

Des chercheurs du MIT Lincoln Laboratory (MITLL) ont publié sur arXiv (preprint 2606.06040, juin 2026) une nouvelle conception de fixation apicale pour robots-lianes, ces robots souples à croissance dirigée qui progressent par éversion apicale, c'est-à-dire en retournant leur propre corps sur lui-même comme une chaussette, à la façon d'une liane. Le problème ciblé est précis : intégrer des capteurs ou des caméras à l'extrémité de ces robots est structurellement difficile, car le matériau formant la pointe se renouvelle en continu pendant la croissance. La friction entre les couches internes, le poids additionnel au bout et la constriction du tissu composite (nylon ripstop enduit TPU) rendaient jusqu'ici les montages instables et la croissance irrégulière. L'équipe propose un montage triangulaire à galets qui roule contre la paroi interne du robot au lieu de glisser, réduisant ainsi la résistance mécanique. Le design a été affiné par une analyse itérative des modes de défaillance. Ils ont également développé un banc de test dédié mesurant la tension en queue d'éversion pour isoler l'effet du montage apical, et pour la première fois, obtenu une éversion répétable sur cette famille de matériaux. Ce résultat est significatif pour le domaine des robots souples, où la transition entre démo de laboratoire et déploiement opérationnel bute précisément sur la fiabilité des capteurs embarqués. Les robots-lianes sont candidats naturels à l'inspection en espace confiné (canalisations, décombres, conduits industriels), mais sans capteurs stables à la pointe, leur autonomie est limitée. Le banc de test normalisé que les chercheurs publient est peut-être aussi important que le montage lui-même : il offre un protocole reproductible pour comparer les architectures futures, ce dont le champ manquait. Les métriques annoncées restent qualitatives dans le résumé (tension la plus faible, croissance la plus répétable), sans données quantitatives chiffrées publiées, à confirmer à la lecture du papier complet. Les robots-lianes sont un axe de recherche actif depuis les travaux fondateurs de l'Université de Stanford (groupe Hawkes, fin des années 2010), avec des applications explorées en chirurgie mini-invasive et en robotique de sauvetage. Côté concurrents, on trouve les travaux de l'Université de Californie Santa Barbara et quelques startups en stealth stage. Le MITLL, bras recherche appliquée du MIT, positionne ici ses travaux dans une logique de transfert technologique vers des usages d'inspection et de recherche-sauvetage (Search and Rescue). Les fichiers CAD du montage et du banc de test sont disponibles publiquement, ce qui suggère une volonté de standardisation communautaire. Les prochaines étapes attendues : intégration de caméras endoscopiques ou de capteurs tactiles, et tests en environnement non structuré réel.

RecherchePaper
1 source
Apprentissage par imitation sur des variétés riemanniennes via des équations différentielles ordinaires neuronales
32arXiv cs.RO 

Apprentissage par imitation sur des variétés riemanniennes via des équations différentielles ordinaires neuronales

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.05422) un cadre d'apprentissage par démonstration (LfD) sur des variétés riemanniennes, en utilisant des équations différentielles ordinaires neuronales (Neural ODEs). Le problème de fond est connu : les approches LfD classiques supposent que l'état du robot évolue dans un espace euclidien plat, ce qui est inexact pour les données d'orientation ; les rotations habitent SO(3), un espace mathématiquement courbe. La méthode proposée encode conjointement position et orientation dans une variété riemannienne, calcule numériquement les chemins géodésiques (les plus courts chemins sur la variété) via un réseau de type Neural ODE, puis décode ces trajectoires dans l'espace de tâche avant déploiement sur le robot. Les résultats présentés proviennent exclusivement de simulations ; aucun déploiement matériel n'est rapporté. L'article est soumis comme "extended abstract", signalant une recherche en phase préliminaire. L'enjeu industriel est réel : quand un système LfD ignore la géométrie courbe de l'espace d'orientation, il risque de produire des trajectoires discontinues ou non naturelles, particulièrement pénalisant pour l'assemblage de précision, la soudure ou toute manipulation fine requérant un contrôle strict de l'orientation de l'effecteur. Les méthodes existantes de calcul géodésique sur variétés riemanniennes sont coûteuses en calcul, un goulot d'étranglement qui freine leur adoption opérationnelle. L'usage de Neural ODEs, qui intègrent numériquement une équation différentielle plutôt que de la résoudre analytiquement, est présenté comme une voie pour réduire ce surcoût. Les auteurs comparent leur approche à d'autres mécanismes de calcul géodésique en simulation, sans pour l'instant de validation sur hardware réel. Ce travail s'inscrit dans une trajectoire de recherche qui part du LfD de Schaal (1999) et des Dynamical Movement Primitives, passe par les GMM riemanniennes de Calinon (IDIAP) et les travaux de Zeestraten et al. (2017), et intègre désormais les Neural ODEs popularisés par Chen et al. à NeurIPS 2018. Les approches concurrentes incluent les réseaux équivariants SE(3), les politiques de diffusion (Diffusion Policy, Chi et al. 2023) et les modèles quaternion-aware. Aucun partenaire industriel, financement ou calendrier de déploiement n'est mentionné ; les auteurs eux-mêmes qualifient les suites de "défis et perspectives", ce qui situe clairement ce travail au stade de la preuve de concept en simulation.

RecherchePaper
1 source
VOLT : segmentation de trajectoires vision-langage pour des politiques plus rapides que la démonstration
33arXiv cs.RO 

VOLT : segmentation de trajectoires vision-langage pour des politiques plus rapides que la démonstration

Une équipe de recherche publie VOLT (Vision and Language Trajectory Segmentation), une méthode d'apprentissage par imitation conçue pour que les robots exécutent des tâches plus vite que ne le font les humains lors des démonstrations. Le constat de départ est simple : dans les applications industrielles, la vitesse d'un démonstrateur humain est rarement la vitesse optimale du robot. La solution naive, sous-échantillonner uniformément la trajectoire enregistrée pour l'accélérer globalement, pose problème : certaines phases peuvent être accélérées sans risque (mouvements libres en espace non contraint), d'autres exigent une précision millimétrée (saisie d'objet, assemblage, manipulation fine). VOLT exploite des indices visuels et langagiers issus des vidéos de démonstration pour segmenter automatiquement ces deux types de phases, n'accélérer que les segments non critiques, et conserver le rythme original là où la précision compte. Les trajectoires reformatées servent ensuite à entraîner des politiques d'imitation standards, notamment des diffusion policies. L'article démontre que la qualité de la segmentation est le facteur déterminant : les méthodes de référence mal segmentées produisent des politiques soit trop prudentes, soit peu fiables sur les phases délicates. Pour les intégrateurs industriels, cela ouvre concrètement la voie à des robots apprenant depuis des démonstrations humaines tout en atteignant des cadences proches de leurs limites physiques, sans programmation explicite des profils de vitesse. L'approche est compatible avec les architectures d'imitation learning existantes, ce qui facilite l'intégration dans des pipelines déjà déployés. À noter : le papier ne fournit pas de métriques chiffrées précises (taux de succès, gains de temps en secondes), ce qui rend difficile une comparaison quantitative indépendante. VOLT s'inscrit dans la vague actuelle de l'apprentissage par imitation, portée par l'essor des diffusion policies et des modèles vision-langage-action (VLA) comme pi-0 de Physical Intelligence ou les variantes de ACT de Stanford. La méthode est publiée en préprint sur arXiv (2606.06323v1) et n'a pas encore été évaluée par les pairs ni validée en déploiement réel, ce qui interdit de la considérer comme un produit livrable à ce stade. Aucun acteur français ou européen n'est impliqué. Les prochaines étapes naturelles incluent une validation sur des tâches industrielles représentatives et une intégration dans des pipelines de téléopération à grande échelle, où la question de la vitesse d'exécution relative à la démonstration est particulièrement critique.

RechercheOpinion
1 source
Apprentissage de politiques de sécurité pour robots via des scénarios synthétiques adversariaux
34arXiv cs.RO 

Apprentissage de politiques de sécurité pour robots via des scénarios synthétiques adversariaux

Des chercheurs ont déposé en juin 2026 sur arXiv (référence 2606.05952) un article de recherche présentant un cadre de "gamification agentique" destiné à entraîner des politiques de sécurité pour robots physiques. Le principe repose sur un jeu adversarial entre deux agents logiciels : une Red Team chargée d'explorer l'espace des défaillances possibles en construisant des scénarios dangereux, et une Blue Team qui raffine itérativement les politiques de sécurité pour y répondre. Ce processus en boucle vise à faire émerger des cas limites à haut risque que ni la simulation aléatoire ni l'énumération manuelle de scénarios ne permettent d'identifier efficacement. Il est important de noter que les auteurs décrivent eux-mêmes un travail en cours : la contribution se limite à une formulation du problème et à une architecture de solution proposée, sans validation expérimentale publiée à ce stade. L'enjeu industriel est réel. À mesure que les systèmes de Physical AI, notamment les bras manipulateurs et les robots humanoïdes, quittent les environnements contrôlés pour des déploiements en atelier ou en logistique, la robustesse des politiques de sécurité devient un critère de qualification aussi important que la performance. Les approches classiques de test par simulation aléatoire souffrent d'une couverture insuffisante des situations rares mais critiques, et l'énumération manuelle ne passe pas à l'échelle. L'idée d'un red teaming automatisé, si elle est validée expérimentalement, offrirait un pipeline scalable pour certifier des comportements sûrs avant déploiement, ce que les intégrateurs industriels attendent avec impatience. Le red teaming est une technique éprouvée en cybersécurité et dans l'alignement des grands modèles de langage : Anthropic et OpenAI l'utilisent systématiquement pour identifier les comportements dangereux de leurs LLMs avant mise en production. Sa transposition à la robotique physique est plus complexe, car l'espace d'états est continu, les conséquences des défaillances sont immédiates et irréversibles, et la simulation doit capturer une physique réaliste. Dans un secteur où Figure, Tesla (Optimus), Boston Dynamics et Agility Robotics accélèrent leurs déploiements en environnements non structurés, la question de la certification de sécurité reste un verrou non résolu. Ce travail propose une direction méthodologique, mais ses auteurs n'annoncent ni calendrier d'implémentation ni partenariat industriel à ce stade.

RechercheOpinion
1 source
Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels
35arXiv cs.RO 

Manipulation inverse par planification symbolique et apprentissage d'opérateurs résiduels

Des chercheurs publient sur arXiv (2606.05248) un cadre hybride pour la manipulation inverse en robotique : restaurer l'état initial d'un objet après qu'un bras manipulateur a exécuté une tâche. Le système extrait automatiquement des opérateurs de type STRIPS à partir de démonstrations humaines, via des prédicats géométriques souples (soft geometric predicates). Pour chaque opérateur, il dérive un objectif de restauration inverse qui préserve les préconditions, restaure les effets supprimés et annule les effets ajoutés. Quand le planificateur symbolique ne parvient pas à tout résoudre seul, les prédicats irrésolus déclenchent un apprentissage résiduel par algorithme Soft Actor-Critic (SAC). L'évaluation porte sur la tâche PushCube du benchmark de simulation ManiSkill3 : le plan symbolique effectue une restauration grossière par pick-and-place, puis le SAC affine la pose du cube pour satisfaire les prédicats restants. Ce travail s'attaque à un problème industriellement critique mais peu formalisé : inverser une tâche robotique ne se résume ni à rejouer les trajectoires moteur à rebours, ni à inverser les transitions symboliques d'un plan. La dynamique continue des contacts physiques crée des effets irréversibles qu'aucune de ces deux approches seules ne corrige. En combinant planification symbolique pour la restauration grossière et RL résiduel pour le raffinement précis, les auteurs montrent qu'un inverse approximatif peut devenir une compétence physiquement fondée. Pour les intégrateurs industriels, cela ouvre la voie à des systèmes capables de récupération d'erreur automatique sans reprogrammation manuelle, une lacune réelle des installations robotiques actuelles. Ce preprint s'inscrit dans la tension croissante entre deux paradigmes : les modèles tout-neuronal de type VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur l'apprentissage de bout en bout, et les approches hybrides symbolique-neuronal. Les auteurs parient sur STRIPS, formalisé en 1971, comme couche de représentation structurée des effets d'actions. ManiSkill3 est un benchmark de simulation standardisé développé à l'Université de San Diego ; les résultats restent donc entièrement en simulation, sans transfert sim-to-real démontré ni partenaire industriel annoncé. L'extension à des tâches aux effets réellement irréversibles (assemblage, coupe, collage) constitue la prochaine étape non résolue, et conditionnera l'intérêt concret de cette approche pour le déploiement réel.

RecherchePaper
1 source
Ce que mesurent réellement les benchmarks en manipulation robotique
36arXiv cs.RO 

Ce que mesurent réellement les benchmarks en manipulation robotique

Un article de recherche déposé sur arXiv le 4 juin 2026 (arXiv:2606.04233) remet en cause la fiabilité de cinq benchmarks standards en manipulation robotique : LIBERO, CALVIN, SimplerEnv, RoboCasa et RoboTwin 2.0. Les auteurs identifient quatre modes de défaillance structurelle qui invalident leur usage comme proxy de la capacité de manipulation générale : résolution par raccourci (shortcut solvability), absence de significativité statistique, surapprentissage rampant (creeping overfitting) et dépendance à la source de données. Sur LIBERO, une sonde de 90 millions de paramètres, sans encodeur de langage, atteint des scores au niveau ou proches de l'état de l'art rapporté dans la littérature récente, ce qui suggère que les modèles exploitent des artefacts du benchmark plutôt que des compétences réelles. Sur CALVIN, la simple randomisation des positions des blocs dans la plage d'entraînement fait chuter les performances de toutes les politiques testées, révélant une généralisation quasi nulle même dans des conditions marginalement différentes. Ces résultats ont des implications directes pour les équipes qui évaluent des architectures VLA (Vision-Language-Action). Si LIBERO et CALVIN échouent à plusieurs diagnostics, les progrès revendiqués sur ces benchmarks ne constituent pas une preuve crédible de capacité de manipulation générale. La plupart des gains rapportés sur LIBERO ne sont pas statistiquement significatifs, ce qui signifie que de nombreuses publications revendiquent des améliorations qui pourraient n'être que du bruit. Pour les intégrateurs et les décideurs industriels, cela signifie que les scores de benchmarks courants ne sont pas des indicateurs fiables de la maturité réelle d'un système avant déploiement. Le problème n'est pas nouveau, mais il devient critique au moment où des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA sont massivement benchmarkés dans la littérature. RoboCasa et RoboTwin 2.0, moins fréquemment cités dans les claims de progression récents, résistent mieux aux diagnostics proposés et constituent des alternatives plus robustes pour mesurer des progrès réels. Les auteurs publient leurs quatre diagnostics avec des implémentations de référence sur ripl.github.io/manipulationbenchmarkaudit, à destination des chercheurs et des reviewers, pour application avant soumission ou acceptation. La prochaine question est de savoir si des conférences majeures comme CoRL, ICRA ou RSS adopteront ces outils comme critère d'évaluation des soumissions.

UELes équipes de recherche françaises et européennes (INRIA, CEA-List) évaluant des architectures VLA devront appliquer ces diagnostics avant soumission pour ne pas revendiquer des gains qui pourraient n'être que du bruit statistique.

RecherchePaper
1 source
Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches
37arXiv cs.RO 

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

Une étude publiée sur arXiv (arXiv:2602.03920) examine comment des utilisateurs non-spécialistes interprètent les données de performance des modèles de fondation robotiques (RFM, Robot Foundation Models), ces architectures d'IA généraliste conçues pour piloter des robots domestiques polyvalents comme ceux développés par Physical Intelligence (pi0), Google DeepMind (GR00T N2) ou Figure AI. Le cœur du problème : lorsqu'un utilisateur demande à un robot RFM d'effectuer une tâche hors de son domaine d'entraînement, il doit pouvoir évaluer le risque d'échec, qui peut être coûteux, voire dangereux. Les chercheurs ont exposé des participants à des données réelles issues de plusieurs projets RFM publiés, incluant le taux de succès aux tâches (TSR, Task Success Rate), des descriptions de cas d'échec et des vidéos de démos. Les résultats montrent que les non-experts comprennent et utilisent le TSR de façon conforme aux attentes des spécialistes, ce qui valide son usage comme métrique primaire dans les publications académiques. Mais la découverte la plus significative est ailleurs : les utilisateurs accordent une valeur élevée aux descriptions de cas d'échec, une information rarement reportée de façon systématique dans les évaluations de RFMs. Par extension, ils souhaitent disposer à la fois de données historiques issues des évaluations passées du modèle et d'estimations proactives du robot sur ses chances de succès face à une tâche inédite. Cette attente soulève un défi concret pour les intégrateurs et les équipes produit : la transparence sur les limites du modèle n'est pas optionnelle si l'on vise un déploiement grand public. Ce travail s'inscrit dans un débat plus large sur le fossé entre les démos laboratoire et l'usage réel, souvent qualifié de "demo-to-reality gap". Alors que le secteur converge vers des benchmarks standardisés comme DROID ou Open-X-Embodiment pour comparer les RFMs entre eux, la question de leur lisibilité par les décideurs non-techniques reste largement ouverte. Des acteurs comme Enchanted Tools en France ou Wandercraft misent sur des interfaces d'interaction proches de l'utilisateur final, mais peu d'équipes formalisent encore la communication sur les taux d'échec. Cette étude plaide pour l'intégration de "failure reporting" structuré dans les fiches produit et les publications techniques, une évolution qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique.

UEL'étude plaide pour un 'failure reporting' structuré qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique, concernant directement Enchanted Tools et Wandercraft pour leurs fiches produit.

RecherchePaper
1 source
CADENCE : prédiction du temps d'exécution réel en MAPF au-delà de la somme des coûts
38arXiv cs.RO 

CADENCE : prédiction du temps d'exécution réel en MAPF au-delà de la somme des coûts

Une équipe de chercheurs a publié le 4 juin 2026 CADENCE (Coordination and Action-Driven Estimation for Networked Continuous Execution), une étude expérimentale sur la prédiction du temps d'exécution réel dans les systèmes multi-robots. Le protocole repose sur une cellule de travail fixe de 7x7 cases équipée de sept robots à roues différentielles, sur laquelle 120 plans ont été générés à travers 15 scénarios, cinq en espace vide, cinq en disposition aléatoire intermédiaire, cinq en configuration goulot d'étranglement. Chaque plan a été exécuté quatre fois, constituant un corpus expérimental de 480 essais physiques. L'objectif central : déterminer quelles métriques calculables avant l'exécution permettent de prédire le temps réel de complétion (wall-clock time), à partir de deux modèles statistiques distincts, un modèle ridge par scénario tenu hors entraînement, et un modèle à effets mixtes au niveau essai. Le résultat principal remet en cause un postulat central de l'évaluation MAPF : la Sum of Costs (SoC), métrique quasi-universelle pour comparer les planificateurs, s'avère insuffisante pour estimer le temps d'exécution réel. C'est le "primitive motion burden", une mesure composite qui quantifie les virages, transitions start-stop, mouvements consécutifs et la longueur brute des trajectoires primitives, qui réduit l'erreur de prédiction de 48,6 à 59,8 % en MAE et de 44,2 à 61,4 % en RMSE par rapport aux modèles SoC seuls. Les métriques de coordination inter-robots (liens de dépendance, paires en interaction, profondeur des dépendances) apportent des gains plus modestes et moins stables. Pour un intégrateur d'entrepôt ou un concepteur de flotte AMR, cela signifie qu'un plan jugé optimal sur SoC peut induire des temps de cycle réels significativement plus longs, une erreur coûteuse à l'échelle industrielle. MAPF est un domaine actif depuis plusieurs décennies, avec des algorithmes comme CBS (Conflict-Based Search) ou ECBS largement utilisés dans les systèmes de gestion de flotte pour entrepôts automatisés, notamment chez des acteurs comme 6 River Systems, Locus Robotics, ou Exotec en Europe. La question de l'écart entre planification hors-ligne et exécution physique (le "sim-to-real gap" de la planification de chemin) est un angle sous-exploré dans la littérature. CADENCE propose un premier corpus empirique structuré pour combler ce manque, mais reste limité à une topologie fixe, un type de robot unique, et un nombre restreint de scénarios. Les prochaines étapes naturelles incluent des cellules plus grandes, des robots hétérogènes, et l'intégration de ces features dans des planificateurs adaptatifs capables d'arbitrer en temps réel entre coût planifié et charge de mouvement prédite.

UEExotec, acteur français leader de la logistique automatisée, est directement concerné : ses systèmes de flotte AMR optimisés sur Sum of Costs pourraient sous-estimer les temps de cycle réels, un risque opérationnel mesurable à l'échelle industrielle.

RecherchePaper
1 source
HORIZON : un curriculum gouverné par la récupérabilité pour le passage à l'échelle en domaine physique
39arXiv cs.RO 

HORIZON : un curriculum gouverné par la récupérabilité pour le passage à l'échelle en domaine physique

Des chercheurs proposent HORIZON (arXiv:2606.05143, juin 2026), un curriculum d'entraînement pour politiques robotiques qui régule l'expansion des domaines physiques via un principe de recouvrabilité. Évalué sur la locomotion quadrupède, HORIZON remplace la randomisation fixe des paramètres physiques par un processus de frontière adaptative : la politique n'est exposée à des conditions dynamiques plus difficiles que si elle reste capable de générer des données correctrices à partir de ces nouvelles conditions, sans s'effondrer en échecs irrécupérables. Concrètement, le curriculum s'étend par étapes vérifiées avec mécanisme de rollback si la frontière de recouvrabilité est franchie, transformant une randomisation statique en croissance continue du domaine physique. L'article documente trois régularités qui contredisent des pratiques répandues. Premièrement, l'élargissement direct des domaines est non uniforme selon les axes physiques et souvent impossible à apprendre sans ordonnancement progressif. Deuxièmement, la composition de domaines est non monotone : au-delà d'un noyau compact, ajouter des domaines supplémentaires dilue les échantillons recouvrables conjoints et dégrade la robustesse globale plutôt que de l'améliorer. Troisièmement, la distillation hors-politique d'experts isolés ne peut pas substituer l'interaction jointe produite par le curriculum on-policy. Ces résultats ont des implications directes pour les équipes sim-to-real : la stratégie courante "plus de randomisation égale plus de robustesse" est invalidée dans certains régimes, et la séquence d'exposition aux domaines devient un paramètre de conception critique au même titre que l'architecture du réseau. Le sim-to-real gap reste l'un des verrous centraux de la robotique embodied. Les approches de domain randomization, popularisées notamment par OpenAI et ETH Zurich avec ANYmal, postulaient qu'une couverture suffisamment large des variations physiques produit des politiques robustes. HORIZON s'inscrit dans un courant émergent qui déplace le facteur limitant de la couverture vers la recouvrabilité. Les travaux concurrents incluent les curriculums adaptatifs ALP-GMM et PAIRED, ainsi que les approches teacher-student. La méthode est présentée sur le quadrupède mais les auteurs suggèrent une généralisation à d'autres plateformes embodied. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit d'une contribution de recherche fondamentale, sans produit ni annonce commerciale associée.

RecherchePaper
1 source
TransTac : transition visuo-tactile via des élastomères transparents codés aux ultraviolets
40arXiv cs.RO 

TransTac : transition visuo-tactile via des élastomères transparents codés aux ultraviolets

Des chercheurs ont mis en ligne sur arXiv (référence 2506.04477) un capteur tactile visuel appelé TransTac, qui lève une contrainte fondamentale des VBTS (Vision-Based Tactile Sensors) actuels : l'opacité de l'élastomère de contact, incompatible avec une observation directe de la scène. TransTac intègre dans un seul dispositif compact un élastomère transparent portant des marqueurs réfléchissants ultraviolets, un système binoculaire stéréoscopique, et un algorithme de triangulation sparse par triangulation de Delaunay guidé par contraintes géométriques a priori. Un détecteur léger assure la localisation stable des marqueurs semi-transparents sous déformation de contact. Le coût matériel du prototype est d'environ 70 dollars. Les performances mesurées sont significatives à plusieurs titres. L'algorithme de mise en correspondance surpasse les méthodes d'affectation globale de 21 % en robustesse de correspondance. En reconnaissance zero-shot sur images tactiles, TransTac atteint 83,3 %, soit 50 points de pourcentage au-dessus des baselines opaques équivalentes. L'analyse des espaces d'embedding révèle que la similarité cosinus entre classes tactiles et images naturelles passe de 0,2 à plus de 0,77 : l'élastomère transparent permet de construire des représentations alignées avec les modèles de vision généralistes sans fine-tuning dédié, ce qui ouvre la voie à des pipelines de manipulation fondés sur des VLA (Vision-Language-Action models) sans adaptation sensorielle spécifique. Des expériences contrôlées quantifient également la dégradation des caméras RGB-D en dessous de quelques dizaines de centimètres, et montrent que l'intégration visuo-tactile étend la couverture géométrique utile dans cette plage critique. Le secteur des VBTS s'est densifié depuis GelSight (MIT) et ses dérivés comme DIGIT (développé conjointement par Meta et CMU) ou Allsight. Ces capteurs sacrifient tous la transparence pour maintenir le contraste optique nécessaire à la reconstruction de surface. TransTac contourne ce compromis en séparant l'illumination tactile (spectre UV) du spectre visible, une approche qui reste à valider sur des manipulateurs industriels en conditions de production réelles, notamment en termes de durée de vie de l'élastomère et de robustesse aux contaminants. Aucune affiliation institutionnelle ni partenariat industriel ne sont mentionnés dans le préprint : ce travail est à ce stade un prototype de laboratoire. Pour les intégrateurs travaillant sur la manipulation de précision ou l'inspection à contact, le ratio coût-performance annoncé (un capteur d'extrémité non-occlusif à 70 dollars) mérite d'être suivi lors des prochaines validations expérimentales en conditions réelles.

RecherchePaper
1 source
OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples
41arXiv cs.RO 

OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples

Des chercheurs ont publié OSCAR (Omni-Embodiment Skeleton-Conditioned World Action Model), un modèle de monde vidéo conditionné par les actions, capable de généraliser à travers différentes morphologies de robots. Décrit dans un preprint arXiv (2606.04463), le système s'appuie sur deux éléments centraux : un pipeline de données à grande échelle qui agrège, filtre et déduplique des jeux de données robotiques et des séquences vidéo égocentrées humaines pour couvrir des tâches, scénarios et morphologies variés ; et un conditionnement par rendu de squelette cinématique 2D, représentation unifiée fonctionnant aussi bien pour des bras robotiques de morphologies différentes que pour des mains humaines. Le modèle de base Cosmos-Predict2.5-2B de NVIDIA a été fine-tuné sur un seul GPU GH200. OSCAR a ensuite été déployé pour évaluer des politiques de contrôle issues de RoboArena, plateforme de benchmark communautaire, et démontre une corrélation significative entre évaluations virtuelles et tests en conditions réelles. L'enjeu central est le sim-to-real gap dans l'évaluation des policies : les environnements de simulation classiques reproduisent mal la physique réelle, rendant les benchmarks peu prédictifs du comportement sur robot physique. OSCAR propose une alternative directe, générer des vidéos conditionnées par les trajectoires d'actions pour simuler l'exécution d'une politique sans déploiement matériel. Si la corrélation annoncée se confirme à plus grande échelle, cela réduirait significativement les coûts et les cycles d'itération pour les équipes développant des VLA (Vision-Language-Action models). La représentation par squelette 2D est également notable : en évitant une spécialisation par embodiment, elle adresse un blocage récurrent de la généralisation multi-robot. Le fine-tuning sur GPU unique, contre des baselines nécessitant des modèles plus grands ou davantage de ressources de calcul, améliore l'accessibilité de l'approche. Les video world models appliqués à la robotique constituent un domaine en forte compétition : UniSim, RoboDreamer et le World Model de 1X Technologies ont chacun tenté d'adresser la simulation vidéo pour l'entraînement ou l'évaluation de robots, avec des résultats limités en diversité de scénarios ou en généralisation inter-embodiment. Le recours au modèle Cosmos de NVIDIA comme base pré-entraînée positionne OSCAR dans l'écosystème robotique croissant de NVIDIA, qui comprend Isaac Lab et GR00T. Les auteurs ouvrent explicitement la perspective d'une évaluation purement virtuelle des politiques robots, une proposition qui intéresse directement les intégrateurs cherchant à réduire les cycles de test hardware. Les étapes naturelles seraient la validation sur des morphologies plus variées, des tâches de manipulation complexes, et un passage à l'échelle vers des configurations multi-GPU.

RechercheOpinion
1 source
Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés
42arXiv cs.RO 

Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés

Un preprint arXiv (identifiant 2606.04046, publié début juin 2026) présente SceneDiver, une méthode visant à réduire les hallucinations visuelles dans les modèles de vision-langage (VLM) et les modèles vision-langage-action (VLA) appliqués à la manipulation robotique et à la navigation incarnée. Le problème central : ces modèles peinent à distinguer les objets pertinents pour la tâche des distracteurs environnants, ce qui dégrade leurs décisions dans des scènes encombrées. SceneDiver adopte une approche grossière-à-fine en deux temps : construction d'abord d'un graphe de scène global pour saisir l'environnement dans sa totalité, puis décomposition itérative de la tâche en sous-problèmes via un cycle reconnaissance-compréhension-analyse. Pour les VLA, qui opèrent en contrôle réactif à faible latence, un adaptateur léger (lightweight adapter) distille cette capacité de focalisation sans pénaliser les temps d'inférence. Les auteurs rapportent une réduction substantielle des hallucinations sur les benchmarks standards d'IA incarnée, et publient le code en open source. Ce travail pointe un blocage fondamental pour le déploiement industriel des VLA : même des modèles performants en planification ou en contrôle moteur échouent face à des scènes encombrées parce qu'ils focalisent sur les mauvais objets. La solution naïve, pointer directement sur l'objet critique en une seule étape, s'avère insuffisante selon les auteurs, car identifier quoi regarder requiert d'abord une compréhension globale de la scène. Pour les intégrateurs, l'adaptateur léger proposé offre une voie d'amélioration de la robustesse sans nécessiter de ré-entraîner le modèle de base, ce qui constitue un argument pratique non négligeable. Ce goulot d'étranglement perceptuel est un sujet de recherche actif depuis que des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) ont commencé à être déployés hors laboratoire. Ces modèles restent fragiles face à la variabilité des environnements réels, ce que le secteur désigne comme le "demo-to-reality gap". SceneDiver demeure une contribution académique préliminaire, non encore évaluée par les pairs, et l'absence de détails précis sur les benchmarks utilisés dans le résumé rend la comparaison directe difficile avec d'autres approches comme OpenVLA ou SpatialVLM. La mise à disposition du code en open source est toutefois un signal positif pour la reproductibilité ; une validation sur matériel réel et une intégration dans des stacks comme LeRobot de Hugging Face constitueraient les prochaines étapes naturelles.

UEL'intégration potentielle dans LeRobot (HuggingFace, France) représente un bénéfice indirect pour l'écosystème open-source robotique européen.

RechercheOpinion
1 source
DLO-Lab : évaluation de la manipulation d'objets linéaires déformables avec physique différentiable
43arXiv cs.RO 

DLO-Lab : évaluation de la manipulation d'objets linéaires déformables avec physique différentiable

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.04206) DLO-Lab, un cadre de recherche combinant simulateur physique différentiable et suite de benchmarks dédiée à la manipulation robotique d'objets linéaires déformables (DLO), soit concrètement les câbles, cordes et élastiques. Le simulateur modélise explicitement une gamme étendue de propriétés matérielles : extensibilité et inextensibilité, élasticité, plasticité en flexion, ainsi que les interactions complexes entre objets. Sur cette base, les auteurs proposent un ensemble de tâches représentatives qui mettent en évidence deux difficultés centrales de la manipulation DLO : la complexité topologique inhérente aux objets déformables et la sensibilité aux points de saisie. Ils introduisent également un agent spécialisé qui sélectionne des points de préhension stratégiques et décompose les tâches longues en sous-séquences pour maximiser l'autorité de contrôle. L'ensemble est évalué avec plusieurs algorithmes d'apprentissage de politiques, et des expériences de transfert sim-to-real sont conduites pour valider le potentiel applicatif de la plateforme. L'enjeu industriel est direct : la manipulation de câbles et de fils est l'un des derniers verrous majeurs de l'automatisation en électronique, câblage automobile et logistique. Les approches antérieures se heurtaient à un double plafond de verre, étroitesse des tâches supportées et impossibilité pratique de collecter des données réelles suffisamment diversifiées. L'usage d'un simulateur différentiable change l'équation : les gradients physiques peuvent guider directement l'optimisation des politiques, ce qui réduit le besoin en démonstrations humaines et rend l'apprentissage plus transférable. Les expériences sim-to-real présentées dans l'article constituent la mesure critique : elles indiquent si le fossé simulation-réalité est franchissable pour ce type d'objets réputés imprévisibles, bien que les conditions expérimentales précises (matériaux testés, taux de succès chiffrés) restent à examiner dans le détail du papier complet. La manipulation DLO est un problème actif depuis les années 2010, avec des travaux notables du MIT, de Berkeley (notamment autour de l'équipe Pieter Abbeel) et, côté européen, de l'Inria et du DLR. Les benchmarks existants comme RLBench ou ManipulaTHOR ne couvrent pas spécifiquement les propriétés physiques des déformables linéaires, ce qui justifie la niche que vise DLO-Lab. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'une contribution académique pré-print, non encore évaluée par les pairs. Les prochaines étapes naturelles seraient une intégration dans des environnements de simulation largement adoptés comme Isaac Sim ou MuJoCo, et une validation sur des cas industriels concrets tels que le câblage de faisceaux dans l'automobile.

UELes équipes européennes (Inria, DLR) sont actives sur la manipulation DLO, et l'industrie automobile européenne, notamment le câblage de faisceaux, constitue l'un des débouchés industriels directs visés par ces travaux de simulation différentiable.

RecherchePaper
1 source
GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos
44arXiv cs.RO 

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

Une équipe de chercheurs publie GRAIL (Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors, arXiv:2606.05160), un pipeline entièrement virtuel qui génère des données d'entraînement en loco-manipulation humanoïde sans télé-opération ni capture de mouvement physique. La méthode compose des actifs 3D paramétrés, des scènes simulées et des modèles fondamentaux vidéo (VFM) pour reconstruire des trajectoires d'interaction humain-objet (HOI) en 4D à l'échelle métrique, en conditionnant la génération vidéo sur des configurations entièrement spécifiées : géométrie, paramètres caméra, profondeur de scène et personnage aux proportions humanoïdes, ce qui réduit l'ambiguïté de profondeur et le mismatch morphologique habituels. Le pipeline produit plus de 20 000 séquences couvrant ramassage d'objets, manipulation, assise et traversée de terrains variés. Entraîné uniquement sur ces données synthétiques via un pipeline sim-to-real, le système atteint 84 % de succès en préhension d'objets divers et 90 % en montée d'escaliers sur un Unitree G1 en conditions réelles ; l'article, soumis sur arXiv en juin 2026, est une prépublication non encore évaluée par les pairs. Ce travail s'attaque au principal goulot d'étranglement de la robotique humanoïde : générer des données de démonstration diversifiées à grande échelle sans mobiliser de temps-robot ni d'opérateurs spécialisés. La télé-opération et la mocap exigent des configurations physiques dédiées et un robot disponible à chaque session, ce qui plafonne le débit de production de données ; GRAIL déplace intégralement ce coût vers la simulation, rendant possible la composition de données pour des objets, scènes et mouvements corporels inédits. Les résultats de 84 % et 90 % en conditions réelles constituent un signal positif sur la réduction du gap sim-to-real, du moins pour ces classes de tâches. Une réserve s'impose cependant : le résumé ne détaille ni les objets testés ni le protocole de sélection des séquences d'évaluation, ce qui rend toute comparaison indépendante prématurée avant la publication complète. GRAIL s'inscrit dans une course à la donnée synthétique que se livrent les principaux laboratoires de robotique humanoïde, aux côtés des pipelines World Model de Figure AI et 1X Technologies, de RoboVerse (Microsoft Research) et des environnements Genesis pour la simulation physique générative. La distinction de GRAIL réside dans le conditionnement fort sur des actifs 3D préalables, un choix qui améliore la précision de la reconstruction 4D mais suppose la disponibilité d'assets de qualité pour chaque objet cible. Le robot retenu, l'Unitree G1, est commercialisé autour de 16 000 dollars, rendant la reproduction des résultats accessible à de nombreuses équipes académiques, contrairement aux plateformes propriétaires des acteurs industriels. Les affiliations des auteurs ne figurant pas dans le résumé arXiv disponible, les suites naturelles annoncées comprennent les tâches bimanuelles, les environnements dynamiques et l'intégration dans des pipelines VLA (Vision-Language-Action) pour la généralisation à des objets et contextes non vus lors de l'entraînement.

UELes laboratoires académiques européens spécialisés en robotique humanoïde (INRIA, CEA-List) pourraient adopter ce pipeline de génération de données synthétiques pour réduire leur dépendance à la télé-opération et à la mocap, mais aucun acteur FR/UE n'est directement impliqué dans ces travaux.

RecherchePaper
1 source
Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives
45arXiv cs.RO 

Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives

Des chercheurs ont publié Sem-NaVAE, une approche de navigation sans carte (mapless) pour robots mobiles en extérieur, détaillée dans un preprint arXiv (arXiv:2502.01429v2). Le système repose sur deux composants articulés : un autoencodeur variationnel conditionnel (CVAE) qui génère en temps réel un ensemble de trajectoires candidates, et un modèle vision-langage (VLM) léger qui sélectionne la trajectoire à exécuter via segmentation sémantique à vocabulaire ouvert. L'opérateur spécifie une consigne en langage naturel, le VLM score chaque trajectoire proposée selon la sémantique visuelle de la scène, et un planificateur local de pointe convertit la trajectoire retenue en commandes de vitesse. Sur des parcours réels de 120 à 240 mètres dans des environnements non vus lors de l'entraînement, Sem-NaVAE atteint un taux de réussite de 90%, surpassant la baseline la plus proche de 10 points de pourcentage tout en restant à seulement 7% du plafond théorique d'un système avec carte. Ce résultat est notable car il démontre qu'une navigation extérieure robuste et généralisable est atteignable sans cartographie préalable, une contrainte opérationnelle majeure pour le déploiement d'AMR sur des chantiers, en agriculture ou en logistique outdoor. La combinaison d'un générateur stochastique de trajectoires avec une couche sémantique pilotée par langage naturel permet d'abstraire la description du terrain sans règles codées en dur ni base de données d'annotation. Le fait que le système opère en temps réel sur des itinéraires inédits constitue une validation partielle du sim-to-real pour la navigation extérieure non structurée. L'écart résiduel de 7% avec un système cartographié reste un indicateur honnête des limites actuelles : la carte conserve un avantage mesurable. La navigation mapless en extérieur est un problème ouvert depuis des années : les solutions SLAM indoor ne se transfèrent pas aux terrains variables (végétation, météo, absence de repères stables). Sem-NaVAE s'inscrit dans une tendance récente qui exploite les VLM pour une compréhension sémantique du monde réel, dans la lignée de ViNT (Stanford/Berkeley) ou de GNFactor. Côté industriel, des acteurs comme Boston Dynamics, Clearpath (désormais Rockwell Automation) ou le français Exotec restent principalement positionnés sur des environnements contrôlés et structurés. Le preprint ne mentionne aucun partenaire industriel ni timeline de commercialisation ; les prochaines étapes logiques seraient une validation sur des distances plus longues, des conditions météorologiques adverses, et une comparaison formelle avec des approches VLA de type end-to-end.

UEImpact indirect : les opérateurs d'AMR outdoor européens (agriculture, chantiers, logistique) pourraient bénéficier d'une navigation sans cartographie préalable, mais aucun acteur ou financement européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
3PoinTr : apprentissage de la manipulation robotique à partir de vidéos humaines non contraintes
46arXiv cs.RO 

3PoinTr : apprentissage de la manipulation robotique à partir de vidéos humaines non contraintes

Une équipe de chercheurs a publié sur arXiv (2603.08485) une méthode baptisée 3PoinTr permettant d'entraîner des politiques de manipulation robotique à partir de vidéos humaines non contraintes, sans recourir à de coûteuses démonstrations téléopérées. Le principe repose sur la prédiction de trajectoires 3D denses de points de scène (point tracks) : un transformer léger dit "visibility-aware" apprend, depuis des vidéos d'humains en train de manipuler des objets librement, comment chaque point de la scène devrait se déplacer. Une politique robotique multitâche en boucle fermée extrait ensuite les priors d'action pertinents depuis ces trajectoires prédites. Avec seulement 20 démonstrations robot étiquetées en action, 3PoinTr surpasse les meilleures baselines de behavioral cloning et de vidéo-préentraînement de 25,0 points de pourcentage en tâches réelles et de 29,6 points en simulation. Ce résultat est notable parce qu'il s'attaque à l'un des goulots d'étranglement structurels du domaine : le coût prohibitif de la collecte de données robot. Les approches existantes de video-pretraining imposent typiquement que l'humain "joue le robot", mouvements chorégraphiés, keypoints prédéfinis, annotations manuelles ou positions de préhension connues. 3PoinTr supprime ces contraintes et exploite des vidéos naturalistes, ce qui élargit considérablement le corpus exploitable (YouTube, vidéos industrielles, données de formation existantes). La gestion des occlusions partielles via la supervision sur les points partiellement occultés représente une avancée technique précise par rapport aux baselines : le transformer conserve un signal d'apprentissage même quand la main ou l'outil masque une partie de la scène. Le travail s'inscrit dans une tendance plus large des Visual-Language-Action models (VLA) et des approches fondées sur les représentations 2D/3D pour le transfert sim-to-real, en compétition directe avec des méthodes comme Track2Act, RoboTAP ou ATM (Action Tracking from Motion). Il se distingue par le passage explicite à la 3D et le faible volume de données supervisées requis. La page projet est disponible chez Adam Hung (adamhung60.github.io/3PoinTr), mais aucune annonce de déploiement industriel ou de partenariat n'est associée à cette publication : il s'agit d'un résultat de recherche, pas d'un produit commercialisé.

RecherchePaper
1 source
MineXplore : un benchmark d'exploration open-source par apprentissage par renforcement pour environnements souterrains sans GNSS
47arXiv cs.RO 

MineXplore : un benchmark d'exploration open-source par apprentissage par renforcement pour environnements souterrains sans GNSS

Des chercheurs ont publié MineXplore, un benchmark open-source basé sur MuJoCo pour entraîner des agents d'exploration autonome dans des mines souterraines en environnement GNSS-dénié. L'environnement reconstitue un réseau de tunnels de 104 423 m² à partir du relevé d'une mine de cuivre chilienne (dataset Leung et al., 2017), via un pipeline en six étapes (contour-to-MJCF) générant des sections de galeries octogonales, une géométrie de parois irrégulières issue de données LiDAR, trois zones de friction au sol distinctes, une inclinaison globale de 5 degrés et un éclairage ponctuel périodique. La fidélité géométrique est validée à un IoU de 0,9538 par rapport à la carte de relevé source, et la similarité de texture de surface atteint 79,4 % sur six dimensions structurelles. Un agent PPO entraîné via RLlib sur cinq graines aléatoires indépendantes atteint une couverture roulante maximale de 88,89 %, trois des cinq runs franchissant le seuil cible de 90 %. L'apport principal est de combler un vide concret dans l'écosystème open-source : aucun benchmark compatible avec les pipelines d'apprentissage accélérés par GPU n'existait pour des environnements miniers souterrains à géométrie réaliste. Les mines constituent des cas extrêmes pour la navigation autonome, sans GNSS, éclairage dégradé, topologie en boucle non convexe, qui mettent en défaut les approches développées en terrain ouvert. La reproductibilité des résultats sur cinq seeds indépendantes valide la stabilité du benchmark pour des comparaisons inter-méthodes rigoureuses, un critère essentiel pour les publications futures. Pour les équipes développant des robots d'inspection ou de cartographie minière, MineXplore réduit le sim-to-real gap dans des environnements où les tests terrain sont coûteux, longs à organiser et potentiellement dangereux. Le benchmark s'ancre dans des données de terrain réelles plutôt qu'une géométrie synthétique, ce qui lui confère une crédibilité sectorielle plus solide que les environnements procéduraux courants. La communauté avait déjà travaillé le problème souterrain via le challenge DARPA SubT (2019-2021), qui a produit des résultats notables avec des plateformes comme Boston Dynamics Spot ou ANYbotics ANYmal, mais favorisait les architectures modulaires classiques. MineXplore occupe un espace complémentaire, centré explicitement sur l'apprentissage par renforcement et les politiques end-to-end. Les extensions naturelles concernent les scénarios multi-agents, les capteurs additionnels (RGB, thermique) et des topologies de mines plus variées. Le code est disponible publiquement sur arXiv, ce qui devrait accélérer les contributions de la communauté autour de la robotique en milieu confiné.

RecherchePaper
1 source
WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée
48arXiv cs.RO 

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

Des chercheurs ont publié WAM-Nav (Latent World-Action Model for Navigation), un système de navigation visuelle incarnée qui couple la génération d'actions et la prévision visuelle dans un seul modèle, déposé sur arXiv en juin 2026 (réf. 2606.04907). L'architecture repose sur un Diffusion Transformer partagé qui effectue une diffusion jointe asymétrique : il génère simultanément des actions à long horizon et une anticipation visuelle à court horizon, sans recourir aux rollouts autorégressifs multi-étapes qui alourdissent la latence d'inférence. Un mécanisme de conditionnement contextuel à double flux intègre l'historique d'ego-motion à l'échelle de l'épisode et les observations visuelles séquentielles, favorisant des trajectoires lisses et cohérentes. Un module d'alignement d'objectif unifié permet à WAM-Nav de gérer trois modes dans une seule politique : Image-Goal, Point-Goal et exploration libre (No-Goal). Sur les benchmarks ClutterScenes et InternScenes, le système améliore les taux de réussite de 15,7 % en Image-Goal et de 3,3 % en Point-Goal. En déploiement réel, WAM-Nav atteint 85 % de taux de succès moyen sur des environnements intérieurs et extérieurs variés, sans fine-tuning, soit un transfert sim-to-real zéro-shot. Ce résultat intéresse directement les intégrateurs de robotique mobile pour deux raisons concrètes. D'abord, la résolution simultanée de l'action et de l'imagination visuelle dans un seul réseau réduit l'accumulation d'erreurs typique des architectures modulaires, où le prédicteur de scène et le module de politique sont entraînés séparément et se propagent mutuellement leurs erreurs. Ensuite, un taux de 85 % en zéro-shot sur des environnements variés représente un indicateur sérieux, même si les conditions de test (densité d'obstacles, vitesses, types de sols) ne sont pas détaillées dans le résumé et méritent d'être examinées dans le papier complet. Pour un COO ou un décideur B2B, cette architecture suggère des robots de navigation capables de s'adapter à de nouveaux scénarios sans collecte de données coûteuse sur site. Le sim-to-real gap reste l'un des blocages majeurs de la robotique mobile autonome depuis des années : les politiques entraînées en simulation échouent souvent au contact du monde réel en raison des différences de rendu, de dynamique et de bruit des capteurs. WAM-Nav s'inscrit dans une vague de travaux qui combinent modèles de diffusion pour la génération d'actions et représentations latentes du monde, dans la lignée des World Models de type RSSM ou des VLA comme Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA. Sur le plan concurrentiel, des approches comme NoMaD, ViNT ou les stacks Nav2/ROS 2 restent des références opérationnelles sur AMR commerciaux, et WAM-Nav devra être comparé à ces systèmes dans des conditions contrôlées identiques pour confirmer sa supériorité pratique. L'étape suivante naturelle serait une validation sur des plateformes matérielles réelles en conditions industrielles, dont aucun partenariat ni timeline n'est annoncé à ce stade.

RecherchePaper
1 source
Planification POMDP en ligne vectorisée
49arXiv cs.RO 

Planification POMDP en ligne vectorisée

Des chercheurs ont publié VOPP (Vectorized Online POMDP Planner), un nouveau solveur de planification pour robots autonomes opérant sous observabilité partielle. L'article, paru sur arXiv (référence 2510.27191, cinquième version), propose une refonte architecturale des solveurs de POMDP (Partially Observable Markov Decision Process), le cadre formel qui permet à un robot de planifier ses actions quand ses capteurs sont bruités et son environnement incertain. L'innovation centrale : représenter toutes les structures de données de planification sous forme de tenseurs et exécuter chaque étape de calcul en mode entièrement vectorisé, éliminant les dépendances et goulots d'étranglement de synchronisation qui pénalisaient les approches parallèles antérieures. Les résultats expérimentaux affichent un gain d'efficacité d'au moins 20× par rapport au meilleur solveur parallèle existant pour des solutions quasi-optimales, et VOPP surpasse également les meilleurs solveurs séquentiels tout en utilisant un budget de planification 1 000× inférieur. Ces résultats, s'ils se confirment sur des plateformes physiques, changeraient significativement la faisabilité de la planification POMDP embarquée en temps réel. Jusqu'ici, les POMDP restaient souvent cantonnés à la recherche académique ou à des applications à horizons de décision limités, précisément parce que les solveurs classiques, qui alternent optimisation numérique et estimation de valeur avec des synchronisations coûteuses, restaient incompatibles avec des contraintes temps-réel. L'approche tensorielle de VOPP exploite directement les GPU et accélérateurs vectoriels modernes, ouvrant la voie à une planification sous incertitude à grande échelle : navigation d'AMR en entrepôt, manipulation d'objets à préhension incertaine, coordination multi-robots dans des environnements dynamiques. Le POMDP est un cadre établi depuis les années 1990, mais ses applications robotiques ont longtemps buté sur la malédiction de la dimensionnalité. Des travaux comme POMCP (2010) et DESPOT ont progressivement rendu les solveurs en ligne plus tractables. VOPP s'inscrit dans cette lignée en exploitant une reformulation récente qui résout analytiquement une partie du problème d'optimisation, réduisant les calculs numériques à de pures estimations d'espérances. Aucun partenariat industriel ni déploiement concret n'est mentionné dans la publication, il s'agit d'un résultat de recherche fondamentale. Les étapes logiques suivantes seraient une validation sur des benchmarks physiques et une intégration dans des frameworks comme ROS 2 ou Isaac Sim.

RecherchePaper
1 source
LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées
50arXiv cs.RO 

LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées

LDA-1B est un modèle fondation pour la robotique à 1 milliard de paramètres, présenté dans un preprint arXiv (2602.12215v2, "replace", donc une version révisée). Ses auteurs introduisent ce qu'ils appellent une "ingestion universelle de données incarnées" : plutôt que le clonage comportemental classique, qui se borne à imiter des actions expertes en ignorant la connaissance des dynamiques physiques, LDA-1B entraîne simultanément un modèle de dynamiques, une politique d'action et un module de prévision visuelle. Pour opérer à cette échelle, les chercheurs ont constitué EI-30k, un jeu de données standardisé regroupant plus de 30 000 heures de trajectoires humaines et robotiques dans un format unifié. La prédiction s'effectue dans l'espace latent structuré de DINO (modèle de vision auto-supervisé de Meta), évitant la modélisation redondante au niveau pixel. L'architecture repose sur un transformeur de diffusion multimodal gérant des flux vidéo et d'action asynchrones. En simulation et en conditions réelles, LDA-1B dépasse π0.5 de Physical Intelligence de 21 % sur les tâches à contacts intenses, 48 % sur les tâches de dextérité, et 23 % sur les tâches à long horizon. Résultat contre-intuitif : en réintégrant 30 % de trajectoires de faible qualité habituellement écartées, le modèle gagne 10 % de performance supplémentaire. Ce travail s'attaque à une limite structurelle des modèles robotiques actuels : le clonage comportemental traite comme déchets toutes les données sans annotation action-état précise, vidéos téléopérées approximatives, démonstrations ratées, captations partielles. En assignant des rôles distincts selon la qualité des données, LDA-1B récupère de la valeur dans ces corpus dégradés. Pour les intégrateurs et décideurs industriels, l'implication est concrète : si des trajectoires sous-optimales contribuent positivement à l'entraînement, le coût de constitution des jeux de données de référence diminue sensiblement. Les gains de 48 % sur la dextérité, talon d'Achille historique des robots manipulateurs, sont particulièrement significatifs, même si ces chiffres proviennent d'un preprint non encore évalué par les pairs, et que les conditions exactes des benchmarks méritent une lecture critique avant généralisation. LDA-1B s'inscrit dans une course aux modèles fondation robotiques qui s'intensifie depuis 2024. Physical Intelligence (Pi), dont π0 puis π0.5 font référence sur les benchmarks manipulation, est le principal étalon ici. Google DeepMind pousse RT-2 et ses successeurs, tandis que des modèles open-source comme OpenVLA et Octo peinent à franchir le cap du milliard de paramètres avec des données hétérogènes. La formulation UWM (Unified World Model), que LDA-1B exploite et étend, tentait déjà de valoriser des données non-action (vidéos, interactions humaines), mais les tentatives précédentes manquaient d'échelle et de standardisation. EI-30k, avec ses 30 000 heures normalisées, est l'une des bases d'interaction incarnée les plus vastes publiées à ce jour. Ce preprint n'annonce ni produit commercial ni déploiement terrain, c'est de la recherche académique avec expériences en simulation et quelques validations réelles. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une intégration sur des plateformes humanoïdes comme Unitree H1 ou G1.

RechercheOpinion
1 source