Aller au contenu principal

Recherche

50 sur 1090 articles

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Ce que mesurent réellement les benchmarks en manipulation robotique
1arXiv cs.RO RecherchePaper

Ce que mesurent réellement les benchmarks en manipulation robotique

Un article de recherche déposé sur arXiv le 4 juin 2026 (arXiv:2606.04233) remet en cause la fiabilité de cinq benchmarks standards en manipulation robotique : LIBERO, CALVIN, SimplerEnv, RoboCasa et RoboTwin 2.0. Les auteurs identifient quatre modes de défaillance structurelle qui invalident leur usage comme proxy de la capacité de manipulation générale : résolution par raccourci (shortcut solvability), absence de significativité statistique, surapprentissage rampant (creeping overfitting) et dépendance à la source de données. Sur LIBERO, une sonde de 90 millions de paramètres, sans encodeur de langage, atteint des scores au niveau ou proches de l'état de l'art rapporté dans la littérature récente, ce qui suggère que les modèles exploitent des artefacts du benchmark plutôt que des compétences réelles. Sur CALVIN, la simple randomisation des positions des blocs dans la plage d'entraînement fait chuter les performances de toutes les politiques testées, révélant une généralisation quasi nulle même dans des conditions marginalement différentes. Ces résultats ont des implications directes pour les équipes qui évaluent des architectures VLA (Vision-Language-Action). Si LIBERO et CALVIN échouent à plusieurs diagnostics, les progrès revendiqués sur ces benchmarks ne constituent pas une preuve crédible de capacité de manipulation générale. La plupart des gains rapportés sur LIBERO ne sont pas statistiquement significatifs, ce qui signifie que de nombreuses publications revendiquent des améliorations qui pourraient n'être que du bruit. Pour les intégrateurs et les décideurs industriels, cela signifie que les scores de benchmarks courants ne sont pas des indicateurs fiables de la maturité réelle d'un système avant déploiement. Le problème n'est pas nouveau, mais il devient critique au moment où des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA sont massivement benchmarkés dans la littérature. RoboCasa et RoboTwin 2.0, moins fréquemment cités dans les claims de progression récents, résistent mieux aux diagnostics proposés et constituent des alternatives plus robustes pour mesurer des progrès réels. Les auteurs publient leurs quatre diagnostics avec des implémentations de référence sur ripl.github.io/manipulationbenchmarkaudit, à destination des chercheurs et des reviewers, pour application avant soumission ou acceptation. La prochaine question est de savoir si des conférences majeures comme CoRL, ICRA ou RSS adopteront ces outils comme critère d'évaluation des soumissions.

UELes équipes de recherche françaises et européennes (INRIA, CEA-List) évaluant des architectures VLA devront appliquer ces diagnostics avant soumission pour ne pas revendiquer des gains qui pourraient n'être que du bruit statistique.

1 source
Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches
2arXiv cs.RO 

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

Une étude publiée sur arXiv (arXiv:2602.03920) examine comment des utilisateurs non-spécialistes interprètent les données de performance des modèles de fondation robotiques (RFM, Robot Foundation Models), ces architectures d'IA généraliste conçues pour piloter des robots domestiques polyvalents comme ceux développés par Physical Intelligence (pi0), Google DeepMind (GR00T N2) ou Figure AI. Le cœur du problème : lorsqu'un utilisateur demande à un robot RFM d'effectuer une tâche hors de son domaine d'entraînement, il doit pouvoir évaluer le risque d'échec, qui peut être coûteux, voire dangereux. Les chercheurs ont exposé des participants à des données réelles issues de plusieurs projets RFM publiés, incluant le taux de succès aux tâches (TSR, Task Success Rate), des descriptions de cas d'échec et des vidéos de démos. Les résultats montrent que les non-experts comprennent et utilisent le TSR de façon conforme aux attentes des spécialistes, ce qui valide son usage comme métrique primaire dans les publications académiques. Mais la découverte la plus significative est ailleurs : les utilisateurs accordent une valeur élevée aux descriptions de cas d'échec, une information rarement reportée de façon systématique dans les évaluations de RFMs. Par extension, ils souhaitent disposer à la fois de données historiques issues des évaluations passées du modèle et d'estimations proactives du robot sur ses chances de succès face à une tâche inédite. Cette attente soulève un défi concret pour les intégrateurs et les équipes produit : la transparence sur les limites du modèle n'est pas optionnelle si l'on vise un déploiement grand public. Ce travail s'inscrit dans un débat plus large sur le fossé entre les démos laboratoire et l'usage réel, souvent qualifié de "demo-to-reality gap". Alors que le secteur converge vers des benchmarks standardisés comme DROID ou Open-X-Embodiment pour comparer les RFMs entre eux, la question de leur lisibilité par les décideurs non-techniques reste largement ouverte. Des acteurs comme Enchanted Tools en France ou Wandercraft misent sur des interfaces d'interaction proches de l'utilisateur final, mais peu d'équipes formalisent encore la communication sur les taux d'échec. Cette étude plaide pour l'intégration de "failure reporting" structuré dans les fiches produit et les publications techniques, une évolution qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique.

UEL'étude plaide pour un 'failure reporting' structuré qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique, concernant directement Enchanted Tools et Wandercraft pour leurs fiches produit.

RecherchePaper
1 source
CADENCE : prédiction du temps d'exécution réel en MAPF au-delà de la somme des coûts
3arXiv cs.RO 

CADENCE : prédiction du temps d'exécution réel en MAPF au-delà de la somme des coûts

Une équipe de chercheurs a publié le 4 juin 2026 CADENCE (Coordination and Action-Driven Estimation for Networked Continuous Execution), une étude expérimentale sur la prédiction du temps d'exécution réel dans les systèmes multi-robots. Le protocole repose sur une cellule de travail fixe de 7x7 cases équipée de sept robots à roues différentielles, sur laquelle 120 plans ont été générés à travers 15 scénarios, cinq en espace vide, cinq en disposition aléatoire intermédiaire, cinq en configuration goulot d'étranglement. Chaque plan a été exécuté quatre fois, constituant un corpus expérimental de 480 essais physiques. L'objectif central : déterminer quelles métriques calculables avant l'exécution permettent de prédire le temps réel de complétion (wall-clock time), à partir de deux modèles statistiques distincts, un modèle ridge par scénario tenu hors entraînement, et un modèle à effets mixtes au niveau essai. Le résultat principal remet en cause un postulat central de l'évaluation MAPF : la Sum of Costs (SoC), métrique quasi-universelle pour comparer les planificateurs, s'avère insuffisante pour estimer le temps d'exécution réel. C'est le "primitive motion burden", une mesure composite qui quantifie les virages, transitions start-stop, mouvements consécutifs et la longueur brute des trajectoires primitives, qui réduit l'erreur de prédiction de 48,6 à 59,8 % en MAE et de 44,2 à 61,4 % en RMSE par rapport aux modèles SoC seuls. Les métriques de coordination inter-robots (liens de dépendance, paires en interaction, profondeur des dépendances) apportent des gains plus modestes et moins stables. Pour un intégrateur d'entrepôt ou un concepteur de flotte AMR, cela signifie qu'un plan jugé optimal sur SoC peut induire des temps de cycle réels significativement plus longs, une erreur coûteuse à l'échelle industrielle. MAPF est un domaine actif depuis plusieurs décennies, avec des algorithmes comme CBS (Conflict-Based Search) ou ECBS largement utilisés dans les systèmes de gestion de flotte pour entrepôts automatisés, notamment chez des acteurs comme 6 River Systems, Locus Robotics, ou Exotec en Europe. La question de l'écart entre planification hors-ligne et exécution physique (le "sim-to-real gap" de la planification de chemin) est un angle sous-exploré dans la littérature. CADENCE propose un premier corpus empirique structuré pour combler ce manque, mais reste limité à une topologie fixe, un type de robot unique, et un nombre restreint de scénarios. Les prochaines étapes naturelles incluent des cellules plus grandes, des robots hétérogènes, et l'intégration de ces features dans des planificateurs adaptatifs capables d'arbitrer en temps réel entre coût planifié et charge de mouvement prédite.

UEExotec, acteur français leader de la logistique automatisée, est directement concerné : ses systèmes de flotte AMR optimisés sur Sum of Costs pourraient sous-estimer les temps de cycle réels, un risque opérationnel mesurable à l'échelle industrielle.

RecherchePaper
1 source
OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples
4arXiv cs.RO 

OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples

Des chercheurs ont publié OSCAR (Omni-Embodiment Skeleton-Conditioned World Action Model), un modèle de monde vidéo conditionné par les actions, capable de généraliser à travers différentes morphologies de robots. Décrit dans un preprint arXiv (2606.04463), le système s'appuie sur deux éléments centraux : un pipeline de données à grande échelle qui agrège, filtre et déduplique des jeux de données robotiques et des séquences vidéo égocentrées humaines pour couvrir des tâches, scénarios et morphologies variés ; et un conditionnement par rendu de squelette cinématique 2D, représentation unifiée fonctionnant aussi bien pour des bras robotiques de morphologies différentes que pour des mains humaines. Le modèle de base Cosmos-Predict2.5-2B de NVIDIA a été fine-tuné sur un seul GPU GH200. OSCAR a ensuite été déployé pour évaluer des politiques de contrôle issues de RoboArena, plateforme de benchmark communautaire, et démontre une corrélation significative entre évaluations virtuelles et tests en conditions réelles. L'enjeu central est le sim-to-real gap dans l'évaluation des policies : les environnements de simulation classiques reproduisent mal la physique réelle, rendant les benchmarks peu prédictifs du comportement sur robot physique. OSCAR propose une alternative directe, générer des vidéos conditionnées par les trajectoires d'actions pour simuler l'exécution d'une politique sans déploiement matériel. Si la corrélation annoncée se confirme à plus grande échelle, cela réduirait significativement les coûts et les cycles d'itération pour les équipes développant des VLA (Vision-Language-Action models). La représentation par squelette 2D est également notable : en évitant une spécialisation par embodiment, elle adresse un blocage récurrent de la généralisation multi-robot. Le fine-tuning sur GPU unique, contre des baselines nécessitant des modèles plus grands ou davantage de ressources de calcul, améliore l'accessibilité de l'approche. Les video world models appliqués à la robotique constituent un domaine en forte compétition : UniSim, RoboDreamer et le World Model de 1X Technologies ont chacun tenté d'adresser la simulation vidéo pour l'entraînement ou l'évaluation de robots, avec des résultats limités en diversité de scénarios ou en généralisation inter-embodiment. Le recours au modèle Cosmos de NVIDIA comme base pré-entraînée positionne OSCAR dans l'écosystème robotique croissant de NVIDIA, qui comprend Isaac Lab et GR00T. Les auteurs ouvrent explicitement la perspective d'une évaluation purement virtuelle des politiques robots, une proposition qui intéresse directement les intégrateurs cherchant à réduire les cycles de test hardware. Les étapes naturelles seraient la validation sur des morphologies plus variées, des tâches de manipulation complexes, et un passage à l'échelle vers des configurations multi-GPU.

RechercheOpinion
1 source
Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés
5arXiv cs.RO 

Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés

Un preprint arXiv (identifiant 2606.04046, publié début juin 2026) présente SceneDiver, une méthode visant à réduire les hallucinations visuelles dans les modèles de vision-langage (VLM) et les modèles vision-langage-action (VLA) appliqués à la manipulation robotique et à la navigation incarnée. Le problème central : ces modèles peinent à distinguer les objets pertinents pour la tâche des distracteurs environnants, ce qui dégrade leurs décisions dans des scènes encombrées. SceneDiver adopte une approche grossière-à-fine en deux temps : construction d'abord d'un graphe de scène global pour saisir l'environnement dans sa totalité, puis décomposition itérative de la tâche en sous-problèmes via un cycle reconnaissance-compréhension-analyse. Pour les VLA, qui opèrent en contrôle réactif à faible latence, un adaptateur léger (lightweight adapter) distille cette capacité de focalisation sans pénaliser les temps d'inférence. Les auteurs rapportent une réduction substantielle des hallucinations sur les benchmarks standards d'IA incarnée, et publient le code en open source. Ce travail pointe un blocage fondamental pour le déploiement industriel des VLA : même des modèles performants en planification ou en contrôle moteur échouent face à des scènes encombrées parce qu'ils focalisent sur les mauvais objets. La solution naïve, pointer directement sur l'objet critique en une seule étape, s'avère insuffisante selon les auteurs, car identifier quoi regarder requiert d'abord une compréhension globale de la scène. Pour les intégrateurs, l'adaptateur léger proposé offre une voie d'amélioration de la robustesse sans nécessiter de ré-entraîner le modèle de base, ce qui constitue un argument pratique non négligeable. Ce goulot d'étranglement perceptuel est un sujet de recherche actif depuis que des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) ont commencé à être déployés hors laboratoire. Ces modèles restent fragiles face à la variabilité des environnements réels, ce que le secteur désigne comme le "demo-to-reality gap". SceneDiver demeure une contribution académique préliminaire, non encore évaluée par les pairs, et l'absence de détails précis sur les benchmarks utilisés dans le résumé rend la comparaison directe difficile avec d'autres approches comme OpenVLA ou SpatialVLM. La mise à disposition du code en open source est toutefois un signal positif pour la reproductibilité ; une validation sur matériel réel et une intégration dans des stacks comme LeRobot de Hugging Face constitueraient les prochaines étapes naturelles.

UEL'intégration potentielle dans LeRobot (HuggingFace, France) représente un bénéfice indirect pour l'écosystème open-source robotique européen.

RechercheOpinion
1 source
HORIZON : un curriculum gouverné par la récupérabilité pour le passage à l'échelle en domaine physique
6arXiv cs.RO 

HORIZON : un curriculum gouverné par la récupérabilité pour le passage à l'échelle en domaine physique

Des chercheurs proposent HORIZON (arXiv:2606.05143, juin 2026), un curriculum d'entraînement pour politiques robotiques qui régule l'expansion des domaines physiques via un principe de recouvrabilité. Évalué sur la locomotion quadrupède, HORIZON remplace la randomisation fixe des paramètres physiques par un processus de frontière adaptative : la politique n'est exposée à des conditions dynamiques plus difficiles que si elle reste capable de générer des données correctrices à partir de ces nouvelles conditions, sans s'effondrer en échecs irrécupérables. Concrètement, le curriculum s'étend par étapes vérifiées avec mécanisme de rollback si la frontière de recouvrabilité est franchie, transformant une randomisation statique en croissance continue du domaine physique. L'article documente trois régularités qui contredisent des pratiques répandues. Premièrement, l'élargissement direct des domaines est non uniforme selon les axes physiques et souvent impossible à apprendre sans ordonnancement progressif. Deuxièmement, la composition de domaines est non monotone : au-delà d'un noyau compact, ajouter des domaines supplémentaires dilue les échantillons recouvrables conjoints et dégrade la robustesse globale plutôt que de l'améliorer. Troisièmement, la distillation hors-politique d'experts isolés ne peut pas substituer l'interaction jointe produite par le curriculum on-policy. Ces résultats ont des implications directes pour les équipes sim-to-real : la stratégie courante "plus de randomisation égale plus de robustesse" est invalidée dans certains régimes, et la séquence d'exposition aux domaines devient un paramètre de conception critique au même titre que l'architecture du réseau. Le sim-to-real gap reste l'un des verrous centraux de la robotique embodied. Les approches de domain randomization, popularisées notamment par OpenAI et ETH Zurich avec ANYmal, postulaient qu'une couverture suffisamment large des variations physiques produit des politiques robustes. HORIZON s'inscrit dans un courant émergent qui déplace le facteur limitant de la couverture vers la recouvrabilité. Les travaux concurrents incluent les curriculums adaptatifs ALP-GMM et PAIRED, ainsi que les approches teacher-student. La méthode est présentée sur le quadrupède mais les auteurs suggèrent une généralisation à d'autres plateformes embodied. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit d'une contribution de recherche fondamentale, sans produit ni annonce commerciale associée.

RecherchePaper
1 source
ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines
7arXiv cs.RO 

ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines

Une équipe de recherche a publié sur arXiv (référence 2603.09170v2) ZeroWBC, un cadre d'apprentissage du contrôle corporel complet pour robots humanoïdes qui se passe entièrement de données de télé-opération. Le système apprend à partir de vidéos égocentrées humaines -- c'est-à-dire filmées du point de vue d'un opérateur -- associées à des annotations de mouvement corps-entier et de texte. Concrètement, une image initiale prise en vue subjective est combinée à une instruction en langage naturel ; un modèle vision-langage (VLM) affiné génère alors des tokens de mouvement humain futur, qui sont décodés en trajectoires continues et retargetés vers le robot humanoïde. Ces mouvements de référence, accompagnés des trajectoires de la racine et des parties clés du corps, alimentent ensuite une politique de suivi de mouvement interactif. Les expériences ont été conduites sur le robot Unitree G1, un humanoïde compact commercialisé à environ 16 000 dollars. L'apport central de ZeroWBC réside dans l'élimination du coût de collecte des données de télé-opération, traditionnellement un verrou majeur pour l'apprentissage du contrôle corps-entier à grande échelle. En exploitant le stock immense de vidéos humaines égocentrées déjà disponibles, la méthode ouvre un paradigme de scalabilité que les approches par démonstration robotique directe ne peuvent pas égaler facilement. L'introduction d'une récompense de suivi orientée interaction -- qui priorise l'alignement global des trajectoires tout en préservant la naturalité du mouvement -- tente de combler le gap entre génération de gestes plausibles et exécution physiquement cohérente. C'est un résultat de recherche académique, pas un produit déployé en production : les vidéos présentées montrent des comportements variés en scène statique, mais les conditions réelles d'un environnement industriel dynamique n'ont pas été testées. ZeroWBC s'inscrit dans un courant plus large de méthodes "zéro-démonstration robot" qui cherchent à transférer la richesse des données humaines vers des systèmes incarnés, à l'instar des travaux sur les politiques visuomotrices à base de VLA (Vision-Language-Action). Sur le terrain concurrent, des approches comme ACT, UMI ou les pipelines de diffusion de Physical Intelligence (Pi-0) misent encore largement sur la télé-opération directe ou les données simulées. Unitree, constructeur chinois dont le G1 est l'une des plateformes humanoïdes les plus accessibles du marché, bénéficie ici d'une visibilité croissante comme banc d'essai académique de référence. Les prochaines étapes naturelles seraient d'étendre ZeroWBC à des scènes dynamiques, de tester la robustesse en dehors du labo, et d'évaluer si le sim-to-real tient face à la variabilité réelle des interactions objet-robot.

RechercheOpinion
1 source
TransTac : transition visuo-tactile via des élastomères transparents codés aux ultraviolets
8arXiv cs.RO 

TransTac : transition visuo-tactile via des élastomères transparents codés aux ultraviolets

Des chercheurs ont mis en ligne sur arXiv (référence 2506.04477) un capteur tactile visuel appelé TransTac, qui lève une contrainte fondamentale des VBTS (Vision-Based Tactile Sensors) actuels : l'opacité de l'élastomère de contact, incompatible avec une observation directe de la scène. TransTac intègre dans un seul dispositif compact un élastomère transparent portant des marqueurs réfléchissants ultraviolets, un système binoculaire stéréoscopique, et un algorithme de triangulation sparse par triangulation de Delaunay guidé par contraintes géométriques a priori. Un détecteur léger assure la localisation stable des marqueurs semi-transparents sous déformation de contact. Le coût matériel du prototype est d'environ 70 dollars. Les performances mesurées sont significatives à plusieurs titres. L'algorithme de mise en correspondance surpasse les méthodes d'affectation globale de 21 % en robustesse de correspondance. En reconnaissance zero-shot sur images tactiles, TransTac atteint 83,3 %, soit 50 points de pourcentage au-dessus des baselines opaques équivalentes. L'analyse des espaces d'embedding révèle que la similarité cosinus entre classes tactiles et images naturelles passe de 0,2 à plus de 0,77 : l'élastomère transparent permet de construire des représentations alignées avec les modèles de vision généralistes sans fine-tuning dédié, ce qui ouvre la voie à des pipelines de manipulation fondés sur des VLA (Vision-Language-Action models) sans adaptation sensorielle spécifique. Des expériences contrôlées quantifient également la dégradation des caméras RGB-D en dessous de quelques dizaines de centimètres, et montrent que l'intégration visuo-tactile étend la couverture géométrique utile dans cette plage critique. Le secteur des VBTS s'est densifié depuis GelSight (MIT) et ses dérivés comme DIGIT (développé conjointement par Meta et CMU) ou Allsight. Ces capteurs sacrifient tous la transparence pour maintenir le contraste optique nécessaire à la reconstruction de surface. TransTac contourne ce compromis en séparant l'illumination tactile (spectre UV) du spectre visible, une approche qui reste à valider sur des manipulateurs industriels en conditions de production réelles, notamment en termes de durée de vie de l'élastomère et de robustesse aux contaminants. Aucune affiliation institutionnelle ni partenariat industriel ne sont mentionnés dans le préprint : ce travail est à ce stade un prototype de laboratoire. Pour les intégrateurs travaillant sur la manipulation de précision ou l'inspection à contact, le ratio coût-performance annoncé (un capteur d'extrémité non-occlusif à 70 dollars) mérite d'être suivi lors des prochaines validations expérimentales en conditions réelles.

RecherchePaper
1 source
DLO-Lab : évaluation de la manipulation d'objets linéaires déformables avec physique différentiable
9arXiv cs.RO 

DLO-Lab : évaluation de la manipulation d'objets linéaires déformables avec physique différentiable

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.04206) DLO-Lab, un cadre de recherche combinant simulateur physique différentiable et suite de benchmarks dédiée à la manipulation robotique d'objets linéaires déformables (DLO), soit concrètement les câbles, cordes et élastiques. Le simulateur modélise explicitement une gamme étendue de propriétés matérielles : extensibilité et inextensibilité, élasticité, plasticité en flexion, ainsi que les interactions complexes entre objets. Sur cette base, les auteurs proposent un ensemble de tâches représentatives qui mettent en évidence deux difficultés centrales de la manipulation DLO : la complexité topologique inhérente aux objets déformables et la sensibilité aux points de saisie. Ils introduisent également un agent spécialisé qui sélectionne des points de préhension stratégiques et décompose les tâches longues en sous-séquences pour maximiser l'autorité de contrôle. L'ensemble est évalué avec plusieurs algorithmes d'apprentissage de politiques, et des expériences de transfert sim-to-real sont conduites pour valider le potentiel applicatif de la plateforme. L'enjeu industriel est direct : la manipulation de câbles et de fils est l'un des derniers verrous majeurs de l'automatisation en électronique, câblage automobile et logistique. Les approches antérieures se heurtaient à un double plafond de verre, étroitesse des tâches supportées et impossibilité pratique de collecter des données réelles suffisamment diversifiées. L'usage d'un simulateur différentiable change l'équation : les gradients physiques peuvent guider directement l'optimisation des politiques, ce qui réduit le besoin en démonstrations humaines et rend l'apprentissage plus transférable. Les expériences sim-to-real présentées dans l'article constituent la mesure critique : elles indiquent si le fossé simulation-réalité est franchissable pour ce type d'objets réputés imprévisibles, bien que les conditions expérimentales précises (matériaux testés, taux de succès chiffrés) restent à examiner dans le détail du papier complet. La manipulation DLO est un problème actif depuis les années 2010, avec des travaux notables du MIT, de Berkeley (notamment autour de l'équipe Pieter Abbeel) et, côté européen, de l'Inria et du DLR. Les benchmarks existants comme RLBench ou ManipulaTHOR ne couvrent pas spécifiquement les propriétés physiques des déformables linéaires, ce qui justifie la niche que vise DLO-Lab. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'une contribution académique pré-print, non encore évaluée par les pairs. Les prochaines étapes naturelles seraient une intégration dans des environnements de simulation largement adoptés comme Isaac Sim ou MuJoCo, et une validation sur des cas industriels concrets tels que le câblage de faisceaux dans l'automobile.

UELes équipes européennes (Inria, DLR) sont actives sur la manipulation DLO, et l'industrie automobile européenne, notamment le câblage de faisceaux, constitue l'un des débouchés industriels directs visés par ces travaux de simulation différentiable.

RecherchePaper
1 source
Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives
10arXiv cs.RO 

Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives

Des chercheurs ont publié Sem-NaVAE, une approche de navigation sans carte (mapless) pour robots mobiles en extérieur, détaillée dans un preprint arXiv (arXiv:2502.01429v2). Le système repose sur deux composants articulés : un autoencodeur variationnel conditionnel (CVAE) qui génère en temps réel un ensemble de trajectoires candidates, et un modèle vision-langage (VLM) léger qui sélectionne la trajectoire à exécuter via segmentation sémantique à vocabulaire ouvert. L'opérateur spécifie une consigne en langage naturel, le VLM score chaque trajectoire proposée selon la sémantique visuelle de la scène, et un planificateur local de pointe convertit la trajectoire retenue en commandes de vitesse. Sur des parcours réels de 120 à 240 mètres dans des environnements non vus lors de l'entraînement, Sem-NaVAE atteint un taux de réussite de 90%, surpassant la baseline la plus proche de 10 points de pourcentage tout en restant à seulement 7% du plafond théorique d'un système avec carte. Ce résultat est notable car il démontre qu'une navigation extérieure robuste et généralisable est atteignable sans cartographie préalable, une contrainte opérationnelle majeure pour le déploiement d'AMR sur des chantiers, en agriculture ou en logistique outdoor. La combinaison d'un générateur stochastique de trajectoires avec une couche sémantique pilotée par langage naturel permet d'abstraire la description du terrain sans règles codées en dur ni base de données d'annotation. Le fait que le système opère en temps réel sur des itinéraires inédits constitue une validation partielle du sim-to-real pour la navigation extérieure non structurée. L'écart résiduel de 7% avec un système cartographié reste un indicateur honnête des limites actuelles : la carte conserve un avantage mesurable. La navigation mapless en extérieur est un problème ouvert depuis des années : les solutions SLAM indoor ne se transfèrent pas aux terrains variables (végétation, météo, absence de repères stables). Sem-NaVAE s'inscrit dans une tendance récente qui exploite les VLM pour une compréhension sémantique du monde réel, dans la lignée de ViNT (Stanford/Berkeley) ou de GNFactor. Côté industriel, des acteurs comme Boston Dynamics, Clearpath (désormais Rockwell Automation) ou le français Exotec restent principalement positionnés sur des environnements contrôlés et structurés. Le preprint ne mentionne aucun partenaire industriel ni timeline de commercialisation ; les prochaines étapes logiques seraient une validation sur des distances plus longues, des conditions météorologiques adverses, et une comparaison formelle avec des approches VLA de type end-to-end.

UEImpact indirect : les opérateurs d'AMR outdoor européens (agriculture, chantiers, logistique) pourraient bénéficier d'une navigation sans cartographie préalable, mais aucun acteur ou financement européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
3PoinTr : apprentissage de la manipulation robotique à partir de vidéos humaines non contraintes
11arXiv cs.RO 

3PoinTr : apprentissage de la manipulation robotique à partir de vidéos humaines non contraintes

Une équipe de chercheurs a publié sur arXiv (2603.08485) une méthode baptisée 3PoinTr permettant d'entraîner des politiques de manipulation robotique à partir de vidéos humaines non contraintes, sans recourir à de coûteuses démonstrations téléopérées. Le principe repose sur la prédiction de trajectoires 3D denses de points de scène (point tracks) : un transformer léger dit "visibility-aware" apprend, depuis des vidéos d'humains en train de manipuler des objets librement, comment chaque point de la scène devrait se déplacer. Une politique robotique multitâche en boucle fermée extrait ensuite les priors d'action pertinents depuis ces trajectoires prédites. Avec seulement 20 démonstrations robot étiquetées en action, 3PoinTr surpasse les meilleures baselines de behavioral cloning et de vidéo-préentraînement de 25,0 points de pourcentage en tâches réelles et de 29,6 points en simulation. Ce résultat est notable parce qu'il s'attaque à l'un des goulots d'étranglement structurels du domaine : le coût prohibitif de la collecte de données robot. Les approches existantes de video-pretraining imposent typiquement que l'humain "joue le robot", mouvements chorégraphiés, keypoints prédéfinis, annotations manuelles ou positions de préhension connues. 3PoinTr supprime ces contraintes et exploite des vidéos naturalistes, ce qui élargit considérablement le corpus exploitable (YouTube, vidéos industrielles, données de formation existantes). La gestion des occlusions partielles via la supervision sur les points partiellement occultés représente une avancée technique précise par rapport aux baselines : le transformer conserve un signal d'apprentissage même quand la main ou l'outil masque une partie de la scène. Le travail s'inscrit dans une tendance plus large des Visual-Language-Action models (VLA) et des approches fondées sur les représentations 2D/3D pour le transfert sim-to-real, en compétition directe avec des méthodes comme Track2Act, RoboTAP ou ATM (Action Tracking from Motion). Il se distingue par le passage explicite à la 3D et le faible volume de données supervisées requis. La page projet est disponible chez Adam Hung (adamhung60.github.io/3PoinTr), mais aucune annonce de déploiement industriel ou de partenariat n'est associée à cette publication : il s'agit d'un résultat de recherche, pas d'un produit commercialisé.

RecherchePaper
1 source
LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées
12arXiv cs.RO 

LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées

LDA-1B est un modèle fondation pour la robotique à 1 milliard de paramètres, présenté dans un preprint arXiv (2602.12215v2, "replace", donc une version révisée). Ses auteurs introduisent ce qu'ils appellent une "ingestion universelle de données incarnées" : plutôt que le clonage comportemental classique, qui se borne à imiter des actions expertes en ignorant la connaissance des dynamiques physiques, LDA-1B entraîne simultanément un modèle de dynamiques, une politique d'action et un module de prévision visuelle. Pour opérer à cette échelle, les chercheurs ont constitué EI-30k, un jeu de données standardisé regroupant plus de 30 000 heures de trajectoires humaines et robotiques dans un format unifié. La prédiction s'effectue dans l'espace latent structuré de DINO (modèle de vision auto-supervisé de Meta), évitant la modélisation redondante au niveau pixel. L'architecture repose sur un transformeur de diffusion multimodal gérant des flux vidéo et d'action asynchrones. En simulation et en conditions réelles, LDA-1B dépasse π0.5 de Physical Intelligence de 21 % sur les tâches à contacts intenses, 48 % sur les tâches de dextérité, et 23 % sur les tâches à long horizon. Résultat contre-intuitif : en réintégrant 30 % de trajectoires de faible qualité habituellement écartées, le modèle gagne 10 % de performance supplémentaire. Ce travail s'attaque à une limite structurelle des modèles robotiques actuels : le clonage comportemental traite comme déchets toutes les données sans annotation action-état précise, vidéos téléopérées approximatives, démonstrations ratées, captations partielles. En assignant des rôles distincts selon la qualité des données, LDA-1B récupère de la valeur dans ces corpus dégradés. Pour les intégrateurs et décideurs industriels, l'implication est concrète : si des trajectoires sous-optimales contribuent positivement à l'entraînement, le coût de constitution des jeux de données de référence diminue sensiblement. Les gains de 48 % sur la dextérité, talon d'Achille historique des robots manipulateurs, sont particulièrement significatifs, même si ces chiffres proviennent d'un preprint non encore évalué par les pairs, et que les conditions exactes des benchmarks méritent une lecture critique avant généralisation. LDA-1B s'inscrit dans une course aux modèles fondation robotiques qui s'intensifie depuis 2024. Physical Intelligence (Pi), dont π0 puis π0.5 font référence sur les benchmarks manipulation, est le principal étalon ici. Google DeepMind pousse RT-2 et ses successeurs, tandis que des modèles open-source comme OpenVLA et Octo peinent à franchir le cap du milliard de paramètres avec des données hétérogènes. La formulation UWM (Unified World Model), que LDA-1B exploite et étend, tentait déjà de valoriser des données non-action (vidéos, interactions humaines), mais les tentatives précédentes manquaient d'échelle et de standardisation. EI-30k, avec ses 30 000 heures normalisées, est l'une des bases d'interaction incarnée les plus vastes publiées à ce jour. Ce preprint n'annonce ni produit commercial ni déploiement terrain, c'est de la recherche académique avec expériences en simulation et quelques validations réelles. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une intégration sur des plateformes humanoïdes comme Unitree H1 ou G1.

RechercheOpinion
1 source
GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos
13arXiv cs.RO 

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

Une équipe de chercheurs publie GRAIL (Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors, arXiv:2606.05160), un pipeline entièrement virtuel qui génère des données d'entraînement en loco-manipulation humanoïde sans télé-opération ni capture de mouvement physique. La méthode compose des actifs 3D paramétrés, des scènes simulées et des modèles fondamentaux vidéo (VFM) pour reconstruire des trajectoires d'interaction humain-objet (HOI) en 4D à l'échelle métrique, en conditionnant la génération vidéo sur des configurations entièrement spécifiées : géométrie, paramètres caméra, profondeur de scène et personnage aux proportions humanoïdes, ce qui réduit l'ambiguïté de profondeur et le mismatch morphologique habituels. Le pipeline produit plus de 20 000 séquences couvrant ramassage d'objets, manipulation, assise et traversée de terrains variés. Entraîné uniquement sur ces données synthétiques via un pipeline sim-to-real, le système atteint 84 % de succès en préhension d'objets divers et 90 % en montée d'escaliers sur un Unitree G1 en conditions réelles ; l'article, soumis sur arXiv en juin 2026, est une prépublication non encore évaluée par les pairs. Ce travail s'attaque au principal goulot d'étranglement de la robotique humanoïde : générer des données de démonstration diversifiées à grande échelle sans mobiliser de temps-robot ni d'opérateurs spécialisés. La télé-opération et la mocap exigent des configurations physiques dédiées et un robot disponible à chaque session, ce qui plafonne le débit de production de données ; GRAIL déplace intégralement ce coût vers la simulation, rendant possible la composition de données pour des objets, scènes et mouvements corporels inédits. Les résultats de 84 % et 90 % en conditions réelles constituent un signal positif sur la réduction du gap sim-to-real, du moins pour ces classes de tâches. Une réserve s'impose cependant : le résumé ne détaille ni les objets testés ni le protocole de sélection des séquences d'évaluation, ce qui rend toute comparaison indépendante prématurée avant la publication complète. GRAIL s'inscrit dans une course à la donnée synthétique que se livrent les principaux laboratoires de robotique humanoïde, aux côtés des pipelines World Model de Figure AI et 1X Technologies, de RoboVerse (Microsoft Research) et des environnements Genesis pour la simulation physique générative. La distinction de GRAIL réside dans le conditionnement fort sur des actifs 3D préalables, un choix qui améliore la précision de la reconstruction 4D mais suppose la disponibilité d'assets de qualité pour chaque objet cible. Le robot retenu, l'Unitree G1, est commercialisé autour de 16 000 dollars, rendant la reproduction des résultats accessible à de nombreuses équipes académiques, contrairement aux plateformes propriétaires des acteurs industriels. Les affiliations des auteurs ne figurant pas dans le résumé arXiv disponible, les suites naturelles annoncées comprennent les tâches bimanuelles, les environnements dynamiques et l'intégration dans des pipelines VLA (Vision-Language-Action) pour la généralisation à des objets et contextes non vus lors de l'entraînement.

UELes laboratoires académiques européens spécialisés en robotique humanoïde (INRIA, CEA-List) pourraient adopter ce pipeline de génération de données synthétiques pour réduire leur dépendance à la télé-opération et à la mocap, mais aucun acteur FR/UE n'est directement impliqué dans ces travaux.

RecherchePaper
1 source
MineXplore : un benchmark d'exploration open-source par apprentissage par renforcement pour environnements souterrains sans GNSS
14arXiv cs.RO 

MineXplore : un benchmark d'exploration open-source par apprentissage par renforcement pour environnements souterrains sans GNSS

Des chercheurs ont publié MineXplore, un benchmark open-source basé sur MuJoCo pour entraîner des agents d'exploration autonome dans des mines souterraines en environnement GNSS-dénié. L'environnement reconstitue un réseau de tunnels de 104 423 m² à partir du relevé d'une mine de cuivre chilienne (dataset Leung et al., 2017), via un pipeline en six étapes (contour-to-MJCF) générant des sections de galeries octogonales, une géométrie de parois irrégulières issue de données LiDAR, trois zones de friction au sol distinctes, une inclinaison globale de 5 degrés et un éclairage ponctuel périodique. La fidélité géométrique est validée à un IoU de 0,9538 par rapport à la carte de relevé source, et la similarité de texture de surface atteint 79,4 % sur six dimensions structurelles. Un agent PPO entraîné via RLlib sur cinq graines aléatoires indépendantes atteint une couverture roulante maximale de 88,89 %, trois des cinq runs franchissant le seuil cible de 90 %. L'apport principal est de combler un vide concret dans l'écosystème open-source : aucun benchmark compatible avec les pipelines d'apprentissage accélérés par GPU n'existait pour des environnements miniers souterrains à géométrie réaliste. Les mines constituent des cas extrêmes pour la navigation autonome, sans GNSS, éclairage dégradé, topologie en boucle non convexe, qui mettent en défaut les approches développées en terrain ouvert. La reproductibilité des résultats sur cinq seeds indépendantes valide la stabilité du benchmark pour des comparaisons inter-méthodes rigoureuses, un critère essentiel pour les publications futures. Pour les équipes développant des robots d'inspection ou de cartographie minière, MineXplore réduit le sim-to-real gap dans des environnements où les tests terrain sont coûteux, longs à organiser et potentiellement dangereux. Le benchmark s'ancre dans des données de terrain réelles plutôt qu'une géométrie synthétique, ce qui lui confère une crédibilité sectorielle plus solide que les environnements procéduraux courants. La communauté avait déjà travaillé le problème souterrain via le challenge DARPA SubT (2019-2021), qui a produit des résultats notables avec des plateformes comme Boston Dynamics Spot ou ANYbotics ANYmal, mais favorisait les architectures modulaires classiques. MineXplore occupe un espace complémentaire, centré explicitement sur l'apprentissage par renforcement et les politiques end-to-end. Les extensions naturelles concernent les scénarios multi-agents, les capteurs additionnels (RGB, thermique) et des topologies de mines plus variées. Le code est disponible publiquement sur arXiv, ce qui devrait accélérer les contributions de la communauté autour de la robotique en milieu confiné.

RecherchePaper
1 source
Planification POMDP en ligne vectorisée
15arXiv cs.RO 

Planification POMDP en ligne vectorisée

Des chercheurs ont publié VOPP (Vectorized Online POMDP Planner), un nouveau solveur de planification pour robots autonomes opérant sous observabilité partielle. L'article, paru sur arXiv (référence 2510.27191, cinquième version), propose une refonte architecturale des solveurs de POMDP (Partially Observable Markov Decision Process), le cadre formel qui permet à un robot de planifier ses actions quand ses capteurs sont bruités et son environnement incertain. L'innovation centrale : représenter toutes les structures de données de planification sous forme de tenseurs et exécuter chaque étape de calcul en mode entièrement vectorisé, éliminant les dépendances et goulots d'étranglement de synchronisation qui pénalisaient les approches parallèles antérieures. Les résultats expérimentaux affichent un gain d'efficacité d'au moins 20× par rapport au meilleur solveur parallèle existant pour des solutions quasi-optimales, et VOPP surpasse également les meilleurs solveurs séquentiels tout en utilisant un budget de planification 1 000× inférieur. Ces résultats, s'ils se confirment sur des plateformes physiques, changeraient significativement la faisabilité de la planification POMDP embarquée en temps réel. Jusqu'ici, les POMDP restaient souvent cantonnés à la recherche académique ou à des applications à horizons de décision limités, précisément parce que les solveurs classiques, qui alternent optimisation numérique et estimation de valeur avec des synchronisations coûteuses, restaient incompatibles avec des contraintes temps-réel. L'approche tensorielle de VOPP exploite directement les GPU et accélérateurs vectoriels modernes, ouvrant la voie à une planification sous incertitude à grande échelle : navigation d'AMR en entrepôt, manipulation d'objets à préhension incertaine, coordination multi-robots dans des environnements dynamiques. Le POMDP est un cadre établi depuis les années 1990, mais ses applications robotiques ont longtemps buté sur la malédiction de la dimensionnalité. Des travaux comme POMCP (2010) et DESPOT ont progressivement rendu les solveurs en ligne plus tractables. VOPP s'inscrit dans cette lignée en exploitant une reformulation récente qui résout analytiquement une partie du problème d'optimisation, réduisant les calculs numériques à de pures estimations d'espérances. Aucun partenariat industriel ni déploiement concret n'est mentionné dans la publication, il s'agit d'un résultat de recherche fondamentale. Les étapes logiques suivantes seraient une validation sur des benchmarks physiques et une intégration dans des frameworks comme ROS 2 ou Isaac Sim.

RecherchePaper
1 source
WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée
16arXiv cs.RO 

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

Des chercheurs ont publié WAM-Nav (Latent World-Action Model for Navigation), un système de navigation visuelle incarnée qui couple la génération d'actions et la prévision visuelle dans un seul modèle, déposé sur arXiv en juin 2026 (réf. 2606.04907). L'architecture repose sur un Diffusion Transformer partagé qui effectue une diffusion jointe asymétrique : il génère simultanément des actions à long horizon et une anticipation visuelle à court horizon, sans recourir aux rollouts autorégressifs multi-étapes qui alourdissent la latence d'inférence. Un mécanisme de conditionnement contextuel à double flux intègre l'historique d'ego-motion à l'échelle de l'épisode et les observations visuelles séquentielles, favorisant des trajectoires lisses et cohérentes. Un module d'alignement d'objectif unifié permet à WAM-Nav de gérer trois modes dans une seule politique : Image-Goal, Point-Goal et exploration libre (No-Goal). Sur les benchmarks ClutterScenes et InternScenes, le système améliore les taux de réussite de 15,7 % en Image-Goal et de 3,3 % en Point-Goal. En déploiement réel, WAM-Nav atteint 85 % de taux de succès moyen sur des environnements intérieurs et extérieurs variés, sans fine-tuning, soit un transfert sim-to-real zéro-shot. Ce résultat intéresse directement les intégrateurs de robotique mobile pour deux raisons concrètes. D'abord, la résolution simultanée de l'action et de l'imagination visuelle dans un seul réseau réduit l'accumulation d'erreurs typique des architectures modulaires, où le prédicteur de scène et le module de politique sont entraînés séparément et se propagent mutuellement leurs erreurs. Ensuite, un taux de 85 % en zéro-shot sur des environnements variés représente un indicateur sérieux, même si les conditions de test (densité d'obstacles, vitesses, types de sols) ne sont pas détaillées dans le résumé et méritent d'être examinées dans le papier complet. Pour un COO ou un décideur B2B, cette architecture suggère des robots de navigation capables de s'adapter à de nouveaux scénarios sans collecte de données coûteuse sur site. Le sim-to-real gap reste l'un des blocages majeurs de la robotique mobile autonome depuis des années : les politiques entraînées en simulation échouent souvent au contact du monde réel en raison des différences de rendu, de dynamique et de bruit des capteurs. WAM-Nav s'inscrit dans une vague de travaux qui combinent modèles de diffusion pour la génération d'actions et représentations latentes du monde, dans la lignée des World Models de type RSSM ou des VLA comme Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA. Sur le plan concurrentiel, des approches comme NoMaD, ViNT ou les stacks Nav2/ROS 2 restent des références opérationnelles sur AMR commerciaux, et WAM-Nav devra être comparé à ces systèmes dans des conditions contrôlées identiques pour confirmer sa supériorité pratique. L'étape suivante naturelle serait une validation sur des plateformes matérielles réelles en conditions industrielles, dont aucun partenariat ni timeline n'est annoncé à ce stade.

RecherchePaper
1 source
Flow matching guidé par le potentiel pour l'amélioration des politiques VLA
17arXiv cs.RO 

Flow matching guidé par le potentiel pour l'amélioration des politiques VLA

Des chercheurs ont publié le 5 juin 2026 sur arXiv (2606.04968) une méthode baptisée ForesightFlow, conçue pour améliorer les politiques de type vision-langage-action (VLA) sans recourir à un critique externe. Le problème de départ est concret : lorsqu'un robot déploie une politique VLA entraînée par imitation, il génère inévitablement des trajectoires de qualité variable, succès complets, récupérations partielles, erreurs rattrapables, échecs francs. L'imitation comportementale classique reproduit les erreurs, le filtrage par seuil de qualité écarte des sous-trajectoires pourtant exploitables, et le renforcement offline ajoute un critique séparé coûteux. ForesightFlow contourne ces trois écueils en augmentant chaque chunk d'actions généré d'une trajectoire de potentiel de succès apprise conjointement. Le même réseau de flow matching propose et note les actions candidates, permettant une inférence de type best-of-K sans module additionnel. Sur cinq tâches de simulation BEHAVIOR-1K et cinq tâches réelles bimanipulation, la méthode dépasse les baselines d'imitation, égale le meilleur baseline avec critique séparé en simulation, améliore le taux de succès en conditions réelles et réduit le coût d'entraînement de 38 %. L'apport industriel le plus direct est cette réduction de 38 % des ressources de calcul à performance comparable, un argument budgétaire non négligeable pour les labos qui entraînent des modèles VLA de grande taille. Plus fondamentalement, ForesightFlow montre qu'il est possible de valoriser les données de déploiement imparfaites sans jeter les mauvais épisodes ni payer le coût d'un critic offline. La clé technique est un "decoupled advantage-weighted flow matching" : les poids d'avantage exponentié s'appliquent uniquement aux vitesses d'action, tandis que les vitesses de potentiel sont entraînées uniformément, évitant ce que les auteurs appellent la "value hallucination". Un estimateur de frontière en un seul pas forward (stop-gradient) rend le calcul des avantages suffisamment léger pour être intégré dans la boucle d'entraînement. Ce travail s'inscrit dans une vague de recherche dense autour des VLA pour la manipulation robotique, où Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA ont établi les références récentes en termes d'architectures génératives. Le recours au flow matching, alternative à la diffusion, plus rapide à l'inférence, pour la politique robotique est une tendance émergente depuis 2024. ForesightFlow est à ce stade une contribution académique, pas un produit ou un déploiement annoncé ; aucun partenariat industriel ni timeline commerciale n'est mentionné. Les prochaines étapes naturelles seraient la validation sur des benchmarks plus larges type LIBERO ou RLBench, et l'intégration dans des pipelines VLA à plus grande échelle comme ceux entraînés sur Open-X Embodiment.

RechercheOpinion
1 source
Apprentissage de politiques dynamiques pour robots à pattes : préentraînement sur modèle simplifié et transfert inspiré de l'homotopie
18arXiv cs.RO 

Apprentissage de politiques dynamiques pour robots à pattes : préentraînement sur modèle simplifié et transfert inspiré de l'homotopie

Des chercheurs ont publié sur arXiv (arXiv:2512.24698v2, soumis fin 2025) un cadre d'apprentissage par renforcement baptisé "continuation-based learning" pour générer des comportements dynamiques complexes sur robots à pattes. L'approche se décompose en deux phases : un pré-entraînement de la politique de contrôle sur un modèle d'ordre réduit dit "corps rigide unique" (Single Rigid Body, SRB), qui simplifie le robot à un seul segment de masse, suivi d'un transfert progressif vers la dynamique corps-complet via une stratégie de continuation inspirée de l'homotopie mathématique. Ce transfert consiste à redistribuer graduellement la masse et l'inertie entre le tronc et les membres du robot, en définissant un chemin paramétrique continu entre les deux représentations. Le framework a été validé sur des tâches hautement dynamiques, saltos, manoeuvres assistées par un mur, et déployé avec succès sur un robot quadrupède réel, sans préciser le modèle matériel ni les métriques quantitatives de performance finale. L'intérêt technique est de s'attaquer directement au "sim-to-real gap" pour des comportements extrêmes, là où l'apprentissage par renforcement classique achoppe : produire un salto ou une manoeuvre murale exige une récompense finement calibrée ou des démonstrations de haute qualité, deux ressources coûteuses. En préentraînant sur un modèle SRB, la politique capture rapidement les patrons de mouvement essentiels dans un espace d'état simplifié, puis la continuation homotopique réduit les pertes de performance lors du passage au modèle complet. Les auteurs rapportent une convergence plus rapide et une stabilité supérieure aux méthodes de référence (fine-tuning direct, curriculum naïf), ce qui suggère que la structure géométrique du chemin de transition compte autant que la quantité de données d'entraînement. Pour un intégrateur ou un responsable R&D robotique, c'est un signal que le sim-to-real sur comportements acrobatiques devient méthodologiquement adressable, même sans démonstrations humaines. Ce travail s'inscrit dans un courant actif qui cherche à combiner modèles analytiques réduits et apprentissage profond pour dépasser les limites de chacun : les méthodes purement model-based (MPC sur SRB, très utilisées chez Boston Dynamics, ETH Zurich et ANYbotics) peinent sur les mouvements hors-domaine de validité du modèle, tandis que le RL pur souffre d'une exploration inefficace pour les comportements extrêmes. Des travaux récents comme ceux du groupe de Pieter Abbeel (UC Berkeley) ou de Zhuang Chen (CMU) explorent des voies similaires de curriculum progressif. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication ; l'article reste à ce stade un résultat de laboratoire, sans validation sur des plateformes commerciales comme Unitree B2, Spot ou ANYmal.

RecherchePaper
1 source
COP-Q : apprentissage par renforcement axé sur la sécurité pour la commande de robots via projection de Cholesky ordonnée
19arXiv cs.RO 

COP-Q : apprentissage par renforcement axé sur la sécurité pour la commande de robots via projection de Cholesky ordonnée

Des chercheurs ont publié le 5 juin 2026 sur arXiv (2606.04749) une méthode d'apprentissage par renforcement sûr baptisée COP-Q, pour Cholesky-Ordered Projection Q-learning. L'algorithme s'attaque à un problème central du contrôle robotique : maximiser la performance d'un agent tout en respectant des contraintes de sécurité strictes. Dans les approches off-policy existantes, les valeurs Q de récompense et de sécurité sont estimées par des ensembles de critiques séparés, chaque objectif gérant son incertitude de façon indépendante. COP-Q rompt avec ce traitement cloisonné en intégrant la covariance inter-objectifs dans une estimation vectorielle des Q-valeurs, puis utilise la décomposition de Cholesky pour encoder la priorité des objectifs sous forme séquentielle : la sécurité prime, la récompense s'adapte en conséquence. La méthode a été validée sur des benchmarks de locomotion dans Brax et de navigation sûre dans Safety-Gymnasium, en conditions de contraintes dures et souples. Ce que prouve ce travail, c'est que l'hypothèse d'indépendance entre objectifs de sécurité et de récompense est une source réelle de sous-performance. En modélisant explicitement leur corrélation, COP-Q réduit le conservatisme excessif sur la récompense sans dégrader les garanties de sécurité, ce qui se traduit par une meilleure efficacité d'échantillonnage face aux baselines représentatifs du domaine. Pour un intégrateur ou un équipementier qui cherche à déployer des robots en environnement contraint (entrepôt, ligne d'assemblage, espace partagé avec des opérateurs), cela signifie concrètement des politiques plus performantes à entraînement équivalent, sans sacrifier les garde-fous. L'overhead computationnel est décrit comme minimal, et la méthode est annoncée compatible avec la majorité des frameworks deep Q-learning existants. Le problème du safe RL pour la robotique mobilise une communauté dense depuis plusieurs années, avec des approches comme CPO (Constrained Policy Optimization), PCPO ou SAC-Lagrangian comme points de référence. COP-Q se positionne dans la lignée des méthodes off-policy avec ensembles de critiques, un espace où la gestion de l'incertitude par intervalles de confiance est devenue standard. La décomposition de Cholesky, plus connue en algèbre linéaire numérique, est ici réinterprétée comme un mécanisme de priorisation structurelle des objectifs, une idée potentiellement transférable à d'autres problèmes multi-objectifs en RL. Les prochaines étapes naturelles seraient une validation sur hardware réel et une confrontation aux benchmarks industriels comme ceux proposés par le Robosuite ou le CVPR 2025 Safe Manipulation Track.

RecherchePaper
1 source
Apprendre aux robots à dire « Je ne sais pas » : SENTINEL pour un SLAM conscient de l'incertitude
20arXiv cs.RO 

Apprendre aux robots à dire « Je ne sais pas » : SENTINEL pour un SLAM conscient de l'incertitude

Une équipe de chercheurs présente SENTINEL, un cadre d'estimation de fiabilité pour LiDAR 2D bas coût, conçu pour prévenir les corruptions silencieuses dans les systèmes de SLAM (localisation et cartographie simultanées). Le principe central : calculer un score de fiabilité par scan, compris entre 0 et 1, en combinant des statistiques géométriques sur le nuage de points avec une cohérence de profondeur croisée entre le LiDAR et une caméra RGB-D. Lorsque ce score descend sous un seuil, les scans jugés corrompus sont rejetés et le robot bascule automatiquement vers une odométrie à roues calibrée. La méthode est entièrement sans entraînement et sans étiquettes. Les expériences ont été conduites sur un robot GEFIER R1 à quatre roues en configuration skid-steer, équipé d'un RPLidar A2M12 et d'une caméra Intel RealSense D435i, dans une arène de 185 cm sur 245 cm intégrant des obstacles à surfaces réfléchissantes et transparentes : verre, miroir, papier brillant, et combinaison miroir-papier brillant. L'enjeu est significatif pour quiconque déploie de la navigation autonome sur plateformes à budget contraint. Les LiDAR 2D entrée de gamme, massivement utilisés dans les robots éducatifs et les AMR industriels économiques, ne disposent pas du canal d'intensité que les capteurs haut de gamme exploitent pour diagnostiquer leurs propres défaillances. Les surfaces réfléchissantes ou transparentes, omniprésentes en environnement réel (vitrages, sols polis, rayonnages métalliques), provoquent des lectures fantômes ou des pertes de retour qui corrompent silencieusement la carte SLAM sans que le système le détecte. SENTINEL fournit un signal diagnostique là où le hardware n'en offre aucun, sans nécessiter de dataset ni de phase d'apprentissage, ce qui le rend déployable directement sur du matériel existant. Le problème posé par les matériaux réfléchissants est un angle mort structurel du SLAM basé simulation : ces conditions de surface sont quasi absentes des environnements synthétiques, ce qui rend la validation sur hardware réel indispensable, choix que les auteurs justifient explicitement. Dans le paysage plus large, la robustesse du SLAM face aux défaillances capteur est un domaine actif, avec des approches concurrentes comme les méthodes de détection d'outliers en ICP, ou les architectures LiDAR-inertial (LOAM, LIO-SAM) qui adressent partiellement le problème mais requièrent des capteurs plus riches. SENTINEL se positionne spécifiquement sur le segment bas coût, sans prétendre rivaliser avec ces stacks sur des plateformes dotées de LiDAR 3D. Les prochaines étapes naturelles seraient une intégration dans des stacks open-source comme Nav2 ou Cartographer, et une validation dans des environnements opérationnels plus larges.

UEAucun acteur français ou européen directement impliqué, mais les intégrateurs européens d'AMR économiques utilisant des LiDAR 2D bas coût (entrepôts, logistique légère) pourraient bénéficier de cette approche sans entraînement si elle est intégrée à Nav2 ou Cartographer.

RecherchePaper
1 source
Évaluation de l'adaptation zéro-shot et one-shot des petits modèles de langage pour l'interaction leader-suiveur
21arXiv cs.RO 

Évaluation de l'adaptation zéro-shot et one-shot des petits modèles de langage pour l'interaction leader-suiveur

Une équipe de chercheurs a publié une évaluation comparative de petits modèles de langage (SLMs) pour la classification de rôles en interaction humain-robot, avec un focus sur le paradigme leader-suiveur. L'étude, diffusée sur arXiv (2602.23312v3), porte sur Qwen2.5-0.5B, un modèle de seulement 500 millions de paramètres. Les chercheurs ont construit un benchmark original à partir d'une base de données existante, enrichie d'échantillons synthétiques pour capturer les dynamiques propres aux échanges leader-suiveur. Deux stratégies d'adaptation ont été testées, prompt engineering et fine-tuning, évaluées en modes zero-shot et one-shot, comparées à un modèle non entraîné. Le résultat le plus notable : le fine-tuning zero-shot atteint 86,66 % de précision en classification, avec une latence de 22,2 ms par échantillon. En revanche, les modes one-shot dégradent les performances, la longueur de contexte accrue dépassant la capacité architecturale du modèle. Ces résultats ont une portée directe pour les intégrateurs de robots mobiles et assistifs fonctionnant à la périphérie du réseau, là où le déploiement de LLMs complets (70B+) est hors de portée en raison des contraintes de mémoire, de puissance et de latence. La démonstration qu'un SLM fine-tuné peut assigner des rôles conversationnels en temps réel avec moins de 25 ms de délai est un argument concret contre le réflexe "plus grand est meilleur". Elle valide aussi l'approche par fine-tuning ciblé plutôt que par ingénierie de prompt pour des tâches de classification embarquées, ce qui simplifie le pipeline de déploiement sans dépendre d'un serveur distant. Le paradigme leader-suiveur est fondamental dans les applications HRI : robots de guidage, assistance à la mobilité, plateformes collaboratives. Les LLMs comme LLaMA ou Mistral ont démontré des capacités de dialogue naturel, mais leur taille les confine au cloud. L'essor des SLMs optimisés, Qwen2.5, Phi-3, Gemma-2B, ouvre une nouvelle piste pour l'embarqué. L'étude identifie cependant une limite critique : la gestion du contexte long reste un goulot d'étranglement pour les modèles sous le milliard de paramètres, ce qui restreint les interactions multi-tours. Les prochaines étapes naturelles sont l'évaluation sur matériel embarqué réel (Jetson, Raspberry Pi 5) et l'extension à des architectures légèrement plus larges pour tester si le compromis contexte-précision se déplace.

RecherchePaper
1 source
Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables
22arXiv cs.RO 

Instant-Fold : apprentissage par imitation en contexte pour la manipulation d'objets déformables

Des chercheurs présentent Instant-Fold (arXiv:2606.04269, juin 2026), un cadre d'apprentissage par imitation en contexte appliqué à la manipulation d'objets déformables comme le textile. Le principe central : à partir d'une seule démonstration humaine, le système infère et exécute des modes de manipulation variés (pliage avec ordres et variantes spatiales différents) sans aucune mise à jour de gradients ni fine-tuning. L'approche repose sur deux composants : un encodeur visuel pré-entraîné par contrastive learning temporel pour capturer les déformations du matériau, et une politique basée sur un transformer à flow-matching conditionné sur cette démonstration. Le modèle est entraîné entièrement en simulation et revendique un transfert zero-shot vers des environnements réels, sans collecte de données supplémentaire. La manipulation d'objets déformables (DOM) est l'un des problèmes les plus persistants de la robotique de manipulation : l'état d'un tissu est de haute dimension, partiellement observable, et évolue à travers des interactions à long horizon avec des changements de topologie. La promesse d'Instant-Fold est double : une seule démonstration humaine suffit, et aucun réentraînement n'est requis pour chaque nouveau mode de pliage. Pour les intégrateurs en industrie textile ou en logistique e-commerce, l'implication est directe : déployer une nouvelle variante de pliage reviendrait à filmer une démonstration, sans pipeline de réentraînement. La revendication de transfert sim-to-real zero-shot mérite toutefois d'être lue prudemment : les vidéos disponibles sur le site du projet présentent des séquences sélectionnées, et la robustesse face à des matières de textures ou rigidités très variables n'est pas quantifiée dans l'abstract. La manipulation de tissu est un chantier actif depuis des années, longtemps dominé par des approches à base d'états denses et de planification hors ligne. L'émergence des politiques diffusion (ACT, Diffusion Policy) puis des modèles Vision-Language-Action a réorienté le domaine vers des méthodes end-to-end généralisables. Instant-Fold s'inscrit dans cette lignée, mais adopte le flow-matching (plus rapide à l'inférence que la diffusion) et mise sur l'in-context learning plutôt que le fine-tuning par démonstration, une approche encore minoritaire en robotique. Les groupes concurrents actifs sur la DOM incluent des équipes chez Google DeepMind et des labos universitaires ayant publié sur des benchmarks comme SoftGym ou ClothFunnels. La validation sur des évaluations standardisées et en conditions industrielles réelles reste la prochaine étape nécessaire avant tout pilote commercial.

RechercheOpinion
1 source
X4Val : apprentissage de substituts neuronaux pour l'évaluation de politique à variance réduite
23arXiv cs.RO 

X4Val : apprentissage de substituts neuronaux pour l'évaluation de politique à variance réduite

Évaluer un système robotique basé sur l'apprentissage avant déploiement est une étape critique, mais collecter des données réelles en quantité suffisante est coûteux et chronophage. Des chercheurs présentent X4Val (arXiv:2606.05159, juin 2026), un framework général d'estimation de métriques réelles à variance réduite, conçu pour exploiter des données hétérogènes non appariées : sorties de simulation, logs de politiques antérieures, ou données collectées sur des plateformes connexes. La méthode projette des échantillons issus de domaines réels et auxiliaires dans un espace de représentation partagé, entraîne un prédicteur transférable des métriques réelles, puis intègre ce prédicteur dans un estimateur à variables de contrôle. Sur des tâches de conduite autonome et de manipulation robotique en environnement réel, X4Val atteint jusqu'à 38,4 % de réduction de variance par rapport aux baselines, avec des gains constants sur l'ensemble des configurations testées. L'enjeu industriel est direct : dans un cycle de développement itératif, chaque nouvelle version d'une politique génère inévitablement peu de données réelles, rendant l'évaluation statistiquement fragile. Les équipes robotiques font aujourd'hui face à un dilemme : soit accumuler des données de test réelles à coût élevé, soit se fier à la simulation au risque de biais importants liés au sim-to-real gap. X4Val offre une troisième voie en exploitant les données auxiliaires de façon rigoureuse, sans supposer qu'elles sont représentatives du monde réel. La réduction de variance obtenue améliore directement l'efficacité en échantillons de la validation, ce qui peut accélérer les cycles de qualification avant déploiement dans des contextes industriels contraints. Sur le plan académique, X4Val s'inscrit dans le champ de l'évaluation de politiques hors ligne (offline policy evaluation, OPE), où les estimateurs à variables de contrôle sont un outil classique de la statistique, ici adapté au cadre multi-domaines sans paires de correspondance. Les approches concurrentes incluent l'importance sampling, le recalage de domaine (domain randomization), ou l'évaluation directe en simulation, chacune présentant des biais ou des limites de couverture propres. X4Val reste à ce stade un résultat de recherche publié en preprint, sans implémentation commerciale annoncée. Les prochaines étapes naturelles seraient l'intégration dans des pipelines de qualification robotique en laboratoire, et une validation sur des tâches à plus haute complexité (manipulation dextère, locomotion).

RecherchePaper
1 source
Affordance2Action : ancrage des affordances guidé par la tâche pour la manipulation en temps réel
24arXiv cs.RO 

Affordance2Action : ancrage des affordances guidé par la tâche pour la manipulation en temps réel

Une équipe de chercheurs publie sur arXiv (identifiant 2606.04172) le framework Affordance2Action (A2A), centré sur un problème concret de la manipulation robotique : identifier en temps réel quelle partie précise d'un objet est fonctionnellement exploitable pour accomplir une tâche donnée, dans une scène encombrée et ambigüe. Le coeur du travail est A2A-Bench, un benchmark de manipulation couvrant à la fois les correspondances instruction-région unique et multi-région, c'est-à-dire les cas où un seul verbe d'action peut pointer vers une ou plusieurs zones fonctionnelles selon la disposition de la scène. Pour construire ce dataset à grande échelle, les auteurs ont développé A2A-AffordGen, un pipeline assisté par agents qui enchaîne filtrage par modèle de langage, segmentation interactive de parties, raffinement par masquage d'instance, génération d'instructions de raisonnement et vérification humaine. Le code et les datasets seront rendus publics. Ce travail expose une lacune structurelle des benchmarks existants en affordance : la plupart se concentrent sur la préhension d'objet isolé, s'appuient sur des scènes synthétiques, ou supposent une correspondance univoque entre instruction et région. A2A révèle des écarts significatifs dans trois catégories de baseline (segmentation générique, grounding fondé sur des VLMs et distillation d'affordance) sur des scènes réelles et multi-objets. Pour un intégrateur ou un responsable d'automatisation, ce résultat indique que les approches actuelles basées sur des VLMs généralistes (type CLIP ou LLaVA) sous-performent dès que la scène sort des cas standards. La capacité à localiser des régions fonctionnelles ambigües en temps réel reste un verrou non résolu pour le déploiement de bras manipulateurs en environnement non structuré. L'affordance grounding en robotique s'inscrit dans une longue tradition de recherche remontant aux travaux de Gibson sur les affordances écologiques, réinterprétés pour la manipulation depuis les années 2010. Les approches concurrentes incluent des méthodes de grounding fondées sur des modèles de vision-langage (CLIP, SAM couplé à LLM) et des politiques de type VLA (Vision-Language-Action), comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui nécessitent elles aussi une localisation précise des régions d'interaction. A2A se positionne comme un cadre d'évaluation et de supervision plutôt que comme une politique de contrôle complète. La prochaine étape logique serait une validation sur robots physiques à plus grande échelle : le papier démontre des résultats en manipulation conditionnée par les affordances, mais la portée reste expérimentale à ce stade de preprint.

RecherchePaper
1 source
ContactExplorer : exploration guidée par contacts pour la manipulation dextérique polyvalente
25arXiv cs.RO 

ContactExplorer : exploration guidée par contacts pour la manipulation dextérique polyvalente

Des chercheurs ont publié sur arXiv (identifiant 2603.10971v2) ContactExplorer, une méthode d'exploration par apprentissage par renforcement conçue pour les tâches de manipulation dextère avec des mains robotiques multi-doigts. Le principe central est de représenter le contact comme l'intersection géométrique entre les points de surface d'un objet et les points-clés de la main, ce qui permet au système de découvrir automatiquement quels doigts interagissent avec quelles régions d'un objet. ContactExplorer maintient un compteur de contacts conditionné sur des états d'objet discrétisés obtenus via des codes de hachage appris (hash codes), traçant la fréquence à laquelle chaque doigt explore chaque région de surface. Ce compteur est exploité selon deux mécanismes complémentaires : une récompense de couverture de contact basée sur le décompte, qui pousse l'agent vers des patterns de contact inédits, et une récompense d'atteinte à base d'énergie (energy-based reaching reward), qui guide la main vers les zones encore sous-explorées. L'intérêt de cette approche réside dans un problème structurel de la manipulation dextère : contrairement à la navigation ou à la locomotion, où l'exploration par nouveauté d'état suffit souvent, la manipulation physique fine exige des interactions contact riches et stables, que les signaux de nouveauté classiques gèrent mal (instabilité du signal de contact, inefficacité des signaux de distance, dépendance aux a priori spécifiques à la tâche). Les résultats expérimentaux sur un ensemble diversifié de tâches montrent que ContactExplorer améliore substantiellement l'efficacité d'échantillonnage et les taux de succès par rapport aux méthodes d'exploration existantes. Surtout, les patterns de contact appris en simulation se transfèrent de manière robuste au monde réel, ce qui est une validation non triviale du sim-to-real dans un domaine où ce gap reste un obstacle majeur. Ce travail s'inscrit dans un effort de recherche plus large visant à rendre l'exploration en RL agnostique aux tâches pour la manipulation dextère, un domaine où des équipes comme DeepMind (OpenAI Dactyl, 2019), Stanford, CMU et Berkeley ont accumulé des travaux fondateurs. ContactExplorer se distingue par son absence de priors spécifiques à la tâche, un point fort pour la généralisation. Publié sous forme de preprint arXiv (version 2, donc révisé), le travail n'a pas encore franchi le stade de la revue par les pairs ; une page projet est disponible à contact-explorer.github.io, mais aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

RecherchePaper
1 source
Des scientifiques montrent qu'un entraînement structuré surpasse les données d'apprentissage complexes en robotique
26Interesting Engineering 

Des scientifiques montrent qu'un entraînement structuré surpasse les données d'apprentissage complexes en robotique

Des chercheurs de la NYU Tandon School of Engineering et du Robotics and AI Institute ont publié dans IEEE Robotics and Automation Letters une étude montrant qu'un robot apprend à manipuler des objets complexes plus efficacement lorsqu'on lui fournit des démonstrations cohérentes plutôt que variées. L'équipe a évalué cette hypothèse sur deux tâches de manipulation à haute dextérité : deux bras robotiques devant faire pivoter un cylindre de 180 degrés en repositionnant leurs prises, et une main robotique devant réorienter un cube dans sa paume vers des positions cibles. Plutôt que de recourir à la téléopération humaine, les chercheurs ont généré des exemples d'entraînement via des algorithmes de planification de mouvement dans des simulateurs physiques. La méthode classique, les arbres aléatoires à exploration rapide (RRT), produisait des trajectoires très disparates d'une démonstration à l'autre. En développant deux alternatives, l'une optimisant la progression vers l'objectif et l'autre s'appuyant sur une bibliothèque de mouvements prédéfinis, l'équipe a obtenu des données à faible entropie. Avec seulement 100 démonstrations consistantes, le système dual-bras a atteint une performance quasi parfaite en simulation. Le transfert sim-to-real, sans ré-entraînement sur matériel physique, s'est soldé par 90 % de succès pour les deux bras et 62 % pour la main dextre. Ces résultats remettent en question une intuition dominante dans le machine learning : plus de données égale meilleure performance. Ici, la qualité structurelle des exemples prime sur la quantité. Pour les équipes qui développent des systèmes d'apprentissage par imitation (imitation learning), cela change le problème de collecte de données : il ne s'agit plus d'accumuler des démonstrations humaines coûteuses et difficiles à standardiser, mais de concevoir des générateurs de données synthétiques pilotés par des planificateurs déterministes. Le taux de 90 % en déploiement réel sans fine-tuning est un résultat concret sur le sim-to-real gap, souvent présenté comme le verrou majeur de la robotique de manipulation, bien que les conditions de laboratoire ne constituent pas un environnement industriel, et que ces chiffres restent à valider en conditions non contrôlées. Cette recherche s'inscrit dans une tendance de fond qui voit planification classique et apprentissage automatique converger, plutôt que s'opposer. Les approches de type VLA (vision-language-action) et les pipelines basés sur la diffusion de politiques, portés par des acteurs comme Physical Intelligence (pi0) ou des équipes académiques liées à Berkeley et Stanford, affrontent le même défi : générer des données d'entraînement fiables pour des tâches contact-rich. L'angle exploré ici, contrôler l'entropie des démonstrations synthétiques plutôt que leur diversité, pourrait influencer les pipelines de génération de données pour la prochaine génération de manipulateurs, notamment dans les contextes industriels où la répétabilité prime sur la généralisation.

UELes équipes européennes en apprentissage par imitation (manipulation industrielle, main robotique) peuvent directement adopter cette approche de génération de données synthétiques à faible entropie pour réduire leur dépendance à la téléopération humaine coûteuse.

RecherchePaper
1 source
L'équipe de Boston University remporte le MassRobotics Form & Function Challenge au Robotics Summit
27Robotics Business Review 

L'équipe de Boston University remporte le MassRobotics Form & Function Challenge au Robotics Summit

Lors du Robotics Summit & Expo de Boston fin mai 2026, MassRobotics a dévoilé les lauréats de sa quatrième édition du Form & Function Robotics Challenge, compétition annuelle réservée aux équipes universitaires. Quinze équipes issues d'établissements nord-américains et internationaux -- MIT, Purdue, WPI, Laval, UPenn, University of British Columbia, Waterloo, Manipal Academy de Dubaï, entre autres -- ont présenté leurs projets devant un jury d'experts de l'industrie. La première place et le prix du public reviennent à l'équipe de Boston University pour AGROBOT T.O.M., un robot de récolte de précision monté sur portique gantry, conçu pour l'agriculture verticale et indoor. Le système parcourt de façon autonome les bacs de culture, s'appuie sur un pipeline lidar et vision/machine learning pour détecter les fruits, évalue maturité et état via des indicateurs de couleur et taille, puis récolte uniquement les fruits qualifiés grâce à un préhenseur à actionnement pneumatique souple. La deuxième place revient à Northeastern University pour un mécanisme plan dédié à la métrologie, et la troisième à WPI pour un chargeur centrifuge pour l'automatisation de laboratoire. Les sponsors -- AMD, Dassault Systèmes, Harmonic Drive, maxon, Mitsubishi Electric -- ont fourni composants et logiciels aux équipes participantes. AGROBOT T.O.M. illustre une tendance concrète dans la robotique agricole : l'intégration bout-en-bout de perception, décision et manipulation dans un système autonome déployable en environnement contrôlé. Le choix d'un préhenseur souple pour des fruits fragiles, couplé à un pipeline de qualification visuelle en temps réel, répond directement aux freins commerciaux du secteur -- taux de casse, faux positifs, adaptabilité à des variétés multiples. Ce type de projet étudiant sert aussi d'indicateur avancé des priorités technologiques de l'industrie : la sélection de sujets autour de la métrology robotique (Northeastern) et de l'automatisation de labo (WPI) confirme l'intérêt croissant pour des niches à haute valeur ajoutée, moins médiatisées que l'humanoïde mais commercialement plus matures. MassRobotics est un hub à but non lucratif basé à Boston qui fédère startups, laboratoires et grands industriels autour de la robotique physique. En parallèle de la compétition, l'organisation a présenté son Startup Alley avec treize startups résidentes -- dont Ava Robotics, XYZ Robotics, TP7 AI Robotics et LabyrinthAI -- et annoncé la deuxième promotion de son Physical AI Fellowship, programme de huit semaines en distanciel co-organisé avec NVIDIA et AWS. Cette cohorte réunit neuf startups, parmi lesquelles Haply Robotics (interface haptique, Canada), Telexistence (Japon), Burro (robots agricoles) et Roboto AI. Le fellowship vise l'accélération au stade de l'intégration matérielle et logicielle, là où la plupart des startups physiques butent sur le passage à l'échelle. Aucune date de démo publique ni de commercialisation n'a été communiquée pour les projets du fellowship.

RecherchePaper
1 source
Une équipe américaine combine jumeaux numériques et VR pour améliorer les performances de robots lunaires
28Interesting Engineering 

Une équipe américaine combine jumeaux numériques et VR pour améliorer les performances de robots lunaires

Des chercheurs de l'Université du Colorado Boulder (CU Boulder) ont développé un système combinant jumeau numérique et réalité virtuelle immersive pour entraîner les opérateurs de robots lunaires. Le dispositif s'articule autour d'Armstrong, un petit robot à trois roues équipé d'un bras articulé et d'une pince, actuellement testé en laboratoire. Son jumeau numérique, construit sous Unity et calibré pour reproduire fidèlement les dynamiques de mouvement et les interactions avec les objets, est couplé à une interface VR en vue à la première personne via les caméras embarquées. Les expérimentations réalisées montrent que les opérateurs formés d'abord dans l'environnement virtuel accomplissent les tâches de manipulation d'objets significativement plus vite et déclarent un niveau de stress nettement inférieur à ceux formés directement sur le robot physique. Le système reste à ce stade confiné au laboratoire : aucun déploiement lunaire ni test en conditions extérieures n'est annoncé. L'enjeu est concret pour les missions lunaires à venir : sur la Lune, une erreur de manipulation peut mettre hors service un rover valant plusieurs millions de dollars, dans un environnement où la faible gravité (un sixième de celle de la Terre), les cratères, les zones d'ombre permanentes et la poussière abrasive compliquent chaque opération. La démonstration que la formation sur jumeau numérique transfère efficacement vers le matériel physique constitue une validation utile dans un domaine où ce "sim-to-real gap" reste souvent problématique. Pour les agences spatiales et les intégrateurs, cela ouvre une voie vers la standardisation des protocoles de formation sans mobiliser de hardware coûteux ni risquer d'endommager des systèmes critiques. L'équipe souligne également le potentiel pour libérer le temps EVA des astronautes, ressource particulièrement contrainte sur la surface lunaire. Le projet s'inscrit dans la préparation à l'architecture Artemis de la NASA, qui cible un retour humain sur la Lune à partir de 2027 avec un fort volet co-opération homme-robot pour la construction d'habitats et la recherche scientifique. CU Boulder n'est pas le seul acteur sur ce créneau : le MIT, Carnegie Mellon et l'ESA développent des systèmes analogues, tandis que des entreprises comme Astrobotic ou ispace misent davantage sur l'autonomie embarquée sans interface VR opérateur. L'équipe travaille désormais à des simulations lunaires avancées intégrant le comportement de la poussière, l'éclairage rasant et le terrain irrégulier, trois facteurs jugés parmi les plus difficiles à modéliser fidèlement. Les prochaines étapes prévoient de tester la coordination de flottes de robots opérant en parallèle, capacité jugée indispensable pour les bases lunaires permanentes envisagées à l'horizon 2030-2035.

UEL'ESA développe des systèmes analogues de formation sur jumeau numérique pour la téléopération lunaire, ce qui pourrait créer des synergies avec les acteurs européens impliqués dans Artemis, mais sans impact direct sur l'industrie robotique française à ce stade.

RecherchePaper
1 source
Feuille de route mondiale des technologies robotiques
29Robohub 

Feuille de route mondiale des technologies robotiques

Henrik I. Christensen, professeur d'informatique à l'Université de Californie San Diego, a publié un document de positionnement de 52 pages intitulé "Global Robotics Technology Roadmap", couvrant la trajectoire mondiale de la robotique sur la décennie 2025-2035. Ce rapport de référence agrège des données issues des principales conférences du secteur (ICRA, IROS, RSS, CoRL, NeurIPS, ICML) ainsi que des statistiques industrielles collectées lors de visites directes dans des laboratoires de recherche sur trois continents. Les chiffres clés sont les suivants : le marché mondial de la robotique a atteint 53,2 milliards de dollars en 2024, avec une trajectoire projetée à 178,7 milliards en 2033. L'Asie domine le déploiement industriel avec 74 % des installations mondiales en 2024, dont 54 % pour la Chine seule. Le segment humanoïde, valorisé à 370 millions de dollars en 2025, est projeté à 6,5 milliards en 2030, avec des OEM chinois et des entreprises technologiques américaines en course pour la montée en production. Sur le plan algorithmique, le roadmap identifie les modèles Vision-Language-Action (VLA) comme le développement le plus structurant de la période, car ils permettent pour la première fois une généralisation cross-embodiment: un même modèle peut en principe piloter des morphologies robotiques différentes sans réentraînement complet. Du côté matériaux, les mécanismes souples à base d'élastomères à cristaux liquides (LCE), de polymères électroactifs (EAP) et d'hydrogels auto-cicatrisants sont signalés comme vecteurs de convergence entre systèmes industriels rigides et dispositifs médicaux bio-compatibles. Le document pointe également l'asymétrie réglementaire comme variable géopolitique critique: l'EU AI Act, premier cadre légal complet pour les systèmes d'IA à haut risque, est déjà en train de remodeler la conception des robots humanoïdes à l'échelle mondiale, y compris chez des acteurs non européens. Le rapport s'inscrit dans un effort de cartographie stratégique à destination des décideurs politiques, des agences de recherche et des directeurs R&D industriels. L'Europe y est positionnée comme leader en régulation de sécurité et en cobots collaboratifs, les États-Unis en autonomie propulsée par l'IA et en robotique de défense, tandis que l'Asie, pilotée par la Chine, écrase le reste du monde sur le volume de déploiement. Le document couvre des secteurs allant de la logistique à l'agriculture en passant par la construction et le minier, et formule des priorités de recherche différenciées par région. Aucun pilote ni timeline de déploiement concret n'est annoncé: il s'agit d'un document de prospective et d'orientation, pas d'un engagement industriel. Sa valeur tient à la synthèse structurée qu'il offre aux intégrateurs et stratèges qui naviguent dans un écosystème fragmenté entre acteurs américains (Boston Dynamics, Figure, Agility), chinois (Unitree, Fourier) et européens comme Wandercraft ou Enchanted Tools.

UEL'EU AI Act est identifié comme le premier cadre légal contraignant pour les systèmes d'IA à haut risque et remodèle déjà la conception des robots humanoïdes à l'échelle mondiale, positionnant l'Europe comme référence réglementaire pour la décennie 2025-2035.

RecherchePaper
1 source
TRAP : détournement du raisonnement CoT dans les VLA par patches adversariaux
30arXiv cs.RO 

TRAP : détournement du raisonnement CoT dans les VLA par patches adversariaux

Des chercheurs ont publié sur arXiv (réf. 2603.23117) une attaque baptisée TRAP (Targeted Reasoning Adversarial Patch), démontrant pour la première fois qu'un patch adversarial physique peut détourner le comportement d'un robot manipulateur piloté par un modèle Vision-Language-Action (VLA) à raisonnement Chain-of-Thought (CoT). Dans les expériences présentées, un patch imprimé sur papier et déposé sur la surface de travail, tel qu'une nappe aux motifs spécifiques, suffit à faire en sorte que le robot remette un couteau à l'opérateur au lieu d'une pomme, sans qu'aucune modification de l'instruction utilisateur ne soit nécessaire. L'attaque a été validée sur trois VLA représentatifs intégrant des mécanismes CoT distincts, et mise en oeuvre en conditions réelles avec un simple imprimé papier. Ce résultat pointe une vulnérabilité structurelle dans les VLA à raisonnement intermédiaire, famille de modèles qui inclut notamment π0 de Physical Intelligence, OpenVLA-OFT ou les variantes de GR00T (NVIDIA) basées sur des CoT explicites. Les auteurs montrent empiriquement que le raisonnement CoT gouverne la génération d'actions de façon prépondérante, même lorsqu'il est sémantiquement incohérent avec l'instruction initiale : le modèle suit la chaîne de pensée corrompue plutôt que l'intention de l'utilisateur. Pour les intégrateurs déployant des bras robotisés en environnement ouvert, entrepôts, blocs opératoires ou assistance à domicile, cela signifie qu'un adversaire pourrait modifier le comportement du robot par simple altération visuelle de l'environnement, sans accès au modèle ni au flux de commandes, ce qui rend l'attaque particulièrement préoccupante en contexte de sécurité physique. Les VLA à raisonnement CoT ont émergé comme réponse aux limites des modèles action-réflexe classiques : le CoT améliore la généralisation et offre une trace d'interprétabilité utile pour la certification. TRAP montre que cette avancée introduit simultanément une surface d'attaque inédite. La recherche en sécurité des systèmes robotiques autonomes reste largement sous-investie par rapport à la sécurité des LLM textuels, et ce travail rejoint un corpus naissant incluant des attaques sur les politiques de diffusion et les modèles de perception. Aucun correctif ni benchmark défensif n'est proposé dans cette version ; les auteurs appellent à une sécurisation urgente des pipelines CoT dans les VLA avant tout déploiement à grande échelle dans des environnements critiques.

UELes intégrateurs européens déployant des VLA sur des bras robotisés en environnement industriel, médical ou d'assistance doivent suspendre tout déploiement à grande échelle dans des environnements critiques et auditer leurs pipelines CoT, en l'absence totale de correctifs défensifs disponibles.

RechercheOpinion
1 source
RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines
31arXiv cs.RO 

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

Une équipe de chercheurs a publié début juin 2026 RobotValues (arXiv:2606.03312), un benchmark constitué de 10 000 scénarios destinés à évaluer les robots domestiques dans des situations où les valeurs humaines entrent en conflit. Chaque instance associe une image réaliste d'intérieur résidentiel à plusieurs actions robot plausibles, chacune privilégiant une valeur différente : autonomie de l'utilisateur, efficacité, sécurité, ou respect de la vie privée. Le corpus a été généré par une pipeline semi-automatique combinant génération assistée par LLM, extraction de valeurs ancrée dans des retours de parties prenantes, génération d'images et contrôle qualité automatique. Les modèles de vision-langage (VLM) couramment utilisés comme planificateurs robotiques y ont été évalués, avec des résultats préoccupants : lorsqu'on leur demande explicitement de prioriser une valeur qui contredit leurs préférences par défaut, les modèles échouent dans 80 % des cas et maintiennent leur comportement initial. Ce résultat chiffré remet en cause un angle mort de l'évaluation robotique standard, qui se concentre quasi exclusivement sur le taux de complétion de tâche et la conformité aux règles de sécurité. Dans un foyer, un robot aspirateur qui désactive un microphone pour respecter la vie privée d'un utilisateur fait un choix contraire à l'efficacité opérationnelle mais aligné avec une valeur légitime. RobotValues formalise exactement ces arbitrages. Le constat que les modèles favorisent par défaut la sécurité et l'accommodement au détriment de la protection de la vie privée soulève des questions concrètes pour les intégrateurs B2B et les équipes produit déployant des assistants domestiques, notamment sur la robustesse des mécanismes d'instruction fine-grained dans les VLMs. Les VLMs utilisés comme planificateurs robotiques constituent une tendance lourde depuis les travaux de Google sur RT-2 et les architectures Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou OpenVLA. Ces modèles héritent de biais d'entraînement qui ne posent pas de problème dans des contextes de complétion de tâche pure, mais deviennent critiques dès que le robot opère dans un espace privé avec des occupants ayant des préférences potentiellement contradictoires. RobotValues s'inscrit dans un agenda de recherche plus large sur l'alignement des agents embarqués, distinct des débats sur les LLMs conversationnels. Aucun fabricant de robot domestique (Samsung, LG, Amazon Astro, ou les startups européennes comme Enchanted Tools) n'est cité dans le papier ; le benchmark reste pour l'instant un outil académique, mais sa structure modulaire et son échelle de 10 000 instances le positionnent comme un candidat sérieux à l'intégration dans les pipelines d'évaluation de prochaines générations de plateformes embarquées.

UELe benchmark RobotValues pourrait servir de référentiel d'évaluation pour les startups européennes de robotique domestique comme Enchanted Tools, notamment dans le cadre des exigences de l'AI Act sur les systèmes autonomes opérant en espace privé.

RecherchePaper
1 source
Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique
32arXiv cs.RO 

Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique

Des chercheurs ont publié début juin 2026 une étude (arXiv:2606.03556) démontrant la vulnérabilité des modèles Vision-Language-Action (VLA) à des attaques adversariales par patch dans des conditions partiellement observables. Contrairement aux travaux antérieurs qui supposaient un accès complet à l'intégralité de la trajectoire d'exécution du robot, cette équipe formule un modèle de menace plus réaliste : l'adversaire ne dispose que d'un court préfixe de trajectoire pour générer un patch visuel fixe, ensuite appliqué à toutes les trames suivantes. Leur framework en deux phases consiste d'abord à localiser la zone optimale du patch en exploitant les cartes d'attention du modèle pour identifier les régions visuellement critiques liées à l'instruction en cours, puis à optimiser ce patch pour simultanément perturber l'ancrage sémantique des objets cibles et augmenter la courbure des trajectoires d'action planifiées. Les expériences menées en simulation et en environnements robotiques réels montrent une réduction significative des taux de succès sur des tâches longues. Ce résultat est important car les VLA sont de plus en plus intégrés dans des bras manipulateurs et des robots mobiles déployés en environnements industriels et logistiques, précisément parce qu'ils promettent une généralisation robuste à partir d'instructions en langage naturel. Prouver qu'un patch physique imprimable, placé dans le champ de vision du robot, peut dégrader durablement ses performances de contrôle sans accès complet à son état interne remet en question les hypothèses de sécurité des déploiements actuels. Cela soulève un gap réel entre robustesse en démo contrôlée et résilience en production, particulièrement pour des intégrateurs qui s'appuient sur des modèles comme OpenVLA, pi-0 (Physical Intelligence) ou RT-2 (Google DeepMind) sans auditer leur surface d'attaque perceptive. Les VLA connaissent une montée en puissance depuis 2023 avec RT-2 de Google, suivi de pi-0 de Physical Intelligence et des travaux d'Embodied Intelligence. La sécurité adversariale de ces modèles reste un angle quasi-inexploré dans la littérature par rapport à leur homologues LLM ou vision-langage purs. Cette publication s'inscrit dans un effort émergent pour caractériser les vecteurs d'attaque physiques sur les systèmes robotiques autonomes, un enjeu croissant alors que Figure AI, Agility Robotics et 1X Technologies accélèrent leurs déploiements en entrepôt. Les prochaines étapes probables incluent des défenses basées sur l'augmentation adversariale à l'entraînement et des mécanismes de détection d'anomalie sur les cartes d'attention, domaine dans lequel des équipes européennes comme celles du LAAS-CNRS et du DLR commencent également à publier.

UELes équipes du LAAS-CNRS et du DLR commencent à publier sur la défense adversariale des VLA, positionnant l'Europe comme contributrice émergente à la sécurisation des déploiements robotiques industriels.

RechercheOpinion
1 source
VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)
33arXiv cs.RO 

VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié VLA-Arena, un framework open-source de benchmark conçu pour évaluer les modèles Vision-Language-Action (VLA), ces politiques robotiques généralisées capables d'interpréter commandes en langage naturel et observations visuelles pour générer des actions motrices. La version 2 du preprint (arXiv 2512.22539v2) présente un protocole structuré autour de 170 tâches, organisées selon quatre dimensions orthogonales : sécurité (Safety), gestion des distracteurs (Distractor), extrapolation hors-distribution (Extrapolation) et planification longue portée (Long Horizon). Chaque tâche existe en trois niveaux de difficulté (L0 à L2), le fine-tuning étant exclusivement réalisé sur L0 afin de tester la capacité de généralisation. En parallèle, des perturbations linguistiques (W0-W4) et visuelles (V0-V4) s'appliquent indépendamment à chaque tâche, permettant une analyse découplée de la robustesse. Les auteurs publient également les datasets VLA-Arena-S/M/L ainsi qu'un leaderboard public. Les résultats de l'évaluation des VLA de l'état de l'art sont sévères et contre-intuitifs pour ceux qui suivent les démonstrations marketing du secteur. Les modèles testés exhibent une forte tendance à la mémorisation plutôt qu'à la généralisation réelle : leurs performances s'effondrent dès que la tâche sort légèrement de la distribution d'entraînement. La robustesse est asymétrique selon l'axe perturbé (visuel vs. linguistique), les contraintes de sécurité sont quasi-ignorées, et la composition de compétences pour les tâches longue portée reste hors de portée de tous les modèles testés. Pour les intégrateurs industriels et les équipes R&D qui envisagent de déployer des VLA en production, ces résultats constituent un signal d'alerte : le "sim-to-real gap" n'est pas résolu, et les capacités affichées en démo ne tiennent pas face à des conditions réelles variables. VLA-Arena arrive dans un contexte de prolifération rapide des VLA généralistes : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Google DeepMind (RT-2, Gemini Robotics) et OpenVLA font tous état de progrès importants, mais sur des benchmarks hétérogènes et souvent propriétaires, rendant toute comparaison directe impossible. L'absence d'un protocole d'évaluation standardisé est depuis longtemps identifiée comme le principal obstacle à la progression scientifique rigoureuse du domaine. VLA-Arena n'est pas encore un standard industriel adopté, mais sa publication en open-source avec toolchain complet (définition de tâche, évaluation automatisée, datasets) le positionne comme candidat sérieux. Les prochaines étapes dépendront de l'adoption par les équipes qui développent ces modèles, et d'une éventuelle intégration dans les pipelines de validation avant déploiement réel en atelier.

RechercheOpinion
1 source
Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable
34arXiv cs.RO 

Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable

Des chercheurs ont soumis sur arXiv (arXiv:2606.03385) le framework GTP-FA, acronyme de Grasp-Then-Plan with Failure Attribution, une architecture en deux étapes pour la manipulation robotique de précision. L'approche découple explicitement la phase de saisie d'objets du planning de trajectoire: le système génère d'abord des candidats de prise en main, sélectionne le plus adapté à la tâche, puis conditionne la planification aval sur ce choix. Quand une séquence de manipulation échoue, un modèle d'attribution des échecs analyse la trajectoire défaillante pour isoler la source du problème, grasping ou planning, et se généralise à des prises non vues lors de l'entraînement. Sur cette base diagnostique, chaque module est optimisé: côté grasping, des priors orientés tâche et des pénalités de risque filtrent les prises instables ou incompatibles avec la tâche; côté planning, une collecte de données ciblée sur les états initiaux à haut risque affine le module de trajectoire. Les résultats sont validés en simulation et sur robot réel, bien que l'abstract ne détaille pas les chiffres précis de taux de succès obtenus. Ce que GTP-FA résout est un angle mort persistant: dans les pipelines grasping-planning couplés, l'origine d'un échec reste opaque, ce qui transforme l'optimisation en tâtonnement coûteux et peu reproductible. Le framework s'applique indifféremment aux paradigmes d'apprentissage par renforcement (RL), par imitation (IL), par diffusion policy, et aux architectures VLA (Vision-Language-Action), et améliore les taux de succès globaux dans chacun selon les auteurs. C'est une contribution méthodologique transversale: elle ne remplace pas les architectures VLA émergentes mais s'y superpose, ce qui la rend potentiellement intégrable dans des systèmes existants sans refonte architecturale. La manipulation robotique de précision est aujourd'hui l'un des principaux fossés entre les démonstrations en laboratoire et le déploiement industriel. Des acteurs comme Physical Intelligence (modèle pi-0), Google DeepMind (GR00T N2) ou Figure AI investissent massivement dans des architectures VLA généralisables, mais la fiabilité de la prise en main dans des conditions non contrôlées reste un verrou documenté. GTP-FA adresse ce verrou depuis la recherche académique, sans affiliation commerciale identifiée dans ce préprint. Les suites naturelles incluront la validation sur objets déformables ou transparents, catégories où le grasping échoue le plus fréquemment, et l'intégration dans des tâches à horizon long en environnements peu structurés.

UEContribution méthodologique académique publiquement accessible aux équipes de recherche robotique européennes, sans impact institutionnel ou industriel direct identifié en France/UE.

RecherchePaper
1 source
De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles
35arXiv cs.RO 

De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles

Un article de synthèse publié sur arXiv (réf. 2604.04974, version 2) dresse un état de l'art structuré des méthodes permettant d'exploiter des vidéos temporelles non annotées en actions pour apprendre des interfaces de contrôle en manipulation robotique. Les auteurs ne s'appuient sur aucun label d'action : la vidéo seule, en captant comment les objets se déplacent, comment les contacts se déroulent et comment les scènes évoluent, constitue la source d'apprentissage. Le survey introduit une taxonomie centrée sur l'interface, organisée selon trois familles : les politiques vidéo-action directes, qui maintiennent l'interface implicite dans le réseau neuronal ; les méthodes à actions latentes, qui acheminent la structure temporelle via un espace intermédiaire compact appris ; et les interfaces visuelles explicites, qui prédisent des cibles interprétables (poses, waypoints, affordances) pour un contrôle aval découplé. Ce cadre de classification comble un vide méthodologique réel : la littérature traitait jusqu'ici ces trois familles de façon dispersée, sans analyser comment chacune ferme la boucle de contrôle, ce qui peut être vérifié avant exécution, et à quel stade les défaillances apparaissent. Pour les intégrateurs et les équipes R&D, cet angle est directement opérationnel : une interface latente est plus difficile à inspecter qu'une interface explicite à base de keypoints, ce qui modifie les stratégies de débogage et de déploiement. La synthèse inter-familles pointe un défi commun : la couche d'intégration robotique, les mécanismes qui relient les prédictions issues de la vidéo à un comportement robot fiable, reste le maillon faible indépendamment de la famille choisie. Ce survey s'inscrit dans une dynamique portée par les modèles VLA (Video-Language-Action) : RT-2 de Google DeepMind, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI exploitent tous, à des degrés divers, des données vidéo à grande échelle pour conditionner le contrôle moteur. Le fossé identifié dans le papier, entre prédiction vidéo et comportement physique fiable, correspond précisément au "sim-to-real gap" de cette nouvelle génération de modèles : une démonstration convaincante en vidéo ne garantit pas la robustesse en déploiement réel. Les auteurs proposent des pistes de recherche pour combler ce décalage, sans livrer de pipeline opérationnel, ce qui positionne ce travail comme une ressource de cartographie pour orienter la communauté plutôt que comme une solution clé en main.

RechercheOpinion
1 source
VLESA : un agent de sécurité incarnée vision-langage pour la surveillance des activités humaines
36arXiv cs.RO 

VLESA : un agent de sécurité incarnée vision-langage pour la surveillance des activités humaines

Des chercheurs ont publié sur arXiv (preprint 2606.03954, juin 2026) VLESA, un cadre de supervision de la sécurité humaine fondé sur la vision et le langage. Le système analyse des flux vidéo égocentrés (caméra portée à la première personne) pour prédire en temps réel si une action humaine imminente présente un risque, et déclenche une intervention avant que le danger se matérialise. Le coeur technique repose sur deux composants : un agent de prédiction d'intention-action qui infère conjointement l'objectif de l'opérateur et ses prochains gestes à partir de la vidéo, et un Q-filter de sécurité conditionné par l'objectif, entraîné via GRPO (Group Relative Policy Optimization). Ce filtre évalue la dangerosité d'une action en fonction du but inféré, sans nécessiter de ré-entraînement. Sur le benchmark ASIMOV-2.0, VLESA surpasse les baselines en précision d'intervention à la frame exacte, et le Q-filter GRPO améliore la sécurité des actions de plus de 41 points de pourcentage via un décodage contraint conditionné à l'intention. Le code est disponible publiquement sur GitHub. L'apport conceptuel central est la notion de "sécurité dépendante de l'intention" : une action physiquement identique peut être sûre ou dangereuse selon le contexte opérationnel. Saisir un couteau pour couper des légumes n'est pas la même chose que le saisir après un conflit verbal. Les approches classiques de détection d'anomalies ignorent cette ambiguïté et génèrent trop de faux positifs pour être industrialisables. En décomposant le problème en inférence d'intention puis évaluation de risque conditionnel, VLESA propose une architecture plus proche des besoins réels de la cobotique, des environnements de soin à domicile assisté, ou de la surveillance d'opérateurs en milieu industriel. Le gain de 41 points sur ASIMOV-2.0 est significatif si les conditions du benchmark reflètent la diversité du terrain, ce que la nature sélective d'un preprint ne permet pas encore de confirmer. Ce travail s'inscrit dans un champ en forte expansion, celui de la sécurité des systèmes embarqués et des agents physiques autonomes, porté par la montée des VLA (Vision-Language-Action models) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'approche VLESA se distingue en ciblant non pas le robot mais l'humain en interaction avec son environnement, positionnement plus proche des travaux en human activity recognition que de la robotique pure. Les acteurs établis du monitoring de sécurité industrielle (Pilz, Sick, Keyence côté capteurs) n'ont pas encore intégré de couche sémantique de ce niveau. Aucun déploiement pilote n'est annoncé dans l'article : il s'agit d'une contribution académique, avec dataset et code partagés, dont la trajectoire vers l'industrialisation dépendra de la robustesse des résultats sur des scénarios hors benchmark et de validations en conditions réelles.

UELes acteurs européens de la sécurité industrielle (Pilz, Sick) n'ayant pas encore intégré de couche sémantique de ce niveau, VLESA ouvre une piste concrète pour la cobotique et le monitoring d'opérateurs, applicable dans le cadre de mise en conformité avec la directive machines révisée.

RecherchePaper
1 source
Mémoire épisodique pour robots à filtrage par surprise
37arXiv cs.RO 

Mémoire épisodique pour robots à filtrage par surprise

Des chercheurs ont publié sur arXiv (référence 2606.03787) une architecture de mémoire épisodique sélective pour robots généralistes, baptisée "Surprise-Gated Episodic Memory". Le principe central : utiliser la surprise bayésienne comme filtre pour décider quels événements méritent d'être mémorisés à long terme. Plutôt que de stocker l'intégralité du flux sensoriel, un mécanisme de calcul de surprise opère dans l'espace latent de V-JEPA-2, le modèle vidéo de Meta, jugé sémantiquement riche et indépendant du contexte de déploiement. Cette mémoire épisodique filtrée vient augmenter une mémoire spatiale fondée sur des graphes de scène 4D. Sur les benchmarks de question-answering robot, l'approche surpasse les méthodes de référence d'au moins 12 % sur les questions temporelles, spatiales et binaires, et bat également des méthodes supervisées ainsi que des approches non-causales, avec une méthode non supervisée et causale pour la segmentation d'événements. L'enjeu derrière ce résultat est directement opérationnel : un robot généraliste déployé en entrepôt, en hôpital ou sur un chantier reçoit des instructions ancrées dans des événements passés ("Retourne là où le colis a été mal placé hier soir"). Sans mémoire épisodique sélective, soit le robot stocke tout et sature sa mémoire, soit il oublie et échoue à répondre. La surprise bayésienne comme critère de filtrage est élégante parce qu'elle ne nécessite aucun superviseur humain ni liste de tâches futures a priori, elle capte l'inhabituel de façon autonome. Que cette méthode non supervisée et causale batte des méthodes supervisées est un signal fort : le sim-to-real gap pour la mémoire sémantique pourrait se réduire sans annotation coûteuse. Ce travail s'inscrit dans un courant de recherche en pleine accélération autour de la mémoire à long terme pour les robots mobiles, face aux limites des approches purement réactives popularisées par les VLA (Vision-Language-Action models). V-JEPA-2, publié par Meta en 2025, s'impose progressivement comme fondation visuelle pour plusieurs équipes de recherche extérieures à Meta. Sur le plan concurrentiel, des approches comparables sont développées par des groupes travaillant sur les représentations spatiales pour l'embodied AI (CMU, Stanford, ETH Zurich). L'étape suivante naturelle serait de valider la méthode sur du matériel réel en conditions non contrôlées, les résultats actuels restant des benchmarks, la question du passage à l'échelle sur des robots comme Figure 03 ou Unitree G1 en déploiement continu reste entière.

RecherchePaper
1 source
Assistax : un benchmark multi-agents accéléré par matériel pour l'apprentissage par renforcement en robotique assistive
38arXiv cs.RO 

Assistax : un benchmark multi-agents accéléré par matériel pour l'apprentissage par renforcement en robotique assistive

Une équipe de chercheurs a publié Assistax, un benchmark open-source dédié à l'apprentissage par renforcement (RL) pour la robotique d'assistance aux personnes. Disponible sur GitHub (assistive-autonomy/assistax), la bibliothèque exploite JAX et l'accélération matérielle GPU pour atteindre des vitesses d'entraînement jusqu'à 370 fois supérieures aux alternatives CPU en temps réel (open-loop wall-clock time) lors de la vectorisation des runs d'entraînement. Le framework modélise l'interaction entre un robot d'assistance et un patient humain actif via l'apprentissage par renforcement multi-agent (MARL) : une population d'agents partenaires aux comportements variés est générée pour évaluer la capacité de coordination zero-shot d'un agent robotique embarqué face à des co-agents inconnus. L'enjeu est à la fois méthodologique et pratique. Les benchmarks RL ont jusqu'ici été dominés par les jeux vidéo et de plateau (Atari, Go), des environnements peu coûteux mais structurellement éloignés des contraintes de l'interaction physique réelle. Assistax comble ce fossé en proposant des scénarios de contrôle continu en simulation physique, représentatifs des défis concrets de la robotique d'assistance : gestion de la variabilité humaine, coordination en temps réel, robustesse à des comportements partenaires non vus à l'entraînement. Pour les équipes R&D développant des robots de soin, des exosquelettes ou des bras manipulateurs de service, le benchmark fournit des baselines fiables sur les algorithmes RL et MARL courants, réduisant le temps de comparaison et de validation algorithmique. Le contexte est celui d'une lacune reconnue dans l'écosystème RL : les environnements physiquement réalistes adaptés aux scénarios humain-robot restent rares et coûteux à exécuter. JAX, développé par Google DeepMind, s'impose progressivement comme infrastructure de référence pour la simulation massivement parallèle, en concurrence avec Isaac Lab (NVIDIA) et les frameworks basés sur MuJoCo. Assistax s'inscrit dans un mouvement plus large de spécialisation des benchmarks, BEHAVIOR, HumanoidBench ou SMPL-based environments ciblent des niches similaires, mais positionne explicitement l'assistance à la personne, segment encore peu couvert. Aucune timeline de déploiement réel n'est annoncée : Assistax reste un outil de recherche académique, et ses gains de vitesse annoncés (370x) méritent d'être contextualisés selon les configurations matérielles et les tâches testées.

UELe benchmark open-source pourrait réduire le temps de validation algorithmique pour les équipes R&D françaises développant des robots d'assistance ou des exosquelettes (Wandercraft, CEA-List), mais aucun acteur européen n'est impliqué directement dans la publication.

RecherchePaper
1 source
SimuScene : reconstruction compositionnelle de scènes 3D prêtes pour la simulation à partir d'une seule image
39arXiv cs.RO 

SimuScene : reconstruction compositionnelle de scènes 3D prêtes pour la simulation à partir d'une seule image

Une équipe de chercheurs a présenté SimuScene (arXiv:2606.03994, juin 2026), un pipeline de reconstruction 3D compositionnelle capable de produire, à partir d'une seule image, des scènes directement exploitables dans un simulateur physique. Le verrou technique adressé est précis : les méthodes existantes de reconstruction mono-image génèrent des géométries par objet plausibles visuellement, mais dès qu'on les compose dans une scène et qu'on lance la simulation, les objets s'interpénètrent, flottent ou s'enfoncent dans le sol, rendant la scène inutilisable pour l'entraînement robotique. SimuScene résout ce problème en intégrant le moteur physique non pas comme une étape de correction a posteriori, mais comme un outil de diagnostic pendant le processus de reconstruction lui-même. Concrètement, les objets reconstruits sont soumis à une simulation gravitationnelle ; les échecs de pénétration ou de support sont convertis en signaux de correction quantitatifs qui pilotent deux mécanismes : un étirement de la géométrie selon l'axe vertical ("gravity-axis stretching") et un rééchantillonnage de la forme amodale pour les parties non visibles. Les auteurs rapportent des résultats état de l'art sur des benchmarks de stabilité physique et d'alignement géométrique, et valident l'utilité de la pipeline sur des tâches de manipulation bras robotique et de contrôle humanoïde. Pour l'industrie robotique et la recherche en manipulation, l'enjeu est direct : l'un des goulots d'étranglement majeurs dans la génération de données simulées est la constitution d'environnements 3D physiquement cohérents. Si une seule image suffit à produire une scène immédiatement utilisable dans un simulateur comme Isaac Sim ou MuJoCo, le coût de création de données d'entraînement pour les VLA (Vision-Language-Action models) et les politiques de manipulation chute drastiquement. L'approche "physics-in-the-loop" pendant la génération, plutôt qu'en correction post-hoc, est une distinction architecturale importante : elle corrige les erreurs géométriques à la source plutôt que de les masquer par un réarrangement de layout, ce qui limite les artefacts cumulatifs. Cela dit, le papier étant un preprint, les benchmarks présentés restent à valider par la communauté, et les métriques de performance sur les tâches robotiques aval (taux de succès de saisie, généralisation hors distribution) ne sont pas détaillées dans l'abstract. SimuScene s'inscrit dans un axe de recherche actif depuis 2022 environ, alimenté par la convergence entre les reconstructeurs 3D génératifs (Zero-1-to-3, One-2-3-45, LRM) et le besoin croissant de données synthétiques pour l'entraînement de robots physiques. Les concurrents directs incluent les méthodes de layout correction physique comme PhyScene ou les pipelines de génération de scènes pour la simulation (GENESIS, RoboVerse), qui opèrent eux aussi sur ce créneau sim-to-real mais partent généralement de descriptions textuelles ou de scans multi-vues. La force revendiquée de SimuScene est la contrainte d'entrée minimale (une image) combinée à la validité physique en sortie. Les applications démontrées sur le contrôle humanoïde suggèrent un intérêt pour les labos travaillant sur des plateformes comme Figure 03, Unitree H1 ou Agility Digit, où la génération rapide d'environnements d'entraînement en simulation reste un facteur limitant. Aucun partenariat industriel ni timeline de déploiement n'est mentionné ; il s'agit pour l'instant d'un résultat de recherche académique.

RecherchePaper
1 source
RoboCade : la collecte de données robotiques par le jeu
40arXiv cs.RO 

RoboCade : la collecte de données robotiques par le jeu

Des chercheurs ont publié RoboCade, une plateforme de télé-opération gamifiée conçue pour collecter à grande échelle des données de démonstration robotique, un pré-requis critique pour l'apprentissage par imitation. La plateforme intègre des mécaniques de jeu classiques, retours visuels, effets sonores, barres de progression, classements et badges, dans une interface accessible à des utilisateurs non experts. Trois tâches de manipulation ont été instanciées sur la plateforme : arrangement spatial, scanning et insertion. Le résultat quantifié : les politiques robotiques entraînées en co-training avec des données issues de RoboCade améliorent leur taux de réussite sur des tâches cibles non gamifiées de 16 à 56 % selon la tâche. Une étude utilisateur auprès de novices montre en parallèle un gain de 24 % sur l'appréciation subjective de la plateforme gamifiée par rapport à une interface standard. L'enjeu derrière ces chiffres est structurel. La collecte de données de démonstration pour l'apprentissage par imitation (imitation learning) est aujourd'hui un goulot d'étranglement majeur dans la robotique d'autonomie : elle exige un accès physique à des robots réels, une main-d'œuvre qualifiée, et un investissement temporel soutenu sur des tâches répétitives. RoboCade déplace ce modèle vers un crowd-sourcing distant, ouvrant la collecte à un public large sans expertise robotique préalable. La hausse de performance constatée valide que des données produites par des utilisateurs non experts dans un contexte gamifié restent exploitables pour entraîner des politiques efficaces, ce qui conteste implicitement l'hypothèse selon laquelle la qualité de démonstration exige nécessairement un opérateur expert. Cette approche s'inscrit dans une tendance plus large visant à décorréler la qualité des politiques robotiques du coût de la collecte de données. Des initiatives comme Open X-Embodiment (Google DeepMind) ou BridgeData V2 ont montré la valeur des grands datasets partagés, mais ceux-ci restent produits en laboratoire. RoboCade propose une alternative orientée scalabilité via le grand public, sans nécessiter de déploiement physique robot côté utilisateur. La question qui reste ouverte, et que le papier ne traite pas encore, est celle du passage à l'échelle réel : quelle dégradation de signal introduit la variabilité des profils utilisateurs à très grande échelle, et comment filtrer les démonstrations sous-optimales sans supervision humaine intensive.

RecherchePaper
1 source
Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage
41arXiv cs.RO 

Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage

Une équipe de chercheurs a publié début juin 2026 (arXiv:2606.02735) un framework baptisé S2, pour "See Less, Specify More", destiné à améliorer la généralisation des modèles vision-langage-action (VLA). S2 repose sur deux mécanismes complémentaires : "Specify More" reformule chaque trajectoire d'entraînement avec des instructions affinées au niveau de la sous-tâche, tout en préservant l'objectif global original, tandis que "See Less" impose un budget explicite de preuves visuelles, forçant le modèle à agir à partir d'un contexte visuel suffisant pour la tâche plutôt que d'un champ de vision non contraint. Le système a été évalué sur huit tâches réelles de manipulation sur deux plateformes robotiques : le TX-G2, une variante compatible AgiBot G2, et le Toyota HSR. Le résultat principal : le taux de succès moyen par sous-tâche passe de 54,2 % à 79,0 % par rapport au modèle de référence pi0.5 de Physical Intelligence. Ces résultats s'attaquent à l'un des verrous les plus documentés du domaine VLA : la dégradation des performances sous distracteurs visuels, changements d'apparence ou tâches sémantiquement similaires. Le problème identifié est ce que les auteurs nomment "supervision aliasing" : des instructions trop grossières créent une ambiguïté que le modèle doit résoudre seul, dégradant l'apprentissage. S2 contourne ce problème sans annotation de régions ou de masques, ce qui est notable en termes de coût de labellisation. La compatibilité avec des planificateurs VLM standards via le mécanisme d'in-context learning facilite également l'intégration dans des pipelines existants, sans refonte architecturale. S2 s'inscrit dans une course serrée autour des VLA généralisables. pi0.5, développé par Physical Intelligence (ex-startup fondée par des chercheurs de Google DeepMind et Stanford), constitue ici la baseline battue. La plateforme AgiBot G2, produite par la startup chinoise éponyme, gagne en visibilité comme banc d'essai de référence pour la manipulation humanoïde. Les concurrents directs incluent les approches OpenVLA (Stanford), Octo (Berkeley), et les travaux VLA de Google DeepMind autour de RT-2 et ses successeurs. L'absence de déploiement industriel annoncé maintient S2 dans la catégorie "résultat de recherche prometteur" plutôt que "produit embarqué", mais le gain de 25 points de succès sur des tâches réelles justifie une attention soutenue de la part des intégrateurs robotiques.

RechercheOpinion
1 source
OMP : politique Meanflow en une étape avec alignement directionnel
42arXiv cs.RO 

OMP : politique Meanflow en une étape avec alignement directionnel

Une équipe de chercheurs publie OMP (One-step MeanFlow Policy), un framework de contrôle de manipulation robotique capable de générer des trajectoires d'action en une seule passe d'inférence, contre plusieurs dizaines pour les approches par diffusion actuellement dominantes. Présenté sur arXiv (2512.19347, version 3), OMP adapte le paradigme MeanFlow, conçu à l'origine pour la génération d'images, au domaine du contrôle robotique. L'architecture introduit deux contributions techniques principales : un mécanisme d'alignement directionnel (directional alignment) qui synchronise explicitement les vitesses prédites avec les vitesses moyennes réelles, et une Équation de Dérivation Différentielle (DDE) qui approxime l'opérateur Jacobien-Vecteur (JVP) pour découpler les passes avant et arrière, réduisant significativement la complexité mémoire. Évalué sur les benchmarks Adroit et Meta-World, OMP surpasse les méthodes état de l'art en taux de succès et précision de trajectoire, notamment sur les tâches haute précision. L'enjeu est direct pour les intégrateurs et équipes R&D : la latence d'inférence est aujourd'hui le principal goulot d'étranglement des politiques génératives en manipulation temps-réel. Les Diffusion Policies nécessitent typiquement 10 à 100 passes de débruitage par décision, rendant leur déploiement sur hardware embarqué ou dans des boucles de contrôle à haute fréquence difficile. Une politique single-step qui conserve ou dépasse la précision des diffusion models représenterait un saut d'utilisabilité industrielle significatif. La réduction de la complexité mémoire via DDE est également pertinente pour des cibles de déploiement à ressources contraintes. Les résultats sur Adroit et Meta-World sont encourageants, bien que ces benchmarks simulés restent éloignés des conditions de déploiement réel et que la generalisation sim-to-real demeure non démontrée. Le contexte académique dans lequel s'inscrit OMP est dense : les politiques par diffusion (Diffusion Policy, ACT) ont dominé le benchmark de manipulation ces deux dernières années, et l'émergence des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a encore densifié le champ. Les approches par flow matching (dont MeanFlow est une variante) cherchent à concurrencer la diffusion en offrant une trajectoire d'inférence plus directe, inspirées des succès en génération d'images avec des modèles comme Stable Diffusion 3. OMP se positionne dans cette lignée avec une correction théorique spécifique aux pathologies robotiques (biais spectral, starvation de gradient en régime basse vitesse) absentes en vision. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; il s'agit d'une contribution de recherche fondamentale avec résultats sur simulateurs.

RecherchePaper
1 source
IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable
43arXiv cs.RO 

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

Une équipe de chercheurs publie en juin 2026 (arXiv:2606.03784) une réévaluation du chain-of-thought incarné (CoT) appliqué aux modèles vision-langage-action (VLA) pour la manipulation robotique généraliste. Pour mener cette étude à grande échelle, les auteurs ont constitué le plus grand corpus de ce type jamais assemblé : 978 743 trajectoires, 226,3 millions d'échantillons et 2 592,5 heures de données robot. Leur modèle ERVLA atteint 86,9 % de succès sur LIBERO-Plus et 53,2 % sur VLABench, surpassant les baselines de référence, notamment sur les tâches de désambiguïsation sémantique et d'exécution à longue portée en environnement réel. Le code, les données et les checkpoints seront prochainement disponibles en accès ouvert. Le principal apport théorique porte sur la manière d'intégrer le raisonnement linguistique dans une politique robotique. Les auteurs établissent que le CoT explicite, utilisé comme préfixe autorégressif avant chaque action, accumule des erreurs au fil des étapes et génère un couplage instable entre raisonnement et commande motrice. De même, le raisonnement de haut niveau seul, sans ancrage dans des descriptions concrètes comme les trajectoires d'effecteur terminal ou les positions dans l'espace image, n'apporte que des gains marginaux. ERVLA résout cette tension via une stratégie de "reasoning-dropout" : le modèle assimile des traces de raisonnement riches pendant l'entraînement, mais prédit les actions directement à l'inférence, sans décodage CoT. Ce découplage améliore la montée en échelle avec le volume de préentraînement et stabilise l'exécution. C'est un signal clair pour les équipes travaillant sur des politiques généralisables : la valeur du langage réside dans ce qu'il apprend au modèle, pas dans ce qu'il verbalise au moment du déploiement. Ces travaux s'inscrivent dans une compétition intense autour des fondations VLA capables de généraliser hors de leur distribution d'entraînement, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. La mise à disposition de 2 592 heures de données robotiques en accès ouvert constitue en elle-même une contribution notable dans un secteur où la pénurie de données reste un verrou majeur. Aucun déploiement industriel n'est mentionné : ERVLA est à ce stade un résultat de recherche académique, avec des validations sur robot réel mais sans pipeline de production annoncé.

UELa publication en accès ouvert de 2 592 heures de données robotiques et des checkpoints ERVLA offre une ressource directement exploitable par les équipes de recherche françaises et européennes travaillant sur les politiques VLA généralisables.

RechercheOpinion
1 source
La variance du débruitage guide la replanification : découpage adaptatif pour politiques robotiques à base de flux
44arXiv cs.RO 

La variance du débruitage guide la replanification : découpage adaptatif pour politiques robotiques à base de flux

Des chercheurs ont publié le 3 juin 2026 sur arXiv (preprint non encore évalué par les pairs) une méthode baptisée DVAC (Denoising-Variance Adaptive Chunking), conçue pour améliorer l'inférence des politiques robotiques basées sur les flux de débruitage (flow-based policies, catégorie qui inclut les modèles de type diffusion). Le problème ciblé est précis : l'action chunking, stratégie qui consiste à prédire et exécuter plusieurs actions consécutives en un seul bloc, utilise aujourd'hui un horizon d'exécution fixe déterminé de manière empirique. DVAC remplace ce paramètre statique par un seuil adaptatif calculé à l'exécution, sans nécessiter de réentraînement. Le signal exploité est la variance des estimations d'actions nettes sur les dernières étapes du débruitage : faible lors des phases de déplacement en espace libre, élevée à l'approche de contacts ou d'opérations requérant de la précision. Appliqué à une politique basée sur π0.5 (Physical Intelligence), DVAC fait passer le taux de succès sur le benchmark LIBERO de 94,75 % à 98,00 %, tout en réduisant la fréquence de replanification de 43,0 %. Des gains sont également mesurés sur RoboTwin et CALVIN, ainsi qu'en manipulation réelle. L'intérêt industriel de cette approche tient à son applicabilité immédiate : DVAC s'insère en test-time sans modifier les poids du modèle, ce qui signifie qu'un intégrateur peut l'appliquer sur un pipeline existant basé sur des politiques de diffusion. Sur le plan technique, la méthode confirme que le processus de débruitage encode implicitement la structure de la tâche, une hypothèse structurante pour la recherche VLA (Vision-Language-Action). Réduire la replanification améliore aussi la latence effective et la fluidité d'exécution, deux critères critiques pour un déploiement en cellule industrielle. DVAC s'inscrit dans un effort plus large de la communauté pour rendre les politiques de diffusion exploitables en production, après les travaux fondateurs sur ACT, Diffusion Policy et π0 de Physical Intelligence. La calibration par estimation glissante de la variance locale suggère une robustesse aux variations entre tâches, point qui restera à valider sur des manipulateurs à morphologie variée (bras 7-DOF, mains dextres). Aucun déploiement commercial ni partenariat industriel n'est annoncé dans le preprint ; il s'agit pour l'instant d'une contribution de recherche avec évaluation sur benchmarks standard et une démonstration en environnement réel à périmètre non précisé.

RechercheOpinion
1 source
eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée
45arXiv cs.RO 

eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée

Une équipe de recherche a déposé sur arXiv (arXiv:2606.03374, juin 2026) un système de mémoire baptisé eMEM (Embodied Memory), conçu spécifiquement pour les agents incarnés opérant dans des environnements physiques. Contrairement aux architectures existantes comme Generative Agents, MemGPT ou A-MEM, qui stockent la mémoire sous forme de flux textuels ou de graphes de connaissances, eMEM propose une architecture multi-index combinant SQLite pour le stockage structuré, hnswlib pour la recherche sémantique par voisins les plus proches (ANN), et un R-tree pour les requêtes spatiales, le tout unifié derrière un modèle de graphe unique. Un pipeline de consolidation par niveaux transforme les observations perceptuelles brutes en résumés compressés, en s'inspirant explicitement de la consolidation hippocampo-néocorticale observée chez les mammifères. Dix outils de rappel, exposés en natif au LLM, couvrent des primitives comme la résolution concept-vers-localisation ou le rappel inter-couches. Le système tourne entièrement en mémoire vive, en co-processus avec l'agent. Sur eMEM-Bench v1, un benchmark construit sur les scènes ProcTHOR-10K autour de huit paradigmes de psychologie cognitive (leurres DRM, séparation de patterns, complétion de patterns, surveillance de source, récupération dépendante du contexte, interférence à long horizon, position sérielle, courbe de rétention augmentée par des distracteurs), eMEM atteint un score pondéré moyen de 80,8 sur 988 sondes, avec une courbe de rétention plate au plafond de 1 heure à 1 an de délai simulé sur des objets uniques par pièce. Ce résultat est significatif parce qu'il isole deux problèmes structurels des approches purement RAG : une baseline flat_rag perd 30 points sur la récupération dépendante du contexte et 29 points sur le rejet des leurres DRM, ce qui valide respectivement la contribution du stockage multi-couches et du pipeline de consolidation. Pour les intégrateurs qui déploient des agents dans des environnements industriels ou domestiques complexes, cela met en évidence un angle mort majeur : un robot ou un agent LLM utilisant une récupération sémantique plate ne peut pas distinguer "le tiroir où j'ai vu les pinces hier dans cette pièce" de "les pinces en général". L'indexation spatiale couplée à la consolidation temporelle est ce qui permet à eMEM de maintenir des performances constantes sur de longues fenêtres simulées, là où les systèmes actuels dégradent. Le choix de benchmarker sur des paradigmes issus de la psychologie cognitive humaine est méthodologiquement solide : il rend les résultats comparables à la littérature sur la mémoire biologique, ce que des benchmarks surfaciques comme LoCoMo ou OpenEQA ne permettent pas. eMEM s'inscrit dans une vague de travaux sur la mémoire à long terme pour agents LLM, portée notamment par Generative Agents (Park et al., 2023) et MemGPT (Packer et al., 2023), qui ont posé les bases mais restent aveugles à la dimension spatiale, critique pour les robots physiques. L'environnement ProcTHOR-10K offre des scènes intérieures procédurales variées, mais les performances en transfert vers des environnements réels restent entièrement à démontrer : le sim-to-real gap s'applique autant aux systèmes de mémoire qu'aux politiques motrices. Le code du système et du benchmark est rendu public, ouvrant la voie à des évaluations indépendantes. Aucun partenariat industriel ni déploiement terrain n'est mentionné : c'est une contribution académique, pas un produit. Les étapes suivantes naturelles seraient de valider eMEM sur des plateformes embarquées à mémoire contrainte et de tester sa robustesse dans des scènes dynamiques où les objets se déplacent entre deux requêtes.

RecherchePaper
1 source
IA incarnée fiable : un programme communautaire du test à la vérification formelle
46arXiv cs.RO 

IA incarnée fiable : un programme communautaire du test à la vérification formelle

Un article de position publié sur arXiv (2606.03593) dans le cadre du programme AAAI'26 Bridge sur la fiabilité des IA embarquées pose un constat cru : malgré l'accélération des déploiements en environnements ouverts, l'industrie ne dispose d'aucune méthodologie unifiée pour garantir le comportement sûr et prévisible de ces systèmes. Les auteurs identifient trois axes complémentaires : des tests par scénarios appuyés sur des spécifications validées et des métriques de couverture, une vérification compositionnelle via des représentations symboliques structurées, et des mécanismes d'assurance à l'exécution capables de gérer les incertitudes et les glissements de distribution (distribution shifts) en déploiement réel. Leur thèse centrale : ces trois approches doivent être intégrées dans un workflow d'assurance continu reliant tests, vérification formelle et adaptation runtime via des représentations neuro-symboliques partagées, sur l'ensemble du cycle de vie du système. L'enjeu est direct pour les intégrateurs et les COO industriels. Les systèmes d'IA embarquée, robots humanoïdes, AMR, bras de manipulation autonome, atteignent un niveau de capacité qui autorise des déploiements commerciaux, mais la certification de leurs comportements reste un angle mort. Là où l'automobile dispose de l'ISO 26262 et l'aéronautique de la DO-178C, la robotique IA ne dispose d'aucun cadre équivalent. Ce papier ne propose pas de norme : il trace un agenda de recherche communautaire pour combler cet écart. Prouver formellement les propriétés de sécurité d'un système dont les comportements émergent d'un réseau de neurones reste un problème ouvert, et l'absence de solution freine les déploiements à grande échelle en logistique, en industrie et dans les soins à la personne. Ce travail s'inscrit dans le sillage de l'essor des VLA (Vision-Language-Action models), Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, qui ont rendu les robots plus capables mais aussi moins prédictibles, compliquant d'autant leur vérification. Des acteurs français comme Wandercraft (exosquelette marchant) et Enchanted Tools (robot Mirokaï) se heurtent au même verrou réglementaire dès qu'ils visent des environnements hospitaliers ou publics. La suite logique de cet agenda passe par la constitution de benchmarks partagés et d'outils de vérification formelle adaptés aux architectures neuro-symboliques, un chantier que le Bridge Program de l'AAAI'26, prévu pour 2026, entend contribuer à structurer.

UEWandercraft et Enchanted Tools sont cités explicitement comme confrontés à ce verrou réglementaire dès qu'ils visent des environnements hospitaliers ou publics en France, cet agenda de recherche pourrait structurer le cadre de certification qui leur fait défaut.

RechercheOpinion
1 source
Modélisation dynamique hybride d'un bras robotique flexible à 2 degrés de liberté
47arXiv cs.RO 

Modélisation dynamique hybride d'un bras robotique flexible à 2 degrés de liberté

Une équipe de chercheurs a soumis sur arXiv (référence 2606.02969) une étude comparant trois méthodes de modélisation dynamique pour un bras robotique à 2 degrés de liberté (2-DoF) à liaisons flexibles. Deux approches dites "physics-informed" combinent des formulations de dynamique corps-rigide (RBD) avec un modèle de mélange gaussien (GMM) pour capturer les erreurs résiduelles et la flexibilité mécanique des segments. Une troisième approche, purement data-driven, sert de référence via régression cinématique. Sur un jeu de données open-source, les prédictions de couple ont été estimées par régression Ridge sur des variables cinématiques ; le modèle physique de référence a été construit à partir des spécifications constructeur publiées, puis une version alternative a estimé les mêmes paramètres directement par moindres carrés ordinaires (OLS). Résultat central : les paramètres issus des fiches techniques affichent la moins bonne précision, tandis que les estimateurs Ridge et OLS s'alignent significativement mieux avec les couples mesurés. Ce résultat fragilise une hypothèse répandue en robotique industrielle : que les modèles analytiques construits à partir des spécifications constructeur constituent une base fiable pour la commande ou la simulation. Pour les bras à liaisons flexibles, les déformations mécaniques sous charge introduisent des dynamiques non modélisées que les formulations corps-rigide classiques ignorent, creusant un écart mesurable entre modèle et réalité. L'étude démontre que la régularisation et l'identification directe par données comblent ces lacunes plus efficacement que les paramètres physiques bruts. Pour un intégrateur ou un ingénieur concevant des contrôleurs pour robots légers, cobots ou bras à câbles, cela implique concrètement de recalibrer les paramètres dynamiques sur des mesures in situ plutôt que de faire confiance aux valeurs datasheet. Le travail appuie également le développement des méthodes semi-paramétriques de "residual learning", qui associent un modèle physique imparfait à un correcteur appris, évitant ainsi le choix binaire entre approche analytique et approche purement données. La modélisation des robots à liaisons flexibles est un problème de recherche actif depuis plusieurs décennies, devenu particulièrement stratégique avec la montée des cobots et des manipulateurs légers dont les segments se déforment sous charge. Ce travail s'inscrit dans un mouvement plus large vers les réseaux physics-informed (PINN) et les méthodes hybrides physique-apprentissage. En Europe, plusieurs équipes travaillent sur des architectures similaires pour robots à câbles et manipulateurs souples. L'un des atouts de cette étude est d'utiliser un jeu de données ouvert, ce qui en fait une référence utilisable pour benchmarker de nouvelles approches. La suite logique est l'intégration de ces modèles hybrides dans des boucles de commande temps réel et leur extension à des architectures à plus de degrés de liberté.

UELes équipes européennes développant des cobots et manipulateurs légers peuvent appliquer directement la recommandation de recalibrer les paramètres dynamiques par identification in situ plutôt que de se fier aux fiches constructeur.

RecherchePaper
1 source
Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique
48arXiv cs.RO 

Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.03694) une évaluation systématique des méthodes de suivi visuel pour la robotique sociale, en s'appuyant sur un jeu de données original capturé via le robot social Furhat. L'enjeu central est la continuité d'identification des utilisateurs pendant une interaction : lorsqu'un robot perd de vue son interlocuteur, même brièvement, il peut confondre deux personnes distinctes, phénomène désigné sous le terme "identity switch" (IDSW). L'étude compare deux approches (suivi par le visage versus suivi par le corps entier) et évalue l'effet de deux mécanismes complémentaires : la mémoire spatiale étendue et la réidentification par apparence (ReID). Le pipeline optimisé qui en résulte réduit les IDSW de 49 %, limitant ainsi les ruptures de dialogue entre humains et robots. Les résultats mettent en lumière une tension technique inattendue : la ReID améliore substantiellement la stabilité du suivi corporel, mais dégrade celui du visage en raison d'une sensibilité aux angles de profil. Ce comportement antagoniste n'est pas anodin pour les intégrateurs de systèmes HRI, qui ne peuvent pas transposer mécaniquement les mêmes optimisations à toutes les modalités de tracking. Plus fondamentalement, l'étude confirme que les modèles de vision par ordinateur les plus performants, conçus pour la vidéosurveillance ou la conduite autonome, ne couvrent pas les contraintes propres à la robotique sociale : occlusions mutuelles entre interlocuteurs, mouvements brusques, sorties et rentrées dans le champ de vision à courte distance. Le fossé entre démo contrôlée et déploiement réel reste ouvert pour les systèmes HRI en environnements denses. Furhat Robotics, entreprise suédoise spécialisée dans les robots conversationnels à tête projetée, fournit ici la plateforme matérielle, ce qui oriente naturellement l'évaluation vers les contextes face-à-face rapprochés. Dans le secteur plus large de la perception pour l'interaction humain-robot, des laboratoires académiques européens comme l'INRIA ou TU Delft, ainsi que des acteurs industriels tels SoftBank Robotics, travaillent sur des problématiques proches. Le point de friction central souligné par les auteurs reste l'absence de benchmarks publics capturant des occlusions denses à courte distance : sans jeux de données nativement sociaux, la validation des modèles de perception HRI demeure partielle. Les prochaines étapes naturelles consisteraient à tester ce pipeline sur d'autres plateformes et en conditions multi-utilisateurs réelles.

UEFurhat Robotics (Suède, UE) fournit la plateforme matérielle de l'étude, et l'INRIA est cité parmi les laboratoires européens travaillant sur des problématiques similaires, ce qui ancre ces avancées en perception HRI dans l'écosystème de recherche européen.

RecherchePaper
1 source
Planification de mouvement en environnements dynamiques : panorama des méthodes classiques aux approches modernes
49arXiv cs.RO 

Planification de mouvement en environnements dynamiques : panorama des méthodes classiques aux approches modernes

Une revue systématique publiée sur arXiv (arXiv:2606.02677) recense et analyse 138 travaux sur la planification de mouvement en environnements dynamiques, publiés principalement entre 2015 et 2025. Les auteurs classifient les approches en cinq familles : méthodes par échantillonnage (type RRT), recherche sur graphe (A, D*), contrôle prédictif par modèle (MPC), apprentissage automatique (supervisé et par renforcement), et méthodes locales classiques regroupant obstacles de vitesse (velocity obstacles), champs de potentiel et fenêtres dynamiques. La revue intègre également la perception dynamique, couvrant la détection et la modélisation d'obstacles mobiles à partir de caméras, LiDAR et capteurs à événements (event-based sensors). Pour les chercheurs et praticiens, ce survey comble un angle mort réel : la littérature disposait de nombreuses synthèses sur la planification en environnements statiques, mais les revues ciblant spécifiquement les environnements dynamiques restaient rares et non systématiques. Les auteurs soulèvent trois défis que les benchmarks classiques sous-capturent : l'incertitude de prédiction des trajectoires d'obstacles tiers, la dynamique de l'interaction humain-robot, et le "freezing robot problem", phénomène où un robot se paralyse face à des flux humains denses, verrou concret pour tout déploiement en entrepôt peuplé, en hôpital ou en espace public. La grille de lecture proposée aide les intégrateurs à choisir une famille de méthodes selon leurs contraintes de latence, de prévisibilité et de disponibilité des données d'entraînement. La planification de mouvement dynamique concentre aujourd'hui les efforts des équipes mobilité dans des contextes aussi variés que les AMR d'entrepôt, les plateformes humanoïdes en déploiement industriel et les véhicules autonomes en milieu urbain. Le domaine est traversé par une tension structurante entre méthodes classiques, interprétables et certifiables mais rigides face aux scénarios non anticipés, et approches par apprentissage, plus adaptables mais encore fragiles face au sim-to-real gap et en dehors de la distribution d'entraînement. Ce survey paraît à un moment où les VLA (visual-language-action models) et les politiques RL commencent à être évalués à l'échelle réelle, rendant une taxonomie claire d'autant plus utile pour situer les nouvelles contributions. Les auteurs identifient la robustesse à l'incertitude prédictive et la généralisation hors distribution comme principaux axes de recherche ouverts.

RecherchePaper
1 source
Quand le transfert simulation-réel nuit à l'apprentissage des politiques de contrôle, et comment y remédier
50arXiv cs.RO 

Quand le transfert simulation-réel nuit à l'apprentissage des politiques de contrôle, et comment y remédier

Une équipe de chercheurs publie sur arXiv (référence 2606.02636) un article qui remet en question une hypothèse centrale de la robotique moderne : l'idée que maximiser les efforts de transfert simulation-vers-réel (sim2real) améliore systématiquement l'apprentissage de politiques de contrôle. Leur diagnostic identifie deux effets négatifs concrets : un phénomène de "simulator lock-in", où les politiques restent prisonnières des hypothèses du simulateur, et une exploration appauvrie pendant l'entraînement, résultat des contraintes imposées prématurément par la compatibilité hardware. L'enjeu pour la communauté robotique est direct. Si la thèse tient, cela signifie que des pans entiers de la recherche sim2real ont optimisé le mauvais objectif : en voulant rapprocher la simulation du monde réel dès l'entraînement, on sacrifie la liberté d'exploration que la simulation est précisément supposée offrir. Cela concerne en priorité les équipes développant des politiques pour humanoïdes et les architectures Vision-Language-Action (VLA), où la qualité et la diversité des données de simulation sont déterminantes pour généraliser en déploiement réel. En réponse, les auteurs proposent un paradigme en deux étapes qu'ils appellent sim2sim2real : une première simulation sans contraintes réelles maximise l'exploration des comportements, puis un second transfert vers une simulation contrainte par la cinématique du robot prépare le passage au hardware. La seule limite imposée dès le départ est donc géométrique, pas physique. Cette approche s'inscrit dans la lignée du domain randomization et du curriculum learning, mais formalise explicitement la séparation des objectifs d'exploration et de transfert. À ce stade, l'article est un preprint sans validation expérimentale publiée.

RecherchePaper
1 source