Au-delà de la réussite des tâches : diagnostics…

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

50

1arXiv cs.RO

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

Une étude publiée sur arXiv (arXiv:2602.03920) examine comment des utilisateurs non-spécialistes interprètent les données de performance des modèles de fondation robotiques (RFM, Robot Foundation Models), ces architectures d'IA généraliste conçues pour piloter des robots domestiques polyvalents comme ceux développés par Physical Intelligence (pi0), Google DeepMind (GR00T N2) ou Figure AI. Le cœur du problème : lorsqu'un utilisateur demande à un robot RFM d'effectuer une tâche hors de son domaine d'entraînement, il doit pouvoir évaluer le risque d'échec, qui peut être coûteux, voire dangereux. Les chercheurs ont exposé des participants à des données réelles issues de plusieurs projets RFM publiés, incluant le taux de succès aux tâches (TSR, Task Success Rate), des descriptions de cas d'échec et des vidéos de démos. Les résultats montrent que les non-experts comprennent et utilisent le TSR de façon conforme aux attentes des spécialistes, ce qui valide son usage comme métrique primaire dans les publications académiques. Mais la découverte la plus significative est ailleurs : les utilisateurs accordent une valeur élevée aux descriptions de cas d'échec, une information rarement reportée de façon systématique dans les évaluations de RFMs. Par extension, ils souhaitent disposer à la fois de données historiques issues des évaluations passées du modèle et d'estimations proactives du robot sur ses chances de succès face à une tâche inédite. Cette attente soulève un défi concret pour les intégrateurs et les équipes produit : la transparence sur les limites du modèle n'est pas optionnelle si l'on vise un déploiement grand public. Ce travail s'inscrit dans un débat plus large sur le fossé entre les démos laboratoire et l'usage réel, souvent qualifié de "demo-to-reality gap". Alors que le secteur converge vers des benchmarks standardisés comme DROID ou Open-X-Embodiment pour comparer les RFMs entre eux, la question de leur lisibilité par les décideurs non-techniques reste largement ouverte. Des acteurs comme Enchanted Tools en France ou Wandercraft misent sur des interfaces d'interaction proches de l'utilisateur final, mais peu d'équipes formalisent encore la communication sur les taux d'échec. Cette étude plaide pour l'intégration de "failure reporting" structuré dans les fiches produit et les publications techniques, une évolution qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique.

UEL'étude plaide pour un 'failure reporting' structuré qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique, concernant directement Enchanted Tools et Wandercraft pour leurs fiches produit.

RecherchePaper

1 source

L'effondrement neuronal ordinal comme a priori de représentation pour la navigation visuelle

38

2arXiv cs.RO

L'effondrement neuronal ordinal comme a priori de représentation pour la navigation visuelle

Une équipe de recherche a publié en juin 2026 sur arXiv (2606.26839) ORION, une méthode d'apprentissage de politiques de navigation visuelle pour robots mobiles. Le problème de départ est celui de l'imitation learning de bout en bout : lorsqu'on entraîne conjointement un encodeur visuel et un décodeur d'actions via une unique loss d'action, le signal de supervision reste indirect pour l'encodeur. Résultat : l'encodeur apprend des représentations dites "action-agnostic", insensibles aux distinctions qui comptent pour la navigation. Dans les environnements réels, avec leurs distracteurs visuels et la variabilité des scènes, ces représentations ambiguës se traduisent par des actions incohérentes aux carrefours et aux intersections complexes, générant des échecs de navigation. ORION impose explicitement une structure ordinale à l'espace de représentation de l'encodeur : les catégories de commandes ego-centriques (de "Far Left" à "Far Right") forment une séquence naturelle où les classes voisines partagent des contextes visuels similaires. L'encodeur est contraint d'organiser ces classes le long d'un axe discriminant unique, en supprimant la variance hors-axe au sein de chaque classe. Cet encodeur pré-entraîné est ensuite intégré dans un framework de navigation basé sur la diffusion, puis affiné end-to-end. Les expériences, conduites en simulation et en conditions réelles, montrent que ORION surpasse les baselines end-to-end et neural collapse classiques sur le taux de succès de navigation et la progression vers l'objectif, avec des gains particulièrement marqués aux intersections multi-voies. L'intérêt de cette approche réside dans sa réponse à un problème structurel des VLA (Vision-Language-Action models) et plus généralement de l'imitation learning visuelle : la supervision indirecte de l'encodeur. En robotique mobile autonome, notamment pour les AGV et AMR déployés en entrepôt ou en milieu urbain, les représentations "action-agnostic" sont un vecteur d'échec documenté et coûteux en production. L'idée d'exploiter la structure ordinale naturelle des commandes directionnelles pour contraindre l'espace latent est élégante et transférable : elle n'exige pas de données supplémentaires, mais réorganise le signal de supervision existant. La démonstration de gains concrets sur des intersections complexes est particulièrement pertinente pour les intégrateurs de robots de livraison ou de surveillance en environnements non structurés. Cela confirme une hypothèse émergente dans le secteur : la qualité de la représentation visuelle, et non la puissance brute du décodeur, est souvent le goulet d'étranglement dans le passage du labo au terrain. Le concept de "neural collapse" est emprunté à la littérature sur la classification supervisée, où il décrit la convergence des représentations de dernière couche vers des structures géométriques idéales en fin d'entraînement. ORION étend ce cadre à la navigation en y ajoutant la dimension ordinale, ce qui le distingue des travaux précédents qui appliquaient neural collapse sans tenir compte de la relation sémantique entre classes de commandes. Dans l'écosystème des frameworks de navigation diffusion-based, on retrouve des travaux proches comme NoMaD ou GNFactor, ainsi que des approches VLA comme pi-0 de Physical Intelligence. Les auteurs n'annoncent pas de déploiement commercial ni de partenariat industriel identifiable dans ce preprint ; les prochaines étapes naturelles seraient une validation à plus grande échelle sur des plateformes comme Clearpath ou Boston Dynamics Spot, et une extension aux politiques multimodales intégrant des instructions en langage naturel.

RechercheOpinion

1 source

Au-delà de la topologie : une représentation en graphe des symétries morphologiques pour les politiques de locomotion

44

3arXiv cs.RO

Au-delà de la topologie : une représentation en graphe des symétries morphologiques pour les politiques de locomotion

Des chercheurs présentent MS-PPO (Morphological Symmetry Proximal Policy Optimization), une architecture d'apprentissage par renforcement pour la locomotion robotique qui encode les symétries morphologiques directement dans la structure du réseau de contrôle. Ce preprint, mis à jour sur arXiv en juin 2026 (identifiant 2512.00727v2), valide l'approche sur deux plateformes commerciales d'Unitree Robotics : le quadrupède Go2 et l'humanoïde G1. À partir du graphe topologique du robot, l'algorithme augmente chaque espace d'observation et d'action avec les transformations de permutation et de signe induites par la symétrie corporelle, produisant un acteur de graphe symétrique-équivariant et un critique invariant. Quatre scénarios sont évalués : suivi de commande de vitesse, pannes asymétriques de joints, généralisation hors distribution, et déploiement zéro-shot du simulateur vers le robot physique. L'enjeu est structurel : les politiques de contrôle actuelles, MLP génériques ou réseaux de graphes (GNN), ignorent comment les grandeurs physiques se transforment symétriquement d'un membre à l'autre. Un quadrupède a quatre pattes quasi-identiques, un humanoïde a deux côtés symétriques, et cette information doit normalement être apprise empiriquement au prix de milliers d'échantillons supplémentaires. MS-PPO l'impose par construction plutôt que par reward shaping ou data augmentation, ce qui, selon les auteurs, améliore simultanément la généralisation aux symétries, la robustesse aux pannes de joints, l'efficacité d'échantillonnage et la compacité du modèle. Le résultat le plus fort reste le transfert sim-to-real zéro-shot : aucun fine-tuning sur le matériel physique, là où le reality gap demeure l'obstacle principal au déploiement industriel. À noter : l'abstract ne fournit pas de métriques chiffrées ; les gains quantifiés sont dans le corps du papier. L'exploitation des symétries en RL de locomotion est un axe de recherche actif depuis les travaux sur les réseaux équivariants et les architectures morpho-symétriques, notamment ceux d'Ordonez-Apraez et al. MS-PPO se positionne comme l'étape suivante : encoder non plus seulement la connectivité mais la physique des transformations dans le graphe. Les plateformes Go2 et G1 d'Unitree Robotics dominent les benchmarks académiques grâce à leur accessibilité commerciale et leur large base d'utilisateurs chercheurs. Aucun acteur européen n'est cité dans l'étude ; côté FR/EU, Wandercraft (Paris, humanoïdes médicaux) et PAL Robotics (Barcelone) développent leurs propres pipelines de contrôle. L'étape suivante attendue pour MS-PPO : validation sur des tâches locomotion-manipulation combinées et des déploiements longue durée hors laboratoire.

UELes laboratoires européens de contrôle locomotion (Wandercraft, PAL Robotics) pourraient appliquer MS-PPO à leurs propres plateformes, mais aucun acteur européen n'est impliqué dans l'étude.

RecherchePaper

1 source

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

44

4arXiv cs.RO

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

Des chercheurs ont publié fin avril 2025 sur arXiv (2504.18662) un extracteur de représentations multimodal baptisé M2R2 (MultiModal Robotic Representation for Robotic TAS), conçu pour la segmentation temporelle d'actions (TAS) en robotique. L'approche combine des informations proprioceptives (encodeurs, capteurs force-couple, état des articulations) et extéroceptives (caméras RGB) dans un extracteur de features commun, accompagné d'une stratégie d'entraînement inédite permettant la réutilisation de ces représentations sur plusieurs architectures de segmentation indépendantes. Les résultats annoncés positionnent M2R2 à l'état de l'art sur trois jeux de données de référence en robotique : REASSEMBLE (assemblage de composants), (Im)PerfectPour (versage de liquide) et JIGSAWS (chirurgie robotique laparoscopique simulée). Une étude d'ablation extensive quantifie la contribution respective de chaque modalité. L'intérêt principal de M2R2 réside dans la modularité de son extracteur : les approches multimodales existantes en robotique fusionnaient les modalités directement à l'intérieur du modèle de segmentation, rendant les features non réutilisables entre architectures. Ici, le découplage extracteur/modèle de TAS ouvre la voie à une bibliothèque de représentations partageable, ce qui réduit le coût de réentraînement lors du changement de tâche ou de robot. Sur les scénarios à faible visibilité d'objet, les extracteurs purement visuels issus du computer vision chutent en performance, là où l'ajout de la proprioception maintient la robustesse. C'est un résultat concret sur la fragilité des approches vision-seule dans des environnements industriels ou chirurgicaux réels, où occlusions et éclairage variable sont la norme. La segmentation temporelle d'actions est un verrou historique pour l'autonomie des robots manipulateurs : sans identifier les frontières entre skills (saisir, aligner, visser...), il est impossible de planifier, corriger ou réutiliser des séquences de gestes. En chirurgie robotique, JIGSAWS est le benchmark de référence depuis 2016, utilisé notamment dans les travaux autour des plateformes da Vinci (Intuitive Surgical). En robotique industrielle, des acteurs comme Wandercraft ou les équipes de manipulation de Boston Dynamics s'appuient sur des approches similaires pour les transitions de phases motrices. M2R2 reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé, mais son extracteur réutilisable représente un candidat sérieux pour des pipelines d'imitation learning dans lesquels labelliser chaque skill manuellement est le principal goulot d'étranglement.

UEL'extracteur modulaire M2R2 pourrait bénéficier aux équipes de manipulation françaises (notamment Wandercraft) en réduisant le coût de labellisation dans les pipelines d'imitation learning, mais reste une contribution académique sans déploiement industriel annoncé.

RecherchePaper

1 source

Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA

À lire aussi

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

L'effondrement neuronal ordinal comme a priori de représentation pour la navigation visuelle

Au-delà de la topologie : une représentation en graphe des symétries morphologiques pour les politiques de locomotion

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions