Aller au contenu principal
RecherchearXiv cs.RO1h

STORM : représentation par slots centrée objet et sensible à la tâche pour la manipulation robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), un module d'adaptation léger conçu pour augmenter les modèles visuels de fondation figés avec des représentations centrées sur les objets. Plutôt que de réentraîner de grands backbones visuels, coûteux en calcul et en données étiquetées, STORM insère un ensemble restreint de "slots", des vecteurs appris qui capturent chaque objet de la scène de manière distincte. L'entraînement se déroule en deux phases : un préentraînement visuo-sémantique qui stabilise les slots via des embeddings de langage, puis une adaptation conjointe avec la politique de manipulation. Les expériences, menées sur des benchmarks de découverte d'objets et des tâches de manipulation simulée, montrent des gains de robustesse face aux distracteurs visuels et une meilleure performance de contrôle par rapport à l'utilisation directe des features figées ou à l'entraînement end-to-end de représentations object-centriques.

L'enjeu est structurel pour la robotique de manipulation. Les modèles visuels de fondation comme DINOv2 ou SigLIP fournissent des features perceptuelles puissantes, mais leurs représentations denses traitent la scène comme une grille de pixels sans distinguer explicitement les objets. Pour une tâche du type "saisir la boîte rouge parmi plusieurs objets", cette absence de structure oblige le réseau de politique à apprendre lui-même la décomposition de la scène, ce qui nuit à la généralisation hors distribution. STORM contourne ce problème sans toucher au backbone. Le résultat valide l'hypothèse que l'adaptation multi-phase (stabilisation sémantique d'abord, alignement tâche ensuite) évite la dégénérescence des slots, phénomène où plusieurs slots capturent le même objet ou des régions non pertinentes pour la tâche.

La ligne de recherche sur les représentations object-centriques remonte à Slot Attention (Locatello et al., 2020, DeepMind) et à MONet. L'originalité de STORM est d'ancrer ces slots dans la sémantique linguistique et de les greffer sur des fondations pré-entraînées plutôt que de repartir de zéro. Dans un écosystème où les VLA (Vision-Language-Action models) comme pi0 de Physical Intelligence ou OpenVLA cherchent à intégrer langage et action de bout en bout, STORM propose une alternative modulaire et économe. Les résultats restent limités à la simulation, ce qui laisse entière la question du sim-to-real gap. Les prochaines étapes logiques incluent la validation sur robots physiques et le test face à des perturbations visuelles plus agressives que les benchmarks actuels.

À lire aussi

Compréhension vidéo découplée centrée sur les objets pour la génération de commandes de manipulation robotique
1arXiv cs.RO 

Compréhension vidéo découplée centrée sur les objets pour la génération de commandes de manipulation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.16470) un framework de compréhension vidéo orienté objets, conçu pour traduire automatiquement des démonstrations gestuelles en commandes exécutables par un bras robotique, sans passer par une syntaxe de programmation classique. La méthode combine des modules TSM (Temporal Shift Module) pour la classification spatio-temporelle d'actions avec un algorithme original de sélection d'objets qui identifie, dans chaque séquence, les objets fonctionnellement pertinents via trois critères : classification de rôle par trajectoire, détection de flou, et minimisation de chevauchements. Les objets retenus sont ensuite analysés par des VLMs (Vision-Language Models) pour la reconnaissance de catégorie et la généralisation zero-shot. Évalué sur une version modifiée du benchmark Something-Something V2, le système atteint 86,79 % de précision en classification d'actions, un score BLEU-4 de 0,337 sur des objets connus et 0,261 sur des objets inédits, soit des gains respectifs de +80,2 % et +143,9 % face au meilleur baseline spécialisé. Sur METEOR et CIDEr, les gains montent à +157,9 % et +171,7 % pour les objets inconnus. Ce résultat est notable pour deux raisons distinctes. D'abord, la généralisation sur des objets non vus durant l'entraînement, qui est précisément le point de rupture habituel des systèmes task-specific : un robot industriel déployé dans un environnement variable ne peut pas être ré-entraîné pour chaque référence produit. Ensuite, l'architecture modulaire découplée (reconnaissance d'action d'un côté, identification d'objet de l'autre) facilite la maintenance et le débogage en production, à l'inverse des architectures bout-en-bout opaques. Sur le papier, ce type de système pourrait réduire la dépendance à la téléopération manuelle pour constituer des datasets de manipulation, un coût majeur pour les déploiements à grande échelle. Il s'agit ici d'un preprint académique, pas d'un produit validé en environnement réel : les métriques sont mesurées sur un benchmark vidéo, pas sur un robot physique, ce qui laisse entier le sim-to-real gap. Le benchmark Something-Something V2 reste un cadre contrôlé, éloigné du désordre d'un atelier de production. Ce travail s'inscrit dans un mouvement plus large de recherche sur les VLA (Vision-Language-Action models), où des acteurs comme Physical Intelligence (pi), Google DeepMind ou le MIT tentent de résoudre exactement ce problème : faire apprendre un robot par observation vidéo plutôt que par démonstration manuelle coûteuse. La prochaine étape naturelle serait une validation sur hardware réel avec un bras collaboratif standard (UR, Franka), ce que le papier ne documente pas encore.

RechercheOpinion
1 source
Représentations sémantiques et géométriques des tâches pour la manipulation bimanuelles : des démonstrations humaines à la planification robotique
2arXiv cs.RO 

Représentations sémantiques et géométriques des tâches pour la manipulation bimanuelles : des démonstrations humaines à la planification robotique

Des chercheurs ont publié une approche pour apprendre des représentations structurées de tâches bimanuelles directement à partir de démonstrations humaines, sans annotation manuelle des actions. Le système, baptisé représentation sémantique-géométrique par graphe, combine un encodeur de type Message Passing Neural Network (MPNN) avec un décodeur Transformer. L'encodeur opère sur un graphe de scène temporel : il capture les identités des objets, leurs relations sémantiques mutuelles et l'historique de leurs mouvements. Le décodeur, conditionné par le contexte d'action, prédit l'action suivante, les objets impliqués et leurs trajectoires. L'ensemble a été évalué sur onze tâches bimanuelles issues de deux jeux de données distincts, et déployé avec succès sur deux tâches réelles en boucle fermée, via un planificateur couplant les prédictions à des Probabilistic Movement Primitives (ProDMP). L'apport principal réside dans le découplage entre encodeur et décodeur : l'encodeur produit des représentations dites agnostiques à la tâche, réutilisables sur différents robots via un simple fine-tuning du décodeur sur un petit dataset robot. En pratique, cela réduit significativement le coût de ré-entraînement lors d'un changement de plateforme ou d'effecteur. Les résultats montrent que le bénéfice des représentations sémantiques-géométriques sur les modèles séquentiels plus simples s'accentue avec la variabilité des tâches : plus l'ordre des actions et les objets impliqués varient d'une exécution à l'autre, plus l'avantage est marqué. Le système surpasse des baselines incluant un Transformer pur, un décodeur seul, et des modèles vision-langage fine-tunés (VLM), ce qui est notable même si les benchmarks utilisés restent internes aux auteurs et non standardisés dans la communauté. Ce travail s'inscrit dans un effort plus large visant à combler le fossé entre manipulation bimanuelle en laboratoire et déploiement industriel, là où la reproductibilité d'exécutions variables reste un verrou. Il fait écho à des approches concurrentes comme les Vision-Language-Action models (VLA) de Google DeepMind ou les travaux sur les graphes de tâches de l'ETH Zurich, mais se distingue par son orientation vers le transfert inter-robots à faible coût de données. Les auteurs n'annoncent pas de partenaire industriel ni de timeline de déploiement commercial ; il s'agit d'un résultat académique, présenté en version révisée sur arXiv (v2, janvier 2026), dont les suites probables incluent une extension à des scènes plus encombrées et à des horizons de planification plus longs.

RecherchePaper
1 source
FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable
3arXiv cs.RO 

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

Des chercheurs ont publié FuncCanon sur arXiv (réf. 2509.19102, deuxième révision), un framework qui décompose les tâches de manipulation robotique à long horizon en séquences d'"action chunks", des triplets structurés (acteur, verbe, objet), pour apprendre des politiques généralisables à partir de démonstrations humaines. L'idée centrale est de centrer l'apprentissage sur les actions elles-mêmes, pas sur des tâches isolées, ce qui ouvre la voie à la composition et à la réutilisation de primitives. La brique technique originale est la "canonicalisation fonctionnelle d'objets" : les objets sont projetés dans des repères fonctionnels partagés en s'appuyant sur des cues d'affordance extraites de grands modèles vision-langage (VLM). Ce mapping automatique permet de transférer des trajectoires de manipulation entre instances d'une même catégorie sans nouvelles démonstrations. La politique apprise, FuncDiffuser, est une politique de diffusion centrée objet et action, entraînée sur ces données alignées et évaluée sur des benchmarks en simulation et en déploiement réel. L'abstract ne fournit pas de métriques précises (temps de cycle, taux de succès chiffré, nombre de DOF testés), ce qui limite l'évaluation indépendante à ce stade. Le problème que FuncCanon attaque directement est la généralisation hors distribution des politiques end-to-end issues de l'imitation learning, un obstacle bien documenté qui bloque le passage à l'échelle industrielle. En normalisant la pose et la fonctionnalité des objets avant l'apprentissage, FuncDiffuser n'a pas besoin de voir chaque instance d'une catégorie lors de l'entraînement, ce qui réduit structurellement le volume de démonstrations nécessaires par référence produit. Pour un intégrateur industriel, c'est un levier économique potentiellement significatif : le coût de télé-opération pour collecter des données reste l'un des principaux freins au déploiement de bras robotiques en production. Les auteurs revendiquent également une robustesse sim-to-real, mais sans chiffres publiés dans l'abstract, cette affirmation reste à vérifier sur les benchmarks complets disponibles sur le site du projet. FuncCanon s'inscrit dans une vague de travaux visant à dépasser les limites des politiques de diffusion pures (Diffusion Policy, Chi et al., 2023) en ajoutant des représentations sémantiques intermédiaires. Les approches concurrentes incluent Pi-0 de Physical Intelligence, qui exploite une architecture VLA (vision-language-action) pour la généralisation zéro-shot, et GR00T N2 de NVIDIA, qui mise sur un entraînement massif sur données synthétiques. ACT (Action Chunking with Transformers, Zhao et al., 2023) partage la logique de découpage en chunks mais sans canonicalisation fonctionnelle. L'utilisation des VLMs pour extraire des affordances plutôt qu'apprendre des représentations ad hoc est une tendance forte portée par RT-2 de Google DeepMind et OpenVLA. FuncCanon reste pour l'instant une contribution académique sans partenaire industriel ni timeline de commercialisation annoncée.

RechercheOpinion
1 source
RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique
4arXiv cs.RO 

RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique

Une équipe de chercheurs a publié RoboEval (arXiv:2507.00435), un cadre d'évaluation structuré et un benchmark dédié à la manipulation robotique. L'outil propose huit tâches bimanuelles assorties de variantes systématiquement contrôlées, plus de trois mille démonstrations expertes, et une plateforme de simulation modulaire conçue pour garantir la reproductibilité des expériences. Chaque tâche est instrumentée avec des métriques standardisées couvrant l'efficacité d'exécution, la coordination entre les deux bras, et la stabilité ou sécurité du mouvement. Le cadre inclut également des mesures de progression par étapes qui permettent de localiser précisément où et pourquoi une politique échoue, plutôt que de simplement enregistrer un échec global. Les expériences ont été conduites sur des politiques visuomotrices de l'état de l'art, en évaluant la stabilité des métriques face aux variations de conditions et leur pouvoir discriminant entre politiques affichant des taux de succès similaires. L'enjeu est méthodologique autant qu'industriel. Aujourd'hui, la majorité des benchmarks de manipulation robotique réduisent la performance à un comptage binaire succès/échec, ce qui efface les différences réelles de qualité d'exécution. Deux politiques peuvent afficher le même taux de réussite tout en présentant des comportements radicalement différents en termes de fluidité, de robustesse aux perturbations, ou de coordination interdigitale. Pour un intégrateur ou un décideur industriel qui doit choisir entre plusieurs VLA (Vision-Language-Action policies) pour déployer un robot en production, cette granularité est critique. RoboEval tente de combler ce fossé en fournissant des métriques intermédiaires qui corrèlent avec le succès final mais révèlent aussi la structure des défaillances, un prérequis pour itérer efficacement sur l'entraînement. Ce travail s'inscrit dans une dynamique plus large de maturation de l'évaluation en robotique apprenable, un domaine qui souffre depuis des années d'une fragmentation des protocoles. Des initiatives comparables comme LIBERO ou RoboVerse ont tenté de standardiser les conditions expérimentales, mais restaient souvent limitées aux tâches unimanuelles ou aux métriques de haut niveau. RoboEval se distingue par son focus bimanuel, directement pertinent pour les applications industrielles d'assemblage ou de logistique, et par la richesse de ses métriques comportementales. La page projet est accessible sur robo-eval.github.io. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit pour l'instant d'une contribution académique, sans validation en environnement réel annoncée.

UEContribution académique ouverte utilisable par tout labo ou intégrateur européen souhaitant évaluer et comparer des politiques VLA bimanuelles sans dépendre de benchmarks propriétaires.

RecherchePaper
1 source