Aller au contenu principal
RecherchearXiv cs.RO4h

Modélisation d'actions généralement covariante : construction de variétés généralisées par découplage spatio-temporel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Un préprint soumis sur arXiv le 2 juin 2026 (identifiant 2606.00110) introduit le cadre GAM (Generalized Action Manifold), une approche architecturale pour améliorer la généralisation des politiques robotiques en intelligence incarnée. Le problème ciblé est précis : les méthodes actuelles de Vision-Language-Action (VLA) entraînent les robots à régresser des coordonnées absolues, liant la politique à un style de mouvement et une vitesse d'exécution fixes. GAM résout cela via deux mécanismes orthogonaux. Le premier, l'Arc-Length Parameterizer, sépare la géométrie spatiale d'une trajectoire de sa dynamique temporelle, rendant la politique insensible aux variations de vitesse. Le second, le Schema-Affine-Factorization, projette les trajectoires dans un repère normalisé (pose-normalized coordinate frame), distinguant les schémas géométriques invariants des modulations affines locales. Intégré dans une architecture VLA structurée, GAM permet à un faible nombre de démonstrations de peupler densément un manifold d'actions continu et valide. Les auteurs rapportent des performances supérieures aux baselines geometry-agnostic sur des benchmarks empiriques, sans préciser les robots ou plateformes testés.

L'enjeu industriel est direct : la généralisation depuis un nombre limité de démonstrations reste l'un des verrous les plus coûteux du déploiement robotique. Dans les usines où les intégrateurs doivent collecter des milliers de trajectoires par variante de tâche, réduire ce volume a un impact économique concret. Le principe de covariance générale, emprunté à la physique relativiste, stipule qu'une loi ne doit pas dépendre du système de coordonnées choisi. Appliqué à la robotique, cela signifie apprendre la structure géométrique intrinsèque d'une tâche plutôt que les habitudes motrices d'un démonstrateur humain. Si validée à l'échelle, cette approche s'attaquerait directement au demo-to-reality gap et au sim-to-real transfer, deux obstacles persistants pour des systèmes VLA commerciaux comme Pi-0 de Physical Intelligence ou OpenVLA.

La recherche VLA s'est accélérée depuis 2024 avec Pi-0, RDT-1B, Octo, et les travaux de NVIDIA sur GR00T N2. GAM se positionne comme une couche d'invariance structurelle compatible avec ces architectures existantes plutôt que comme un modèle concurrent. Ce papier reste à ce stade un preprint non relu par des pairs, sans validation sur des robots physiques identifiés ni données de déploiement réel. Aucun auteur, institution ou partenaire industriel n'est mentionné dans l'abstract disponible, ce qui limite l'évaluation de la crédibilité et de la roadmap concrète. La prochaine étape naturelle serait une soumission à CoRL, ICRA ou RSS avec des expériences sur manipulateurs physiques dans des environnements semi-structurés.

À lire aussi

Construction de la généralisation dans la génération de comportements via des compositions adaptatives de régularités
1arXiv cs.RO 

Construction de la généralisation dans la génération de comportements via des compositions adaptatives de régularités

Une équipe de chercheurs a déposé sur arXiv (2605.31110) un cadre baptisé AICON (Active InterCONnect) pour aborder la généralisation en robotique. Le système représente les régularités, soit les relations prévisibles au sein du couple robot-environnement, sous forme de processus en interaction dans un réseau différentiable. Le retour sensoriel orchestre leur composition en temps réel, tandis qu'une descente de gradient génère le comportement. Les expériences sont menées entièrement en simulation sur un problème maîtrisé, où toutes les régularités pertinentes ont été identifiées et encodées a priori. Confronté à un large éventail de conditions inédites, le modèle produit un comportement adapté dans presque tous les cas ; seul un scénario échoue, et les auteurs démontrent formellement que les régularités encodées y sont insuffisantes. La généralisation reste le verrou central de la robotique apprenante : un robot entraîné sur un ensemble de tâches échoue souvent dès que les conditions varient légèrement. AICON propose une réponse structurelle, en ancrant la généralisation dans un biais inductif explicite, la composition adaptative de régularités, plutôt que dans le volume de données. Les ablations montrent que le réseau module automatiquement l'influence de chaque régularité selon son caractère informatif dans la situation courante, un mécanisme de pondération émergent sans supervision. Pour les chercheurs en apprentissage robot et les intégrateurs, cela remet en question l'hypothèse que la mise à l'échelle des données ou des paramètres suffit à couvrir la distribution des situations réelles. La généralisation est aujourd'hui au coeur des travaux sur les VLA (Vision-Language-Action models) comme pi0 de Physical Intelligence, RT-2 de Google DeepMind ou OpenVLA, qui misent sur des fondations pré-entraînées à grande échelle pour transférer vers de nouvelles tâches. AICON emprunte une voie opposée, plus proche des systèmes dynamiques et du contrôle adaptatif, en cherchant à encoder la structure du monde plutôt qu'à l'approximer par accumulation de données. L'étude reste entièrement en simulation sur des problèmes jouets ; le passage aux robots physiques et l'identification automatique des régularités pertinentes restent des questions ouvertes. Une validation sur des benchmarks de manipulation réelle comme LIBERO ou RLBench constituerait la prochaine étape naturelle.

RecherchePaper
1 source
DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique
2arXiv cs.RO 

DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique

Des chercheurs ont publié DISC (Decoupling Instruction from State-Conditioned Control via Policy Generation), une architecture de politique de manipulation robotique conditionnée par le langage, déposée sur arXiv (2605.20856) en mai 2026. L'approche repose sur un hyperréseau qui génère l'intégralité des paramètres d'une politique visuomotrice spécifique à la tâche à partir de la seule instruction textuelle. La politique générée n'accède jamais directement au langage : sa compréhension de la tâche provient exclusivement des poids produits par l'hyperréseau. Sur les benchmarks LIBERO-90 et Meta-World, DISC surpasse l'ensemble des architectures couplées évaluées, et dépasse pi-0 (Physical Intelligence) malgré l'absence de tout préentraînement sur données externes. Le code est disponible publiquement sur GitHub. Ce résultat touche à un problème structurel bien documenté dans le domaine des VLA (Vision-Language-Action models) : l'"observation leakage", c'est-à-dire la tendance des réseaux couplés à apprendre des raccourcis scène-à-action qui contournent le grounding linguistique. En pratique, cela signifie qu'un modèle peut réussir une tâche en exploitant des corrélations visuelles parasites plutôt qu'en comprenant l'instruction. DISC élimine ce chemin de fuite par construction, et non par régularisation post-hoc. Le fait de surpasser pi-0 sans préentraînement est notable : pi-0 est entraîné sur des volumes de données multi-robots à grande échelle, ce qui rend la comparaison significative pour les équipes qui cherchent à calibrer le retour sur investissement du préentraînement massif versus des architectures mieux conçues. L'hyperréseau apprend également un manifold de paramètres structuré sémantiquement, ce qui permet une adaptation few-shot à partir de très peu de démonstrations et une robustesse aux reformulations d'instructions. Les architectures de politiques conditionnées par le langage sont au coeur de la course aux robots généralistes depuis 2023, avec des travaux fondateurs comme RT-2 (Google DeepMind), OpenVLA, et pi-0 de Physical Intelligence qui ont structuré le débat autour du préentraînement à grande échelle. DISC propose une alternative architecturale plutôt que scalaire : résoudre le problème de couplage instruction-état en amont, plutôt que de le noyer dans des données. Côté concurrents directs, les approches hyperréseau pour la génération de politiques restent peu explorées en robotique de manipulation, ce qui laisse DISC dans un espace relativement dégagé pour l'instant. Les prochaines étapes naturelles seraient une validation sur hardware physique à plus grande échelle (les expériences réelles mentionnées dans le papier restent limitées à un benchmark à contexte visuel partagé) et une évaluation de la latence de génération des paramètres en conditions de déploiement industriel, deux points que le papier ne documente pas encore précisément.

RechercheOpinion
1 source
Un tokeniseur d'actions hiérarchique spatio-temporel pour l'apprentissage par imitation en contexte en robotique
3arXiv cs.RO 

Un tokeniseur d'actions hiérarchique spatio-temporel pour l'apprentissage par imitation en contexte en robotique

Des chercheurs ont publié sur arXiv (référence 2604.15215v2) un travail portant sur HiST-AT, un tokeniseur d'actions hiérarchique et spatiotemporel conçu pour l'apprentissage par imitation en contexte. Le principe central repose sur deux niveaux successifs de quantification vectorielle : le premier niveau affecte chaque action à des sous-clusters fins, tandis que le second regroupe ces sous-clusters en clusters plus larges. L'extension spatiotemporelle va plus loin en récupérant simultanément les actions et leurs horodatages associés, permettant au modèle d'exploiter à la fois la géométrie des mouvements et leur séquençage temporel. Les évaluations ont été conduites sur plusieurs benchmarks de manipulation robotique en simulation et en conditions réelles, et les auteurs revendiquent un nouveau niveau de performance de référence sur les tâches d'apprentissage par imitation en contexte. Ce résultat intéresse directement les équipes qui travaillent sur le déploiement rapide de robots dans de nouvelles tâches industrielles sans collecter des milliers de démonstrations. L'apprentissage par imitation en contexte, calqué sur le few-shot prompting des grands modèles de langage, vise à permettre à un robot d'exécuter une nouvelle tâche à partir de quelques exemples fournis dynamiquement, sans réentraînement. La qualité du tokeniseur d'actions est ici le maillon critique : une discrétisation trop grossière des trajectoires efface l'information fine de manipulation ; trop granulaire, elle rend l'espace de tokens ingérable. Le fait que l'approche hiérarchique améliore les résultats par rapport à une quantification à un seul niveau, et que l'ajout de l'information temporelle amplifie encore ce gain, suggère que la structure latente des tâches de manipulation est intrinsèquement multiscale. L'apprentissage par imitation en contexte pour la robotique s'est fortement développé depuis 2023, porté par des modèles comme ACT, Diffusion Policy, et plus récemment les architectures de type VLA (Vision-Language-Action) telles que OpenVLA, pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA. La tokenisation des actions est un point de friction commun à toutes ces approches : comment convertir des trajectoires continues en séquences discrètes manipulables par un transformer. HiST-AT apporte une réponse structurée à ce problème, mais il s'agit à ce stade d'un résultat de recherche publié en preprint, sans validation industrielle ni déploiement annoncé. Les prochaines étapes naturelles seront d'évaluer la robustesse en dehors des benchmarks académiques, notamment sur des tâches de manipulation à haute fréquence ou en environnement non contrôlé.

RechercheOpinion
1 source
AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents
4arXiv cs.RO 

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents

Une équipe de chercheurs a présenté AGILE (arXiv:2602.04672v3), un framework de reconstruction d'interactions dynamiques main-objet à partir de vidéos monoculaires, ciblant deux applications majeures : la collecte de données pour la manipulation dextère en robotique et la création de jumeaux numériques pour la simulation et la réalité virtuelle. La méthode s'attaque à deux verrous techniques qui paralysent les approches existantes : d'une part, le rendu neuronal classique produit sous forte occultation des géométries fragmentées, inutilisables directement en simulation physique ; d'autre part, l'initialisation par Structure-from-Motion (SfM) est notoriellement fragile sur des vidéos captées en conditions réelles. AGILE bascule du paradigme de reconstruction vers ce que les auteurs appellent une "génération agentique" : un Vision-Language Model (VLM) pilote un modèle génératif pour synthétiser un mesh objet complet, fermé (watertight) et texturé haute fidélité, sans dépendre du contenu vidéo occulté. Une stratégie dite "anchor-and-track" initialise la pose de l'objet sur une unique frame d'interaction via un modèle fondation, puis propage cette pose temporellement en exploitant la similarité visuelle entre l'asset généré et les frames vidéo. Une optimisation finale dite contact-aware intègre des contraintes sémantiques, géométriques et de stabilité d'interaction pour garantir la plausibilité physique. Sur les benchmarks HO3D, DexYCB et ARCTIC, AGILE surpasse les baselines en précision géométrique globale. L'intérêt industriel de cette approche réside dans la production d'assets directement exploitables en simulation, une propriété validée par les auteurs via du retargeting real-to-sim pour des applications robotiques. C'est précisément le point de friction qui freinait l'adoption des pipelines de reconstruction vidéo dans les boucles d'entraînement de politiques de manipulation : les meshes obtenus par NeRF ou reconstruction multi-vues classique nécessitaient un travail de remaillage manuel avant d'être injectables dans un moteur physique comme MuJoCo ou Isaac Sim. En contournant le SfM, AGILE devient également utilisable sur des données de terrain non contrôlées, ce qui ouvre la voie à la collecte passive de démos humaines à grande échelle, un prérequis pour les approches VLA (Vision-Language-Action) qui peinent encore à obtenir suffisamment de trajectoires dextères annotées. Le problème de la reconstruction main-objet est étudié depuis plusieurs années, avec des datasets de référence comme HO-3D (2020) et DexYCB (2021), et des méthodes basées sur les modèles paramétriques MANO pour la main. L'originalité d'AGILE est de déporter la reconstruction de l'objet vers une génération guidée, plutôt que de l'estimer directement depuis le signal vidéo dégradé. Les concurrents directs sont les méthodes NeRF-based adaptées aux scènes dynamiques (D-NeRF, HO-NeRF) et les pipelines SfM+MVS classiques, tous sensibles aux occultations. Du côté des acteurs industriels, cette direction intéresse directement les équipes travaillant sur la télé-opération et l'imitation learning pour bras robotiques dextères, notamment chez Dexterous Robotics, Physical Intelligence (Pi) ou les labos académiques proches de Figure et Apptronik. Le projet dispose d'une page dédiée (agile-hoi.github.io) ; aucun code ni dataset supplémentaire n'est annoncé à ce stade.

RecherchePaper
1 source