Aller au contenu principal
GAP : pré-entraînement par ancrage géométrique pour un apprentissage visuomoteur économe en données des tâches de manipulation
IA physiquearXiv cs.RO6sem

GAP : pré-entraînement par ancrage géométrique pour un apprentissage visuomoteur économe en données des tâches de manipulation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Des chercheurs ont publié sur arXiv (référence 2605.15836) une méthode baptisée GAP (Geometric Anchor Pre-training), conçue pour améliorer l'apprentissage visuomoteur en manipulation robotique à partir d'un très faible nombre de démonstrations d'experts. L'approche repose sur une étape de pré-entraînement légère et sans actions, qui régularise l'adaptateur spatial d'un modèle de vision pré-entraîné (Vision Foundation Model, VFM) avant la phase d'imitation proprement dite. Cette étape de préchauffage entraîne la couche de pooling à produire des points-clés géométriquement stables, ancrés sur les objets, couvrant leur étendue spatiale et reproductibles dans le temps, à partir de masques simulés disponibles sans coût d'annotation. Le VFM reste gelé tout au long du processus. Évaluée sur les benchmarks RoboMimic et ManiSkill dans des conditions de pénurie sévère de données (15 à 50 démonstrations), GAP atteint 62 % de taux de réussite sur la tâche RoboMimic Can avec seulement 15 démonstrations (soit +16 points par rapport à la méthode AFA), 63 % sur la tâche longue et haute précision Tool Hang avec 50 démonstrations, et 61 % sur ManiSkill StackCube avec 30 démonstrations (+11 points face au fine-tuning complet).

L'enjeu est considérable pour le déploiement industriel des robots manipulateurs : collecter des milliers de démonstrations humaines reste coûteux et difficile à mettre à l'échelle. GAP cible explicitement le régime peu de données (few-shot imitation learning) en corrigeant un défaut structurel des pipelines actuels. L'adaptateur spatial, censé extraire les caractéristiques pertinentes pour le contrôle depuis des représentations visuelles génériques, tend à s'accrocher à des raccourcis visuels non pertinents lorsqu'il est entraîné avec peu d'exemples, et perd son ancrage géométrique au moindre changement de scène. En forçant cet adaptateur à produire des ancres stables via une tâche proxy simulée, GAP améliore la robustesse aux perturbations de domaine, un problème bien documenté dans la littérature VLA. L'étape de pré-entraînement est entièrement découplée des tâches en aval, ce qui signifie qu'elle peut être réutilisée sans modification pour différentes compétences de manipulation, réduisant le coût marginal d'adaptation à de nouveaux environnements.

Ce travail s'inscrit dans la dynamique récente d'intégration des Vision Foundation Models (tels que DINOv2 ou SigLIP) dans les pipelines de robotique, où le gel du backbone et l'adaptation légère par pooling spatial sont devenus une pratique courante pour limiter le besoin en données. GAP se positionne directement face aux poolers à base d'attention comme AFA (Attention Feature Aggregation), qu'il surpasse sur l'ensemble des benchmarks testés, ainsi que contre le fine-tuning bout-en-bout. Point de vigilance : toutes les expériences sont conduites en simulation, et aucune validation sur hardware physique n'est reportée, ce qui laisse ouverte la question du transfert sim-to-real à grande échelle. Aucun calendrier de déploiement ni partenariat industriel n'est mentionné. Les équipes européennes travaillant sur la manipulation à faibles données, notamment autour de l'INRIA ou des laboratoires de robotique cognitive, pourraient intégrer directement cette approche plug-and-play dans leurs pipelines d'imitation existants.

Impact France/UE

Les équipes françaises et européennes travaillant sur la manipulation robotique (notamment autour de l'INRIA et des labos de robotique cognitive) pourraient intégrer directement cette approche plug-and-play dans leurs pipelines d'imitation existants pour réduire drastiquement le coût de collecte de démonstrations.

💬 Le point de vue du dev

15 démonstrations pour apprendre une tâche de manipulation, là où les pipelines classiques en réclament des milliers, c'est le chiffre qui compte. La méthode est légère, réutilisable entre tâches, et ça se branche directement sur les modèles de vision déjà en place. Tout se passe en simulation pour l'instant, et le transfert sur du vrai hardware reste la question sans réponse.

À lire aussi

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

EXPO-FT est un système de fine-tuning par apprentissage par renforcement (RL) destiné à améliorer la fiabilité des politiques robotiques issues de modèles Vision-Langage-Action (VLA) pré-entraînés. Présenté dans un preprint arXiv (2605.25477, mai 2026), le système atteint un taux de réussite parfait : 30 succès sur 30 tentatives sur trois tâches de manipulation exigeantes. Ces tâches incluent guider une guirlande lumineuse dans son connecteur pour la faire s'allumer, frapper une balle de billard dans une poche, et insérer une fleur dans un goulot de bouteille à vin. Les résultats sont obtenus avec seulement 19,1 minutes en moyenne de données collectées sur robot réel, sans recours à la simulation. Le code source est publié en open source. Ce résultat attaque directement le "reliability gap" : l'écart persistant entre les capacités de généralisation des VLA pré-entraînés et leur fiabilité effective en conditions opérationnelles. Les modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) ou RT-2 (Google DeepMind) montrent une bonne généralisation entre tâches, mais peinent à dépasser les seuils de succès nécessaires en production industrielle. EXPO-FT propose une voie médiane : ni repartir de zéro avec du RL pur, coûteux en données et instable, ni se limiter au fine-tuning supervisé qui plafonne rapidement. En moins de 20 minutes de données réelles, le système atteint la perfection sur des exercices combinant précision millimétrique, dynamique de mouvement et robustesse aux variations d'état initial. Pour un intégrateur ou un COO déployant des bras robotiques sur ligne, c'est un signal que le commissioning par RL pourrait se mesurer en minutes plutôt qu'en jours, si ces résultats se confirment hors conditions de laboratoire. Ce travail s'inscrit dans la convergence accélérée entre LLM fondationnels et contrôle robotique amorcée depuis 2023. Google DeepMind avec Gemini Robotics, Physical Intelligence avec pi-0 et Covariant ont démontré que des politiques pré-entraînées à grande échelle offrent une base solide, mais la question du "last mile" restait ouverte. EXPO-FT y répond en publiant une infrastructure de RL finetuning stable et accessible. Les concurrents directs sur ce créneau sont les approches de reinforcement finetuning développées chez 1X Technologies et dans plusieurs labos académiques américains. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'ont pas encore publié de travaux équivalents sur le RL finetuning de VLA, soulignant un écart notable avec la recherche américaine sur ce segment précis.

UEL'absence de travaux équivalents côté européen (Enchanted Tools, Wandercraft) souligne un retard compétitif de l'écosystème EU sur le RL finetuning de VLA, segment clé pour industrialiser les politiques robotiques.

💬 30 sur 30, moins de 20 minutes de données réelles, code open source. C'est exactement le type de résultat qu'on attendait pour débloquer le commissioning robotique, parce que le vrai blocage n'a jamais été la généralisation (pi-0 et RT-2 l'ont prouvé) mais la fiabilité en conditions opérationnelles, ce fameux écart qui rend les démos impressionnantes et les déploiements industriels galères. Bon, sur le papier c'est parfait, mais je veux voir ça tenir sur une ligne d'assemblage qui ne ressemble pas à un setup de labo.

IA physiqueOpinion
1 source
HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche
2arXiv cs.RO 

HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche

Une équipe de recherche a publié sur arXiv (2606.04825) HapTile, un jeu de données visuotactile destiné à l'apprentissage par imitation sur des tâches de manipulation à fort contact. Le dataset capture les interactions physiques à deux niveaux simultanément : des capteurs tactiles installés en bout d'effecteur sur les doigts du robot, et un retour haptique transmis en temps réel à l'opérateur humain lors de la télé-opération. Les tâches couvertes incluent le saisissement, le pliage de tissu, l'appui sur des boutons, l'empilement d'objets et d'autres activités courantes. Chaque séquence est associée à une instruction en langage naturel qui conditionne la politique de contrôle sur l'objectif de manipulation, avec des observations visuotactiles synchronisées et les trajectoires d'action correspondantes. Les chercheurs publient également un benchmarking avec deux modèles de base pour évaluer l'apport concret du signal tactile sur la qualité des politiques apprises. Ce travail s'attaque à un verrou bien identifié du domaine : la quasi-totalité des datasets VLA (Vision-Language-Action) existants sont purement visuels, ce qui limite les performances des politiques sur des tâches nécessitant un contrôle fin de la force ou du contact. Introduire le retour haptique côté opérateur lors de la collecte de données est particulièrement notable, les études antérieures ont montré que la qualité des démonstrations se dégrade sans ce retour, générant des trajectoires moins stables et moins reproductibles. HapTile tente de combler cette lacune en combinant dans un seul dataset la diversité des tâches, le conditionnement par le langage, les trajectoires d'action et la perception tactile, une combinaison jusqu'ici absente dans la littérature selon les auteurs. Reste à vérifier si l'amélioration mesurée sur les deux baselines se généralise à des architectures plus récentes comme Pi-0 ou OpenVLA. Ce preprint s'inscrit dans un courant de recherche actif autour de la perception multimoale pour la manipulation dextère, portée notamment par des labos comme le CMU Robotics Institute, MIT CSAIL et des groupes européens comme le LASA à l'EPFL. Du côté industriel, Apptronik, Figure et 1X investissent dans des mains instrumentées, mais les datasets publics à retour haptique restent rares. Le projet est reproductible sur un système robotique standard avec des capteurs tactiles de conception custom, ce qui peut faciliter l'adoption par d'autres équipes. Le dataset et les détails techniques sont accessibles sur haptile-dataset.github.io ; aucune timeline de publication formelle ni partenariat industriel n'est annoncé à ce stade.

UEDes groupes européens dont le LASA à l'EPFL sont cités comme acteurs du courant de recherche, mais aucune institution française ou de l'UE n'est impliquée directement dans la publication ; l'impact reste indirect via un dataset public librement réutilisable par les équipes européennes.

💬 Le truc vraiment malin ici, c'est pas le capteur tactile sur le robot, c'est le retour haptique côté opérateur pendant la collecte de démos. Ça change la qualité des trajectoires à la source, et c'est exactement ce que les autres datasets VLA n'ont jamais pris la peine de faire. Deux baselines pour le benchmark, bon, c'est un début, reste à voir si le gain tient face à Pi-0 ou OpenVLA.

IA physiqueOpinion
1 source
CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines
3arXiv cs.RO 

CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines

Des chercheurs ont soumis sur arXiv (2601.04061v2, janvier 2026) un framework appelé CLAP, pour Contrastive Latent Action Pretraining, conçu pour entraîner des modèles Vision-Language-Action (VLA) généralistes à partir de vidéos humaines non étiquetées. Le pipeline repose sur deux étapes: un module Act-VAE construit d'abord un vocabulaire d'actions exécutables à partir de trajectoires robotiques existantes, puis un apprentissage contrastif aligne les transitions visuelles extraites de vidéos humaines sur ce vocabulaire latent, pseudo-étiquetant ainsi ces vidéos sans collecte téléopérée supplémentaire. Sur cette base, CLAP-NTP est entraîné comme VLA autorégressif combinant démonstrations robotiques réelles et vidéos humaines étiquetées. Pour le déploiement, CLAP-RF ajoute une tête à flux rectifié (Rectified Flow) permettant la prédiction de chunks d'actions continus à faible latence, couplée à une régularisation dite Knowledge Matching qui préserve les connaissances sémantiques préentraînées lors du fine-tuning sur domaine cible. L'obstacle central des VLA généralistes reste la rareté des données robotiques étiquetées face à l'abondance de vidéos humaines disponibles en ligne. Les approches antérieures de type Latent Action Models tentaient d'exploiter ces vidéos mais encodaient du bruit visuel plutôt que des compétences de manipulation réelles, un problème qualifié d'enchevêtrement visuel (visual entanglement). CLAP contourne cette limitation en ancrant l'espace latent sur des trajectoires physiquement fondées via l'apprentissage contrastif, sans reconstruire l'apparence. Pour les intégrateurs industriels, la promesse concrète est de réduire le coût de collecte téléopérée, estimé à plusieurs milliers de dollars par heure, tout en améliorant la généralisation à de nouveaux objets sans démonstrations robotiques exhaustives. Les résultats expérimentaux rapportés montrent de bonnes performances face aux baselines comparatives, mais la validation externe reste à confirmer. Le domaine des VLA est en pleine effervescence depuis l'émergence de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et Helix (Figure AI), tous confrontés à la même pénurie de données étiquetées exploitables. Google DeepMind a exploré des voies similaires avec des travaux comme UniSim. CLAP se distingue en proposant une approche plus physiquement ancrée que les méthodes purement génératives ou reconstructrices. Ce preprint n'a pas encore été évalué par les pairs et n'annonce aucun déploiement en production. Les prochaines étapes naturelles seraient une validation sur un éventail plus large de plateformes robotiques ainsi qu'une comparaison systématique avec les Diffusion Policies, méthodes actuellement dominantes sur les benchmarks Open X-Embodiment.

IA physiqueActu
1 source
OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique
4arXiv cs.RO 

OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2605.15971) un cadre appelé OHP-RL (Online Human Preference as Guidance in Reinforcement Learning) pour améliorer l'apprentissage par renforcement appliqué à la manipulation robotique en conditions réelles. L'approche introduit une "preference gate" dépendante de l'état du robot, qui détermine dynamiquement quand et dans quelle mesure les interventions humaines doivent influencer l'apprentissage de la politique de contrôle. Contrairement aux méthodes existantes qui traitent ces interventions comme de simples signaux d'imitation, OHP-RL les interprète comme des expressions de préférences relatives entre comportements, intégrant des contraintes de sécurité et de tâche. Le système a été évalué sur trois tâches de manipulation en contact réel sur un robot Franka, où il obtient des taux de réussite élevés, une convergence plus rapide et un volume d'interventions humaines significativement réduit par rapport aux approches antérieures. L'enjeu est bien connu des équipes de robotique industrielle : le RL en environnement réel souffre d'une exploration inefficace et potentiellement dangereuse, ce qui freine son déploiement hors laboratoire. Les méthodes humain-dans-la-boucle existantes comme HIRL ou IWR exploitent les corrections humaines comme des démonstrations à imiter, une hypothèse qui surestime la précision et la cohérence des opérateurs réels. OHP-RL change de paradigme en traitant l'intervention non pas comme une action idéale à reproduire, mais comme un signal de préférence entre deux comportements, ce qui correspond mieux à la réalité opérationnelle. Un opérateur peu expert ou fatigué génère ainsi un signal utile, et le système tolère une supervision intermittente. Pour un intégrateur ou un responsable de production, cela signifie un coût de supervision réduit pendant l'apprentissage et un déploiement potentiellement plus rapide sur des tâches de manipulation en contact, vissage, assemblage, insertion, que les pipelines de programmation classiques peinent encore à automatiser. OHP-RL se positionne à l'intersection du RLHF (Reinforcement Learning from Human Feedback, popularisé par les LLMs) et du HiL-RL pour la robotique physique, un rapprochement conceptuel qu'explorent aussi Physical Intelligence avec pi0, Google DeepMind sur les plateformes Aloha et Franka, et plusieurs labos académiques travaillant sur les VLA (Vision-Language-Action models). L'utilisation du Franka Research 3, référence académique mondiale, facilite la comparaison directe avec ces concurrents. Le papier reste un preprint arXiv sans revue par les pairs confirmée, il convient donc de lire les résultats comme prometteurs plutôt que validés ; les prochaines étapes naturelles seraient une validation sur des bras industriels à plus fort payload et une intégration dans des pipelines de déploiement continu.

UEImpact indirect : les intégrateurs européens spécialisés en manipulation en contact (assemblage, vissage, insertion) pourraient suivre cette approche pour réduire le coût de supervision lors du déploiement de RL en production, sans lien direct avec une entreprise ou réglementation française ou européenne.

IA physiquePaper
1 source