Aller au contenu principal
FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques
IA physiquearXiv cs.RO2j

FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Des chercheurs ont publié en juin 2026 sur arXiv (2606.12406) deux méthodes complémentaires pour doter les bras robotiques low-cost d'une sensibilité à l'effort sans capteur de force dédié. NEXT (Neural External Torque Estimation) estime les couples externes appliqués aux articulations à partir de données de mouvement libre uniquement : dix minutes de collecte suffisent pour un entraînement d'une minute, avec des performances comparables à celles de capteurs de couples articulaires dédiés. FIRST (Force-Informed Re-Sampling Training) exploite ces estimations pendant le behavior cloning en sur-échantillonnant les phases précédant le contact et les phases de contact elles-mêmes. Sur cinq tâches à horizon long impliquant des manipulations contacts-riches, FIRST dépasse les politiques force-aware antérieures de plus de 17% en progression de tâche. Code et vidéos sont disponibles à jasonjzliu.com/factr2.

L'impact principal concerne les intégrateurs opérant sur des bras collaboratifs sans instrumentation force-couple : UR, Franka, Kinova ou Dobot ne sont pas livrés avec des capteurs six axes, dont le coût unitaire dépasse fréquemment 5 000 euros. En éliminant ce prérequis matériel, NEXT rend la télé-opération à retour d'effort et l'apprentissage par démonstration accessibles sur flottilles existantes sans modification mécanique. Le gain de 17% sur des tâches longues comme l'insertion ou l'assemblage est non trivial, même si ces benchmarks en laboratoire restent à valider en conditions industrielles. Ce que cette contribution établit : la perception d'effort peut être inférée par voie logicielle, sans modifier la mécanique du robot.

La publication s'inscrit dans la continuité de FACTR (arXiv:2502.02022, 2025, même groupe), qui explorait déjà l'apprentissage de politiques contacts-riches par télé-opération avec retour de force. Le paysage concurrentiel inclut les approches à capteurs tactiles (DIGIT de Meta, GelSight du MIT), les estimateurs de couple par résidus de dynamique utilisés à DLR et Fraunhofer, et les travaux sur la perception haptique chez Physical Intelligence et Figure AI. Les prochaines étapes naturelles seront la validation sur hardware industriel certifié et l'intégration dans des pipelines VLA (Vision-Language-Action), où la perception d'effort reste une lacune connue des politiques déployées à grande échelle.

Impact France/UE

Les laboratoires européens (DLR, Fraunhofer) et intégrateurs utilisant des bras Franka Emika (fabricant allemand) peuvent évaluer NEXT/FIRST sur leurs flottes existantes sans investissement matériel supplémentaire, abaissant le coût d'accès à l'apprentissage contacts-riches.

💬 Le point de vue du dev

Dix minutes de collecte de données pour remplacer un capteur à 5 000€, c'est là que ça devient vraiment intéressant. Les intégrateurs qui tournent sur du Franka ou du UR sans instrumentation force-couple vont pouvoir tester ça sur leurs flottes sans toucher à la mécanique, et le +17% sur des tâches longues comme l'insertion c'est pas du bruit. Reste à voir si ça tient hors conditions de labo, mais la direction est la bonne.

À lire aussi

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot
1arXiv cs.RO 

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Des chercheurs du RAI Institute publient sur arXiv (2605.05172, mai 2026) Q2RL, un algorithme d'apprentissage offline-to-online conçu pour améliorer automatiquement des politiques de contrôle robotique après une phase d'imitation. La méthode repose sur deux composants distincts : Q-Estimation, qui extrait une Q-function à partir d'une politique de Behavior Cloning (BC) en quelques étapes d'interaction avec l'environnement, et Q-Gating, qui alterne dynamiquement entre les actions BC et les actions RL en comparant leurs Q-values respectives pour guider la collecte de données d'entraînement. Sur les benchmarks standards D4RL et robomimic, Q2RL surpasse les meilleures baselines offline-to-online existantes en taux de succès et en vitesse de convergence. Appliqué directement sur robot réel, il apprend des politiques robustes pour des tâches de manipulation à contact riche et haute précision, assemblage de tuyaux et kitting industriel, en 1 à 2 heures d'interaction, avec des taux de succès atteignant 100 % et un gain jusqu'à 3,75x par rapport à la politique BC initiale. L'enjeu pratique est significatif : le BC reste la méthode dominante pour apprendre à partir de démonstrations humaines, notamment dans les architectures VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence, mais il souffre d'une limite structurelle, il ne s'améliore pas seul une fois déployé. Les approches offline-to-online existantes se heurtent à un problème de distribution mismatch : en passant à l'apprentissage en ligne, le RL tend à écraser les bonnes actions apprises hors ligne. Q2RL adresse ce problème directement via le Q-Gating, qui agit comme un filtre de qualité empêchant la dégradation de la politique. Un délai de convergence de 1 à 2 heures sur robot physique est une performance notable pour des tâches à contact, où la variabilité mécanique rend le sim-to-real particulièrement difficile. Le contexte est celui d'une course intense à l'autonomie post-démonstration. Physical Intelligence (Pi-0), Figure AI, Apptronik et d'autres misent massivement sur le fine-tuning en ligne pour réduire le gap démo-to-deployment. Q2RL s'inscrit dans cette dynamique mais en ciblant l'efficacité computationnelle : l'algorithme est conçu pour tourner sans infrastructure cloud lourde, directement sur le contrôleur embarqué. Le RAI Institute, relativement discret sur la scène robotique, positionne ici une contribution technique solide sur un verrou bien identifié. Le code et les vidéos sont disponibles publiquement, ce qui facilite la reproductibilité et l'éventuelle intégration dans des pipelines industriels existants.

IA physiquePaper
1 source
UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes
2arXiv cs.RO 

UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes

Une équipe de chercheurs propose UniJEPA (arXiv:2510.10642, troisième révision), un framework de politique robotique généraliste pré-entraîné sur plus d'un million de vidéos de manipulation instruite issues d'internet, puis affiné sur des données collectées directement sur le robot cible. L'architecture repose sur une approche JEPA (Joint Embedding Predictive Architecture) étendue pour modéliser des représentations visuelles continues de haute dimension. Les résultats expérimentaux annoncent un gain de 9 % en environnements de simulation et de 12 % sur des tâches réelles hors-distribution par rapport aux méthodes de référence actuelles. Il s'agit d'un preprint de recherche, pas d'un déploiement industriel. L'enjeu central est un angle mort persistant dans les politiques VLA (Vision-Language-Action) : elles s'appuient soit sur des VLM (modèles de langage visuels, forts en compréhension sémantique) soit sur des modèles génératifs (forts en modélisation de dynamiques visuelles), rarement les deux simultanément. Pour un intégrateur ou un COO industriel, cela se traduit par des politiques qui peinent à s'adapter à un nouvel atelier, un nouvel éclairage ou de nouvelles pièces sans re-collecte de données coûteuse. Le gain de 12 % sur les tâches hors-distribution est précisément la métrique critique ici : elle mesure la capacité de généralisation sans données supplémentaires, le graal opérationnel pour tout déploiement multi-site. UniJEPA répond en apprenant des représentations prédictives continues des futurs états visuels, converties ensuite en tokens d'action, validant l'applicabilité des architectures JEPA, originellement développées par Yann LeCun et son équipe chez Meta AI (I-JEPA, V-JEPA), au domaine de la politique robotique. Ce travail s'inscrit dans un paysage VLA très actif : Pi-0 de Physical Intelligence (combinant diffusion et VLM), OpenVLA, Octo et les modèles RT-X de Google DeepMind constituent les concurrents directs les plus cités. UniJEPA se distingue par son ancrage dans les architectures unifiées compréhension-génération, un territoire également exploré par des modèles comme Janus de DeepSeek. Publié en version 3 sur arXiv, le papier n'a pas encore passé la révision par les pairs d'une conférence de référence (ICRA, CoRL, RSS), ce qui invite à une lecture prudente des chiffres annoncés, dont le contexte exact des benchmarks n'est pas détaillé dans le résumé. Les prochaines étapes naturelles seraient une validation sur des embodiments commerciaux et un benchmark élargi au-delà des simulateurs utilisés dans les expériences actuelles.

IA physiqueOpinion
1 source
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
3arXiv cs.RO 

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Au-delà des résidus d'action : guidage de politique robotique en conditions réelles par apprentissage par renforcement sur espace latent contraint
4arXiv cs.RO 

Au-delà des résidus d'action : guidage de politique robotique en conditions réelles par apprentissage par renforcement sur espace latent contraint

Des chercheurs proposent ZPRL (Z-Perturbation Reinforcement Learning), une méthode d'adaptation en ligne de politiques robotiques pré-entraînées par imitation, évaluée sur huit tâches en simulation et quatre tâches en conditions réelles. Plutôt que de corriger directement les actions produites par le réseau, ZPRL introduit un module variationnel de goulot d'étranglement (Variational Information Bottleneck, VIB) qui extrait, lors de la phase d'entraînement hors ligne, une représentation latente compacte et orientée tâche à partir des embeddings d'observation. En ligne, la politique de base reste gelée : seul un résidu de perturbation dans cet espace latent est appris par apprentissage par renforcement, et ce résidu conditionne ensuite le générateur d'actions. Sur les quatre tâches de manipulation réelle testées, la méthode améliore le taux de succès moyen de 33,7 % par rapport aux politiques d'imitation de base, tout en produisant une exploration sensiblement plus fluide que les approches par résidus dans l'espace d'action. Ce résultat adresse un problème concret et documenté du déploiement robotique : les politiques entraînées par imitation comportementale (IL) souffrent d'une couverture de données limitée et d'un écart entre les conditions d'entraînement et celles du déploiement réel. L'ajustement fin par RL post-entraînement est une voie connue, mais les méthodes existantes qui opèrent directement dans l'espace d'action génèrent une exploration bruitée et structurellement pauvre, ce qui ralentit la convergence. ZPRL démontre qu'une interface latente compacte et alignée sur la tâche offre un point d'entrée plus efficace pour le RL, au prix d'une modification architecturale légère (le module VIB est dit "plug-and-play"). Pour les intégrateurs, cela ouvre la possibilité de personnaliser des politiques généralistes sur des cellules spécifiques sans reprendre un entraînement complet. La méthode s'inscrit dans un courant actif de recherche sur l'adaptation post-déploiement des politiques de manipulation, aux côtés des approches de type residual policy learning et des fine-tunings RL sur architectures de type diffusion ou flow-matching. ZPRL est précisément instancié sur des politiques à flow-matching, une architecture en vogue depuis les travaux de Pi0 (Physical Intelligence) et des frameworks comme RoboMimic. Les auteurs, dont les affiliations ne sont pas précisées dans l'abstract, ont publié une page projet avec vidéos de démonstration. Les résultats restent à confirmer à plus grande échelle et sur des manipulateurs plus variés, les quatre tâches réelles constituant une validation encore limitée.

IA physiqueOpinion
1 source