Aller au contenu principal
Apprentissage d'une politique visuelle par simulation pour l'insertion de cheville dans des trous inconnus en conditions réelles
IA physiquearXiv cs.RO20h

Apprentissage d'une politique visuelle par simulation pour l'insertion de cheville dans des trous inconnus en conditions réelles

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs proposent sur arXiv (2205.04297) un système d'insertion visuelle peg-in-hole capable de s'adapter à des formes de trous inconnues au déploiement, après entraînement exclusivement en simulation. L'architecture combine trois modules en cascade : un réseau de segmentation (SN), un réseau de capteur virtuel (VSN) qui estime la pose de la pièce cible, et un réseau de contrôle (CN) qui pilote l'insertion. Le VSN et le CN sont entraînés une seule fois en simulation sur un ensemble de formes génériques ; seul le SN est affiné lors du passage au monde réel, via quelques centaines d'échantillons collectés en moins d'une minute de démonstration humaine. Appliqué à la recharge automatique de véhicule électrique, le système atteint un taux de réussite de 10/10 en 2 à 3 secondes, validé en configurations eye-to-hand et eye-in-hand.

Le principal apport est de réduire drastiquement le coût du transfert sim-to-real pour des tâches de manipulation de précision. Les approches classiques exigent soit une large collecte de données réelles, soit une modélisation CAO de chaque référence cible, deux contraintes rédhibitoires sur les lignes d'assemblage à forte variabilité de références. En découplant la perception de la politique générique, les auteurs montrent qu'il suffit d'adapter un seul module léger par nouvelle forme, ce qui ouvre la voie à des systèmes vision-pour-assemblage déployables sans ingénierie lourde par référence. Le résultat sur la recharge EV reste à nuancer : 10 essais constituent un échantillon statistiquement limité, et les conditions de test (tolérance mécanique, variabilité d'éclairage) ne sont pas précisées.

La tâche peg-in-hole est un benchmark classique de la robotique d'assemblage, longtemps dominé par le contrôle en force et la modélisation géométrique. Ce travail s'inscrit dans la vague des politiques visuelles généralisables entraînées en sim, portée notamment par les approches VLA de Physical Intelligence (Pi-0) et les travaux de meta-learning de Chelsea Finn. L'application à la recharge de véhicule électrique est stratégiquement opportune : plusieurs constructeurs européens cherchent à automatiser cette opération sans infrastructure dédiée côté borne. Les suites naturelles attendues sont une validation sur un spectre plus large de tolérances dimensionnelles, des conditions d'éclairage industriel variées, et une comparaison formelle avec les méthodes hybrides force-vision existantes.

Impact France/UE

La méthode de transfert sim-to-real modulaire pourrait intéresser les constructeurs automobiles européens qui cherchent à automatiser la recharge de véhicules électriques sans infrastructure dédiée côté borne.

À lire aussi

Au-delà des résidus d'action : guidage de politique robotique en conditions réelles par apprentissage par renforcement sur espace latent contraint
1arXiv cs.RO 

Au-delà des résidus d'action : guidage de politique robotique en conditions réelles par apprentissage par renforcement sur espace latent contraint

Des chercheurs proposent ZPRL (Z-Perturbation Reinforcement Learning), une méthode d'adaptation en ligne de politiques robotiques pré-entraînées par imitation, évaluée sur huit tâches en simulation et quatre tâches en conditions réelles. Plutôt que de corriger directement les actions produites par le réseau, ZPRL introduit un module variationnel de goulot d'étranglement (Variational Information Bottleneck, VIB) qui extrait, lors de la phase d'entraînement hors ligne, une représentation latente compacte et orientée tâche à partir des embeddings d'observation. En ligne, la politique de base reste gelée : seul un résidu de perturbation dans cet espace latent est appris par apprentissage par renforcement, et ce résidu conditionne ensuite le générateur d'actions. Sur les quatre tâches de manipulation réelle testées, la méthode améliore le taux de succès moyen de 33,7 % par rapport aux politiques d'imitation de base, tout en produisant une exploration sensiblement plus fluide que les approches par résidus dans l'espace d'action. Ce résultat adresse un problème concret et documenté du déploiement robotique : les politiques entraînées par imitation comportementale (IL) souffrent d'une couverture de données limitée et d'un écart entre les conditions d'entraînement et celles du déploiement réel. L'ajustement fin par RL post-entraînement est une voie connue, mais les méthodes existantes qui opèrent directement dans l'espace d'action génèrent une exploration bruitée et structurellement pauvre, ce qui ralentit la convergence. ZPRL démontre qu'une interface latente compacte et alignée sur la tâche offre un point d'entrée plus efficace pour le RL, au prix d'une modification architecturale légère (le module VIB est dit "plug-and-play"). Pour les intégrateurs, cela ouvre la possibilité de personnaliser des politiques généralistes sur des cellules spécifiques sans reprendre un entraînement complet. La méthode s'inscrit dans un courant actif de recherche sur l'adaptation post-déploiement des politiques de manipulation, aux côtés des approches de type residual policy learning et des fine-tunings RL sur architectures de type diffusion ou flow-matching. ZPRL est précisément instancié sur des politiques à flow-matching, une architecture en vogue depuis les travaux de Pi0 (Physical Intelligence) et des frameworks comme RoboMimic. Les auteurs, dont les affiliations ne sont pas précisées dans l'abstract, ont publié une page projet avec vidéos de démonstration. Les résultats restent à confirmer à plus grande échelle et sur des manipulateurs plus variés, les quatre tâches réelles constituant une validation encore limitée.

IA physiqueOpinion
1 source
VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique
2arXiv cs.RO 

VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique

Une équipe de chercheurs propose VER (Vision Expert Transformer), une architecture visuelle publiée sur arXiv sous l'identifiant 2510.05213 (version révisée), dédiée à l'apprentissage de politiques robotiques. Le principe central repose sur une phase de préentraînement durant laquelle plusieurs modèles fondamentaux de vision (VFMs) sont distillés dans une bibliothèque d'experts visuels unifiée. Une fois cette bibliothèque constituée, seul un réseau de routage léger, représentant moins de 0,4 % des paramètres totaux, est ajusté pour chaque tâche aval, sélectionnant dynamiquement les experts pertinents selon la nature de la manipulation à effectuer. L'architecture introduit également une méthode de routage par patch baptisée "Patchwise Expert Routing with Curriculum Top-K Annealing", qui affine progressivement la granularité de la sélection d'experts au fil de l'entraînement. Évalué sur 17 tâches robotiques variées combinées à plusieurs têtes de politique, VER atteint des performances état de l'art sur l'ensemble des benchmarks testés. L'intérêt de cette approche pour les intégrateurs et les chercheurs en robotique tient à deux apports distincts. Les VFMs individuels sont par nature spécialisés : chacun excelle dans un domaine précis (sémantique visuelle, géométrie, correspondance de textures) mais échoue à généraliser sur la diversité des tâches de manipulation. La distillation multi-modèles avec routage dynamique permet d'exploiter des représentations complémentaires sans repartir d'un entraînement complet, réduisant considérablement les coûts de calcul lors de l'adaptation à un nouveau domaine. Par ailleurs, les visualisations produites montrent que VER concentre ses activations sur les régions critiques de la scène, comme l'objet manipulé ou le point de saisie, tout en supprimant les activations parasites en arrière-plan, un problème connu qui dégrade la robustesse des politiques visuelles dans des environnements industriels encombrés. Ce travail s'inscrit dans la dynamique récente d'intégration des modèles fondamentaux dans les pipelines de contrôle robotique, aux côtés d'architectures comme Octo, OpenVLA ou pi-0 de Physical Intelligence, toutes confrontées au gap entre préentraînement généraliste et déploiement sur robot physique. Les approches concurrentes de type VLA (Vision-Language-Action) partagent cet objectif de réduction du coût d'adaptation domaine-vers-robot, mais impliquent généralement un réentraînement bien plus lourd. VER se distingue par la fraction infime de paramètres ajustés lors du fine-tuning, ce qui le rend potentiellement compatible avec des contraintes matérielles embarquées. Les codes et visualisations sont accessibles sur la page projet des auteurs. À ce stade, il s'agit d'un résultat académique pur : aucun partenariat industriel ni calendrier de déploiement commercial n'est mentionné.

💬 0,4 % des paramètres à ajuster pour adapter le modèle à une nouvelle tâche robotique, c'est le chiffre qui change tout dans cette approche. Là où les VLA classiques comme OpenVLA ou pi-0 demandent un réentraînement costaud, VER distille plusieurs modèles de vision en amont et laisse un routage minuscule faire le tri à l'inférence, ce qui rend l'adaptation embarquée enfin envisageable sans cluster de GPUs. Résultat académique pur pour l'instant, mais ce type de travail finit généralement en prod 18 mois plus tard.

IA physiqueActu
1 source
Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact
3arXiv cs.RO 

Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact

Des chercheurs ont publié sur arXiv (2602.22088v2) "Force Policy", une architecture de contrôle pour la manipulation robotique en contact prolongé. L'approche repose sur une séparation architecturale nette entre deux régimes d'action : un module global guidé par la vision qui pilote les mouvements en espace libre, et un module local haute fréquence qui prend le relais dès qu'un contact est établi, en exploitant le retour d'effort pour exécuter un contrôle hybride force-position. Le coeur du système est ce que les auteurs appellent un "interaction frame" : un repère local instantané, récupéré automatiquement à partir de démonstrations humaines, qui découple la régulation de force de l'exécution du mouvement. Les expériences en conditions réelles couvrent plusieurs tâches à contact riche (assemblage, insertion, vissage) et démontrent des gains mesurables en stabilité de contact, précision de régulation de force et généralisation à des objets aux géométries et propriétés physiques variées. L'enjeu industriel est direct : la manipulation en contact riche reste le principal goulot d'étranglement des robots de production et d'assemblage. Les politiques d'apprentissage actuelles, qu'il s'agisse de Diffusion Policy, d'ACT ou des approches VLA, sont conçues pour l'espace libre et degradent significativement dès qu'un outil touche une pièce. En injectant le retour d'effort dans une boucle locale haute fréquence distincte de la boucle visuelle, Force Policy adresse structurellement ce découplage plutôt que de le noyer dans un réseau monolithique. La capacité à estimer le repère d'interaction à partir de démonstrations, sans hypothèse sur la structure de la tâche, réduit l'ingénierie manuelle nécessaire au déploiement. Ce travail s'inscrit dans une ligne de recherche active sur le contrôle hybride appris, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur le compliance learning chez CMU et Stanford. Il reste à ce stade une démonstration académique, sans déploiement industriel annoncé ni partenariat constructeur mentionné. L'étape suivante naturelle serait une validation sur des cellules d'assemblage réelles, avec des volumes de cycle et des tolérances conformes aux standards industriels. Le code et les démonstrations vidéo sont disponibles sur force-policy.github.io.

IA physiquePaper
1 source
Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne
4arXiv cs.RO 

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Une équipe de chercheurs publie sur arXiv (réf. 2604.03540, version 3) un cadre en deux étapes baptisé Drift-Based Policy Optimization (DBPO), conçu pour ramener les politiques génératives de manipulation robotique à une seule passe de réseau au moment de l'inférence. La première brique, la Drift-Based Policy (DBP), exploite des objectifs de "fixed-point drifting" pour internaliser le raffinement itératif directement dans les paramètres du modèle pendant l'entraînement, supprimant ainsi le besoin de débruitage multi-étapes à l'exécution. La seconde brique, DBPO, greffe sur ce backbone une interface stochastique compatible avec le renforcement en ligne, autorisant des mises à jour on-policy stables sans sacrifier la propriété de déploiement en une étape. Sur un robot bi-bras réel, le système atteint 105,2 Hz en boucle fermée, soit une fréquence comparable aux contrôleurs industriels classiques. Sur les benchmarks de manipulation, DBP égale ou dépasse les politiques de diffusion multi-étapes tout en réduisant le coût d'inférence jusqu'à un facteur 100 en nombre d'évaluations réseau (NFEs). Ce résultat touche directement l'un des verrous les plus concrets du déploiement de politiques diffusion en robotique : le coût computationnel à l'inférence. Les politiques de diffusion actuelles (Diffusion Policy, Chi et al., 2023) nécessitent typiquement 10 à 100 NFEs par action, ce qui les rend incompatibles avec du contrôle haute fréquence sans accélérateur dédié. Transférer ce coût vers l'entraînement plutôt que l'inférence change le profil économique du déploiement : un robot en production n'a plus besoin de GPU haut de gamme pour tourner en temps réel. Par ailleurs, coupler une politique one-step avec du renforcement en ligne ouvre la voie à une adaptation continue post-déploiement, hypothèse clé pour les environnements industriels non-structurés. Les politiques de diffusion pour la manipulation ont émergé comme référence de facto depuis 2022-2023, portées par des travaux comme Diffusion Policy ou les architectures VLA de Physical Intelligence (pi0) et d'autres. La course à réduire leur latence a produit plusieurs approches concurrentes : distillation de consistance (Consistency Policy), flow matching en une étape (comme dans certaines variantes de pi0-fast), ou encore les politiques à action chunking. DBPO s'inscrit dans cette compétition avec une approche qui revendique de préserver la modélisation multimodale tout en atteignant la vitesse des méthodes one-shot. Les prochaines étapes naturelles seraient un test à plus grande échelle de tâches et de morphologies robotiques, ainsi qu'une validation sur des plateformes humanoïdes telles que celles de Figure AI ou 1X Technologies, pour lesquelles la fréquence de contrôle est un critère de sécurité, pas seulement de performance.

UELes équipes de recherche et industriels européens en robotique manipulatrice pourraient réduire leurs besoins en accélérateurs GPU à l'inférence en adoptant cette approche, mais aucun acteur français ou européen n'est directement impliqué.

IA physiquePaper
1 source