RecherchearXiv cs.RO6sem

Filtrage hybride variationnel stable pour la récupération de modes de contact et de lois creuses

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche a publié sur arXiv (référence 2605.16398) VHYDRO, un filtre variationnel hybride conçu pour apprendre la dynamique de contact des robots manipulateurs. Le problème ciblé est précis : dans les systèmes à contact riche, une seule observation peut correspondre à plusieurs régimes latents distincts (mouvement libre, impact, stick-slip). Un filtre amortized classique qui n'affecte aucune probabilité à une transition de contact faisable perd définitivement la branche que le robot suit réellement, sans possibilité de récupération. VHYDRO empêche cette perte de branche en mélangeant la loi de proposition apprise avec une loi de transition physiquement faisable avant l'échantillonnage et la pondération d'importance, garantissant ainsi que chaque transition conservée par le support du modèle reste couverte. Le système infère conjointement un état latent continu et un mode de contact discret, puis ajuste une loi port-Hamiltonienne sparse à chaque régime récupéré. Les résultats empiriques portent sur des démonstrations ManiSkill et sur quatre familles de tâches Sawyer/BridgeData, où VHYDRO surpasse les baselines post-hoc et sans mode sur trois métriques : ARI, change-point F1 et pureté de segment.

L'enjeu pour l'industrie robotique est direct : la manipulation à contact riche, préhension, assemblage, insertion de pièces, reste l'un des points durs non résolus pour le déploiement des bras industriels apprenants. La capacité à segmenter temporellement les régimes de contact en segments cohérents est un prérequis pour toute politique de contrôle hybride robuste. Ce que prouve VHYDRO, c'est qu'un filtre défensif au sens du support peut stabiliser la reconstruction du mode discret et, de là, permettre une identification physique sparse des termes actifs dans chaque régime, là où les baselines purement prédictives échouent. Sous occlusion sévère, condition fréquente en atelier, le filtre classique s'effondre tandis que VHYDRO reste utilisable, ce qui est un argument concret pour les intégrateurs travaillant sur des cellules robotisées peu camérisées.

La formalisation port-Hamiltonienne, héritée de la mécanique classique des systèmes conservatifs avec contraintes, est ici appliquée à un contexte d'apprentissage hybride, ce qui constitue une contribution méthodologique distincte des approches neurales purement prédictives. ManiSkill et BridgeData sont des benchmarks de référence pour la manipulation robotique apprise, largement utilisés par les laboratoires de la côte Ouest américaine. Le papier est une prépublication arXiv, sans affiliation institutionnelle ni déploiement annoncé. Les concurrents directs sont les méthodes de segmentation de mode post-hoc et les filtres mode-free à apprentissage end-to-end. Les suites naturelles seraient une validation sur robots réels à contact non structuré et une intégration dans des pipelines de contrôle en boucle fermée.

Dans nos dossiers

Manipulation robotique arXiv cs.RO

À lire aussi

1arXiv cs.RO

Entraînement hybride pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié sur arXiv (identifiant 2510.00600, version 2) un framework nommé Hybrid Training (HyT), conçu pour les modèles Vision-Language-Action (VLA) utilisés en robotique de manipulation. Le problème central est le suivant : le raisonnement par chaîne de pensée (Chain-of-Thought, CoT), qui consiste à générer des "pensées" intermédiaires avant chaque action, améliore les performances des VLA mais allonge mécaniquement le temps d'inférence. Dans des tâches requérant de longues séquences d'actions successives, ce délai compromet l'utilisabilité réelle du système. HyT découple la phase d'apprentissage de la phase d'exécution : le modèle s'entraîne en intégrant les pensées intermédiaires, acquiert les gains de performance associés, puis peut les omettre entièrement lors du déploiement. Le framework supporte trois modes à l'inférence selon le contexte : prédiction directe d'actions, génération CoT complète, ou suivi d'instructions. Les auteurs ont validé l'approche sur plusieurs benchmarks simulés et sur des expériences en conditions réelles. Ce découplage entraînement/inférence répond à l'une des tensions fondamentales dans le déploiement industriel des VLA : les techniques qui améliorent la fiabilité dégradent souvent la réactivité. Pour un intégrateur ou un COO industriel, un système qui "réfléchit" trop longtemps avant d'agir est difficilement intégrable sur une ligne de production cadencée. HyT avance que les bénéfices du raisonnement explicite peuvent être distillés dans les poids du modèle et activés implicitement, sans générer de tokens supplémentaires au runtime. Si ce résultat se confirme à plus grande échelle, il simplifierait le compromis latence/performance qui freine aujourd'hui le déploiement de bras manipulateurs VLA en environnement non structuré. C'est également une réponse indirecte au "demo gap" fréquemment reproché à ces modèles : de bonnes performances en simulation ne garantissent pas une vitesse d'exécution acceptable sur le terrain. L'essor des VLA s'est accéléré depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (UC Berkeley), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), qui combinent vision, langage et prédiction d'actions dans un seul réseau. L'application du CoT à la robotique prolonge les travaux fondateurs sur les LLMs, mais se heurte aux contraintes temps-réel absentes du traitement de texte. HyT s'inscrit dans un courant de recherche orienté déployabilité, aux côtés de la distillation de politiques et des architectures à flux de tokens réduit. La publication est une preprint arXiv non peer-reviewed, et les résultats en conditions réelles restent à confirmer à plus grande échelle industrielle. Aucun acteur européen n'est impliqué dans ces travaux ; les laboratoires cités opèrent principalement depuis les États-Unis.

RechercheOpinion

1 source

2arXiv cs.RO

FAR : retentative sensible aux échecs pour la récupération en cours de test et l'amélioration continue des politiques

Les chercheurs à l'origine de ce papier arXiv (référence 2607.01111v1) présentent FAR (Failure-Aware Retry), un framework qui permet à un robot manipulateur d'apprendre de ses propres échecs directement au moment du test, sans intervention humaine, pour finir par accomplir la tâche de façon autonome. Le système combine deux mécanismes: la Failure-Contrastive Preference Adaptation, qui transforme chaque échec en donnée de préférence pour écarter la politique des comportements déjà ratés, et des perturbations d'action légères appliquées lors des tentatives suivantes pour favoriser une exploration locale ciblée autour du point d'échec. Les trajectoires de récupération qui réussissent sont ensuite réinjectées dans une boucle d'entraînement, ce qui permet une amélioration continue de la politique. Testé en simulation et sur des tâches de manipulation réelles, FAR améliore le taux de réussite de 17,6% en moyenne par rapport à une politique de diffusion standard en simulation, et de 11,7% en conditions réelles. Ce travail s'attaque à un problème concret pour l'industrie: la plupart des politiques de manipulation actuelles, notamment celles basées sur la diffusion, échouent silencieusement en réel et se contentent de répéter la même erreur lors d'un nouvel essai, faute de mécanisme pour comprendre pourquoi elles ont échoué. Les méthodes de récupération existantes s'appuient généralement sur un opérateur humain pour réinitialiser ou corriger le robot, ce qui limite le déploiement autonome à grande échelle et alourdit le coût des essais réels. En démontrant qu'un robot peut exploiter ses propres échecs comme signal d'apprentissage plutôt que comme simple bruit à ignorer, FAR va dans le sens d'une meilleure robustesse des politiques VLA et de diffusion en environnement non contrôlé, un enjeu central pour les intégrateurs qui cherchent à réduire la supervision humaine sur des lignes de manipulation. FAR s'inscrit dans la lignée des travaux récents sur les politiques de diffusion et l'apprentissage par imitation appliqués à la manipulation robotique, où la question du "reset" et du "budget de pas de temps" pendant l'entraînement continu reste un goulot d'étranglement pratique. Les auteurs montrent justement que leur méthode améliore l'efficacité des données sous ces deux contraintes de budget, en exploitant préférentiellement les cas d'échec les plus informatifs. Le papier, classé comme nouvelle soumission sur arXiv, ouvre la voie à des extensions vers d'autres familles de politiques et vers des déploiements réels prolongés, sans que des pilotes industriels concrets ne soient encore annoncés à ce stade.

RecherchePaper

1 source

3arXiv cs.RO

Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides

Une équipe de recherche a publié sur arXiv (arXiv:2512.08411v2, décembre 2025) le Prismatic World Model (PRISM-WM), une architecture de modèle du monde destinée à améliorer la planification dans les systèmes robotiques à dynamiques hybrides. Le problème central que PRISM-WM cherche à résoudre est structurel : les mouvements continus sont régulièrement interrompus par des événements discrets, contacts, impacts, transitions de phases (vol vs appui, glissement vs adhérence), qui créent des discontinuités difficiles à modéliser. Les architectures classiques à réseaux neuronaux monolithiques, comme les modèles latents de type RSSM ou DreamerV3, imposent une continuité globale qui lisse ces transitions et génère des erreurs cumulatives lors des simulations à long horizon (rollouts), rendant la planification peu fiable aux frontières physiques. PRISM-WM y répond par un cadre Mixture-of-Experts (MoE) contextuel : un mécanisme de gating identifie implicitement le mode physique courant, et des experts spécialisés prédisent la dynamique de transition associée. Une contrainte d'orthogonalisation latente force la diversité des experts, prévenant l'effondrement de modes. Les expériences portent sur des benchmarks de contrôle continu incluant des humanoïdes haute dimension et des configurations multi-tâches, couplés à l'algorithme d'optimisation de trajectoires TD-MPC. Les résultats montrent que PRISM-WM réduit le drift en simulation lors des rollouts étendus, offrant un substrat de haute fidélité pour les algorithmes d'optimisation de trajectoires. Pour les équipes de contrôle en robotique humanoïde, cela adresse directement le gap simulation-réalité lié à la gestion des contacts, une limitation structurelle des approches model-based existantes. La décomposition en primitives composables ouvre aussi une piste vers des architectures plus interprétables, un enjeu concret pour les déploiements industriels où la robustesse aux variations de terrain ou de tâche est critique. PRISM-WM s'inscrit dans la dynamique des world models pour la robotique, domaine en forte progression depuis les travaux de Hafner et al. sur DreamerV3 et les avancées de TD-MPC sur des tâches de locomotion complexe. L'approche MoE transposée à la dynamique physique rejoint des tendances observées dans les grands modèles de langage (Mixtral, GPT-4). Il n'est pas associé à une entreprise commerciale identifiée ; il s'agit d'une contribution académique pure, sans pilote industriel annoncé. La prochaine étape logique serait une validation sur hardware réel, notamment sur des plateformes humanoïdes où la gestion des contacts reste un verrou technique central de la sim-to-real transfer.

RecherchePaper

1 source

4arXiv cs.RO

VT-WAM : modèle du monde et action visuo-tactile pour la manipulation à contacts riches

Des chercheurs présentent VT-WAM, un modèle de manipulation robotique combinant vision et toucher, décrit dans un article déposé sur arXiv (2607.02503v1) et accompagné d'un site dédié (vt-wam.github.io). Le système, un "Visual-Tactile World Action Model", apprend simultanément trois choses dans un même cadre de flow matching : prédire les images visuelles futures, prédire la déformation tactile future, et prédire l'action à exécuter. Deux mécanismes techniques soutiennent cette approche : une attention "Asymmetric Mixture-of-Transformers" (MoT) qui relie une première image de référence à la dynamique tactile dans le temps, et un module nommé AVTAG (Action-Visual-Tactile Attention Guidance) qui force le modèle à s'appuyer davantage sur le signal tactile pendant les phases de contact. Sur six tâches de manipulation en conditions réelles impliquant un contact physique important, VT-WAM atteint un taux de réussite moyen de 71,67%, contre des scores inférieurs de 26,67 points pour Fast-WAM et de 35,84 points pour OmniVTLA, deux modèles de référence utilisés en comparaison. L'enjeu dépasse la simple performance chiffrée : les politiques visuo-tactiles existantes se contentent généralement d'injecter le signal tactile brut dans la prédiction d'action, sans modéliser comment cette déformation évolue dans le temps. Or c'est précisément sur les tâches à fort contact (insertion, préhension d'objets déformables, gestion du glissement) que les modèles purement visuels ou de type VLA (vision-language-action) échouent le plus souvent, malgré des démonstrations impressionnantes en environnement contrôlé. Pour les intégrateurs industriels qui cherchent à automatiser des opérations d'assemblage fin, ce travail illustre une piste concrète pour combler l'écart entre démonstration et fiabilité réelle. Le papier s'inscrit dans la lignée des "world models" appliqués à la robotique, dont Fast-WAM constitue un prédécesseur direct servant de base de comparaison, aux côtés de familles de modèles VLA comme OmniVTLA. Il s'agit toutefois d'une publication académique, sans acteur industriel identifié ni date de déploiement annoncée : les résultats restent circonscrits à six tâches de laboratoire, et les auteurs eux-mêmes soulignent via leurs ablations que la modélisation de la dynamique tactile reste un problème ouvert plutôt qu'une solution définitivement close.

RecherchePaper

1 source