Aller au contenu principal
Filtrage hybride variationnel stable pour la récupération de modes de contact et de lois creuses
RecherchearXiv cs.RO1j

Filtrage hybride variationnel stable pour la récupération de modes de contact et de lois creuses

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié sur arXiv (référence 2605.16398) VHYDRO, un filtre variationnel hybride conçu pour apprendre la dynamique de contact des robots manipulateurs. Le problème ciblé est précis : dans les systèmes à contact riche, une seule observation peut correspondre à plusieurs régimes latents distincts (mouvement libre, impact, stick-slip). Un filtre amortized classique qui n'affecte aucune probabilité à une transition de contact faisable perd définitivement la branche que le robot suit réellement, sans possibilité de récupération. VHYDRO empêche cette perte de branche en mélangeant la loi de proposition apprise avec une loi de transition physiquement faisable avant l'échantillonnage et la pondération d'importance, garantissant ainsi que chaque transition conservée par le support du modèle reste couverte. Le système infère conjointement un état latent continu et un mode de contact discret, puis ajuste une loi port-Hamiltonienne sparse à chaque régime récupéré. Les résultats empiriques portent sur des démonstrations ManiSkill et sur quatre familles de tâches Sawyer/BridgeData, où VHYDRO surpasse les baselines post-hoc et sans mode sur trois métriques : ARI, change-point F1 et pureté de segment.

L'enjeu pour l'industrie robotique est direct : la manipulation à contact riche, préhension, assemblage, insertion de pièces, reste l'un des points durs non résolus pour le déploiement des bras industriels apprenants. La capacité à segmenter temporellement les régimes de contact en segments cohérents est un prérequis pour toute politique de contrôle hybride robuste. Ce que prouve VHYDRO, c'est qu'un filtre défensif au sens du support peut stabiliser la reconstruction du mode discret et, de là, permettre une identification physique sparse des termes actifs dans chaque régime, là où les baselines purement prédictives échouent. Sous occlusion sévère, condition fréquente en atelier, le filtre classique s'effondre tandis que VHYDRO reste utilisable, ce qui est un argument concret pour les intégrateurs travaillant sur des cellules robotisées peu camérisées.

La formalisation port-Hamiltonienne, héritée de la mécanique classique des systèmes conservatifs avec contraintes, est ici appliquée à un contexte d'apprentissage hybride, ce qui constitue une contribution méthodologique distincte des approches neurales purement prédictives. ManiSkill et BridgeData sont des benchmarks de référence pour la manipulation robotique apprise, largement utilisés par les laboratoires de la côte Ouest américaine. Le papier est une prépublication arXiv, sans affiliation institutionnelle ni déploiement annoncé. Les concurrents directs sont les méthodes de segmentation de mode post-hoc et les filtres mode-free à apprentissage end-to-end. Les suites naturelles seraient une validation sur robots réels à contact non structuré et une intégration dans des pipelines de contrôle en boucle fermée.

À lire aussi

Entraînement hybride pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

Entraînement hybride pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié sur arXiv (identifiant 2510.00600, version 2) un framework nommé Hybrid Training (HyT), conçu pour les modèles Vision-Language-Action (VLA) utilisés en robotique de manipulation. Le problème central est le suivant : le raisonnement par chaîne de pensée (Chain-of-Thought, CoT), qui consiste à générer des "pensées" intermédiaires avant chaque action, améliore les performances des VLA mais allonge mécaniquement le temps d'inférence. Dans des tâches requérant de longues séquences d'actions successives, ce délai compromet l'utilisabilité réelle du système. HyT découple la phase d'apprentissage de la phase d'exécution : le modèle s'entraîne en intégrant les pensées intermédiaires, acquiert les gains de performance associés, puis peut les omettre entièrement lors du déploiement. Le framework supporte trois modes à l'inférence selon le contexte : prédiction directe d'actions, génération CoT complète, ou suivi d'instructions. Les auteurs ont validé l'approche sur plusieurs benchmarks simulés et sur des expériences en conditions réelles. Ce découplage entraînement/inférence répond à l'une des tensions fondamentales dans le déploiement industriel des VLA : les techniques qui améliorent la fiabilité dégradent souvent la réactivité. Pour un intégrateur ou un COO industriel, un système qui "réfléchit" trop longtemps avant d'agir est difficilement intégrable sur une ligne de production cadencée. HyT avance que les bénéfices du raisonnement explicite peuvent être distillés dans les poids du modèle et activés implicitement, sans générer de tokens supplémentaires au runtime. Si ce résultat se confirme à plus grande échelle, il simplifierait le compromis latence/performance qui freine aujourd'hui le déploiement de bras manipulateurs VLA en environnement non structuré. C'est également une réponse indirecte au "demo gap" fréquemment reproché à ces modèles : de bonnes performances en simulation ne garantissent pas une vitesse d'exécution acceptable sur le terrain. L'essor des VLA s'est accéléré depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (UC Berkeley), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), qui combinent vision, langage et prédiction d'actions dans un seul réseau. L'application du CoT à la robotique prolonge les travaux fondateurs sur les LLMs, mais se heurte aux contraintes temps-réel absentes du traitement de texte. HyT s'inscrit dans un courant de recherche orienté déployabilité, aux côtés de la distillation de politiques et des architectures à flux de tokens réduit. La publication est une preprint arXiv non peer-reviewed, et les résultats en conditions réelles restent à confirmer à plus grande échelle industrielle. Aucun acteur européen n'est impliqué dans ces travaux ; les laboratoires cités opèrent principalement depuis les États-Unis.

RechercheOpinion
1 source
Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides
2arXiv cs.RO 

Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides

Une équipe de recherche a publié sur arXiv (arXiv:2512.08411v2, décembre 2025) le Prismatic World Model (PRISM-WM), une architecture de modèle du monde destinée à améliorer la planification dans les systèmes robotiques à dynamiques hybrides. Le problème central que PRISM-WM cherche à résoudre est structurel : les mouvements continus sont régulièrement interrompus par des événements discrets, contacts, impacts, transitions de phases (vol vs appui, glissement vs adhérence), qui créent des discontinuités difficiles à modéliser. Les architectures classiques à réseaux neuronaux monolithiques, comme les modèles latents de type RSSM ou DreamerV3, imposent une continuité globale qui lisse ces transitions et génère des erreurs cumulatives lors des simulations à long horizon (rollouts), rendant la planification peu fiable aux frontières physiques. PRISM-WM y répond par un cadre Mixture-of-Experts (MoE) contextuel : un mécanisme de gating identifie implicitement le mode physique courant, et des experts spécialisés prédisent la dynamique de transition associée. Une contrainte d'orthogonalisation latente force la diversité des experts, prévenant l'effondrement de modes. Les expériences portent sur des benchmarks de contrôle continu incluant des humanoïdes haute dimension et des configurations multi-tâches, couplés à l'algorithme d'optimisation de trajectoires TD-MPC. Les résultats montrent que PRISM-WM réduit le drift en simulation lors des rollouts étendus, offrant un substrat de haute fidélité pour les algorithmes d'optimisation de trajectoires. Pour les équipes de contrôle en robotique humanoïde, cela adresse directement le gap simulation-réalité lié à la gestion des contacts, une limitation structurelle des approches model-based existantes. La décomposition en primitives composables ouvre aussi une piste vers des architectures plus interprétables, un enjeu concret pour les déploiements industriels où la robustesse aux variations de terrain ou de tâche est critique. PRISM-WM s'inscrit dans la dynamique des world models pour la robotique, domaine en forte progression depuis les travaux de Hafner et al. sur DreamerV3 et les avancées de TD-MPC sur des tâches de locomotion complexe. L'approche MoE transposée à la dynamique physique rejoint des tendances observées dans les grands modèles de langage (Mixtral, GPT-4). Il n'est pas associé à une entreprise commerciale identifiée ; il s'agit d'une contribution académique pure, sans pilote industriel annoncé. La prochaine étape logique serait une validation sur hardware réel, notamment sur des plateformes humanoïdes où la gestion des contacts reste un verrou technique central de la sim-to-real transfer.

RecherchePaper
1 source
Nouveaux algorithmes pour la construction de variétés de contact régulièrement différentiables et vectorisables
3arXiv cs.RO 

Nouveaux algorithmes pour la construction de variétés de contact régulièrement différentiables et vectorisables

Un préprint déposé sur arXiv le 21 avril 2026 (identifiant 2604.17538) propose deux algorithmes destinés à rendre la détection de collision dans les simulations robotiques à la fois lissément différentiable et massivement vectorisable. Les auteurs ciblent un goulet d'étranglement bien identifié dans les pipelines de simulation standard : lorsqu'un robot interagit avec son environnement en mode contact-riche (manipulation d'objets, locomotion bipède, assemblage industriel), le calcul de gradients utiles au premier et second ordre se heurte à des pathologies à chacune des trois étapes classiques, soit la détection de collision, la dynamique de contact et l'intégration temporelle. La contribution porte ici exclusivement sur la première étape. L'équipe introduit une classe de primitives SDF (signed distance function, ou fonction de distance signée) analytiques à haute expressivité, capables de représenter des surfaces 3D complexes avec une efficacité de calcul élevée, ainsi qu'une routine inédite de génération de variétés de contact (contact manifold) exploitant cette représentation géométrique. L'enjeu est significatif pour la communauté de la robotique de contact. Aujourd'hui, les méthodes d'ordre zéro, essentiellement des approches par échantillonnage stochastique comme le CEM ou les politiques évolutionnaires, dominent sur les tâches contact-riches précisément parce que les gradients issus des simulateurs existants sont soit discontinus, soit trop bruités pour être exploitables. Si les résultats annoncés dans ce préprint se confirment, des solveurs d'ordre supérieur (gradient descent, méthodes de Newton) deviendraient applicables à ces scénarios, avec des gains potentiels substantiels en vitesse de convergence et en efficacité computationnelle. La propriété de vectorisation massive est également pertinente pour les architectures GPU modernes, ce qui ouvre la voie à un parallélisme étendu dans les boucles de simulation utilisées pour l'apprentissage par renforcement. Ce travail s'inscrit dans un effort de recherche plus large visant à rendre les simulateurs physiques différentiables de bout en bout, prérequis reconnu pour réduire le sim-to-real gap sur des comportements impliquant du contact. Des environnements comme MuJoCo (DeepMind), Drake (Toyota Research Institute) ou Brax (Google) ont posé des jalons dans cette direction, chacun avec des compromis différents entre fidélité physique et différentiabilité. L'approche SDF analytique proposée ici se distingue par sa vectorisabilité, une propriété moins prioritaire dans les travaux antérieurs. Il s'agit d'un preprint non encore soumis à peer review ; les benchmarks comparatifs et les validations expérimentales sur hardware réel restent à produire, et la robustesse de la méthode sur des géométries industrielles complexes demeure à démontrer.

RecherchePaper
1 source
Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs
4arXiv cs.RO 

Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs

Une équipe de chercheurs a publié fin mai 2026 sur arXiv (arXiv:2605.18611) un framework d'apprentissage par renforcement unifié permettant à un seul contrôleur de faire marcher, courir et se relever après une chute le robot humanoïde Unitree G1, sans commande explicite de changement de mode au déploiement. L'approche étend les Adversarial Motion Priors (AMP) en remplaçant la distribution de référence globale par un mécanisme de routage conditionné à l'état : un seuil fixe sur la gravité projetée (|gz+1| > 0,6, soit environ 37° d'inclinaison du torse par rapport à la verticale) aiguille chaque transition d'entraînement soit vers un discriminateur dédié à la récupération, soit vers un discriminateur de locomotion conditionné par la vitesse commandée, qui couvre à la fois la marche et la course. Seuls trois clips de motion capture extraits du jeu de données LAFAN1 sont nécessaires pour régulariser l'ensemble du comportement. Sur hardware réel, la politique tourne à 50 Hz sous forme d'un fichier ONNX figé, sans aucune logique de mode à l'exécution, et valide des relevés réussis depuis les positions ventrale et dorsale ainsi que des transitions fluides marche-course. Ce résultat s'attaque directement à un problème d'intégration récurrent dans la robotique humanoïde commerciale : la fragmentation en contrôleurs spécialisés par mode, reliés par des automates à états qui génèrent des zones de transition fragiles et coûteuses à maintenir. Démontrer qu'une politique apprise par RL couvre ces régimes de façon continue sur hardware réel, et non uniquement en simulation, affaiblit l'argument du sim-to-real gap rédhibitoire pour les comportements complexes. Le coût d'annotation est lui aussi remarquablement bas : trois clips de reference suffisent là où d'autres travaux en exigent des dizaines, ce qui rend la méthode potentiellement transférable à d'autres plateformes avec un effort de données limité, qu'il s'agisse du PAL Robotics TALOS, du MIROKAÏ d'Enchanted Tools, ou de tout humanoïde léger à faible budget de motion capture. La publication s'inscrit dans une course dense à la locomotion humanoïde robuste, où Boston Dynamics (Atlas), Figure (Figure 03), Agility Robotics (Digit) et Tesla (Optimus Gen 3) investissent massivement, mais publient peu. Sur le plan académique, des approches concurrentes comme les VLA (Vision-Language-Action models) de Physical Intelligence ou les travaux de Berkeley visent des politiques encore plus générales, mais sacrifient souvent la robustesse physique au profit de la flexibilité sémantique. L'utilisation du Unitree G1, disponible à environ 16 000 dollars et largement répandu dans les laboratoires, confère à ces travaux une reproductibilité pratique supérieure aux publications sur plateformes fermées. L'article ne précise pas de timeline de déploiement industriel, mais la compatibilité ONNX et l'absence de logique embarquée à l'exécution réduisent la barrière à l'intégration pour un OEM ou un intégrateur souhaitant évaluer la méthode sur sa propre plateforme.

UELa méthode, compatible ONNX et nécessitant seulement 3 clips de motion capture, est explicitement identifiée comme transférable au MIROKAÏ d'Enchanted Tools (FR) et au TALOS de PAL Robotics (EU), réduisant le coût d'adaptation pour les équipes de recherche et les intégrateurs européens.

RecherchePaper
1 source