Aller au contenu principal
RecherchearXiv cs.RO1h

PRISM : échantillonnage guidé par les priors dans les modèles du monde

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié PRISM (PRior-guided Imagination Sampling in world Models), un framework de planification basée sur les modèles du monde pour le contrôle continu en robotique. L'approche cible un angle précis : dans la planification par MPC (Model Predictive Control), la qualité des actions candidates générées pour évaluation compte autant que la précision du simulateur lui-même. PRISM repose sur un modèle de monde latent de style JEPA (Joint Embedding Predictive Architecture) auquel est attaché un MLP léger branché sur l'encodeur gelé du modèle. Ce MLP prédit un prior gaussien conditionné à l'état courant ; au moment de la planification, PRISM fusionne ce prior dans la distribution d'échantillonnage via une mise à jour Product-of-Gaussians pondérée par précision, une opération en forme fermée sans paramètres additionnels. Les gains mesurés atteignent +35 points de pourcentage sur la tâche Cube et +32 points sur PushT face à un MPC standard sur modèle du monde, sans surcoût d'inférence significatif.

Pour les praticiens du contrôle robotique, l'enjeu est concret. Les planificateurs existants compensent l'inefficacité d'exploration en important des encodeurs visuels indépendants ou des VLMs (Vision Language Models) de grande taille pour construire un prior d'actions, ce qui alourdit l'architecture et complique le déploiement embarqué. PRISM extrait ce prior directement des représentations apprises par le modèle du monde, depuis le même jeu de données d'entraînement, sans composant externe. Le mécanisme s'auto-régule naturellement : le prior est confiant là où les données sont denses, et s'efface là où elles sont rares. Pour un ingénieur en manipulation industrielle ou un intégrateur système, c'est un gain d'efficacité d'échantillonnage sans refonte de l'infrastructure existante.

PRISM s'inscrit dans la lignée des travaux sur les modèles du monde pour le contrôle incarné, dont JEPA (Meta/LeCun), TD-MPC2 et Dreamer v3 sont des jalons récents, et dont l'efficacité en phase de planification reste un problème ouvert. Les approches concurrentes privilegient des modèles de grande taille intégrant nativement un prior d'action, comme les VLA (Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA), une philosophie diamétralement opposée à la compacité revendiquée par PRISM. Point de vigilance : les benchmarks utilisés, Cube et PushT, sont des environnements de manipulation simulés relativement standards. La validation sur hardware réel et en manipulation dextre en conditions non structurées reste à venir, ce qui tempère la portée opérationnelle des gains annoncés.

À lire aussi

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique
1arXiv cs.RO 

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique

Des chercheurs du Collaborative Robotics Lab de Virginia Tech ont publié Language Movement Primitives (LMP), un framework qui relie les modèles de vision-langage (VLM) aux Dynamic Movement Primitives (DMP), une famille de contrôleurs de trajectoire établie en robotique depuis les années 2000. Le principe: les DMP définissent des trajectoires continues et stables via un faible nombre de paramètres interprétables, et les VLM configurent ces paramètres directement à partir d'instructions en langage naturel. Testé sur 31 tâches de manipulation de bureau en conditions réelles, LMP atteint un taux de succès de 65%, contre 35% pour le meilleur système de référence évalué. Le pipeline fonctionne en mode zéro-shot, sans fine-tuning spécifique aux tâches cibles. L'article est disponible sur arXiv (2602.02839, troisième révision) et accompagné de vidéos de démonstration. Le vrai problème que LMP cible est le "grounding" moteur: transformer un raisonnement abstrait en commandes physiquement cohérentes. Les VLM comme GPT-4V excellent à décomposer une tâche en étapes logiques, mais produire des trajectoires exécutables reste hors de leur portée native. À l'inverse, les modèles de fondation robotique tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 de Google génèrent des actions directement, mais nécessitent généralement un fine-tuning coûteux en données in-domain pour s'adapter à de nouvelles tâches. LMP propose une troisième voie: les DMP servent d'interface structurée entre le raisonnement LLM et le contrôle bas niveau, préservant la stabilité dynamique sans apprentissage supplémentaire. Le gain de 30 points de pourcentage en zéro-shot sur des tâches réelles est notable, même si le choix des baselines et les conditions de test précises mériteront une vérification indépendante par la communauté. Les DMP ont été formalisés par Schaal et al. dans les années 2000 et restent un outil de référence pour la manipulation grâce à leur stabilité et leur capacité de généralisation. L'approche de LMP s'inscrit dans la lignée de SayCan (Google) et Code-as-Policies (Liang et al.), mais descend plus bas dans la pile de contrôle sans passer par un réseau de politique intermédiaire. Les concurrents directs sont les VLA bout-en-bout comme OpenVLA ou le récent Helix d'Figure AI, qui offrent plus de flexibilité mais restent tributaires de larges jeux de données de démonstration. Les prochaines étapes probables incluent l'extension à des environnements non-tabulaires et à des robots à plus haute dimensionnalité, notamment la manipulation dextre sur bras 7-DOF.

RechercheOpinion
1 source
SBAMP : planification de mouvement adaptative par échantillonnage
2arXiv cs.RO 

SBAMP : planification de mouvement adaptative par échantillonnage

Des chercheurs ont publié sur arXiv (référence 2511.12022, version 3) un cadre hybride de planification de mouvement baptisé SBAMP (Sampling-Based Adaptive Motion Planning), conçu pour les robots autonomes évoluant dans des environnements dynamiques. L'approche fusionne un planificateur global basé sur RRT (Rapidly-exploring Random Tree star), qui génère des trajectoires quasi-optimales, avec un contrôleur local de type SEDS (Stable Estimator of Dynamical Systems) intégrant une optimisation sous contraintes en temps réel. Ce qui distingue SBAMP des implémentations SEDS classiques : aucune donnée d'entraînement préalable n'est requise, le contrôleur s'ajuste à la volée via une optimisation contrainte légère directement embarquée dans la boucle de contrôle. Les expériences ont été menées à la fois en simulation et sur une plateforme matérielle RoboRacer, avec des tests de récupération après perturbations, de contournement d'obstacles et de tenue de performance en conditions dynamiques. L'enjeu technique adressé est fondamental en robotique mobile : les planificateurs globaux comme RRT produisent de bonnes trajectoires hors ligne mais peinent à réagir aux perturbations en temps réel, tandis que les approches à systèmes dynamiques comme SEDS offrent une réactivité fluide mais nécessitent une optimisation offline sur données. SBAMP propose un compromis opérationnel : la structure de chemin global est préservée, mais le robot peut s'en écarter localement de manière stable au sens de Lyapunov, ce qui garantit la convergence vers l'objectif sans oscillations incontrôlées. Pour un intégrateur industriel ou un développeur de systèmes de navigation, l'absence de phase de pré-entraînement réduit significativement le coût de déploiement sur de nouveaux environnements. Il convient de noter que les résultats présentés restent au stade académique, sur une plateforme de recherche compacte, sans validation à l'échelle industrielle ni benchmark comparatif public. SBAMP s'inscrit dans un champ de recherche dense sur la planification hybride, aux côtés de travaux récents comme MPPI (Model Predictive Path Integral) ou TEB (Timed Elastic Band), qui visent tous à réconcilier optimalité globale et réactivité locale. RRT* est un algorithme établi depuis les travaux de Karaman et Frakcas (2011), et SEDS est utilisé en robotique depuis une décennie pour la reproduction de gestes appris. La contribution de SBAMP réside dans leur couplage sans supervision, un point non trivial. Les auteurs n'annoncent pas de transfert industriel immédiat ni de partenariat commercial, et la prochaine étape naturelle serait une validation sur robots à plus haute dynamique (manipulateurs, AMR en entrepôt) et dans des environnements avec obstacles mobiles denses.

RecherchePaper
1 source
E²DT : Decision Transformer efficace avec échantillonnage guidé par l'expérience pour la manipulation robotique
3arXiv cs.RO 

E²DT : Decision Transformer efficace avec échantillonnage guidé par l'expérience pour la manipulation robotique

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.00159) un nouveau cadre d'apprentissage par renforcement pour la manipulation robotique, baptisé E²DT (Efficient and Effective Decision Transformer). Le système s'appuie sur l'architecture Decision Transformer (DT), qui traite l'apprentissage par renforcement comme un problème de modélisation de séquences, et y intègre un mécanisme de sélection d'expériences fondé sur un k-Processus Ponctuel Déterminantal (k-DPP). Concrètement, E²DT remplace le replay uniforme standard par un échantillonnage guidé combinant trois critères : le retour cumulatif attendu (return-to-go, RTG), l'incertitude prédictive du modèle, et la représentativité des phases de la tâche via une fréquence inverse. La méthode est évaluée sur des benchmarks de manipulation robotique en simulation et sur robot réel, et surpasse systématiquement les approches antérieures, selon les auteurs. Le problème adressé est concret et bien connu des équipes de R&D : le Decision Transformer standard tire ses trajectoires d'entraînement de façon uniforme depuis le replay buffer, ce qui aboutit à une mauvaise efficacité d'échantillonnage, une exploration limitée et une convergence sous-optimale, particulièrement pénalisant sur des tâches à long horizon où les transitions rares sont décisives. E²DT propose un noyau joint qualité-diversité qui force le modèle à sélectionner activement les expériences les plus informatives, en mesurant la diversité via les embeddings latents internes du DT lui-même. Pour les intégrateurs industriels travaillant sur des bras manipulateurs ou des cellules robotisées, cela ouvre un chemin vers des politiques robustes avec moins de données de démonstration, réduisant potentiellement les cycles de mise en production. Le Decision Transformer, introduit par Chen et al. en 2021, a rapidement été adopté comme référence dans de nombreux travaux de manipulation. Ses faiblesses liées au replay passif ont déjà motivé des variantes comme l'Online Decision Transformer ou des approches à experience replay prioritaire (PER). E²DT s'inscrit dans cette lignée en combinant diversité et qualité composite dans un unique cadre d'échantillonnage. Aucune affiliation industrielle ni timeline de déploiement n'est mentionnée dans le preprint : il s'agit d'une contribution académique, sans produit ni partenariat annoncé à ce stade.

RecherchePaper
1 source
Commande par échantillonnage via le transport optimal à régularisation entropique
4arXiv cs.RO 

Commande par échantillonnage via le transport optimal à régularisation entropique

Une équipe de chercheurs a publié en mai 2026, sous la référence arXiv:2605.02147, un algorithme de contrôle prédictif par échantillonnage appelé OT-MPC. La méthode repose sur une formulation par transport optimal à régularisation entropique et cible les systèmes robotiques non linéaires nécessitant un contrôle temps réel : navigation autonome, manipulation d'objets et locomotion. Les mises à jour sont calculées en forme close via l'algorithme de Sinkhorn, sans aucun gradient, ce qui permet de traiter des dynamiques discontinues que les optimiseurs classiques basés sur la rétropropagation ne peuvent pas gérer. Les expériences rapportées montrent des taux de succès supérieurs aux méthodes de référence sur l'ensemble des trois catégories de tâches, bien que les chiffres absolus et les benchmarks précis ne soient pas détaillés dans l'abstract publié. L'intérêt pratique réside dans la résolution d'un problème structurel des deux algorithmes dominants du secteur, MPPI (Model Predictive Path Integral) et CEM (Cross-Entropy Method) : le comportement dit de "mode-averaging", où la mise à jour vers la moyenne pondérée des trajectoires candidates produit des solutions sous-optimales lorsque le paysage de coût est multimodal ou fortement non convexe. OT-MPC calcule un couplage optimal entre les séquences de contrôle candidates et les propositions à faible coût, coordonnant les mises à jour sur l'ensemble de l'échantillon pour préserver la couverture de l'espace des solutions tout en affinant chaque candidat vers ses voisins prometteurs. Pour un intégrateur ou un responsable technique, cela se traduit concrètement par une meilleure robustesse lors de transitions de contact, de saisies imprécises ou de mouvements en environnement encombré, sans surcoût de calcul différenciable. MPPI, développé initialement par Georgia Tech et popularisé par des frameworks comme Storm d'NVIDIA, et CEM, utilisé notamment dans les pipelines de planification de Boston Dynamics et de divers labos universitaires, sont aujourd'hui les deux références incontournables du contrôle par échantillonnage. Le transport optimal, formalisé dans un cadre robotique par des travaux antérieurs en imitation et en apprentissage de politiques, trouve ici une application directe au MPC sans nécessiter d'apprentissage préalable. OT-MPC reste à ce stade une contribution académique, sans déploiement annoncé ni partenariat industriel mentionné ; des validations sur hardware réel et des comparaisons de temps de cycle sur cibles embarquées constitueraient les prochaines étapes naturelles avant toute intégration produit.

RecherchePaper
1 source