Aller au contenu principal
Échantillonnage guidé à l'inférence par un vérificateur de progression des tâches pour la manipulation robotique
IA physiquearXiv cs.RO3h

Échantillonnage guidé à l'inférence par un vérificateur de progression des tâches pour la manipulation robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche publie TapSampling (arXiv:2605.25547, mai 2026), un cadre plug-and-play d'échantillonnage au moment de l'inférence pour la manipulation robotique. Là où la majorité des travaux du domaine cherchent à améliorer les performances en augmentant la taille des données d'entraînement ou des modèles, TapSampling explore un axe différent : l'exploitation du calcul disponible à l'inférence. Le système repose sur deux composants. D'abord, un Action-VAE qui projette les actions générées par la politique dans un espace latent de faible dimension via une distribution postérieure compressée, permettant de tirer un nombre arbitraire d'actions candidates approximant la distribution réelle. Ensuite, un vérificateur sémantique qui reformule la sélection d'actions comme une prédiction de progression de tâche (task-progress outcome prediction), en exploitant la structure séquentielle intrinsèque des jeux de données robotiques pour choisir l'action la plus prometteuse de façon interprétable.

L'intérêt principal réside dans l'agnosticisme vis-à-vis de la politique sous-jacente : TapSampling s'applique sans fine-tuning additionnel à des modèles généralistes existants, qu'ils soient basés sur la diffusion ou sur des architectures autorégressives. Les expériences présentées en simulation et en conditions réelles montrent des améliorations qualifiées de « substantielles » sur plusieurs politiques généralistes, bien que l'abstract ne fournisse pas de chiffres précis de taux de réussite, ce qui invite à la prudence avant de juger de l'ampleur réelle des gains. Pour les ingénieurs robotique et les intégrateurs, l'approche ouvre la possibilité d'améliorer des politiques déjà déployées sans réentraînement, en ajoutant simplement un surcoût computationnel à l'inférence.

Ce travail s'inscrit dans une tendance plus large consistant à transposer le test-time compute scaling, popularisé par les grands modèles de langage (OpenAI o1, DeepSeek-R1), vers la robotique embodied. D'autres approches comparables incluent le Best-of-N sampling avec des modèles de récompense appris séparément, ainsi que les méthodes de vérification intégrées dans des politiques comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). TapSampling se distingue par un vérificateur ancré dans la progression de tâche plutôt que dans une récompense exogène, ce qui lui confère une meilleure lisibilité sémantique. Le code et les modèles sont mis à disposition via la page projet des auteurs, ce qui permettra une reproduction et une évaluation indépendante des résultats annoncés.

À lire aussi

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique
1arXiv cs.RO 

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2601.21926v3) une étude portant sur un défaut structurel des politiques visuomotrices par diffusion appliquées à la manipulation robotique. Ces architectures, fondées sur des représentations visuelles 3D et un décodeur de débruitage, sont aujourd'hui parmi les plus performantes pour apprendre des comportements complexes à un bras robotique. L'équipe identifie un problème précis : dans les architectures U-Net et DiT (Diffusion Transformer), les blocs intermédiaires du décodeur contiennent des features parasites, sans rapport avec la tâche à exécuter. La preuve expérimentale est frappante, masquer aléatoirement les features du backbone U-Net ou sauter des couches intermédiaires du DiT pendant l'inférence, sans aucune modification de l'entraînement, améliore les performances. Pour corriger cela, les auteurs proposent un module baptisé Variational Regularization (VR) : un composant plug-and-play qui impose une distribution gaussienne conditionnée au contexte sur les features bruitées, et applique un régulariseur KL-divergence formant un goulot d'information adaptatif. Les évaluations couvrent trois benchmarks de simulation, RoboTwin2.0, Adroit et MetaWorld, et des tests en conditions réelles. Ce travail remet en cause une hypothèse tacite du domaine : augmenter la capacité du modèle de débruitage améliore mécaniquement les résultats. Les auteurs montrent que c'est faux, et que la redondance dans les features intermédiaires est une source active de dégradation. L'approche VR, combinée aux architectures DP3-UNet et DP3-DiT, établit de nouveaux résultats état de l'art sur l'ensemble des benchmarks testés. Pour les intégrateurs et équipes R&D travaillant sur des politiques d'imitation ou de reinforcement learning pour la manipulation, l'intérêt est double : le module est réutilisable sans réentraînement complet, et le diagnostic (tester le masquage aléatoire à l'inférence) est immédiatement applicable pour auditer ses propres architectures. Ce type de recherche s'inscrit dans la lignée des travaux sur les diffusion policies initiés par Chi et al. (2023) et leur extension 3D (DP3), qui ont rapidement supplanté les approches behavior cloning classiques sur les tâches de manipulation fine. Sur ce terrain, les concurrents directs incluent les politiques basées sur les transformers de vision-action comme ACT (Action Chunking with Transformers) ou les approches Flow Matching comme Pi-0 de Physical Intelligence. La contribution ici n'est pas une nouvelle architecture de bout en bout, mais un correctif ciblé sur un problème de capacité mal calibrée, un angle plus susceptible d'être intégré rapidement dans des pipelines existants que de remplacer l'ensemble de la stack.

IA physiqueOpinion
1 source
PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique
2arXiv cs.RO 

PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique

PhysMem, un cadre mémoire présenté sur arXiv (identifiant 2502.20323, version 5 actualisée au printemps 2026), propose une approche permettant aux planificateurs robotiques basés sur des modèles vision-langage (VLM) d'acquérir des connaissances physiques au moment de l'exécution, sans modifier les paramètres du modèle. Le système enregistre les interactions, génère des hypothèses sur les propriétés physiques observées, les soumet à vérification par des gestes ciblés, puis n'intègre que les hypothèses validées pour guider les décisions futures. Évalué sur trois tâches de manipulation réelle et des benchmarks de simulation avec quatre architectures VLM distinctes, PhysMem atteint 76 % de succès sur une tâche contrôlée d'insertion de brique, contre 23 % pour une récupération directe d'expérience. Sur des sessions de déploiement de 30 minutes, les performances progressent de façon consistante au fil du temps. L'apport central de PhysMem réside dans la séparation entre récupération et vérification. Les approches classiques de mémoire épisodique supposent que les expériences passées s'appliquent directement à la situation courante, ce qui produit des échecs dès que les conditions physiques changent, même marginalement. PhysMem brise ce cycle en testant activement chaque hypothèse avant de l'exploiter, une propriété critique pour les environnements industriels où surfaces, matériaux et tolérances varient d'un poste à l'autre. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des robots capables de s'adapter à de nouveaux objets ou environnements sans cycle de réentraînement coûteux. L'écart de 53 points de pourcentage entre les deux modes illustre que le problème n'est pas la mémoire en soi, mais la rigidité de son application directe. Les VLM comme planificateurs robotiques ont été popularisés par des travaux comme SayCan (Google DeepMind), Code as Policies, ou plus récemment pi0 de Physical Intelligence, qui ont démontré une capacité de raisonnement abstrait sur les tâches. Leur limite persistante reste l'incapacité à modéliser les propriétés physiques spécifiques d'objets particuliers, un obstacle majeur à la généralisation hors laboratoire. PhysMem s'inscrit dans un mouvement plus large vers le test-time adaptation en robotique, distinct du fine-tuning classique et complémentaire des approches VLA (Vision-Language-Action). À noter: les résultats publiés portent sur des tâches de laboratoire contrôlées, et aucun déploiement industriel n'est annoncé à ce stade. Les suites logiques incluent des tests sur des horizons de déploiement plus longs et des tâches impliquant des objets déformables ou des matériaux à comportement incertain, là où les hypothèses physiques sont les plus difficiles à abstraire.

IA physiquePaper
1 source
La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon
3arXiv cs.RO 

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.09537) une méthode appelée CAPS (Context-Aware Power Sampling), conçue pour corriger un défaut récurrent des modèles Vision-Language-Action (VLA) : la dérive d'instruction dans les tâches longues. Leur thèse centrale est que cette dérive n'est pas un problème d'apprentissage mais une erreur systématique d'échantillonnage : le mode glouton local, dominant dans la plupart des inférences VLA actuelles, tend à tomber dans ce que les auteurs nomment des "Negative Pivotal Windows", des optima locaux irréversibles à haute probabilité locale qui coupent définitivement les chemins vers le succès global. CAPS opère entièrement à l'inférence, sans aucune mise à jour des paramètres du modèle, en exploitant des distributions puissance (power distributions) pour accentuer les probabilités de trajectoire globale, couplées à un mécanisme de contrôle métacognitif basé sur le rapport signal-sur-bruit (SNR) qui déclenche une recherche MCMC adaptative uniquement lorsqu'un risque de dérive est détecté. Évalué sur les benchmarks RoboTwin, Simpler-WindowX et Libero-long, CAPS surpasse des références solides comme OpenVLA et TACO sans aucun réentraînement. L'apport clé pour les intégrateurs et chercheurs en robotique est que CAPS est directement applicable à tout modèle VLA déjà déployé, sans modification architecturale. Le mécanisme SNR implémente en pratique une logique système 1 / système 2 à la Kahneman : l'inférence reste rapide par défaut et bascule en mode recherche lente et délibérative uniquement quand les signaux de dérive sont détectés, ce qui limite le surcoût computationnel. Sur les benchmarks long-horizon, talon d'Achille reconnu des VLA actuels, les gains de robustesse sont substantiels, bien que les auteurs ne fournissent pas de résultats sur robot physique, laissant ouverte la question du sim-to-real pour cette méthode spécifique. Les VLA ont connu une accélération notable depuis 2024, avec des modèles phares comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA issu de Stanford, chacun cherchant à allonger l'horizon de tâche et améliorer la généralisation dans des environnements non structurés. La dérive d'instruction était documentée comme l'une des limites structurelles non résolues de ces architectures. Ce papier propose une approche orthogonale au scaling des données ou du modèle, ce qui le rend potentiellement complémentaire aux efforts en cours plutôt que concurrent. Les prochaines étapes naturelles seraient des validations sur robots physiques et une intégration dans des pipelines de contrôle industriel, des éléments que les auteurs n'annoncent pas encore explicitement dans cette version préliminaire.

IA physiqueOpinion
1 source
OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste
4arXiv cs.RO 

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

OA-WAM (Object-Addressable World Action Model), soumis sur arXiv en mai 2025 (arXiv:2605.06481), propose une politique vision-langage-action (VLA) qui décompose chaque frame en N+1 "slots" d'état : un slot robot et N slots objets. Chaque slot combine un vecteur d'adresse persistant (identifiant stable de l'objet) et un vecteur de contenu variable décrivant son état courant. Ces représentations sont fusionnées avec des tokens textuels, visuels, proprioceptifs et d'actions dans une séquence causale par blocs, alimentant une tête "monde" (prédiction du frame suivant) et une tête d'action par flow-matching (chunk de 16 actions continues). Le modèle atteint 97,8 % de succès sur le benchmark LIBERO et 79,3 % sur SimplerEnv. Un test de "causal slot-intervention" mesure un cosinus de binding de 0,87 contre un maximum de 0,09 pour les baselines holistes, un écart difficile à ignorer. Le problème central est le "scene entanglement" : quand une politique représente l'évolution du monde comme une image globale ou des tokens vidéo, le décodeur d'action peine à cibler un objet précis dès que la scène varie (distracteurs, occlusions, changements d'éclairage). En séparant explicitement "quel objet" (l'adresse) de "comment il est" (le contenu), et en routant l'attention cross-slot via des clés d'adresse uniquement, l'architecture maintient l'identité des objets sous perturbations contextuelles sans surcoût en tokens. Pour un intégrateur B2B ou un COO industriel, c'est un argument concret vers des politiques robotiques stables face aux variations de ligne de production, sans retraining systématique à chaque changement de contexte. Les WAMs (World Action Models) sont une extension récente des VLA classiques (π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind) qui ajoutent une prédiction de scène en boucle fermée pour contraindre les décisions d'action. OA-WAM s'inscrit dans la lignée des modèles à slots (SAVi, IODINE) transposés au contrôle robot. Il s'agit d'un preprint académique : toutes les évaluations sont conduites en simulation (LIBERO, SimplerEnv), sans validation sur robot physique mentionnée. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade. La prochaine étape logique sera la validation sim-to-real sur manipulateurs réels et l'extension à des tâches de manipulation longue durée.

IA physiqueOpinion
1 source