Aller au contenu principal
EVE : un système générateur-vérificateur pour les politiques génératives
IA physiquearXiv cs.RO2h

EVE : un système générateur-vérificateur pour les politiques génératives

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en décembre 2024 sur arXiv (2512.21430) EVE, un framework modulaire de type générateur-vérificateur visant à améliorer les politiques visuomotrices génératives en robotique, au moment de l'inférence et sans aucun réentraînement. Le système enveloppe une politique de base figée, reposant sur la diffusion ou le flow-matching, avec plusieurs agents vérificateurs VLM (Vision-Language Model) opérant en mode zéro-shot. Chaque vérificateur propose des raffinements d'actions candidates générées par la politique de base ; un module d'incorporation fusionne ensuite les retours agrégés via un guidage par classifieur intégré dans le processus de débruitage de l'action. Les évaluations couvrent des tâches de manipulation simulées et réelles sur différents embodiments robotiques, avec des gains de taux de succès mesurés dans chaque configuration testée, sans modifier ni la politique ni les vérificateurs.

L'intérêt principal réside dans le transfert d'une technique émergente des LLMs, le scaling du compute au test-time, vers la commande robotique incarnée. Des systèmes comme OpenAI o1 ou DeepSeek-R1 ont montré qu'allouer davantage de calcul à l'inférence améliore significativement les performances, sans toucher aux poids du modèle. EVE applique cette logique aux politiques génératives : là où une politique de diffusion dégrade sous distribution shift (scènes inédites, objets non vus à l'entraînement, perturbations), les vérificateurs VLM guident la correction sans fine-tuning coûteux. Pour les intégrateurs et décideurs B2B, le signal est concret : améliorer les performances d'un modèle déployé pourrait devenir une question de ressources de calcul à l'inférence, non de nouveaux cycles d'entraînement sur des données supplémentaires.

Les politiques visuomotrices par diffusion ont émergé à partir de 2023 avec Diffusion Policy (Columbia University) et ACT, suivies d'architectures flow-matching comme pi0 de Physical Intelligence. Ces modèles performent correctement sur leur distribution d'entraînement mais peinent hors distribution, un frein central au déploiement industriel. EVE s'inscrit dans une tendance plus large qui consiste à coupler des VLMs généralistes avec des politiques spécialisées sans réentraînement. Les approches concurrentes incluent le Best-of-N sampling appliqué à la robotique et les méthodes de récompense dense au test-time (SuSIE, GROOT). La suite logique serait de valider EVE sur des plateformes physiques à plus grande échelle et de quantifier le trade-off latence/qualité en fonction du nombre de vérificateurs actifs simultanément.

À lire aussi

OGPO : un affinage complet et efficace des politiques de contrôle génératives
1arXiv cs.RO 

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Un preprint arXiv de mai 2026 (2605.03065) présente OGPO, Off-policy Generative Policy Optimization, un algorithme de fine-tuning par renforcement pour les politiques génératives de contrôle (GCPs) basées sur la diffusion ou le flow matching, paradigme central de modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). OGPO propage les gradients à travers l'intégralité du processus génératif via un objectif PPO modifié et maintient des réseaux critiques off-policy pour maximiser la réutilisation des données. Évalué sur des tâches de manipulation multi-tâches, d'insertion haute précision et de contrôle dextère, l'algorithme revendique un état de l'art et serait, selon les auteurs, le premier à fine-tuner des politiques de behavior cloning mal initialisées jusqu'au succès complet sans données expertes dans le replay buffer en ligne. Quatre stabilisateurs pratiques sont introduits : success-buffer regularization, conservative advantages, régularisation χ², et réduction de la Q-variance. Le fine-tuning RL des politiques génératives est l'un des principaux verrous pour le déploiement industriel de la robotique. Le behavior cloning pré-entraîne des modèles polyvalents sur de larges corpus de démonstrations, mais plafonne en deçà des taux de succès requis pour l'assemblage de précision ou la manipulation de pièces complexes. L'absence de données expertes dans le replay buffer est stratégiquement importante : un intégrateur adaptant un modèle fondation à une cellule de production spécifique n'a pas à collecter de nouvelles démonstrations coûteuses. Les stabilisateurs introduits adressent directement la sur-exploitation des critiques, mode d'échec documenté qui rendait les approches précédentes instables sur des observations en pixels. Les politiques diffusion pour la robotique ont émergé en 2023 avec Chi et al. (Diffusion Policy), avant d'être étendues au flow matching avec Pi-0 de Physical Intelligence et la famille GR00T de NVIDIA. Le fine-tuning RL de ces architectures avait été tenté avec des méthodes comme DPPO, mais restait limité aux politiques bien initialisées et nécessitait souvent des données expertes. OGPO se positionne comme une approche généraliste applicable à toute GCP. En compétition académique, les laboratoires de Berkeley, CMU et Stanford travaillent sur des problématiques proches. Côté industriel, Physical Intelligence, Boston Dynamics et Figure AI intègrent ce type d'optimisation dans leurs pipelines, et des acteurs européens comme Enchanted Tools (France) opèrent dans cet espace. La suite logique est une validation à plus grande échelle sur hardware réel et une extension aux architectures VLA (Vision-Language-Action) multimodales.

UEEnchanted Tools (France) opère sur des architectures similaires et pourrait intégrer OGPO pour affiner ses politiques de contrôle sans collecte de démonstrations expertes supplémentaires.

💬 Le vrai verrou, c'était ça : fine-tuner sans avoir à collecter de nouvelles démos expertes, parce que personne n'a le budget pour ça quand on adapte un modèle fondation à une cellule de prod spécifique. OGPO le fait, sur des politiques diffusion comme Pi-0 ou GR00T, avec des stabilisateurs intégrés pour que ça ne s'effondre pas en cours de training sur des observations en pixels. Reste à tenir sur du hardware réel à grande échelle, mais comme porte d'entrée vers la robotique de précision sans données expertes, c'est le genre de papier qu'on attendait.

IA physiqueOpinion
1 source
PerceptTwin : reconstruction sémantique de scène pour la planification et vérification itératives par LLM
2arXiv cs.RO 

PerceptTwin : reconstruction sémantique de scène pour la planification et vérification itératives par LLM

Des chercheurs ont publié le 4 juin 2026 sur arXiv (2606.04226) les travaux sur PerceptTwin, un pipeline automatisé qui génère des environnements de simulation interactifs directement depuis les représentations sémantiques produites par la pile de perception d'un robot. Le système combine quatre composants : des cartes d'objets à vocabulaire ouvert (open-vocabulary object maps), la génération d'assets 3D, la prédiction d'affordances et une vérification des préconditions par bon sens. Un juge LLM, concept emprunté à la littérature sur l'alignement de l'IA, évalue ensuite la conformité des plans générés avec les préférences humaines avant toute exécution physique. Dans les expériences conduites avec GPT-5, GPT-5 Mini et GPT-5 Nano comme planificateurs, PerceptTwin améliore le taux de succès des plans d'environ 39 % en moyenne, et améliore la vérification humaine jusqu'à 18 % pour les plans échouant à cause de préconditions non satisfaites. La chaîne LLM-planification-exécution est aujourd'hui l'architecture dominante en robotique cognitive, mais son point faible reste la vérification : un modèle de langage peut produire des plans syntaxiquement valides mais physiquement impossibles ou dangereux. PerceptTwin introduit une boucle de rétroaction pré-exécution où le robot construit son propre jumeau numérique à la volée, y simule le plan, puis itère. Cette approche inverse la logique du sim-to-real classique : la simulation émerge ici du monde réel via la perception, non l'inverse. Le système démontre aussi une résistance documentée aux attaques par "black-box prompting" visant à injecter des instructions nuisibles dans le planificateur, une propriété de sécurité rarement quantifiée dans des travaux similaires. Pour un intégrateur industriel, cela représente une couche de validation automatisée applicable à des environnements non structurés sans reconfiguration manuelle de la simulation. La construction de simulations contextualisées était jusqu'ici un processus manuel et coûteux, rendant la validation à grande échelle impraticable. PerceptTwin s'inscrit dans un courant de recherche incluant les approches NeRF sémantiques et les jumeaux numériques procéduraux, avec la particularité d'être entièrement piloté par la stack perceptive du robot. En termes de positionnement, les travaux récents sur les Visual Language Action models comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA abordent la fiabilité par l'apprentissage massivement supervisé, là où PerceptTwin mise sur la vérification symbolique en boucle fermée. Les expériences restent confinées à une suite de tâches de manipulation en laboratoire, sans déploiement terrain annoncé. Les auteurs ne précisent pas le temps de génération du jumeau numérique ni les exigences matérielles, deux paramètres déterminants pour envisager une intégration hors conditions contrôlées.

IA physiqueOpinion
1 source
Échantillonnage guidé à l'inférence par un vérificateur de progression des tâches pour la manipulation robotique
3arXiv cs.RO 

Échantillonnage guidé à l'inférence par un vérificateur de progression des tâches pour la manipulation robotique

Une équipe de recherche publie TapSampling (arXiv:2605.25547, mai 2026), un cadre plug-and-play d'échantillonnage au moment de l'inférence pour la manipulation robotique. Là où la majorité des travaux du domaine cherchent à améliorer les performances en augmentant la taille des données d'entraînement ou des modèles, TapSampling explore un axe différent : l'exploitation du calcul disponible à l'inférence. Le système repose sur deux composants. D'abord, un Action-VAE qui projette les actions générées par la politique dans un espace latent de faible dimension via une distribution postérieure compressée, permettant de tirer un nombre arbitraire d'actions candidates approximant la distribution réelle. Ensuite, un vérificateur sémantique qui reformule la sélection d'actions comme une prédiction de progression de tâche (task-progress outcome prediction), en exploitant la structure séquentielle intrinsèque des jeux de données robotiques pour choisir l'action la plus prometteuse de façon interprétable. L'intérêt principal réside dans l'agnosticisme vis-à-vis de la politique sous-jacente : TapSampling s'applique sans fine-tuning additionnel à des modèles généralistes existants, qu'ils soient basés sur la diffusion ou sur des architectures autorégressives. Les expériences présentées en simulation et en conditions réelles montrent des améliorations qualifiées de « substantielles » sur plusieurs politiques généralistes, bien que l'abstract ne fournisse pas de chiffres précis de taux de réussite, ce qui invite à la prudence avant de juger de l'ampleur réelle des gains. Pour les ingénieurs robotique et les intégrateurs, l'approche ouvre la possibilité d'améliorer des politiques déjà déployées sans réentraînement, en ajoutant simplement un surcoût computationnel à l'inférence. Ce travail s'inscrit dans une tendance plus large consistant à transposer le test-time compute scaling, popularisé par les grands modèles de langage (OpenAI o1, DeepSeek-R1), vers la robotique embodied. D'autres approches comparables incluent le Best-of-N sampling avec des modèles de récompense appris séparément, ainsi que les méthodes de vérification intégrées dans des politiques comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). TapSampling se distingue par un vérificateur ancré dans la progression de tâche plutôt que dans une récompense exogène, ce qui lui confère une meilleure lisibilité sémantique. Le code et les modèles sont mis à disposition via la page projet des auteurs, ce qui permettra une reproduction et une évaluation indépendante des résultats annoncés.

IA physiqueActu
1 source
PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives
4arXiv cs.RO 

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

PRTS (Primitive Reasoning and Tasking System) est un modèle fondation Vision-Langage-Action (VLA) présenté dans un preprint arXiv (réf. 2604.27472, avril 2026). Il reformule le préentraînement des VLA en substituant le clonage comportemental supervisé classique par de l'apprentissage par renforcement conditionné sur des objectifs (Goal-Conditioned Reinforcement Learning, GCRL). Chaque instruction en langage naturel est traitée comme un but à atteindre : PRTS apprend un espace d'embedding unifié où le produit scalaire entre vecteurs état-action et vecteur objectif approxime la log-probabilité actualisée d'atteindre cet objectif depuis l'état courant, une quantité appelée log-discounted goal occupancy. Ce signal de supervision dense est extrait directement de trajectoires offline sans annotation de récompense, puis injecté dans le backbone multimodal via un masque causal adaptatif (role-aware causal mask), avec un surcoût computationnel marginal. Le modèle est préentraîné sur 167 milliards de tokens couvrant des données de manipulation et de raisonnement embodied. Il atteint l'état de l'art sur les benchmarks LIBERO, LIBERO-Pro, LIBERO-Plus et SimplerEnv, ainsi que sur une suite de 14 tâches physiques réelles, avec des gains particulièrement nets sur les tâches longue-horizon, riches en contacts, et sur les instructions zero-shot inédites. L'enjeu est structurant pour le domaine des politiques robotiques générales. Les VLA actuels les plus avancés, notamment Pi-0 et Pi-0.5 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, reposent tous sur une logique de clonage comportemental : le modèle imite des démonstrations sans représentation explicite du progrès vers un objectif. PRTS introduit une conscience intrinsèque de l'atteignabilité des buts (goal reachability awareness), ce qui se traduit par des améliorations précisément là où les VLA peinent le plus en déploiement réel : planification longue-horizon, robustesse aux contacts et généralisation zéro-shot. Si ces résultats se confirment indépendamment, l'approche contrastive GCRL pourrait redéfinir le paradigme de préentraînement dominant dans le domaine. Le contexte compétitif est celui d'une convergence accélérée vers des fondations VLA à grande échelle capables de généralisation zéro-shot. Physical Intelligence, NVIDIA Robotics, Google DeepMind (RT-2, Octo) et de nombreuses équipes académiques travaillent simultanément sur ce segment. La contribution de PRTS est avant tout méthodologique : en n'exigeant aucune annotation de récompense et en tirant sa supervision de trajectoires offline déjà disponibles, l'approche est potentiellement reproductible avec des ressources plus modestes. Il s'agit toutefois d'un résultat de recherche à ce stade, non d'un déploiement commercial : les évaluations physiques portent sur 14 tâches dont les conditions expérimentales restent à vérifier indépendamment, et aucune timeline de productisation n'est mentionnée.

IA physiqueOpinion
1 source