DIRECT : quand et où allouer le calcul à…

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

40

1arXiv cs.RO

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

Une équipe de chercheurs a déposé sur arXiv en février 2026 (réf. 2602.21198, v2) un framework baptisé Reflective Test-Time Planning (RTTP), conçu pour résoudre un angle mort structurel de la robotique pilotée par LLM : les agents embarqués traitent chaque essai de façon indépendante, ce qui fait répéter les mêmes erreurs au lieu d'en tirer une expérience cumulative. Le RTTP introduit deux mécanismes : la reflection-in-action, où l'agent génère et évalue plusieurs actions candidates via un scaling à l'inférence avant d'agir, et la reflection-on-action, qui met à jour le modèle de réflexion interne et la politique d'action après exécution via un entraînement à l'inférence. Une troisième composante, la réflexion rétrospective, permet de réévaluer des décisions antérieures pour corriger l'attribution de crédit sur des tâches à long horizon. Les expériences portent sur deux benchmarks : Long-Horizon Household (tâches domestiques séquentielles) et MuJoCo Cupboard Fitting (manipulation en simulation physique), avec généralisation zero-shot vers les environnements HM3D photoréalistes et validation sur bras réel Franka Panda. L'enjeu industriel est direct : le déploiement de robots pilotés par VLA (Vision-Language-Action models) bute sur le demo-to-reality gap, où les modèles performent en laboratoire mais dégradent en conditions variables. RTTP propose une boucle fermée d'adaptation pendant le déploiement, sans fine-tuning offline coûteux. Les ablations confirment que les deux modes de réflexion sont mutuellement dépendants, et que la réflexion rétrospective surpasse le feedback step-wise classique avec un overhead computationnel inférieur, un avantage concret pour les intégrateurs soucieux de maîtriser les coûts d'inférence à l'échelle. Cette contribution s'inscrit dans la vague du test-time scaling, popularisée par les modèles de raisonnement d'OpenAI et Google DeepMind, mais appliquée à l'action robotique incarnée plutôt qu'au raisonnement abstrait. Les auteurs ne mentionnent ni partenariat industriel ni timeline commerciale : c'est un preprint de recherche, pas un produit shipé. Les travaux concurrents dans cette direction incluent les VLAs de Physical Intelligence (pi0), le programme RT-2-X de Google DeepMind et les recherches sur l'apprentissage online menées à Carnegie Mellon et Berkeley. Aucun acteur français ou européen n'est impliqué dans cette publication.

IA physiqueOpinion

1 source

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

35

2arXiv cs.RO

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

Une équipe de chercheurs publie Afford-VLA (arXiv:2605.24203, mai 2026), un cadre unifié pour améliorer le raisonnement spatial des modèles vision-langage-action (VLA) appliqués à la manipulation robotique. Le problème ciblé est précis : les VLA actuels peinent à déterminer où interagir dans des scènes visuelles complexes, une lacune qui limite leur généralisation sur des tâches de manipulation réelle. Afford-VLA internalise l'affordance conditionnée par la tâche comme interface de planification visuelle explicite au sein du modèle lui-même : des tokens apprenables interrogent les régions d'interaction pertinentes, des masques d'affordance sont décodés depuis les représentations multimodales, puis convertis en embeddings compacts qui conditionnent directement la prédiction d'action. Le système est évalué sur LIBERO, LIBERO-Plus et SimplerEnv, trois bancs de test simulés standards en manipulation, ainsi que sur des expériences en conditions réelles. Les auteurs revendiquent des performances état-de-l'art sur ces benchmarks, sans toutefois détailler les métriques précises dans l'abstract. L'intérêt architectural réside dans le couplage serré entre perception et action : contrairement aux approches existantes qui génèrent des signaux visuels intermédiaires de manière externe ou recourent à des représentations symboliques faiblement reliées au contrôle moteur, Afford-VLA génère et consomme l'affordance au sein du même pipeline. Ce choix évite le découplage habituel entre planification visuelle et prédiction d'action, un problème récurrent dans les VLA de première génération. Pour un intégrateur ou un COO industriel, le message pratique est que la localisation explicite et locale du point d'interaction, plutôt qu'un raisonnement global sur la scène, pourrait réduire le sim-to-real gap sur des tâches de pick-and-place ou d'assemblage en environnement non structuré. Le domaine VLA est aujourd'hui très actif : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure AI (Helix) et de nombreux laboratoires académiques ont chacun leur approche de la planification visuelle pour la manipulation généraliste. Ce preprint s'inscrit dans une vague de travaux cherchant à combler la faiblesse spatiale des VLA après les premières générations de modèles de type RT-2 ou OpenVLA. Aucun déploiement industriel n'est annoncé et aucun partenaire opérationnel n'est mentionné : il s'agit d'un papier de recherche préliminaire non encore évalué par les pairs, dont les résultats reels devront être confirmés dans des conditions de production.

IA physiqueOpinion

1 source

Behavior Uncloning : distiller la redirection de mode dans les poids de politique sans guidage à l'inférence

45

3arXiv cs.RO

Behavior Uncloning : distiller la redirection de mode dans les poids de politique sans guidage à l'inférence

Des chercheurs ont publié fin juin 2026 sur arXiv une méthode appelée MoRE (Mode Redirection) pour corriger un défaut structurel de l'apprentissage par imitation robotique (behavior cloning) : les politiques entraînées sur des jeux de démonstrations hétérogènes capturent simultanément des comportements désirés et indésirables, y compris dangereux. L'exemple retenu par les auteurs est parlant : un robot entraîné à des transferts d'objets peut apprendre à passer un couteau lame en premier. MoRE introduit une courte étape d'«uncloning» qui distille un signal de redirection, généré par un classificateur de modes temporaire, directement dans les poids de la politique. Une loss de rétention préserve la compétence sur les modes corrects. Sur huit tâches simulées et réelles, MoRE améliore le taux de succès moyen de 44 points de pourcentage par rapport à la politique multi-modes initiale, et approche les performances du réentraînement sur données filtrées, considéré comme la référence. La méthode est compatible avec Diffusion Policy et Pi0.5, le modèle VLA (Vision-Language-Action) de Physical Intelligence. L'intérêt industriel de MoRE tient à deux absences : pas d'accès requis aux démonstrations originales, et aucun surcoût à l'inférence. Les solutions existantes butaient sur l'une ou l'autre contrainte : la curation de données impose un réentraînement complet depuis les données sources ; le steering à l'inférence (guidage externe durant l'exécution) ajoute une latence incompatible avec les cycles robotiques en temps réel. MoRE contourne les deux en modifiant les poids une seule fois, en aval de l'entraînement initial. Pour un intégrateur ou un COO industriel, c'est une piste crédible pour corriger une politique déjà déployée sans repartir de zéro. La compatibilité confirmée avec Pi0.5 est un signal fort : si la méthode tient sur un VLA large-scale, elle couvre un spectre large de déploiements réels. L'apprentissage par imitation reste l'une des méthodes d'entraînement les plus accessibles, mais sa sensibilité aux données hétérogènes est un problème structurel documenté depuis des années. Les VLA récents comme Pi0 et Pi0.5 (Physical Intelligence), OpenVLA (Berkeley) ou GR00T N2 (NVIDIA) ont étendu les capacités générales des politiques sans régler ce problème de modes indésirables. MoRE s'inscrit dans un courant émergent de post-training alignment appliqué à la robotique, analogue aux techniques DPO/RLHF utilisées pour aligner les LLM après préentraînement. Les approches concurrentes incluent le filtrage par classificateur externe et la curation de données assistée par modèle. Ce travail est à ce stade un preprint de recherche, sans partenariat industriel annoncé ni timeline de commercialisation ; aucun acteur européen n'est impliqué parmi les auteurs identifiés.

💬 Le robot qui apprend à passer un couteau lame en premier, c'est pas un bug de code, c'est un bug de données, et les meilleures politiques multi-modes n'y échappent pas. MoRE fait pour la robotique ce que DPO a fait pour les LLM : corriger les modes indésirables directement dans les poids, après coup, sans données sources et sans latence ajoutée. Bon, c'est un preprint pour l'instant, mais la compatibilité confirmée avec Pi0.5 dit quelque chose de sérieux sur la portée de la méthode.

IA physiqueOpinion

1 source

Agents omnimodaux incarnés : des compétences isolées à l'autonomie physique du quotidien

41

4arXiv cs.RO

Agents omnimodaux incarnés : des compétences isolées à l'autonomie physique du quotidien

OmniAct est un framework de recherche publié le 26 juin 2026 sur arXiv (2606.27251) qui propose une architecture pour agents robotiques capables d'opérer de façon persistante sur des tâches longues dans des environnements non structurés. Le système repose sur trois couches hiérarchiques asynchrones : un planificateur sémantique multimodal qui route les actions entre domaines cyber (APIs, IoT) et physiques (manipulation, navigation), un module de mémoire adaptatif à compression événementielle garantissant une croissance sous-linéaire du contexte, et un moteur de préemption visuelle asynchrone qui referme la boucle sémantique pendant l'exécution physique. Évalué sur 40 tâches réelles à long horizon sur deux plateformes robotiques coordonnant quatre dispositifs IoT, OmniAct maintient une consommation de tokens quasi-stable en deçà de 100 000 tokens accumulés et élève des modèles open-weight à un niveau de performance comparable aux modèles propriétaires. Ce résultat adresse trois défaillances structurelles bien connues dans le domaine : les planificateurs VLM (Vision-Language Model) manquent d'un espace d'action cyber-physique unifié, les frameworks d'agents existants accumulent du contexte de façon non bornée jusqu'à dégrader la cohérence temporelle sur les longues sessions, et les politiques VLA (Vision-Language-Action) s'exécutent classiquement en boucle ouverte sans détecter leurs propres défaillances. La préemption visuelle asynchrone est l'apport le plus différenciant : le robot peut interrompre et reconfigurer une séquence en cours sans attendre sa terminaison, ce qui est précisément le comportement requis dans un déploiement industriel réel. Pour un intégrateur ou un COO industriel, la démonstration qu'une architecture bien conçue suffit à hisser des modèles open-weight au niveau propriétaire modifie le calcul économique du déploiement : moins de dépendance aux fondations coûteuses de GPT-4o ou Gemini. Ce travail s'inscrit dans une compétition dense autour des architectures pour agents embodied à long horizon. Des frameworks concurrents comme pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) ciblent également la généralisation physique, mais restent principalement centrés sur la manipulation. OmniAct se distingue en intégrant explicitement le domaine cyber dans la boucle d'action, rapprochant l'architecture des besoins industriels où un robot interagit aussi avec des systèmes d'information et des capteurs IoT. Nuance importante : il s'agit d'un preprint arXiv, non encore évalué par les pairs, sans déploiement commercial annoncé ni divulgation des deux plateformes robotiques utilisées, ce qui limite la reproductibilité des résultats à ce stade.

UELes intégrateurs robotiques européens pourraient réduire leur dépendance aux fondations propriétaires américaines (GPT-4o, Gemini) si l'architecture OmniAct se confirme après révision par les pairs.

IA physiqueOpinion

1 source

DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?

À lire aussi

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

Behavior Uncloning : distiller la redirection de mode dans les poids de politique sans guidage à l'inférence

Agents omnimodaux incarnés : des compétences isolées à l'autonomie physique du quotidien