Aller au contenu principal
IA physiquearXiv cs.RO2h

GROW² : ancrage du choix d'outil et de sa position pour la manipulation robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 30 juin 2026 un système baptisé GROW² (GROunding Which and Where), conçu pour permettre à un robot d'utiliser des objets du quotidien comme outils de substitution lorsque l'outil nominal est absent. L'exemple canonique : couper un gâteau avec une assiette faute de couteau. Le problème technique sous-jacent est ce que les auteurs nomment l'« open-world affordance grounding », identifier quel objet peut remplir la fonction d'un outil et localiser précisément la zone d'action sur cet objet, sans avoir été entraîné spécifiquement sur cette combinaison. GROW² décompose ce problème en deux niveaux hiérarchiques : un niveau sémantique, qui mobilise des Vision-Language Models (VLMs) pour interpréter une instruction en langage naturel, sélectionner l'objet-outil et identifier les parties pertinentes ; et un niveau géométrique, qui utilise des modèles de vision fondamentaux pour ancrer ces parties dans des régions 3D précises à partir d'une seule image RGB-D.

L'intérêt industriel est réel : les pipelines robotiques actuels supposent que les outils sont prédéfinis et présents. Dès qu'un objet manque ou qu'une tâche sort du périmètre nominal, le robot s'arrête. GROW² ouvre la voie à une flexibilité opérationnelle sans retraining coûteux, ce qui est directement pertinent pour les intégrateurs en logistique, chirurgie assistée ou fabrication flexible. Les résultats reportés montrent des performances supérieures aux baselines sur les benchmarks d'affordance prediction et une généralisation zero-shot sur des catégories d'objets ouvertes, en simulation comme en conditions réelles. Un point de nuance : l'article ne communique pas de métriques de temps de cycle ni de taux de succès chiffrés en déploiement réel, ce qui rend difficile l'évaluation de la robustesse opérationnelle hors labo.

GROW² s'inscrit dans la dynamique des architectures VLA (Vision-Language-Action) qui tentent de résoudre le « sim-to-real gap » en exploitant des modèles fondamentaux pré-entraînés plutôt que de collecter massivement des données robotiques spécifiques. Sur ce créneau, les travaux concurrents incluent notamment π₀ (Physical Intelligence), RT-2 (Google DeepMind) et les recherches autour de SayCan (Google). L'approche de GROW² se distingue par sa modularité hiérarchique et l'absence de fine-tuning bout-en-bout, un choix architectural qui réduit les besoins en données mais dont la robustesse à grande échelle reste à démontrer. La prochaine étape naturelle serait des tests sur des plateformes humanoïdes ou des bras industriels en environnement semi-structuré.

À lire aussi

RoboRouter : sélection de politiques sans entraînement pour la manipulation robotique
1arXiv cs.RO 

RoboRouter : sélection de politiques sans entraînement pour la manipulation robotique

Des chercheurs ont publié RoboRouter (arXiv:2603.07892, version 4), un système de routage intelligent entre politiques robotiques hétérogènes pour les tâches de manipulation. Plutôt que d'entraîner une nouvelle politique monolithique, RoboRouter maintient un pool de politiques existantes -- modèles vision-langage-action (VLA), politiques vision-action (VA) et approches compositionnelles par code -- et sélectionne automatiquement la meilleure pour chaque nouvelle tâche. Le mécanisme repose sur une représentation sémantique de la tâche, une recherche dans l'historique d'exécutions similaires, puis une prédiction directe sans trial-and-error. Le retour structuré après chaque exécution affine les décisions suivantes. En simulation et en conditions réelles, RoboRouter améliore le taux de succès moyen de plus de 3 points en simulation et de 13 points en environnement réel par rapport aux politiques individuelles, sans dégradation de la vitesse d'exécution. Intégrer une nouvelle politique dans le système ne requiert qu'une évaluation légère, sans coût de réentraînement. Ce résultat a une portée concrète pour les intégrateurs. Le problème central de la manipulation robotique est que chaque paradigme excelle sur sa distribution d'entraînement mais généralise mal hors distribution. RoboRouter contourne ce mur non pas en cherchant un meilleur modèle universel, mais en exploitant les forces complémentaires de politiques spécialisées existantes. Le gain de 13 % en réel est notable car le sim-to-real gap ronge habituellement les gains obtenus en simulation. L'absence de réentraînement signifie que le système peut absorber de nouveaux modèles au fil du temps -- une propriété utile à mesure que les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) sortent des cycles de recherche pour entrer en déploiement. Ce travail prend place dans un contexte de prolifération rapide des paradigmes de contrôle robotique. Les équipes de Figure (Figure 03), Tesla (Optimus Gen 3) ou 1X parient sur l'unification via un seul grand modèle entraîné à grande échelle. RoboRouter incarne une thèse adverse: l'hétérogénéité contrôlée, avec un orchestrateur léger, peut surpasser la politique unique sans le coût computationnel associé. Les auteurs ne précisent pas de déploiement industriel annoncé ni de partenariats, ce qui place cette contribution dans le registre recherche applicable plutôt que produit shipé. Les prochaines étapes naturelles seraient l'évaluation sur des benchmarks standardisés plus larges (LIBERO, RoboSuite) et l'intégration de politiques récentes à mesure qu'elles sont rendues publiques.

IA physiqueOpinion
1 source
PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique
2arXiv cs.RO 

PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique

Des chercheurs ont présenté PLanAR (Planning-Language-Grounded Agentic Reasoning), un framework agent pour la manipulation robotique long-horizon en environnements ouverts, publié sous forme de préprint arXiv (2602.01662v4). Le système utilise des modèles vision-langage (VLMs) comme moteur de raisonnement, mais les contraint via une interface de planification symbolique structurée en trois composants : des prédicats d'objets encodant l'état de la scène, des schémas d'action définissant les compétences du robot avec leurs préconditions et effets attendus, et des plans symboliques servant de représentations intermédiaires exécutables. Après chaque action, PLanAR vérifie si les effets symboliques attendus ont été atteints via les observations embarquées, ce qui lui permet de détecter les échecs et de replanifier en cas de déviation. Les évaluations couvrent plusieurs morphologies de robots et backends VLM sur des tâches allant de l'empilement d'objets à la résolution de mots croisés, en passant par des séquences cuisine long-horizon. La manipulation long-horizon reste un défi majeur de la robotique incarnée : les architectures VLA (Vision-Language-Action) pures, comme Pi-0 (Physical Intelligence) ou OpenVLA, échouent souvent lorsque les séquences s'allongent et que les conditions d'exécution changent. PLanAR adresse ce problème en introduisant une boucle de vérification étape par étape qui sépare explicitement raisonnement et exécution, une propriété absente des approches end-to-end. Cette architecture hybride neurosymbolique est directement pertinente pour les intégrateurs industriels travaillant en environnements non contrôlés, car elle permet au robot de détecter et corriger ses propres erreurs sans intervention humaine. Les auteurs reconnaissent eux-mêmes que PLanAR révèle des limitations importantes dans le raisonnement incarné des VLMs actuels, une posture analytique rare dans la littérature récente. PLanAR s'inscrit dans une longue tradition d'approches TAMP (Task and Motion Planning) cherchant à combiner planification symbolique et exécution motrice, aux côtés de SayCan (Google DeepMind, 2022), Code as Policies (2023) et GR00T N2 (NVIDIA, 2025) qui intègre également un module de raisonnement symbolique. La distinction clé réside dans l'interface de planification formelle imposée au VLM, qui réduit l'espace de recherche au prix d'une expressivité moindre. Le preprint ne mentionne ni partenariat industriel ni timeline de déploiement, et les expériences restent en laboratoire : le passage à l'échelle en conditions réelles demeure la question ouverte centrale pour valider l'approche au-delà du benchmark académique.

IA physiqueOpinion
1 source
Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle
3arXiv cs.RO 

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Des chercheurs ont publié le 23 mai 2026 sur arXiv (réf. 2605.23477) un cadre d'apprentissage pour la manipulation robotique compositionnelle baptisé SMoDP (Semantically Structured Mixture-of-Experts Diffusion Policy). L'approche combine des politiques de diffusion avec une architecture Mixture-of-Experts (MoE) guidée sémantiquement : un prédicteur de compétences léger, supervisé par des annotations hors-ligne générées par des modèles vision-langage (VLM), route des séquences d'actions vers des experts spécialisés par phase comportementale (saisie, transport, insertion). La cohérence du routage est assurée par une double stratégie d'alignement contrastif, inter-modal pour ancrer les observations multimodales dans des sémantiques définies en langage naturel, et intra-modal pour maintenir un routage cohérent entre comportements visuellement distincts mais fonctionnellement équivalents. Sur des benchmarks multi-tâches, SMoDP surpasse les baselines diffusion et MoE existantes avec une meilleure efficacité paramétrique, et supporte le transfert vers de nouvelles tâches via fine-tuning frugal. L'enjeu est réel : les politiques de diffusion haute performance sont coûteuses en inférence, tandis que les versions allégées peinent à généraliser dès que le nombre de tâches augmente. Les architectures MoE classiques, qui n'activent qu'un sous-ensemble de paramètres, souffrent d'un défaut de conception : leur routage basé sur des statistiques latentes fragmente les comportements réutilisables entre experts, réduisant l'interprétabilité et la transférabilité. En ancrant la spécialisation dans la structure sémantique de la tâche, SMoDP rend les experts plus modulaires, un avantage direct pour les intégrateurs déployant des robots polyvalents sans réentraîner l'ensemble du modèle. Ce travail s'inscrit dans une course intense à l'efficacité des politiques robotiques. Depuis 2023, les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence) ont supplanté les approches classiques, et les succès des MoE dans les LLM (Mixtral, Qwen-MoE) ont incité les chercheurs en robotique à adapter ces architectures, avec des résultats mitigés faute d'un bon mécanisme de routage. SMoDP se rapproche des pipelines VLA (Vision-Language-Action) comme OpenVLA ou GR00T N2 de NVIDIA, en intégrant la supervision sémantique par VLM comme lien entre langage et action. À ce stade, il s'agit d'une contribution académique validée en simulation et en environnement de laboratoire, sans annonce de déploiement industriel ni de partenaire commercial ; l'étape logique suivante serait une validation sur plateformes matérielles réelles à grande diversité de tâches.

💬 Le vrai problème des MoE en robotique, c'était le routage : les experts se spécialisaient sur des statistiques latentes sans rapport avec ce que le robot faisait vraiment. Ancrer la spécialisation sur des phases comportementales concrètes, saisir, transporter, insérer, c'est le bon sens qui manquait, et les benchmarks suivent. Reste à confirmer ça sur du matériel réel, pas juste en simulation.

IA physiqueOpinion
1 source
PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique
4arXiv cs.RO 

PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique

PhysMem, un cadre mémoire présenté sur arXiv (identifiant 2502.20323, version 5 actualisée au printemps 2026), propose une approche permettant aux planificateurs robotiques basés sur des modèles vision-langage (VLM) d'acquérir des connaissances physiques au moment de l'exécution, sans modifier les paramètres du modèle. Le système enregistre les interactions, génère des hypothèses sur les propriétés physiques observées, les soumet à vérification par des gestes ciblés, puis n'intègre que les hypothèses validées pour guider les décisions futures. Évalué sur trois tâches de manipulation réelle et des benchmarks de simulation avec quatre architectures VLM distinctes, PhysMem atteint 76 % de succès sur une tâche contrôlée d'insertion de brique, contre 23 % pour une récupération directe d'expérience. Sur des sessions de déploiement de 30 minutes, les performances progressent de façon consistante au fil du temps. L'apport central de PhysMem réside dans la séparation entre récupération et vérification. Les approches classiques de mémoire épisodique supposent que les expériences passées s'appliquent directement à la situation courante, ce qui produit des échecs dès que les conditions physiques changent, même marginalement. PhysMem brise ce cycle en testant activement chaque hypothèse avant de l'exploiter, une propriété critique pour les environnements industriels où surfaces, matériaux et tolérances varient d'un poste à l'autre. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des robots capables de s'adapter à de nouveaux objets ou environnements sans cycle de réentraînement coûteux. L'écart de 53 points de pourcentage entre les deux modes illustre que le problème n'est pas la mémoire en soi, mais la rigidité de son application directe. Les VLM comme planificateurs robotiques ont été popularisés par des travaux comme SayCan (Google DeepMind), Code as Policies, ou plus récemment pi0 de Physical Intelligence, qui ont démontré une capacité de raisonnement abstrait sur les tâches. Leur limite persistante reste l'incapacité à modéliser les propriétés physiques spécifiques d'objets particuliers, un obstacle majeur à la généralisation hors laboratoire. PhysMem s'inscrit dans un mouvement plus large vers le test-time adaptation en robotique, distinct du fine-tuning classique et complémentaire des approches VLA (Vision-Language-Action). À noter: les résultats publiés portent sur des tâches de laboratoire contrôlées, et aucun déploiement industriel n'est annoncé à ce stade. Les suites logiques incluent des tests sur des horizons de déploiement plus longs et des tâches impliquant des objets déformables ou des matériaux à comportement incertain, là où les hypothèses physiques sont les plus difficiles à abstraire.

IA physiquePaper
1 source