GROW² : ancrage du choix d'outil et de sa position pour la manipulation robotique
Des chercheurs ont publié le 30 juin 2026 un système baptisé GROW² (GROunding Which and Where), conçu pour permettre à un robot d'utiliser des objets du quotidien comme outils de substitution lorsque l'outil nominal est absent. L'exemple canonique : couper un gâteau avec une assiette faute de couteau. Le problème technique sous-jacent est ce que les auteurs nomment l'« open-world affordance grounding », identifier quel objet peut remplir la fonction d'un outil et localiser précisément la zone d'action sur cet objet, sans avoir été entraîné spécifiquement sur cette combinaison. GROW² décompose ce problème en deux niveaux hiérarchiques : un niveau sémantique, qui mobilise des Vision-Language Models (VLMs) pour interpréter une instruction en langage naturel, sélectionner l'objet-outil et identifier les parties pertinentes ; et un niveau géométrique, qui utilise des modèles de vision fondamentaux pour ancrer ces parties dans des régions 3D précises à partir d'une seule image RGB-D.
L'intérêt industriel est réel : les pipelines robotiques actuels supposent que les outils sont prédéfinis et présents. Dès qu'un objet manque ou qu'une tâche sort du périmètre nominal, le robot s'arrête. GROW² ouvre la voie à une flexibilité opérationnelle sans retraining coûteux, ce qui est directement pertinent pour les intégrateurs en logistique, chirurgie assistée ou fabrication flexible. Les résultats reportés montrent des performances supérieures aux baselines sur les benchmarks d'affordance prediction et une généralisation zero-shot sur des catégories d'objets ouvertes, en simulation comme en conditions réelles. Un point de nuance : l'article ne communique pas de métriques de temps de cycle ni de taux de succès chiffrés en déploiement réel, ce qui rend difficile l'évaluation de la robustesse opérationnelle hors labo.
GROW² s'inscrit dans la dynamique des architectures VLA (Vision-Language-Action) qui tentent de résoudre le « sim-to-real gap » en exploitant des modèles fondamentaux pré-entraînés plutôt que de collecter massivement des données robotiques spécifiques. Sur ce créneau, les travaux concurrents incluent notamment π₀ (Physical Intelligence), RT-2 (Google DeepMind) et les recherches autour de SayCan (Google). L'approche de GROW² se distingue par sa modularité hiérarchique et l'absence de fine-tuning bout-en-bout, un choix architectural qui réduit les besoins en données mais dont la robustesse à grande échelle reste à démontrer. La prochaine étape naturelle serait des tests sur des plateformes humanoïdes ou des bras industriels en environnement semi-structuré.
Dans nos dossiers




