Politique de guidage comportemental : des démonstrations comme invites pour la manipulation
Une équipe de chercheurs publie sur arXiv (preprint 2606.30457, juin 2026) une architecture baptisée Behavior Prompting Policy (BPP), conçue pour permettre à un robot de réaliser une tâche de manipulation inédite à partir d'une seule démonstration humaine, sans aucun fine-tuning. Le principe, qu'ils nomment "behavior prompting", s'inspire directement de l'apprentissage en contexte (in-context learning) des grands modèles de langage : la démonstration joue le rôle de "prompt" et le modèle visuomoteur génère les actions correspondantes à partir de l'observation courante. En parallèle, les auteurs introduisent iPhUMI, une interface de manipulation tenue à la main qui permet de collecter des données d'entraînement diversifiées à moindre coût, ainsi que deux benchmarks d'évaluation inédits : DrawAnything (tâches de dessin sur robot) et LIBERO-Gen (manipulation de surface avec généralisation zero-shot).
Le résultat le plus structurant de cette recherche est l'identification de la diversité des tâches d'entraînement comme facteur déterminant de la capacité de prompting, davantage que le volume de données ou la taille du modèle. Cela change le calcul pour les intégrateurs et les équipes robotique : plutôt que d'accumuler des milliers de démonstrations par tâche pour fine-tuner, une politique généraliste entraînée sur un corpus très varié suffit, et l'opérateur la re-configure via une unique démonstration manuelle. Sur le plan industriel, c'est une piste sérieuse pour réduire le coût de déploiement de robots de manipulation dans des environnements à SKUs variables, problème central en logistique et en assemblage flexible.
Cette approche s'inscrit dans une famille de travaux sur les Visual Language Action models (VLA) et les politiques généralisées, dont les représentants les plus connus sont π₀ (Physical Intelligence), OpenVLA (UC Berkeley) et RT-2 (Google DeepMind). iPhUMI se positionne comme une alternative légère aux exosquelettes ou gants haptiques pour la collecte de données. Il s'agit pour l'instant d'un preprint non peer-reviewed, et les expériences restent limitées à des environnements de laboratoire ; la question du sim-to-real et de la robustesse à la variabilité de l'éclairage ou de l'objet n'est pas traitée. Un site projet est disponible, mais aucun code ni dataset n'est encore publié.
Les équipes R&D européennes en robotique de manipulation peuvent tirer un enseignement opérationnel direct : privilégier la diversité des tâches d'entraînement plutôt que le volume de données par tâche, ce qui réduit le coût de déploiement en logistique et assemblage flexible, secteurs où plusieurs intégrateurs européens sont actifs.
Dans nos dossiers




