
Planification à long terme grâce à des politiques bi-niveaux sur des modèles du monde symboliques
Une équipe de recherche publie sur arXiv (réf. 2605.15975, mai 2026) BISON, un système de planification robotique à deux niveaux conçu pour résoudre des tâches longue durée impliquant des séquences d'actions complexes. L'architecture repose sur des "bilevel policies" : une politique bas niveau (π^ll), un réseau de neurones entraîné par imitation sur des démonstrations continues, et une politique haut niveau (π^hl), construite à partir d'abstractions symboliques de ces mêmes démonstrations, enrichies par généralisation inductive. Sur les benchmarks étendus MetaWorld, BISON surpasse les méthodes VLA (Vision-Language-Action) et les architectures end-to-end en généralisation à de longues séquences et à des environnements contenant davantage d'objets que ceux vus à l'entraînement. Le chiffre mis en avant : la composante symbolique seule peut résoudre des problèmes impliquant 10 000 objets pertinents en moins d'une minute.
L'enjeu technique sous-jacent est bien connu des équipes de robotique industrielle : l'apprentissage par imitation fonctionne remarquablement bien pour le contrôle fin des manipulateurs, mais ne passe pas à l'échelle dès qu'une tâche exige plusieurs dizaines d'étapes enchaînées. Les VLA de nouvelle génération comme Pi-0 ou les dérivés de RT-2 restent en difficulté sur ce point. BISON propose de ne pas choisir entre les deux paradigmes, mais de les stratifier : le réseau neuronal gère la dextérité physique, le raisonnement symbolique prend en charge la séquence globale. Pour un intégrateur ou un COO industriel, cela signifie potentiellement des robots capables d'exécuter des gammes opératoires longues sans replanification humaine à chaque étape, avec un coût mémoire et temps d'inférence réduit par rapport aux approches monolithiques.
BISON s'inscrit dans un retour discret mais croissant aux approches hybrides neuro-symboliques, en réaction aux limites des architectures entièrement end-to-end qui dominent la littérature depuis 2022. La comparaison directe avec les VLA dans les expériences est un positionnement explicite dans ce débat. Il faut toutefois noter que les évaluations sont réalisées en simulation (MetaWorld), sans validation en environnement physique rapportée à ce stade, ce qui laisse entière la question du sim-to-real gap. La page projet est disponible, aucun calendrier de déploiement réel n'est annoncé.
Dans nos dossiers




