Planification séquentielle par points d'ancrage pour la robotique
Des chercheurs de la Case Western Reserve University ont publié SPARK (Sequential Planning via Anchored Robotic Keypoints), un système neurosymbolique de manipulation robotique sans entraînement supplémentaire. Sur LIBERO-PRO, benchmark évaluant la robustesse face aux changements de position et de tâche, SPARK atteint 43,7 % sur six configurations, soit plus du double de CaP-Agent0 (18,2 %) et des baselines Vision-Language-Action. L'architecture repose sur deux appels Gemini : le premier génère un arbre de comportement (behavior tree) typé composé de primitives précodées intégrant le contrôle bas niveau (mouvement, préhension, géométrie de profondeur) ; le second propose trois formulations textuelles alternatives par objet, que SAM3 évalue pour retenir la détection la plus confiante. Un mécanisme de récupération relance toute primitive échouée sur des objets re-détectés, sans nouvel appel LLM. Le système a été validé sur trois familles de robots (UR10e, Franka FR3, Franka bimanuels) pour neuf tâches à vingt essais chacune, avec une moyenne de 68 %.
Le résultat central est architectural : SPARK identifie la perception comme le principal point de rupture des pipelines de manipulation, non la planification. Les formulations alternatives par objet apportent +27,7 points sur les tâches spatiales et +10,0 sur la suite objet ; la boucle de récupération ajoute +5,0 points globalement. Là où CaP-Agent0 re-interroge un LLM en repartant de zéro à chaque échec, SPARK ne replanifie que la détection, réduisant significativement le coût computationnel. Point stratégique : chaque essai produit automatiquement une trajectoire vérifiée et étiquetée, permettant à un planificateur training-free de générer les données dont les VLAs ont besoin sans téleopération humaine.
SPARK s'inscrit dans le débat entre architectures VLA end-to-end (pi-0 de Physical Intelligence, RT-2 de Google DeepMind, OpenVLA de Berkeley) et approches hybrides symboliques. Les VLAs misent sur la généralisation apprise de données massives mais restent fragiles aux distributions non vues à l'entraînement, précisément ce que LIBERO-PRO mesure. SPARK démontre qu'une conception neurosymbolique rigoureuse peut surpasser des modèles foundation sur des configurations difficiles. La validation reste limitée à neuf tâches sur trois plateformes, sans timeline de déploiement industriel annoncée. La modularité du système -- détecteur, planificateur et contrôleur remplaçables indépendamment -- ouvre la voie à des intégrations sur de nouvelles plateformes sans réentraînement.
Dans nos dossiers




