
L'apprentissage conjoint de prédicats et d'actions permet la composition zéro-shot de compétences
Des chercheurs ont publié le 21 mai 2026 sur arXiv un préprint intitulé "Jointly Learning Predicates and Actions Enables Zero-Shot Skill Composition", introduisant PACTS (Predicate Action Skills), une nouvelle classe de politiques visuomotrices en boucle fermée pour la robotique. Le problème posé est précis : les approches actuelles d'apprentissage par démonstration (LfD) permettent à un robot d'acquérir des compétences isolées, mais échouent à les recombiner de façon inédite sans réentraînement. PACTS y répond en modélisant chaque compétence comme un processus génératif joint sur deux flux simultanés : les trajectoires d'action et les trajectoires de croyance prédicative, c'est-à-dire des représentations symboliques de l'état du monde induites par chaque action. Un seul modèle produit ainsi des séquences action-résultat cohérentes, sans pipeline séparé.
L'enjeu est structurel pour la robotique industrielle et de service : la capacité de composition zéro-shot signifie qu'un robot formé sur des briques de base peut enchaîner des tâches nouvelles sans nouvelle collecte de données ni réentraînement, ce qui est un verrou majeur dans le déploiement à grande échelle. Les politiques génératives modernes, notamment les VLA (Vision-Language-Action models) comme pi-0 de Physical Intelligence ou les modèles de diffusion appliqués aux trajectoires, ne modélisent que la distribution des actions, sans raisonnement explicite sur les états symboliques intermédiaires. PACTS utilise les prédictions de prédicats en ligne comme interface symbolique pour séquencer les compétences et surveiller leur exécution, s'approchant ainsi d'une forme de planification symbolique intégrée. Les auteurs montrent que la génération jointe améliore à la fois la qualité des actions produites et la classification des prédicats, deux métriques qui se renforçaient rarement dans les approches précédentes.
Ce travail s'inscrit dans un débat actif entre approches purement neuronales (end-to-end) et approches hybrides neuro-symboliques pour la manipulation robotique. Les méthodes de Task and Motion Planning (TAMP) classiques atteignent une bonne compositionnalité mais nécessitent des modèles symboliques prédéfinis ; les politiques d'imitation modernes générealisent mal sans représentation intermédiaire explicite. PACTS tente de combler les deux, en apprenant les symboles depuis les données de démonstration plutôt qu'en les codant manuellement. Le code et les expériences sont annoncés sur le site du projet (planpacts.github.io), mais le préprint n'est pas encore évalué par des pairs, et aucun résultat de déploiement terrain ni partenaire industriel n'est mentionné à ce stade.
Dans nos dossiers




