Optimisation par entropie croisée de plans de tâches et de mouvements à ancrage physique
Une équipe de recherche a publié sur arXiv (réf. 2512.11571) une méthode de planification de tâches et de mouvements (TAMP) qui intègre un simulateur physique parallélisé sur GPU et une optimisation par entropie croisée. Le système planifie simultanément les actions discrètes à haut niveau et les trajectoires continues à bas niveau, en tenant compte explicitement des dynamiques physiques et des contacts avec l'environnement. Les paramètres des contrôleurs sont échantillonnés par entropie croisée dans le simulateur, puis transférés directement au robot réel, les contrôleurs simulés et physiques étant identiques. Les démonstrations portent sur des tâches de manipulation où le robot exploite la géométrie de l'environnement pour déplacer des objets, avec code et vidéos disponibles sur le site du premier auteur, Andreu Matoses.
L'écart entre planification symbolique et exécution physique reste l'un des obstacles majeurs de la robotique de manipulation : les algorithmes TAMP classiques comme PDDLStream ou STRIPStream produisent des plans logiquement valides mais physiquement irréalisables, car ils ignorent frottements, dynamiques d'actionneurs et contacts réels. En rendant le simulateur physique central à l'optimisation, cette approche contourne les abstractions géométriques simplificatrices qui créent cet écart. L'identité entre contrôleurs simulés et réels réduit mécaniquement le sim-to-real gap, facteur d'échec récurrent lors du déploiement de politiques apprises en simulation vers des robots physiques.
La planification TAMP est portée depuis plus de vingt ans par des travaux fondateurs comme ceux de Kaelbling et Lozano-Pérez au MIT CSAIL. La tendance récente privilégie l'intégration de modèles de fondation visuels (VLA), dont pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA, pour opérer dans des environnements ouverts et non structurés. L'approche par entropie croisée et simulation physique constitue une alternative plus classique et interprétable, proche des méthodes MPPI ou MuJoCo MPC. Ce travail reste une démonstration académique sur des tâches de manipulation contrôlées : aucun déploiement industriel ni partenariat commercial n'est annoncé.
Dans nos dossiers




