PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée
Une équipe de chercheurs publie PACT (Physical safety Alignment for Constrained Trajectories), un cadre d'alignement post-entraînement destiné à rendre les politiques de diffusion robotique conformes à des contraintes physiques strictes, sans accéder aux données de démonstration ni aux récompenses de tâche (arXiv:2606.08414). Les politiques de diffusion, qui génèrent des trajectoires motrices par débruitage itératif, ont connu des succès notables en manipulation robotique mais peinent à satisfaire des contraintes de sécurité fermes en déploiement réel. PACT projette les politiques pré-entraînées dans des régions faisables en distillant des gradients de contrainte via un objectif KL inverse, avec supervision dense à chaque pas de temps du processus de débruitage. Un curriculum progressif resserre graduellement les contraintes tout en maintenant un écart théoriquement borné par rapport à la politique d'origine, limitant l'oubli catastrophique. Sur des benchmarks de manipulation simulée et réelle, PACT réduit les violations de sécurité de 31,0% en moyenne et améliore simultanément le taux de réussite des tâches de 30,7%.
Ces résultats interpellent directement les intégrateurs : sécuriser une politique robotique impliquait jusqu'ici soit de contraindre l'entraînement dès le départ, au prix de l'expressivité, soit d'ajouter des garde-fous externes à l'inférence, nuisant à la scalabilité. PACT propose une troisième voie, post-entraînement et sans données supplémentaires, qui permettrait en théorie d'aligner n'importe quelle politique de diffusion existante. Le fait que sécurité et performance progressent conjointement contredit l'hypothèse d'un compromis structurel entre les deux, pourtant largement admise dans le secteur. À noter : l'article ne précise pas les configurations matérielles ni les volumes de données des tests réels, ce qui limite la portée des comparaisons directes.
Les politiques de diffusion ont connu une montée en puissance récente, portée notamment par Pi-0 (Physical Intelligence) et d'autres architectures VLA de grands laboratoires. PACT s'inspire des techniques d'alignement post-entraînement développées pour les LLM, de type RLHF, adaptées aux contraintes physiques plutôt qu'aux préférences humaines, et se positionne face aux approches par apprentissage par renforcement contraint et aux filtres CBF (Control Barrier Functions). Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit d'un résultat purement académique, sans pilote industriel annoncé. La validation sur des plateformes humanoïdes complètes et l'intégration dans des pipelines VLA de production restent à démontrer.
Dans nos dossiers




