
Modèle fondation de comportement perceptif : adapter les a priori de mouvement humain au terrain robotique
Publiée sur arXiv en juin 2026 (2606.08059), l'architecture Perceptive Behavior Foundation Model (Perceptive BFM) s'attaque à une limite structurelle des modèles fondamentaux de comportement humanoïde : l'hypothèse implicite que les mouvements de référence humains sont physiquement compatibles avec l'environnement du robot. En pratique, quand démonstrateur et robot se trouvent dans des contextes différents, la motion capture ne fournit ni les appuis au sol précis, ni les hauteurs de franchissement, ni les timings de contact requis sur terrain accidenté. Perceptive BFM conserve les références cinématiques brutes comme interface comportementale, tout en intégrant une perception locale du terrain pour adapter dynamiquement contacts, posture et timing. La méthode clé est le TCRS (terrain-conformal reference synthesis) : il retransforme des séquences de mouvement humain en références cohérentes avec le sol via construction d'appuis adaptatifs, optimisation des phases de balancement, reconstruction cinématique et réparation de collisions. L'entraînement suit une architecture enseignant-étudiant : un teacher aveugle apprend les comportements conformes au terrain, puis transfère ce savoir à un student déployé sur références brutes.
L'apport concret pour les intégrateurs est une séparation nette entre intention comportementale et adaptation terrain, ce qui rend le système scalable sans motion capture annotée sol par sol. Le student, un Transformer tracker à gating d'identité, n'active les corrections terrain que via des voies résiduelles initialisées à ne rien modifier, ce qui préserve la robustesse du prior de mouvement original. C'est une réponse partielle au débat sur le sim-to-real gap en locomotion humanoïde : l'adaptation repose sur la perception locale plutôt que sur une modélisation globale ou une planification externe, ce qui simplifie le déploiement en environnement non structuré.
Ce travail s'inscrit dans l'effervescence des behaviour foundation models pour humanoïdes : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les politiques corps entier issues de CMU et Stanford sont autant de points de comparaison directs. La question du fossé entre motion priors humains et locomotion réelle avait été partiellement adressée par les travaux sur l'imitation par RL (PHC, AMP, ASE), mais l'extension à des modèles fondamentaux déployables reste ouverte. L'article ne mentionne ni partenariat industriel ni validation hardware publiée : Perceptive BFM est pour l'instant une contribution de recherche sans déploiement terrain confirmé.
Dans nos dossiers




