ReactiveBFM : planification de mouvement réactive en boucle fermée pour le contrôle global des humanoïdes
Des chercheurs ont publié le 30 juin 2026 sur arXiv (identifiant 2606.30362) les travaux ReactiveBFM, un framework de planification-contrôle en boucle fermée temps réel pour humanoïdes, validé sur le robot Unitree G1. L'approche atteint un taux de succès de 93,1 % lors de benchmarks sim-to-sim soumis à des perturbations sévères, surpassant de 28,6 points les baselines en boucle ouverte classiques. Le système permet notamment la poursuite de cibles mobiles en zero-shot, c'est-à-dire sans avoir été entraîné explicitement sur cette tâche, en mobilisant une coordination corps entier fluide et une replanification à la volée.
Le verrou technique adressé est le problème dit d'exposition bias : quand un modèle génératif de planification de mouvement est naïvement chaîné avec un contrôleur d'exécution, les écarts de suivi s'accumulent jusqu'à provoquer des effondrements comportementaux. ReactiveBFM répond à cela via un curriculum d'échantillonnage par préfixe planifié (scheduled prefix sampling), qui force le planificateur à apprendre des comportements de récupération d'erreur à partir d'états physiques imparfaits plutôt que de trajectoires de référence idéales. Un second mécanisme d'asynchronisme découple la replanification autorégressive, lente, du tracking haute fréquence, tandis qu'un chunking de trajectoire assure la cohérence spatio-temporelle sans jitter physique. Pour les intégrateurs industriels et les équipes de recherche en contrôle humanoïde, cela valide une piste concrète pour rendre les Behavior Foundation Models (BFMs) exploitables hors conditions laboratoire.
Les BFMs sont une classe émergente de modèles pré-entraînés qui fournissent des priors de contrôle pour humanoïdes, analogues aux LLMs pour le texte. Jusqu'ici, leur limitation majeure était l'exécution figée de mouvements pré-définis, sans adaptation à l'environnement. Le Unitree G1, humanoïde chinois à 16 000 dollars commercialisé depuis 2024, s'est imposé comme banc de test standard dans la recherche académique. Les concurrents directs sur le plan scientifique incluent les travaux autour de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et les architectures VLA embarquées chez Figure et Agility Robotics. Ce papier reste à ce stade un preprint non évalué par les pairs : les résultats sim-to-sim sont prometteurs mais aucun déploiement industriel ni transfert sim-to-real robuste n'est encore démontré.
Les techniques ReactiveBFM (curriculum de préfixe planifié, réplanification asynchrone, chunking de trajectoire) sont directement exploitables par les équipes R&D européennes travaillant sur les Behavior Foundation Models pour humanoïdes, mais aucun acteur français ou européen n'est impliqué dans ces travaux.




