
OmniContact : enchaînement de méta-compétences par flux de contact pour la loco-manipulation humanoïde généralisable
Des chercheurs ont publié le 26 juin 2026 sur arXiv (réf. 2606.26201) un framework hiérarchique baptisé OmniContact, conçu pour enchaîner des séquences complexes de locomotion et manipulation sur des humanoïdes. Le coeur du système est une représentation intermédiaire appelée "contact flow" (CF): trajectoires corporelles clés et signaux binaires de contact en série temporelle. Deux modules s'appuient dessus, CF-Track (politique bas-niveau, bibliothèque de compétences unifiée) et CF-Gen (planificateur haut-niveau heuristique qui synthétise les séquences futures). En simulation, les résultats annoncés atteignent 98,7% de succès sur la tâche "Carry Box" et 76,5% sur "Push-Stack Boxes", soit respectivement +40,9% et +66,5% face aux baselines sur l'exécution de méta-compétences et leur enchaînement. Le dataset OmniContact, constitué via capture de mouvement (MoCap) d'interactions humain-objet, supporte l'entraînement.
Le vrai défi des humanoïdes industriels n'est pas l'exécution d'un geste unitaire mais l'enchaînement robuste de séquences longues avec récupération autonome en cas de défaillance, ce verrou précis que OmniContact cible. Le système propose une interface structurée lisible par le planificateur haut-niveau, une voie médiane entre représentations explicites trop rigides pour la planification et embeddings implicites trop opaques pour la composition fiable. L'intégration avec des VLMs (Vision-Language Models) permettrait des instructions en langage naturel converties en séquences de contact flows, comme l'illustre la démonstration d'arrangement de boîtes en forme de coeur. Nuance importante: toutes les métriques publiées sont issues de conditions contrôlées en laboratoire, sans validation sur hardware physique ni déploiement industriel réel, ce qui laisse entier le problème du sim-to-real.
La loco-manipulation longue horizon est devenu le benchmark officieux du secteur humanoïde en 2025-2026. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0) et Boston Dynamics s'affrontent sur des tâches de plus en plus généralisables, tandis que NVIDIA pousse GR00T N2 comme couche de policy universelle. OmniContact vient du monde académique, sans entreprise identifiée derrière ce preprint, mais son approche par contact flow s'inscrit dans la tendance des représentations intermédiaires structurées, en parallèle des architectures VLA à diffusion. La collecte MoCap dédiée aux interactions humain-objet sur humanoïdes confirme que les données de référence restent un goulot d'étranglement même quand la simulation abonde. La prochaine étape déterminante sera le transfert sur un humanoïde physique, condition sine qua non pour que ce framework passe du laboratoire au hangar.
Dans nos dossiers




