Agents omnimodaux incarnés : des compétences isolées à l'autonomie physique du quotidien
OmniAct est un framework de recherche publié le 26 juin 2026 sur arXiv (2606.27251) qui propose une architecture pour agents robotiques capables d'opérer de façon persistante sur des tâches longues dans des environnements non structurés. Le système repose sur trois couches hiérarchiques asynchrones : un planificateur sémantique multimodal qui route les actions entre domaines cyber (APIs, IoT) et physiques (manipulation, navigation), un module de mémoire adaptatif à compression événementielle garantissant une croissance sous-linéaire du contexte, et un moteur de préemption visuelle asynchrone qui referme la boucle sémantique pendant l'exécution physique. Évalué sur 40 tâches réelles à long horizon sur deux plateformes robotiques coordonnant quatre dispositifs IoT, OmniAct maintient une consommation de tokens quasi-stable en deçà de 100 000 tokens accumulés et élève des modèles open-weight à un niveau de performance comparable aux modèles propriétaires.
Ce résultat adresse trois défaillances structurelles bien connues dans le domaine : les planificateurs VLM (Vision-Language Model) manquent d'un espace d'action cyber-physique unifié, les frameworks d'agents existants accumulent du contexte de façon non bornée jusqu'à dégrader la cohérence temporelle sur les longues sessions, et les politiques VLA (Vision-Language-Action) s'exécutent classiquement en boucle ouverte sans détecter leurs propres défaillances. La préemption visuelle asynchrone est l'apport le plus différenciant : le robot peut interrompre et reconfigurer une séquence en cours sans attendre sa terminaison, ce qui est précisément le comportement requis dans un déploiement industriel réel. Pour un intégrateur ou un COO industriel, la démonstration qu'une architecture bien conçue suffit à hisser des modèles open-weight au niveau propriétaire modifie le calcul économique du déploiement : moins de dépendance aux fondations coûteuses de GPT-4o ou Gemini.
Ce travail s'inscrit dans une compétition dense autour des architectures pour agents embodied à long horizon. Des frameworks concurrents comme pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) ciblent également la généralisation physique, mais restent principalement centrés sur la manipulation. OmniAct se distingue en intégrant explicitement le domaine cyber dans la boucle d'action, rapprochant l'architecture des besoins industriels où un robot interagit aussi avec des systèmes d'information et des capteurs IoT. Nuance importante : il s'agit d'un preprint arXiv, non encore évalué par les pairs, sans déploiement commercial annoncé ni divulgation des deux plateformes robotiques utilisées, ce qui limite la reproductibilité des résultats à ce stade.
Les intégrateurs robotiques européens pourraient réduire leur dépendance aux fondations propriétaires américaines (GPT-4o, Gemini) si l'architecture OmniAct se confirme après révision par les pairs.
Dans nos dossiers




