Embodied.cpp : un moteur d'inférence portable pour modèles d'IA incarnée sur robots hétérogènes
Des chercheurs publient sur arXiv (référence 2607.02501v1) un runtime d'inférence baptisé Embodied.cpp, conçu pour exécuter des modèles d'IA incarnée directement sur des robots physiques. Écrit en C++, il cible spécifiquement les modèles vision-langage-action (VLA) et les modèles monde-action (WAM), deux familles d'architectures qui équipent aujourd'hui la plupart des humanoïdes et bras robotiques pilotés par apprentissage. Le système s'organise en cinq couches, des adaptateurs d'entrée jusqu'aux adaptateurs de déploiement, en passant par la construction de séquences, l'exécution du backbone et des modules de tête interchangeables. Les auteurs l'ont testé sur deux modèles VLA, HY-VLA et pi0.5, obtenant des taux de réussite de tâches en boucle fermée de 100,0% et 91,0% respectivement. Sur un benchmark préliminaire de modèle WAM utilisant un bloc Transformer LingBot-VA, la mémoire consommée par bloc chute de 312,2 MiB à 88,1 MiB.
Cette publication s'attaque à un problème très concret pour les intégrateurs robotiques: le déploiement des modèles d'IA incarnée reste aujourd'hui fragmenté entre piles Python spécifiques à chaque modèle, hypothèses matérielles disparates et code de liaison écrit à la main pour chaque robot. Les runtimes d'inférence existants sont pensés pour du serving requête-réponse classique, pas pour les contraintes réelles du contrôle robotique: exécution multi-fréquence dans une boucle fermée, inférence batch-1 en priorité latence sur du matériel hétérogène, et interfaces au-delà du simple flux de tokens. Si les résultats se confirment à plus grande échelle, un runtime portable unique capable de faire tourner plusieurs familles de VLA et de WAM sur des appareils edge variés réduirait significativement le travail d'ingénierie nécessaire pour passer d'un prototype en simulation à un déploiement réel sur robot, un des goulots d'étranglement les plus cités du secteur.
Le travail s'inscrit dans la course actuelle autour des modèles génériques de contrôle robotique, aux côtés d'architectures comme Pi-0 de Physical Intelligence ou GR00T N2 de Nvidia, qui cherchent toutes à unifier perception, langage et action dans un seul modèle déployable sur du matériel varié. En proposant une couche d'abstraction backend commune plutôt qu'un modèle de plus, Embodied.cpp se positionne comme brique d'infrastructure plutôt que comme concurrent direct, un signe que la standardisation de l'inférence embarquée devient un enjeu aussi important que la performance des modèles eux-mêmes.
Dans nos dossiers




