InfrastructurearXiv cs.RO 2 juin 2026

Construction d'un jeu de données robotique modélisée comme un processus de build par artefacts

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs de l'Université de la Bundeswehr Munich (UniBwTAS) ont publié Bagzel, une extension open source pour le système de build Bazel qui modélise la construction de jeux de données robotiques comme un processus basé sur des artefacts et un graphe de dépendances. Présenté sur arXiv (référence 2606.00162), l'outil convertit des enregistrements ROS bag en jeux de données prêts pour l'entraînement ML, avec export natif au format nuScenes. Les auteurs évaluent Bagzel et une variante Bagzel-xattr (gestion des digests côté serveur) contre un pipeline séquentiel de référence rosbag2nuscenes, sur des volumes de 5,1 à 20,4 Go. En mode warm build (recalcul sur données déjà traitées), Bagzel atteint une accélération jusqu'à 386,26x par rapport au baseline séquentiel ; en mode incrémental (après modification partielle du dataset), le gain est de 7,21x. Bagzel-xattr réduit en outre le temps d'exécution de 5,9 % en moyenne par rapport à Bagzel standard.

Le goulet d'étranglement que cible Bagzel est bien connu des équipes de robotique appliquée : les scripts séquentiels ad hoc imposent de recalculer l'intégralité du dataset à chaque modification, allongeant les cycles d'itération de plusieurs heures. En appliquant les principes de reproductibilité et de build incrémental du génie logiciel au traitement de données capteurs multimodales, Bagzel rend viable l'exploration rapide de paramètres de preprocessing, le débogage de pipelines de perception, et la maintenance de datasets versionnés de manière déterministe. Pour un intégrateur ou une équipe de recherche manipulant régulièrement des dizaines de gigaoctets de données capteurs, réduire le temps de rebuild d'un facteur plusieurs centaines change concrètement le rythme d'expérimentation.

Le format ROS bag reste le standard de facto pour l'enregistrement de données capteurs (lidar, caméra, IMU) en conditions réelles, tant en recherche qu'en industrie, mais sa conversion vers des formats ML exploitables est généralement assurée par des scripts maison non maintenables. Bagzel s'inscrit dans une tendance de professionnalisation du MLOps en robotique, un espace où des outils comme DVC ou Foxglove Studio couvrent des parties du problème sans offrir la cohérence d'un système de build unifié. Le laboratoire TAS de l'UniBwM est actif sur les thématiques de conduite autonome et de perception embarquée. Les prochaines étapes naturelles pour Bagzel concernent l'intégration avec des pipelines d'entraînement continu et l'extension à d'autres formats standardisés comme le Waymo Open Dataset.

Impact France/UE

L'outil est développé par l'Université de la Bundeswehr Munich (Allemagne/UE), renforçant l'outillage MLOps open source européen pour les équipes de robotique et de conduite autonome manipulant des données capteurs ROS.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique

Un groupe de chercheurs impliqués dans l'élaboration de la norme ISO/WD 26264-1 au sein du comité technique ISO/TC 299/WG 16 publie un préprint arXiv (2606.19769, juin 2026) posant que la standardisation des données constitue le prochain verrou critique pour les robots humanoïdes. Leur thèse centrale: le goulot d'étranglement n'est pas seulement la rareté des données, mais leur caractère non cumulatif, causé par des coûts de collecte élevés, des silos organisationnels et des protocoles d'évaluation incompatibles. Les auteurs identifient trois conditions pour qu'un jeu de données soit réutilisable: l'expérience physique doit rester liée au corps du robot, à la tâche et au contexte d'exécution; les flux multimodaux doivent partager synchronisation temporelle, repères de coordonnées, calibration et unités documentées; les données doivent enfin être versionnées et traçables pour s'accumuler entre projets et organisations. L'enjeu est direct pour les équipes qui entraînent des modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI. Sans grammaire commune (métadonnées, provenance, versioning), chaque acteur repart de zéro à chaque nouveau déploiement. Pour un intégrateur industriel, cela signifie concrètement que des données collectées sur un site ne peuvent pas réentraîner un modèle sur un autre, même avec du matériel identique. L'article recadre le "sim-to-real gap" non pas comme un problème de simulation, mais comme un déficit d'alignement des référentiels physiques entre jeux de données: les hypothèses de synchronisation et de cinématique, si elles ne sont pas documentées, rendent les flux non interopérables dès le départ. La norme proposée s'articule en deux couches: une infrastructure horizontale couvrant le cycle de vie, les métadonnées, la qualité, le versioning et la traçabilité, et des parties spécifiques par capacité (manipulation, locomotion, interaction humain-robot, cognition). Le contexte est celui d'un secteur ou Figure AI, Boston Dynamics, Tesla (Optimus Gen 3), Unitree et 1X accumulent des données de manière cloisonnée, tandis que des initiatives ouvertes comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace) posent des bases communes sans force normative. Le préprint est en phase WD (Working Draft) sans date de ratification annoncée: c'est une prise de position académique, pas une norme publiée ni un déploiement industriel.

UESi ratifiée, la norme ISO/WD 26264-1 structurera les pratiques de données des acteurs européens de la robotique humanoïde ; HuggingFace (Paris) est déjà cité comme contributeur aux bases ouvertes communes (LeRobot), sans force normative à ce stade.

InfrastructureOpinion

1 source

2arXiv cs.RO

CSAR : architecture système conteneurisée pour la robotique

Des chercheurs ont publié en juin 2026 CSAR (Containerized System Architecture for Robotics), un cadre architectural décrit dans un preprint arXiv (identifiant 2606.30293). L'architecture s'appuie sur la conteneurisation système via LXC/LXD, la communication inter-processus ROS 2/DDS, et une infrastructure edge organisée en trois couches : Infrastructure Core, Platform and Multi-User Orchestration, et Compute and Acceleration. Ces couches visent à créer des environnements d'exécution persistants et "hardware-affines", découplés des charges expérimentales volatiles. CSAR a été déployé et évalué dans un laboratoire de robotique académique à travers deux cas d'usage représentatifs : du SLAM 3D déporté sur serveur edge et de la cartographie sémantique accélérée par GPU. Les templates de déploiement, fichiers de configuration et documentation sont publiés en open source sur GitHub (goyoambrosio/CSAR). L'intégration logicielle en robotique distribuée souffre depuis des années de frictions récurrentes : isolation des dépendances défaillante, incompatibilités entre environnements embarqués et cloud, partage inefficace des GPU dans les équipes multi-utilisateurs. CSAR apporte une réponse structurée en séparant explicitement les couches d'infrastructure stables des workloads expérimentaux. Selon les auteurs, les résultats observés incluent une meilleure utilisation des ressources partagées, une intégration logicielle simplifiée et un prototypage plus sûr. Pour un intégrateur ou un responsable R&D, l'enjeu est concret : réduire le phénomène "works on my machine" et raccourcir le cycle test-déploiement sur des architectures edge hétérogènes, un problème chronique dans les labo multi-robots ou multi-chercheurs. L'adoption de Docker et Kubernetes en robotique s'est faite de manière ad hoc, sans tenir compte des contraintes spécifiques du secteur : latence temps-réel, accès direct au matériel (GPU, capteurs), et partage de ressources entre utilisateurs concurrents. CSAR s'inscrit dans un courant de travaux "devops for robotics" qui inclut AWS RoboMaker, les environnements CI Gazebo, ou encore des projets académiques sur la robotics cloud infrastructure. Il faut noter que CSAR reste pour l'instant une contribution de recherche avec un déploiement en labo académique, sans adoption industrielle annoncée. Les suites naturelles seraient une validation à plus grande échelle, sur des architectures multi-sites, ou une intégration dans des pipelines de déploiement de flottes robotiques réelles.

InfrastructureOpinion

1 source

3arXiv cs.RO

ROSA : un système d'inférence de modèles fondation pour usines de robots

Une équipe de recherche propose ROSA, un système de service d'inférence pour les modèles fondation de robotique (RFM), décrit dans un preprint publié sur arXiv (2607.01088, 1er juillet 2026). Contrairement aux systèmes existants qui traitent l'inférence comme un problème de calcul en périphérie, avec un GPU embarqué ou dédié par robot, ROSA repose sur trois principes: un pool de GPU partagé accessible en réseau par toute une flotte de robots, une abstraction de programmation "robotics-aware" gérant des pipelines multi-modèles avec exigences de performance par tâche et gestion des échecs, et un ordonnancement piloté par l'objectif global de l'usine plutôt que par la latence d'une seule requête. L'équipe l'a implémenté sur Ray Serve pour l'orchestration distribuée, avec vLLM, PyTorch et JAX comme moteurs d'inférence, et l'a évalué sur des robots réels ainsi que sur des charges de travail synthétiques à grande échelle. Résultat annoncé: jusqu'à 12,06 fois plus de productivité d'usine qu'avec des systèmes de service dédiés classiques, un chiffre qui reste à confirmer sur des déploiements industriels réels plutôt que sur les scénarios de test choisis par les auteurs. L'intérêt de ROSA est de remettre en cause l'hypothèse dominante selon laquelle l'inférence d'un modèle de robot doit tourner localement, robot par robot. En mutualisant des GPU de classe serveur sur le réseau, l'approche promet de meilleures performances d'inférence, une autonomie de batterie accrue et un taux d'utilisation GPU plus élevé, des enjeux critiques pour les industriels qui envisagent des flottes de robots humanoïdes ou mobiles plutôt que des unités isolées. Cela rapproche l'infrastructure de service robotique du modèle déjà adopté pour les grands modèles de langage en cloud, un signal utile pour les intégrateurs et décideurs qui raisonnent en coût par flotte plutôt qu'en coût par robot. Le travail s'inscrit dans la vague plus large des modèles fondation de robotique (VLA) qui rendent les robots généralistes envisageables en usine, où l'inférence reste souvent le goulot d'étranglement plutôt que l'apprentissage lui-même. Il s'agit ici d'une contribution académique, pas d'un produit commercialisé: aucun acteur français ou européen n'est cité, et le passage à l'échelle en production reste à démontrer au-delà des bancs d'essai présentés.

InfrastructureActu

1 source

4Robotics Business Review

L'évolution de la connectivité visuelle en robotique : de l'USB et l'Ethernet au GMSL

La connectivité vision dans les systèmes robotiques traverse une mutation structurelle. Pendant près d'une décennie, les intégrateurs ont déployé des caméras USB ou Ethernet (protocole GigE Vision) pour alimenter les pipelines de perception des robots. L'USB, bon marché et universellement supporté, suffisait au prototypage, mais ses contraintes de longueur de câble, sa latence non déterministe et sa charge CPU élevée l'ont rendu inadapté aux plateformes complexes. GigE Vision a ensuite étendu la portée et standardisé les interfaces entre fournisseurs, au prix d'un processeur embarqué sur chaque caméra pour packetiser les données, ajoutant latence et complexité réseau. Aujourd'hui, le GMSL (Gigabit Multimedia Serial Link), conçu initialement pour les systèmes caméra de l'automobile, s'impose comme alternative de référence dans les architectures robotiques de nouvelle génération. Ce standard transmet des images non compressées, un contrôle bidirectionnel et l'alimentation électrique sur un unique câble coaxial ou paire torsadée blindée, sur plusieurs mètres de portée, adapté aux plateformes mobiles et articulées. La tendance est claire : les robots modernes embarquent désormais huit capteurs d'images ou plus, répartis sur l'ensemble de la structure, pour des fonctions allant de l'évitement d'obstacles à la manipulation dextre et à l'interaction humain-robot. L'enjeu pour les intégrateurs et décideurs B2B est celui du déterminisme. Les systèmes USB et Ethernet souffrent d'arbitrage et de buffering qui introduisent une variabilité de latence incompatible avec la perception temps réel : boucles de contrôle pour la manipulation, fusion LiDAR-IMU-caméra, vision stéréo synchronisée. GMSL établit une liaison point-à-point dédiée par caméra vers un calculateur centralisé (GPU embarqué ou FPGA), éliminant ces aléas. C'est un changement d'architecture, pas simplement d'interface : le traitement migre vers un noeud central unique plutôt que d'être fragmenté sur chaque caméra. Pour les plateformes qui doivent fusionner données RGB, LiDAR, radar et IMU avec une synchronisation stricte - typiquement les humanoïdes et les AMR de nouvelle génération - ce déterminisme est une exigence fonctionnelle, pas un confort. Le GMSL est issu de l'industrie automobile, où Analog Devices (ADI), principal promoteur de la technologie, l'a développé pour répondre aux exigences des systèmes ADAS et de conduite autonome : robustesse électromagnétique, temps réel, longues portées de câble. Ce transfert technologique auto-vers-robotique s'inscrit dans une dynamique plus large du secteur, où plusieurs standards automotive (Ethernet TSN, MIPI CSI-2) trouvent des débouchés dans les plateformes robotiques. ADI n'est pas seul sur ce créneau : Texas Instruments et NVIDIA proposent leurs propres écosystèmes de connectivité vision pour la robotique, et le choix d'interface reste un facteur de différenciation dans les appels d'offres industriels. À noter que l'article source est publié par ADI lui-même, ce qui invite à lire les métriques comparatives avec le recul habituel vis-à-vis des communications techniques de fournisseurs. La prochaine étape du secteur sera probablement la standardisation : des consortiums comme MIPI Alliance travaillent à harmoniser les interfaces caméra pour faciliter l'interopérabilité entre fournisseurs de capteurs, de calculateurs et intégrateurs robot.

UELes intégrateurs robotiques européens peuvent être amenés à intégrer le GMSL dans leurs cahiers des charges pour les nouvelles plateformes, mais aucun acteur ou réglementation FR/EU n'est directement impliqué.

InfrastructureActu

1 source