Aller au contenu principal
ORICF : un framework ouvert pour l'inférence et le contrôle en robotique
InfrastructurearXiv cs.RO19h

ORICF : un framework ouvert pour l'inférence et le contrôle en robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 12 mai 2026 sur arXiv (identifiant 2605.09656v1) un framework open source baptisé ORICF (Open Robotics Inference and Control Framework), conçu pour réduire le coût computationnel du déploiement de modèles d'IA sur robots mobiles. La plateforme, modulaire et agnostique aux modèles, permet de composer des pipelines d'inférence multimodaux via de simples fichiers de configuration YAML, sans modification du code source. Son mécanisme central, l'edge offloading, consiste à délocaliser les tâches d'inférence vers des machines externes proches du robot plutôt que de les exécuter en embarqué. Validé sur un robot mobile équipé de ROS2, le système combinait reconnaissance automatique de la parole (ASR), un grand modèle de langage (LLM) et un réseau de neurones convolutif (CNN) pour répondre à des questions orales sur les personnes détectées par sa caméra. Par rapport à une exécution entièrement embarquée, ORICF réduit l'utilisation des ressources de calcul côté robot de 83,16% et la consommation énergétique estimée de 65,8%, tout en préservant la modularité et la reproductibilité du pipeline.

Ces résultats adressent l'un des freins les plus concrets au déploiement de modèles fondamentaux sur robots de service ou industriels : la contrainte matérielle embarquée. En déchargeant dynamiquement l'inférence sur des serveurs edge locaux ou des postes de travail voisins, ORICF rend envisageable l'utilisation de modèles lourds (LLM, VLM) sur plateformes à faible puissance de calcul. La spécification déclarative YAML simplifie également les changements de modèles ou de cibles matérielles, avantage concret pour les équipes intégration qui gèrent plusieurs configurations de déploiement. À noter cependant : la validation ne porte que sur un prototype unique en laboratoire, et les métriques de latence de bout en bout en conditions réelles ne sont pas détaillées dans le preprint, ce qui limite l'extrapolation aux environnements industriels.

ORICF s'inscrit dans un mouvement plus large d'outillage de la robotique embarquée avec des modèles fondamentaux, alors que ROS2 s'est imposé comme infrastructure standard pour les robots de recherche et de plus en plus industriels. Plusieurs approches concurrentes ciblent le même problème : Isaac ROS de NVIDIA propose une pile d'inférence optimisée pour hardware Jetson, tandis que des acteurs comme Hailo adressent le déploiement sur puces dédiées. Le preprint ne cite pas d'affiliation universitaire ni d'entreprise sponsor visible, ce qui reste un signal à surveiller pour évaluer la maturité et la continuité du projet. Les prochaines étapes logiques seraient une validation sur des plateformes robotiques hétérogènes et une évaluation de latence en conditions opérationnelles réelles.

Dans nos dossiers

À lire aussi

Hesai dévoile sa stratégie et de nouveaux produits pour redéfinir l'infrastructure d'IA physique, de l'automobile à la robotique
1Pandaily 

Hesai dévoile sa stratégie et de nouveaux produits pour redéfinir l'infrastructure d'IA physique, de l'automobile à la robotique

Le 17 avril 2026, Hesai Technology (NASDAQ: HSAI, HKEX: 2525) a tenu son Technology Open Day annuel pour dévoiler le Picasso SPAD-SoC, présenté comme le premier chip LiDAR 6D full-color au monde. Ce circuit intègre à la fois la détection couleur RGB et la mesure de distance par temps de vol (TOF) au niveau pixel, générant directement des nuages de points colorés sans post-traitement. Le LiDAR traditionnel se limite aux trois dimensions spatiales XYZ ; le Picasso ajoute la teinte (RGB), portant à six les dimensions de perception simultanée. Son efficacité de détection photonique (PDE) dépasse 40 %, ce qui permet de détecter des objets plus lointains et de mieux performer en faible luminosité. Ce chip alimente la série ETX, plateforme LiDAR full-color dépassant 1 000 lignes, disponible en configurations 1 080, 2 160 et 4 320 lignes. En version haute résolution, le ETX affiche une portée jusqu'à 600 mètres, 400 mètres à 10 % de réflectivité, et est capable d'identifier une barrière de chantier à 300 mètres, un petit animal à 280 mètres, ou un bloc de bois à 150 mètres. La mise en production de masse est prévue pour le second semestre 2026, avec un déploiement sur des modèles phares attendu entre 2027 et 2028. L'annonce repositionne Hesai sur un marché en pleine redéfinition : le passage de la voiture autonome de niveau 2+ vers le L3 exige que le LiDAR passe du statut de composant optionnel à celui de système de sécurité critique. Les architectures véhicules basculent vers des configurations multi-LiDAR (typiquement 3 à 6 capteurs pour une couverture 360°), ce qui démultiplie les volumes par véhicule. Le fait que Hesai soit aujourd'hui le seul fabricant de LiDAR à développer en interne l'intégralité de ses sept composants clés, lasers, détecteurs, drivers, TIA, ADC, DSP et contrôleurs, lui confère une autonomie verticale rare dans un secteur très dépendant des fournisseurs asiatiques de semi-conducteurs. Avec 21 puces certifiées AEC-Q, 230 millions d'unités livrées cumulées et des commandes constructeurs dépassant les 6 millions d'unités pour les seuls produits basés sur le Fermi C500 (lancé en novembre 2025 sur architecture RISC-V), Hesai présente des métriques de commercialisation réels, pas seulement des démonstrations de laboratoire. Fondée à Shanghai, Hesai a construit son écosystème chip en cinq générations de R&D. La dénomination "Picasso", référence au peintre cubiste et à sa maîtrise de la représentation multidimensionnelle, marque symboliquement le pivot stratégique de l'entreprise vers ce qu'elle appelle l'"intelligence spatiale", matérialisé par le nouveau produit Kosmo (hardware IA spatial) et une direction inédite autour de modules d'alimentation pour la robotique. Sur ce dernier segment, Hesai entre en compétition directe avec des acteurs comme Ouster (désormais Ouster-Velodyne fusionné avec Sense Photonics), Luminar, ou encore RoboSense, qui ciblent tous la robotique humanoïde et les AMR industriels. Hesai prévoit que ses livraisons cumulées dépasseront 300 millions d'unités d'ici fin 2026. Les prochaines étapes attendues concernent les homologations L3 par les constructeurs partenaires et les premières intégrations Kosmo dans des environnements de test physique AI, mais aucun client ni calendrier précis n'a été communiqué sur ces deux points.

InfrastructureActu
1 source
NeuroMesh : un framework d'inférence neurale unifié pour la collaboration multi-robots décentralisée
2arXiv cs.RO 

NeuroMesh : un framework d'inférence neurale unifié pour la collaboration multi-robots décentralisée

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (référence 2604.15475) les spécifications de NeuroMesh, un framework d'inférence neuronale décentralisée conçu pour faire collaborer des flottes de robots hétérogènes sans dépendre d'un serveur central. Le système standardise quatre étapes clés dans un pipeline unifié : l'encodage des observations locales, le passage de messages entre robots, l'agrégation des informations reçues, et le décodage des tâches. L'implémentation est écrite en C++ haute performance et utilise Zenoh, un protocole de communication inter-robots orienté faible latence, avec support d'inférence hybride GPU/CPU. Les auteurs ont validé NeuroMesh sur une flotte mixte composée de robots aériens et terrestres sur trois catégories de tâches : perception collaborative, contrôle décentralisé et assignation de missions. Une mise en open-source est annoncée mais sans date précisée. Ce qui distingue NeuroMesh sur le plan technique est son paradigme de double agrégation, combinant fusion par réduction (agrégation globale) et diffusion par broadcast (partage sélectif), ainsi qu'une architecture parallélisée qui découple le cycle time de la latence bout-en-bout. Concrètement, cela signifie que la fréquence d'exécution locale d'un robot n'est plus bridée par les délais réseau, un verrou classique dans les architectures multi-robots apprenantes. Pour les intégrateurs industriels déployant des flottes AMR ou des systèmes drone-sol, cette propriété est critique : elle ouvre la voie à des modèles entraînés une fois et déployés sur du matériel varié sans refactoring du stack d'exécution. Le problème adressé par NeuroMesh, l'hétérogénéité matérielle combinée aux contraintes réseau, est un obstacle bien documenté dans la robotique multi-agents apprenante depuis les travaux sur MARL (Multi-Agent Reinforcement Learning) distribué. Des frameworks comme ROS 2 gèrent la communication mais pas l'inférence unifiée ; des approches comme celles de MIT CSAIL ou Stanford ILIAD ont exploré la coordination décentralisée sans proposer de stack complet cross-platform. NeuroMesh se positionne comme une couche d'abstraction au-dessus du hardware, comparable à ce que ONNX Runtime représente pour l'inférence mono-robot. L'absence de release effective au moment de la publication et la validation limitée à des configurations de laboratoire invitent à attendre des benchmarks sur flottes industrielles avant tout engagement produit.

RecherchePaper
1 source
QNX présentera des démonstrations pratiques et de nouvelles recherches au Robotics Summit
3The Robot Report 

QNX présentera des démonstrations pratiques et de nouvelles recherches au Robotics Summit

QNX, la division logicielle temps-réel de BlackBerry Ltd., sera présente au Robotics Summit & Expo les 27 et 28 mai 2025 à Boston, avec trois démonstrations interactives et le lancement d'une étude de marché inédite. Sur le stand, la société présentera un bras robotique d'entrée de gamme capable de détecter et imiter les gestes humains pour saisir des objets, en s'appuyant sur son programme QNX Everywhere qui offre un accès gratuit au logiciel pour le prototypage. Un second démonstrateur simule un environnement de "Digital Factory Automation" : un bras industriel piloté par QNX OS fusionne données lidar et vision pour détecter et éviter les obstacles en temps réel, avec réponse déterministe immédiate dès qu'un objet ou une personne entre dans son périmètre. Le troisième poste, tournant sur hardware Intel et NVIDIA, exploite la détection de pose par IA pour répliquer les mouvements d'un visiteur sur un avatar à l'écran, ciblant explicitement les plateformes utilisées dans les robots humanoïdes. En parallèle, QNX dévoilera son "Inside the Robot: Architecture Benchmark Report", une étude basée sur 1 000 développeurs en robotique à l'échelle mondiale, qui cartographie les freins à l'adoption, les écarts entre ambitions système et capacités réelles, et les tendances du secteur. John Wall, président de QNX, participera au keynote d'ouverture "Building the Next Era of Robot Autonomy" aux côtés de représentants d'Amazon Robotics, Locus Robotics et Universal Robots. La participation de QNX à ce salon illustre une tension structurelle du marché : les équipes d'IA embarquée savent entraîner des modèles, mais peinent à garantir le comportement déterministe requis dès lors que ces modèles pilotent des actionneurs physiques en environnement humain. QNX positionne son RTOS (Real-Time Operating System) comme la couche d'exécution qui traduit les décisions d'un VLA (Vision-Language-Action model) ou d'un module de pose detection en commandes moteur à latence bornée et prévisible. Le benchmark report est potentiellement plus significatif que les démos : avec 1 000 répondants développeurs, il devrait objectiver les vrais goulots d'étranglement du cycle sim-to-real, là où la majorité des communications sectorielles restent des annonces produit sans données comparatives. Pour un COO industriel ou un intégrateur, la question clé n'est pas "est-ce que le bras évite les obstacles en démo" mais "quel est le taux de défaillance certifiable en production", ce que l'étude prétend adresser. QNX existe depuis 1980 et son RTOS est historiquement déployé dans l'automobile (ADAS, infotainment), le médical et l'aérospatiale, des secteurs où la certification fonctionnelle (ISO 26262, IEC 61508) est non-négociable. L'entrée en robotique collaborative et humanoïde représente une extension logique à mesure que ces systèmes quittent les cages industrielles pour les entrepôts et espaces partagés. Sur ce terrain, QNX affronte Wind River (VxWorks), ROS 2 avec son middleware DDS pour le temps-réel souple, et des stacks propriétaires comme ceux qu'embarquent Boston Dynamics ou Figure AI. Le programme QNX Everywhere, qui ouvre l'accès gratuit pour le prototypage, est une réponse directe à l'adoption massive de ROS dans les labs universitaires et startups. Les suites concrètes à surveiller : la publication du benchmark report lors du salon, et d'éventuelles annonces de partenariats OEM avec des fabricants de bras collaboratifs ou de plateformes humanoïdes dans les mois suivants.

InfrastructureOpinion
1 source
ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique
4arXiv cs.RO 

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion
1 source