Aller au contenu principal

Dossier NVIDIA Isaac & Cosmos

101 articles

La pile NVIDIA Isaac et les world models Cosmos : simulation, génération de données synthétiques, sim2real pour entraînement de politiques robotiques.

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique
1arXiv cs.RO RecherchePaper

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

Des chercheurs ont publié EmboCoach-Bench, un benchmark évaluant la capacité d'agents LLM à automatiser l'ingénierie de politiques pour systèmes robotiques incarnés. Présenté sur arXiv (arXiv:2501.21570), le cadre couvre 32 tâches conçues par des experts en apprentissage par renforcement (RL) et apprentissage par imitation (IL), avec le code exécutable comme interface universelle entre l'agent et l'environnement de simulation. Plutôt que de générer des solutions statiques, les agents opèrent en boucle fermée: ils proposent du code, l'exécutent dans le simulateur, analysent le retour d'environnement, puis itèrent pour corriger et optimiser. Les tâches couvrent des aspects allant de la conception de fonctions de récompense informées par la physique aux architectures de politiques avancées, notamment les diffusion policies. Les résultats quantitatifs méritent attention: les agents autonomes ont surpassé les baselines conçues manuellement par des humains de 26,5% en taux de succès moyen, contestant l'hypothèse selon laquelle l'expertise humaine en reward shaping serait difficilement substituable pour les politiques incarnées. Deuxième enseignement: le workflow agentique avec retour d'environnement réduit substantiellement l'écart de performance entre modèles open-source et propriétaires, ce qui suggère que la boucle de feedback itératif est plus déterminante que le modèle sous-jacent. Enfin, les agents démontrent une capacité de self-correction sur des cas pathologiques d'ingénierie, récupérant des tâches en quasi-échec total via un débogage itératif en simulation. Pour les équipes robotiques, cela représente une voie potentielle pour réduire le temps ingénieur consacré au tuning manuel des hyperparamètres et à la conception artisanale de fonctions de récompense. Ce travail s'inscrit dans une tendance plus large: l'application des workflows agentiques LLM, prouvés dans l'automatisation logicielle et la découverte scientifique, au domaine de l'IA incarnée. Le goulot d'étranglement identifié, à savoir la supervision manuelle intensive pour le réglage des simulations, est un problème structurel bien connu des équipes travaillant sur Optimus (Tesla), GR00T N2 (NVIDIA) ou les systèmes de Figure AI. La contribution différenciante d'EmboCoach-Bench est de proposer un cadre d'évaluation standardisé pour mesurer ce que les agents LLM peuvent réellement automatiser, plutôt que des démos ciblées. Les extensions naturelles incluent l'intégration à des backends hétérogènes (Isaac Lab, MuJoCo, Genesis) et la validation sim-to-real pour confirmer si ces gains en simulation se transfèrent aux systèmes physiques, ce qui reste le test décisif pour une adoption industrielle.

1 source
L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes
2arXiv cs.RO 

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

Une étude publiée sur arXiv le 11 juin 2026 (réf. 2606.11891) présente une comparaison rigoureuse de deux architectures de critique en apprentissage par renforcement multi-objectifs pour robots humanoïdes : un critique unifié (un seul réseau estimant la valeur combinée de tous les objectifs) contre des critiques duaux (deux réseaux distincts, chacun associé à un signal de récompense séparé, l'un pour la locomotion, l'autre pour la manipulation). Les expériences ont été conduites sur le Unitree G1, un humanoïde à 23 degrés de liberté actifs, dans le simulateur NVIDIA Isaac Lab, via un curriculum séquentiel de 13 niveaux progressant de l'atteinte stationnaire jusqu'à la marche avec des cibles à orientation variable. Résultat : les politiques entraînées avec critiques duaux atteignent leurs cibles 3,5 fois plus vite (6,5 pas de simulation contre 22,6), affichent un débit deux fois supérieur (14,3 contre 7,0 atteintes validées pour 1 000 pas), et un taux de réussite validé de 65,2 % contre 53,8 % pour le critique unifié. Ce que l'étude démontre, c'est que le choix de l'architecture du critique est un levier de conception primaire, souvent négligé, dont l'impact surpasse celui du reward engineering. Fait notable : l'ajout de mécanismes anti-gaming, conçus pour empêcher la politique d'exploiter les failles de la fonction de récompense, ne produit aucun gain au-delà du changement architectural seul (60,9 % contre 65,2 %). L'implication la plus immédiate concerne le fine-tuning RL de politiques pré-entraînées par imitation : lorsqu'on affine un modèle de manipulation déjà appris (style Pi-0 ou GR00T N2), un critique unifié risque de supprimer les comportements acquis par interférence des gradients de locomotion. Pour les équipes qui cherchent à spécialiser des modèles de fondation robotiques par RL, cette mise en garde est directement opérationnelle. Le Unitree G1, vendu autour de 16 000 dollars, est devenu un banc de test standard pour la recherche en humanoïde abordable, face aux plateformes de Figure AI, Agility Robotics ou 1X Technologies qui opèrent sur des gammes de prix bien supérieures. NVIDIA Isaac Lab, successeur d'Isaac Gym, s'est imposé comme l'environnement de référence pour l'entraînement sim-to-real. La question du découplage locomotion/manipulation en RL multi-objectifs est au coeur de plusieurs groupes de recherche (Stanford, CMU, ETH Zurich), et les résultats de cette étude, issus d'un cadre contrôlé et reproductible, offrent une base solide pour orienter les choix d'architecture avant tout entraînement coûteux sur robot réel.

RecherchePaper
1 source
Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques
3arXiv cs.RO 

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion
1 source
Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée
4arXiv cs.RO 

Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée

Un groupe de chercheurs a publié sur arXiv (réf. 2505.01458, version 2, mai 2025) un état de l'art sur l'utilisation des simulateurs physiques pour entraîner des robots à la navigation et à la manipulation dans le cadre de l'IA incarnée (Embodied AI). L'étude analyse comment les moteurs de simulation réduisent le "sim-to-real gap", c'est-à-dire l'écart de performance constaté quand un agent entraîné en simulation est déployé dans le monde réel. Le survey passe en revue les caractéristiques des principaux simulateurs, leurs contraintes matérielles, et propose un inventaire structuré de datasets de référence, métriques d'évaluation et méthodes existantes. Aucun code ou outil nouveau n'est publié: il s'agit d'une contribution bibliographique et méthodologique. Cette revue intervient alors que le sim-to-real gap demeure l'obstacle principal au déploiement industriel de robots humanoïdes et de bras manipulateurs. Entraîner directement sur du matériel réel est coûteux, lent et risqué, ce qui place la simulation au cœur des pipelines de développement des VLA (Vision-Language-Action models) et des systèmes de navigation autonome. En consolidant des propriétés peu documentées des simulateurs, le survey aide ingénieurs et chercheurs à sélectionner l'outil adapté à leurs contraintes hardware sans avoir à faire une veille exhaustive de la littérature. Les simulateurs en compétition dans cet espace incluent Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google), PyBullet, Webots et Genesis, un moteur GPU-natif récent. L'intérêt pour ce type de synthèse est alimenté par l'accélération du secteur: Figure AI, Physical Intelligence (pi zero), Boston Dynamics, Unitree et Agility Robotics multiplient les annonces de déploiements en environnements industriels réels. Ce survey constitue un point d'entrée structuré pour les équipes qui montent leur pipeline sim-to-real en 2025, à condition de ne pas attendre de benchmarks neutres et indépendants: l'évaluation des simulateurs reste largement conduite par leurs propres éditeurs.

RecherchePaper
1 source
Une architecture neuronale à impulsions pour coordonner le contrôle du bras et la locomotion
5arXiv cs.RO 

Une architecture neuronale à impulsions pour coordonner le contrôle du bras et la locomotion

Des chercheurs ont publié sur arXiv (2606.11034, juin 2026) une architecture SNN (Spiking Neural Network) capable de coordonner en temps réel le contrôle des bras et la locomotion bipède d'un humanoïde simulé, une combinaison absente des travaux précédents dans ce paradigme. Le système s'appuie sur le Neural Engineering Framework (NEF) et la Semantic Pointer Architecture (SPA), avec un modèle de ganglions de la base à impulsions biologiquement inspiré pour arbitrer la sélection entre marche et manipulation. La co-simulation Nengo (contrôle neural) et Isaac Sim de NVIDIA (physique) a permis de valider quatre tâches : atteinte de cible en espace 3D, dessin continu de chiffres, locomotion en suivi de trajectoire, et commutation dynamique entre marche et contrôle du bras via désinhibition des ganglions de la base. Le principal argument de l'approche est son potentiel d'efficacité énergétique sur matériel neuromorphique (Intel Loihi, SpiNNaker), là où les humanoïdes commerciaux actuels comme Figure 03, Optimus ou Unitree G1 exigent des GPU embarqués énergivores. Cette publication revendique la première intégration unifiée locomotion-manipulation sur plateforme humanoïde pleine échelle dans le paradigme SNN, les rares précédents traitant les deux sous-systèmes en modules entièrement isolés. La limite centrale à signaler est que l'ensemble des résultats est issu de simulation pure, le gap sim-to-real n'étant pas adressé dans cette étude. Les SNNs s'imposent depuis quelques années comme alternative crédible aux réseaux denses pour les systèmes embarqués à contrainte énergétique forte. Le framework Nengo, développé par Applied Brain Research, est l'outil de référence de cet écosystème. Face à cette approche, les acteurs majeurs de la course humanoïde, Figure AI, 1X Technologies, Boston Dynamics et Physical Intelligence (auteurs de Pi-0), misent sur des VLA (Vision-Language-Action models) et du reinforcement learning à grande échelle ; l'approche SNN vise un axe orthogonal, davantage frugal et interprétable, mais encore en retrait sur les benchmarks de manipulation en environnement réel. Les auteurs annoncent le déploiement sur matériel neuromorphique basse consommation comme prochaine étape, ce qui constituera le vrai test de l'hypothèse énergétique centrale à ce travail.

RecherchePaper
1 source
CableRobotGraphSim : un réseau de neurones en graphe pour modéliser la dynamique des robots à câbles partiellement observables
6arXiv cs.RO 

CableRobotGraphSim : un réseau de neurones en graphe pour modéliser la dynamique des robots à câbles partiellement observables

Des chercheurs ont publié sur arXiv (identifiant arXiv:2602.21331v2) un modèle de simulation neuronal pour robots à câbles, baptisé CableRobotGraphSim. L'architecture repose sur un réseau de neurones graphiques (GNN) : les corps rigides du robot forment les noeuds du graphe, les câbles et les points de contact constituent les arêtes. Cette représentation permet au modèle d'inférer la dynamique du système à partir d'observations partielles uniquement, sans exiger un accès complet à l'état interne du robot. L'entraînement combine données de simulation et données réelles (sim-and-real co-training) pour améliorer la robustesse au bruit des capteurs. Le modèle est ensuite intégré à un contrôleur MPPI (Model Predictive Path Integral) pour la navigation en boucle fermée. L'abstract ne fournit aucune métrique quantitative précise sur la précision ou les temps de cycle, ce qui rend difficile toute évaluation indépendante des performances revendiquées. L'apport technique central est de s'affranchir des deux contraintes majeures des simulateurs traditionnels à base de premiers principes : l'exigence d'observabilité complète de l'état du robot, et la nécessité d'une identification paramétrique coûteuse. Pour les robots à câbles (CDPR, Cable-Driven Parallel Robots), utilisés notamment en logistique grande portée, en plateformes de simulation de mouvement et dans des projets de construction, ces contraintes ont historiquement bloqué le déploiement de pipelines sim-to-real fiables. Un modèle adaptatif capable d'ingérer des données bruitées et partiellement observées ouvre la voie à un transfert plus direct vers des applications industrielles réelles, en rapprochant la mécanique câblée des pipelines qui ont déjà transformé la manipulation et la locomotion bipedale. Les CDPR suscitent un intérêt croissant dans des contextes à grande échelle, du radiotélescope FAST en Chine aux projets logistiques en entrepôt. Sur le terrain de la simulation, les environnements généralistes comme MuJoCo, Isaac Sim de NVIDIA ou PyBullet modélisent mal la dynamique câble-contact, laissant un angle mort que cette approche data-driven spécialisée cherche à combler. Des travaux antérieurs avaient tenté des modèles analytiques ou d'apprentissage, sans traiter explicitement l'observabilité partielle. Le papier, en version v2, ne précise pas d'affiliation institutionnelle claire dans l'abstract et ne mentionne pas de dépôt open-source, deux éléments qui conditionneront son adoption réelle par la communauté robotique.

RecherchePaper
1 source
Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI
7AWS ML Blog 

Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI

NVIDIA et Amazon Web Services ont publié un guide technique détaillant comment entraîner des politiques de comportement pour le robot humanoïde Unitree H1 en utilisant NVIDIA Isaac Lab sur Amazon SageMaker AI. La solution s'appuie sur deux options de calcul complémentaires : SageMaker HyperPod, une infrastructure distribuée managée pour des clusters persistants, et SageMaker Training Jobs, une approche entièrement à la demande où les instances GPU sont provisionnées à la volée puis supprimées à la fin du job. Le code complet est disponible publiquement sur GitHub. L'objectif est de permettre aux équipes robotique de lancer des entraînements par renforcement (RL) à grande échelle, aussi bien en phase d'expérimentation rapide qu'en production sur de longues durées, sans gérer eux-mêmes l'infrastructure de calcul. Cette publication répond à un défi concret : l'entraînement par renforcement pour des comportements complexes, comme la locomotion humanoïde sur terrain accidenté, est extrêmement gourmand en GPU. Un seul run d'entraînement peut durer de quelques heures à plusieurs jours. SageMaker HyperPod intègre un agent de surveillance de santé sur chaque nœud, capable de détecter automatiquement les pannes matérielles, de remplacer les instances défaillantes et de reprendre l'entraînement depuis le dernier checkpoint, sans intervention humaine. Le système publie en parallèle des centaines de métriques de cluster vers Amazon Managed Service for Prometheus, visualisables dans des dashboards Grafana préconfigurés, couvrant l'utilisation GPU, la mémoire, le débit réseau et les performances par tâche. Pour les expériences courtes, SageMaker Training Jobs élimine tout coût de calcul inactif entre les runs, chaque job ne consommant de ressources que le temps de son exécution. L'IA physique bascule progressivement de la recherche vers la production industrielle. Les robots sont désormais formés dans des simulations haute-fidélité accélérées par GPU avant leur déploiement en usine, en entrepôt ou dans des centres logistiques, parce que l'entraînement en conditions réelles reste lent, coûteux et risqué. Cette simulation compresse des mois d'apprentissage en quelques heures, mais déplace le problème vers la gestion du calcul distribué. C'est précisément le créneau que cherchent à occuper AWS et NVIDIA avec cette intégration : en abstraisant la couche infrastructure, ils permettent aux ingénieurs de se concentrer sur la conception des politiques de comportement robotique plutôt que sur la configuration des clusters. SageMaker HyperPod supporte l'orchestration via Amazon EKS ou Slurm, avec un système de quotas fins par instance, GPU entier ou partition MIG (NVIDIA Multi-Instance GPU), couvrant les accélérateurs, les vCPU et la mémoire. La prochaine étape logique sera l'extension de ces pipelines aux modèles de fondation robotique, qui nécessitent des infrastructures similaires mais à une échelle encore supérieure.

HumanoïdesActu
1 source
NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur
8Interesting Engineering 

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

NVIDIA et le groupe sud-coréen LG ont annoncé lors du Computex 2026 un partenariat stratégique multisectoriel visant à construire un écosystème d'intelligence artificielle physique couvrant la robotique industrielle, les robots domestiques, la mobilité autonome et les infrastructures de calcul. La collaboration mobilise plusieurs entités du conglomérat LG : LG Electronics, LG CNS, LG Innotek, LG Uplus et LG Energy Solution, chacune apportant un périmètre spécifique. Concrètement, LG prévoit de déployer NVIDIA Isaac Sim et Isaac Lab dans ses workflows robotique pour entraîner ses robots domestiques en environnements virtuels avant tout déploiement physique, et d'explorer le modèle de fondation GR00T pour renforcer leurs capacités de raisonnement. LG Electronics construit par ailleurs ce qu'il appelle une "data factory pour l'IA physique", utilisant les world models NVIDIA Cosmos pour générer des datasets synthétiques destinés à la robotique et à l'automatisation industrielle. Sur le volet infrastructure, LG Uplus s'engage à construire des centres de données à grande échelle compatibles avec les dernières générations de GPU NVIDIA, LG Electronics travaillera sur des technologies de refroidissement liquide alignées avec la plateforme NVIDIA DSX, et LG Energy Solution évalue des architectures d'alimentation en courant continu 800 volts pour les installations nouvelle génération. L'intérêt de ce partenariat pour les décideurs industriels tient moins à l'annonce elle-même qu'à ce qu'elle révèle sur la maturité du cycle de développement robotique. L'adoption d'Isaac Sim comme environnement d'entraînement primaire signale que le sim-to-real gap, longtemps le principal obstacle au déploiement à grande échelle, est considéré comme suffisamment maîtrisé pour structurer une chaîne industrielle dessus. La création d'une data factory synthétique répond à l'un des goulots d'étranglement les plus critiques du secteur : la rareté des données labellisées de qualité pour entraîner des VLA (Vision-Language-Action models). Pour les intégrateurs et les COO industriels, le message est que les outils de simulation et les modèles de fondation convergent vers une stack unifiée, ce qui devrait réduire les coûts et délais de portage de nouvelles applications robotiques. Il convient toutefois de noter que l'annonce reste au stade de la feuille de route : aucun chiffre de déploiement, aucun timeline de livraison ni prix n'ont été communiqués. Le contexte de ce rapprochement est celui d'une course mondiale à l'IA physique dans laquelle NVIDIA cherche à s'imposer comme couche d'infrastructure universelle face à des concurrents comme Boston Dynamics Atlas (désormais intégré chez Hyundai), Figure AI avec son modèle Helix, ou encore Physical Intelligence (pi-0) côté recherche. LG, de son côté, investit depuis plusieurs années dans la robotique de service avec ses robots CLOi, sans avoir encore atteint une adoption commerciale significative. Le groupe fait aussi face à la pression de concurrents coréens comme Samsung, qui développe ses propres robots domestiques avec Ballie. Les prochaines étapes annoncées incluent l'intégration des technologies NVIDIA DRIVE dans les systèmes ADAS de LG Electronics pour les véhicules définis par logiciel, et le déploiement de la plateforme d'automatisation industrielle de LG CNS enrichie de briques NVIDIA. La concrétisation de ces engagements sur les 12 à 24 prochains mois sera le véritable indicateur de la profondeur du partenariat.

UECe partenariat accélère la convergence vers une stack NVIDIA (Isaac Sim, GR00T, Cosmos) comme infrastructure d'entraînement robotique de référence, forçant les intégrateurs et OEM européens à évaluer leur alignement avec cet écosystème dans leurs roadmaps 2026-2027.

💬 Le truc intéressant, c'est pas le deal NVIDIA-LG, c'est ce qu'il révèle : le sim-to-real gap est maintenant considéré comme suffisamment sous contrôle pour construire une filière industrielle dessus. Isaac Sim comme environnement d'entraînement primaire dans une data factory à l'échelle d'un conglomérat coréen, ça signale un vrai changement de maturité, pas juste un POC de plus. Sur le papier, du moins, parce qu'aucun chiffre ni calendrier n'a filtré.

IA physiqueOpinion
1 source
RLWRLD et Nvidia lancent DexBench pour standardiser la dextérité des robots humanoïdes
9Robotics & Automation News 

RLWRLD et Nvidia lancent DexBench pour standardiser la dextérité des robots humanoïdes

RLWRLD, une startup spécialisée en IA physique, a annoncé en partenariat avec Nvidia le lancement de DexBench, un benchmark universel destiné à standardiser l'évaluation des capacités de dextérité des robots humanoïdes. L'initiative repose sur trois axes : DexBench en tant que référentiel d'évaluation commun, un standard de données pour l'entraînement à la manipulation dextre, et une intégration native aux frameworks open-source Nvidia Isaac Lab et Isaac Lab-Arena. Aucune date de disponibilité publique ni métriques de performance n'ont été communiquées à ce stade -- il s'agit d'une annonce de feuille de route, pas d'un produit shipped. L'absence de standard commun pour mesurer la dextérité est l'un des obstacles majeurs à la comparaison objective entre systèmes humanoïdes. Sans référentiel partagé, chaque constructeur publie ses propres métriques dans des conditions contrôlées, ce qui rend les comparaisons entre Figure 03, Optimus, Unitree ou 1X quasi impossibles pour les intégrateurs industriels. DexBench vise à combler ce vide en établissant des protocoles reproductibles, ce qui pourrait accélérer la qualification de robots pour des tâches d'assemblage ou de picking en milieu non structuré. RLWRLD s'inscrit dans un écosystème naissant autour des fondations de simulation Nvidia, qui positionne Isaac Lab comme infrastructure commune pour le sim-to-real dans la robotique humanoïde. Des acteurs comme Physical Intelligence (Pi-0), Agility Robotics ou Boston Dynamics s'appuient également sur des pipelines de simulation propriétaires. Le choix de standardiser via un framework open Nvidia plutôt qu'un consortium neutre (comme ROS 2 ou IEEE) est un pari sur l'adoption par l'écosystème Jetson/Omniverse -- une dynamique à surveiller face aux initiatives concurrentes en Europe.

UELa standardisation de l'évaluation de la dextérité pourrait indirectement bénéficier aux intégrateurs industriels européens, mais aucun acteur FR/EU n'est impliqué et l'initiative demeure au stade de feuille de route sans métriques ni date de disponibilité.

HumanoïdesOpinion
1 source
HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents
10arXiv cs.RO 

HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08610) HARBOR, un framework agentique conçu pour automatiser les pipelines d'apprentissage par renforcement (RL) appliqués à la robotique. Partant d'une spécification de tâche et d'une base de code simulateur, le système prend en charge l'ensemble du workflow : configuration de l'environnement, conception des fonctions de récompense, entraînement de la politique et tuning des hyperparamètres. HARBOR décompose ces objectifs de haut niveau en étapes bornées confiées à des agents spécialisés, coordonnés via des commandes standardisées, des artefacts persistants et des portes d'exécution vérifiables. Il scale l'itération par essais parallèles décentralisés et capitalise sur l'expérience accumulée entre les runs. Le framework a été évalué sur 6 benchmarks couvrant 16 tâches de manipulation, locomotion et contrôle bimanuel dextère. Les politiques entraînées en simulation ont ensuite été transférées sur de vrais robots. L'intérêt principal de HARBOR tient à ce qu'il attaque directement le principal frein à l'adoption du RL en robotique industrielle : la charge d'ingénierie experte requise pour chaque nouvelle tâche. Reward shaping, sélection d'algorithmes, tuning fin des hyperparamètres représentent aujourd'hui des semaines de travail spécialisé avant d'obtenir une politique viable. En automatisant ce cycle de bout en bout à un coût pratique en tokens et en temps de calcul, HARBOR abaisse concrètement la barrière d'entrée pour les intégrateurs et les équipes R&D industrielles. Le fait que les politiques se transfèrent au robot réel adresse le "sim-to-real gap", un verrou persistant du secteur. Les résultats publiés indiquent que le framework égale ou surpasse les configurations par défaut sur les benchmarks testés, bien que les conditions exactes d'évaluation méritent d'être examinées dans le papier complet avant d'en tirer des conclusions généralisées. HARBOR s'inscrit dans une tendance émergente qui consiste à utiliser des LLMs comme orchestrateurs de pipelines ML complexes, dans la lignée de travaux comme Eureka (NVIDIA, 2023), qui utilisait GPT-4 pour générer automatiquement des reward functions via evolutionary search, ou des approches AutoRL de Berkeley et Google DeepMind. HARBOR semble aller plus loin en couvrant l'intégralité du workflow plutôt que le seul reward design. Les auteurs ne sont pas identifiés dans l'abstract disponible, et aucune affiliation institutionnelle ni application industrielle spécifique n'est mentionnée : il s'agit d'un preprint de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles concerneront l'intégration avec des simulateurs standards (Isaac Sim, MuJoCo), des validations sur des plateformes humanoïdes complexes, et une éventuelle ouverture du code.

RecherchePaper
1 source
RAM : la portée de l'apprentissage robotique au-delà des morphologies
11arXiv cs.RO 

RAM : la portée de l'apprentissage robotique au-delà des morphologies

Une équipe de chercheurs a publié en juin 2026, via arXiv (arXiv:2606.09108), un modèle de réseau de neurones baptisé RAM (Reachability Across Morphologies), conçu pour prédire l'espace de travail atteignable d'un bras robotique en temps quasi nul. Là où les méthodes traditionnelles d'échantillonnage ou de grilles voxels opèrent à l'échelle de la milliseconde ou plus, RAM atteint un score F1 de 86 % avec un temps d'inférence réduit de trois ordres de grandeur par rapport à la baseline, soit une exécution à l'échelle de la nanoseconde. Le modèle a été entraîné sur un jeu de données de 3×10^10 échantillons, générés exclusivement à partir de la cinématique directe. Sa caractéristique centrale : il est conditionné par la morphologie du robot, lui permettant de généraliser à des configurations inédites sans réentraînement, tout en intégrant nativement la détection des auto-collisions. L'enjeu opérationnel est direct. Le calcul du workspace atteignable intervient à chaque étape du cycle de vie d'un robot, conception morphologique, planification de trajectoire, placement en cellule d'intégration. Les méthodes disponibles à ce jour sont soit lentes, soit figées sur une morphologie unique, rendant l'exploration du design-space coûteuse en calcul. RAM étant différentiable, il peut s'insérer dans des boucles d'optimisation par gradient : les auteurs rapportent des accélérations d'un ordre de grandeur pour l'optimisation morphologique et de deux ordres pour la trajectoire. Pour un intégrateur ou un OEM, cela ouvre la voie à un co-design robot-cellule significativement plus rapide. Les représentations neurales implicites (NRI), popularisées par les NeRF pour la reconstruction 3D, s'imposent progressivement en robotique depuis 2023 pour encoder des fonctions géométriques complexes. RAM applique cette logique à la cinématique, en concurrence directe avec les cartes de joignabilité sur grille (précises mais lourdes) et les surrogates appris à morphologie fixe. Aucun acteur commercial n'est cité dans la publication ; la contribution reste académique, accompagnée d'un site de démonstration. Les suites naturelles seraient l'intégration dans des pipelines de CAO robotique ou des plateformes de simulation telles qu'Isaac Lab ou MuJoCo.

RecherchePaper
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
12arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède
13arXiv cs.RO 

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

Une équipe de recherche a publié début juin 2026 QuadVerse, un cadre de simulation intégré pour robots quadrupèdes conçu pour résoudre simultanément les décalages visuels, physiques et d'actionneur qui constituent le sim-to-real gap. La méthode repose sur une reconstruction de scènes par 3D Gaussian Splatting (3DGS) à partir de vidéos RGB ordinaires : ces scènes servent de substrat de calibration commun à toute la pipeline. Les maillages géométriques extraits permettent un rendu photoréaliste en vue ego, une détection de collisions, et une initialisation de priors de friction spatialement variables, affinés par une recherche bayésienne sur des trajectoires réelles. Un compensateur de dynamique résiduelle est ensuite entraîné en rejouant ces trajectoires sur le terrain calibré, séparant les erreurs de contact dues au relief des non-idéalités propres aux actionneurs. Les expériences rapportées montrent une amélioration de la qualité de reconstruction et du suivi de locomotion par rapport aux baselines, ainsi qu'un déploiement zero-shot d'une politique de navigation visuelle sans aucune collecte de données terrain spécifique à la tâche. Ce que QuadVerse apporte concrètement, c'est une approche unifiée du sim-to-real : là où la majorité des travaux traitent le gap visuel ou dynamique de façon indépendante, ce framework les calibre conjointement à partir du même substrat de scène reconstruite. L'accumulation et la propagation des erreurs individuelles dans l'évolution d'état du robot sont explicitement prises en compte, un problème souvent sous-estimé dans les pipelines existants. Le résultat le plus opérationnel est le déploiement zero-shot : une politique entraînée entièrement en simulation peut être transférée sur un robot réel sans rollout terrain supplémentaire, ce qui réduit le coût d'adaptation à de nouveaux environnements. Pour les intégrateurs qui cherchent à accélérer les cycles de validation, c'est un levier potentiellement significatif. Il faut néanmoins souligner que l'article est un preprint arXiv (v2 déposé en juin 2026), les expériences sont conduites en environnement contrôlé, et aucune validation industrielle à grande échelle n'est encore documentée. Le sim-to-real gap est l'un des problèmes centraux de la robotique apprenante depuis plusieurs années. Des équipes comme ETH Zurich (ANYmal), Agility Robotics ou Boston Dynamics ont montré que les politiques de locomotion peuvent franchir ce gap, mais souvent au prix d'une randomisation de domaine intensive ou d'une adaptation en conditions réelles coûteuse. La technique de 3D Gaussian Splatting, popularisée en 2023, est de plus en plus mobilisée dans des pipelines robotiques pour sa capacité à produire des représentations photoréalistes différentiables. QuadVerse s'inscrit dans un courant actif incluant des travaux comparables autour de NeRF-to-Real et les simulateurs hybrides de Nvidia Isaac Lab. La prochaine étape logique serait une validation sur des plateformes commerciales standardisées comme l'Unitree Go2 ou l'ANYmal-D en environnements non structurés, et une éventuelle extension aux politiques de manipulation pour robots à pattes équipés de bras.

RecherchePaper
1 source
Daimon Robotics et Galbot lancent RobOmni pour évaluer la perception tactile et la manipulation dextérique
14Robotics Business Review 

Daimon Robotics et Galbot lancent RobOmni pour évaluer la perception tactile et la manipulation dextérique

Daimon Robotics, entreprise de Hong Kong spécialisée dans la perception tactile et la manipulation dextre, a présenté RobOmni lors de l'ICRA 2026, en partenariat avec Galbot. Il s'agit du premier benchmark d'évaluation omni-modal intégrant la perception tactile pour les interactions physiques en robotique. La plateforme, construite sur NVIDIA Isaac Sim, standardise l'évaluation de tâches de manipulation au contact : saisie d'objets, insertion de précision, assemblage de composants et placement. RobOmni capture simultanément plusieurs flux de données, capteurs tactiles haute résolution au bout des doigts, vision RGB montée au poignet, état de la pince, trajectoires TCP et observations de caméras externes, pour évaluer les systèmes robotiques selon cinq dimensions : taux de succès, efficacité de manipulation, capacité de manipulation dextre, événements d'échec (glissement, coinçage, collision, nouvelle tentative) et robustesse de généralisation. Ce lancement répond à un manque structurel dans l'industrie : l'absence de cadre standardisé pour mesurer l'apport réel du sens tactile par rapport à la perception purement visuelle. Sans benchmark unifié, il est impossible de comparer les systèmes, de quantifier les progrès ou d'identifier quelles données tactiles améliorent concrètement les tâches réelles. Pour les intégrateurs industriels et les décideurs B2B qui évaluent des bras manipulateurs pour des lignes d'assemblage ou de service, ce vide est critique : une manipulation fiable dans des environnements non structurés requiert de détecter le glissement, la déformation du contact ou la rigidité d'un matériau lors d'un emboîtement, autant de signaux que la vision seule ne peut pas capturer. RobOmni propose de quantifier systématiquement cet apport, ce qui permettrait notamment de comparer des architectures VLA (Vision-Language-Action) avec et sans retour tactile sur des tâches identiques. Daimon Robotics a développé ses propres capteurs tactiles basés sur la vision, capables de mesurer non seulement la force de contact mais aussi la déformation, le glissement, les propriétés de matériau, la texture et la dureté, à haute fréquence et haute résolution. Galbot, partenaire du projet, apporte son expertise en robotique mobile et manipulation. Si aucune métrique de performance comparative ni timeline de déploiement commercial ne sont encore publiées, ce lancement reste à ce stade une annonce de framework de recherche, pas un produit expédié, le positionnement à l'ICRA 2026 signale une ambition de standardisation sectorielle. Les concurrents dans l'espace des benchmarks robotiques, notamment Google DeepMind (RoboVerse) et Meta (PARTNR), n'intègrent pas la modalité tactile comme dimension centrale d'évaluation. RobOmni comble potentiellement ce vide, à condition que la communauté adopte le framework comme référence commune.

RecherchePaper
1 source
NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA
15NVIDIA Blog Robotics 

NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA

NVIDIA et LG Group ont annoncé la construction d'une infrastructure conjointe qualifiée d'"AI factory", destinée à accélérer les activités du conglomérat coréen dans quatre domaines: la robotique, la conduite autonome, les technologies de centres de données et les services cloud GPU. L'infrastructure couvrira l'intégralité du cycle, de l'entraînement à la simulation et au déploiement, en reliant génération de données, simulation robotique et jumeaux numériques dans un workflow unifié. Du côté robotique, LG Electronics intègre les frameworks NVIDIA Isaac Sim et Isaac Lab dans le développement de CLoiD, son robot domestique conçu pour les tâches d'intérieur, et explore l'adoption du modèle de fondation GR00T, un VLA (vision-language-action model) destiné à lui conférer un raisonnement de type humanoïde. LG Electronics développe également une data factory d'IA physique pour fournir des données d'entraînement aux entreprises coréennes et mondiales, en s'appuyant sur NVIDIA Cosmos pour la génération de données synthétiques. LG Innotek prépare des solutions de capteurs optiques optimisées pour les environnements GPU NVIDIA, tandis que LG CNS intègre Isaac, Cosmos et GR00T dans sa plateforme industrielle PhysicalWorks pour accélérer l'automatisation logistique et manufacturière. Sur le volet infrastructure, les deux groupes approfondissent leur collaboration autour du refroidissement des AI factories, incluant des unités de distribution de refroidissement (CDU), des plaques froides et un design modulaire préfabriqué, le tout aligné sur la plateforme NVIDIA DSX. Ce partenariat illustre la verticalisation des stacks d'IA physique, du modèle de fondation jusqu'au déploiement industriel. LG apporte des données de fabrication issues de sites mondiaux, une expertise optique via Innotek et des capacités d'intégration SI via CNS, là où NVIDIA fournit la couche logicielle et les accélérateurs. L'annonce de la data factory mérite une attention particulière: LG se positionne comme fournisseur de données d'entraînement pour l'industrie robotique, une ressource devenue critique face au défi du sim-to-real. Il convient cependant de souligner que CLoiD et l'intégration GR00T restent au stade de l'exploration déclarée, non d'un produit expédié, et qu'aucune métrique de déploiement industriel ni de volumétrie de production n'est communiquée. Ce rapprochement s'inscrit dans la stratégie NVIDIA d'expansion de l'écosystème Isaac et GR00T auprès des industriels asiatiques, après des partenariats similaires avec Foxconn et Hyundai. LG entre ainsi en compétition directe avec Samsung et SK dans la course des conglomérats coréens à intégrer l'IA physique dans leur portefeuille. Dans le segment des robots de service, CLoiD sera en concurrence indirecte avec Figure 03, Tesla Optimus Gen 3, 1X NEO et Sanctuary AI Phoenix, tous en déploiements pilotes chez des industriels. Côté infrastructure AI factory, Dell, HPE et Lenovo sont également partenaires certifiés NVIDIA DSX, ce qui relativise toute exclusivité de l'accord. Aucune date de livraison ni volume de déploiement n'est précisé dans l'annonce: il s'agit pour l'instant d'un cadre de coopération stratégique, pas d'un contrat de déploiement signé.

Chine/AsieOpinion
1 source
NVIDIA et Doosan Group s'associent pour développer l'IA physique et les infrastructures d'usines IA
16NVIDIA Blog Robotics 

NVIDIA et Doosan Group s'associent pour développer l'IA physique et les infrastructures d'usines IA

NVIDIA et le conglomérat sud-coréen Doosan Group ont annoncé en juin 2026 un élargissement de leur collaboration couvrant quatre entités du groupe : Doosan Robotics, Doosan Bobcat, Doosan Enerbility et Doosan Corporation Electro-Materials BG. Côté robotique, Doosan Robotics intègre la pile physique AI de NVIDIA, dont Isaac Sim et Isaac Lab pour la simulation, les modèles de fondation Cosmos pour la génération de monde physique, le moteur de physique open source Newton, et le SoC embarqué Jetson Thor. L'objectif est de faire évoluer leur plateforme "Agentic Robot OS" -- présentée comme une couche logicielle unifiant perception, raisonnement, simulation, apprentissage et inférence on-device -- pour des tâches industrielles concrètes comme la dépalettisation et le ponçage, ainsi que pour de nouveaux facteurs de forme incluant des bras doubles et des plateformes humanoïdes. Doosan Bobcat, spécialisé dans les engins compacts (construction, agriculture, manutention), entend de son côté exploiter les mêmes technologies pour développer des world models spécialisés. Enfin, Doosan Enerbility explore l'alimentation des AI factories NVIDIA via turbines à gaz, vapeur, réacteurs modulaires de petite taille (SMR) et piles à combustible hydrogène, pendant que Doosan Electro-Materials fournit des copper clad laminates (CCL) haute performance pour les PCB des accélérateurs et serveurs IA compatibles NVIDIA MGX. Il faut lire cette annonce pour ce qu'elle est : un accord de collaboration, pas un déploiement. Aucun chiffre de production, de cycle time, ni de volume shipment n'est communiqué. Cela dit, la structure de l'accord est stratégiquement cohérente. Doosan couvre plusieurs couches de la chaîne de valeur de l'infrastructure IA simultanément : hardware embarqué (Jetson Thor sur cobots), logiciel de simulation (Isaac Lab), matériaux de base pour data centers (CCL), et production d'énergie pour alimenter ces mêmes data centers. Pour les intégrateurs industriels, le signal le plus concret est le passage revendiqué de Doosan Robotics d'un fournisseur de bras articulés vers une entreprise "AI-first full-stack" -- une ambition que partagent Universal Robots, Fanuc et Yaskawa, mais que peu ont encore matérialisée à l'échelle. L'intégration sim-to-real via Cosmos et Newton suggère une volonté de réduire le demo-to-reality gap qui plombe encore de nombreuses démonstrations de manipulation complexe. Doosan Group, fondé en Corée du Sud en 1896 et désormais actif dans l'énergie, l'industrie lourde et la robotique, a acquis Bobcat en 2007 et structuré Doosan Robotics en unité autonome cotée en 2023. Sur le terrain de la robotique collaborative, ses concurrents directs incluent Universal Robots (acquis par Teradyne), FANUC, ABB et Techman Robot, tous en train d'intégrer des couches IA similaires. Sur le segment humanoïde, auquel Doosan fait désormais référence explicitement, la concurrence est plus intense encore : Figure (qui déploie chez BMW), Agility Robotics (Amazon), 1X, Apptronik et Tesla Optimus avancent tous sur des timelines industrielles. NVIDIA, de son côté, capitalise sur cette annonce pour consolider son positionnement de "système d'exploitation de la robotique physique", après des accords similaires avec Boston Dynamics, Foxconn et Intrinsic (Alphabet). Les prochaines étapes mentionnées restent vagues : des cas d'usage de référence sont "en cours de développement", sans date ni client annoncés.

IndustrielOpinion
1 source
Entretien avec Yuhnzu Li, professeur à Columbia et cofondateur de SceniX : « La simulation est centrale »
17Robotics & Automation News 

Entretien avec Yuhnzu Li, professeur à Columbia et cofondateur de SceniX : « La simulation est centrale »

Yuhnzu Li, professeur à l'Université Columbia et co-fondateur de SceniX, défend une thèse tranchée dans un secteur en pleine effervescence : la simulation est la clé de voûte du développement robotique moderne, pas un outil auxiliaire. L'entretien intervient alors que l'industrie humanoïde accumule les annonces de production à grande échelle et que l'IA générative nourrit des attentes parfois déconnectées du terrain. Li, chercheur ancré dans la robotique fondamentale, rappelle que les démonstrations publiques reflètent rarement la robustesse opérationnelle réelle des systèmes. Le positionnement de SceniX éclaire un enjeu industriel concret : le sim-to-real gap, c'est-à-dire l'écart de performance entre un robot entraîné en simulation et ce même robot déployé en environnement physique non contrôlé. Résoudre ce gap est devenu le problème n°1 des équipes qui développent des politiques de contrôle visuomotrices (VLA), car générer suffisamment de données réelles reste coûteux et lent. Une simulation de haute fidélité permet de produire des millions d'épisodes d'entraînement que l'on ne pourrait pas collecter physiquement à coût raisonnable, ce qui conditionne directement la vitesse de commercialisation. SceniX émerge dans un marché des outils de simulation robotique de plus en plus disputé : Isaac Sim de NVIDIA, MuJoCo maintenu par DeepMind/Google, Genesis ou encore le récent projet Cosmos d'NVIDIA ciblent le même besoin. L'ancrage académique de Li à Columbia lui confère une crédibilité sur la rigueur méthodologique, là où les acteurs commerciaux sont davantage jugés sur leurs benchmarks. La prochaine étape logique pour SceniX sera de démontrer que ses environnements synthétiques tiennent leurs promesses sur des robots en production réelle, pas seulement en laboratoire.

InfrastructureOpinion
1 source
Des chercheurs chinois revendiquent une percée dans l'entraînement de robots domestiques grâce à des maisons générées par IA
18SCMP Tech 

Des chercheurs chinois revendiquent une percée dans l'entraînement de robots domestiques grâce à des maisons générées par IA

Des chercheurs chinois d'Ace Robotics, une start-up soutenue par une société d'intelligence artificielle cotée à Hong Kong, ont présenté Kairos-HomeWorld, un framework capable de générer des environnements domestiques simulés à partir de simples prompts textuels. L'objectif affiché est de pallier le manque chronique de données d'entraînement pour les robots domestiques : contrairement aux environnements industriels, les intérieurs résidentiels varient infiniment en layout, éclairage, mobilier et désordre, ce qui rend la collecte de données réelles coûteuse et peu généralisable. Kairos-HomeWorld prétend produire des scènes cohérentes, précises géométriquement et directement exploitables dans des simulateurs physiques. Si les résultats se confirment à l'échelle, l'enjeu est considérable pour l'ensemble de la filière robotique domestique. La génération synthétique d'environnements de training est l'un des verrous majeurs du sim-to-real gap : entraîner un robot sur des données trop homogènes ou trop irréalistes produit des comportements fragiles hors simulateur. Un framework capable de diversifier automatiquement et massivement les scènes d'entraînement pourrait accélérer le déploiement d'assistants domestiques en réduisant le besoin de démonstrations humaines ou de téléopération. Les termes "world's first" utilisés dans la communication officielle appellent toutefois à la prudence, aucune comparaison indépendante n'étant disponible à ce stade. La course à la donnée synthétique pour la robotique s'intensifie : Nvidia propose Isaac Sim et Isaac Lab, Google DeepMind travaille sur des pipelines de génération de scènes pour ses robots, et Physical Intelligence (Pi) utilise des environnements simulés pour entraîner ses VLA (vision-language-action models). Ace Robotics entre sur ce terrain avec une approche centrée sur le résidentiel, segment encore peu adressé par les grandes plateformes américaines. Les prochaines étapes à surveiller : publication d'un benchmark de transfert sim-to-real, ouverture du framework à des partenaires intégrateurs, et résultats sur du matériel robotique réel.

Chine/AsiePaper
1 source
PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée
19arXiv cs.RO 

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

Des chercheurs ont publié PiL-World (arXiv:2606.05773), un modèle de monde (world model) en boucle fermée conçu pour évaluer les politiques VLA (Vision-Language-Action) sans exécution physique continue. Le système fonctionne par blocs d'actions (action chunks) : à chaque itération, la politique VLA génère une séquence d'actions, PiL-World simule les observations multi-vues résultantes, et ces observations alimentent le cycle d'inférence suivant. Évalué sur trois tâches de manipulation bimanuelle réelles, PiL-World réduit l'écart entre le taux de succès mesuré sur robot physique et celui estimé en simulation boucle fermée de 63,2 % à 12,0 % par rapport à la baseline, soit plus de cinq fois moins d'erreur d'évaluation. Le modèle conditionne la génération vidéo sur le mouvement du robot en vue de tête et sur un historique latent encodant le contexte d'exécution de la tâche, et apprend à la fois sur des démonstrations téléopérées réussies et sur des trajectoires d'échec. L'évaluation des politiques VLA en boucle fermée est un goulot d'étranglement critique dans le développement robotique : chaque cycle de test sur hardware coûte du temps, de l'usure mécanique et une supervision humaine. Un écart de 63,2 % entre simulation et réalité rend une baseline en boucle ouverte essentiellement inexploitable pour prédire les performances terrain. Ramené à 12,0 %, ce delta commence à être utilisable pour screener des politiques avant validation physique. Le fait que PiL-World apprenne aussi sur des rollouts d'échec est notable : cela corrige un biais classique des world models entraînés uniquement sur démonstrations positives, et rapproche la distribution simulée de celle des exécutions politiques réelles, qui incluent naturellement des tentatives ratées. La demande pour des boucles d'évaluation sans robot s'intensifie depuis que les VLA, notamment Pi-0 de Physical Intelligence, OpenVLA, ou GR00T N2 de NVIDIA, sont devenues les architectures de référence pour la manipulation généraliste. Les simulateurs physiques classiques comme Isaac Lab ou MuJoCo souffrent du sim-to-real gap pour les tâches de contact fin, d'où l'intérêt croissant pour les world models appris directement sur données réelles. PiL-World rejoint une tendance émergente aux côtés de travaux comme UniSim ou IRASim, qui visent à remplacer partiellement l'exécution physique par des modèles génératifs vidéo conditionnés sur les actions. Les résultats sur trois tâches bimanuelles restent limités en diversité de scènes et de morphologies robotiques, et aucun déploiement industriel ni partenariat n'est annoncé à ce stade, ce qui positionne PiL-World comme une contribution de recherche prometteuse plutôt qu'un outil prêt pour l'intégration.

RechercheOpinion
1 source
DLO-Lab : évaluation de la manipulation d'objets linéaires déformables avec physique différentiable
20arXiv cs.RO 

DLO-Lab : évaluation de la manipulation d'objets linéaires déformables avec physique différentiable

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.04206) DLO-Lab, un cadre de recherche combinant simulateur physique différentiable et suite de benchmarks dédiée à la manipulation robotique d'objets linéaires déformables (DLO), soit concrètement les câbles, cordes et élastiques. Le simulateur modélise explicitement une gamme étendue de propriétés matérielles : extensibilité et inextensibilité, élasticité, plasticité en flexion, ainsi que les interactions complexes entre objets. Sur cette base, les auteurs proposent un ensemble de tâches représentatives qui mettent en évidence deux difficultés centrales de la manipulation DLO : la complexité topologique inhérente aux objets déformables et la sensibilité aux points de saisie. Ils introduisent également un agent spécialisé qui sélectionne des points de préhension stratégiques et décompose les tâches longues en sous-séquences pour maximiser l'autorité de contrôle. L'ensemble est évalué avec plusieurs algorithmes d'apprentissage de politiques, et des expériences de transfert sim-to-real sont conduites pour valider le potentiel applicatif de la plateforme. L'enjeu industriel est direct : la manipulation de câbles et de fils est l'un des derniers verrous majeurs de l'automatisation en électronique, câblage automobile et logistique. Les approches antérieures se heurtaient à un double plafond de verre, étroitesse des tâches supportées et impossibilité pratique de collecter des données réelles suffisamment diversifiées. L'usage d'un simulateur différentiable change l'équation : les gradients physiques peuvent guider directement l'optimisation des politiques, ce qui réduit le besoin en démonstrations humaines et rend l'apprentissage plus transférable. Les expériences sim-to-real présentées dans l'article constituent la mesure critique : elles indiquent si le fossé simulation-réalité est franchissable pour ce type d'objets réputés imprévisibles, bien que les conditions expérimentales précises (matériaux testés, taux de succès chiffrés) restent à examiner dans le détail du papier complet. La manipulation DLO est un problème actif depuis les années 2010, avec des travaux notables du MIT, de Berkeley (notamment autour de l'équipe Pieter Abbeel) et, côté européen, de l'Inria et du DLR. Les benchmarks existants comme RLBench ou ManipulaTHOR ne couvrent pas spécifiquement les propriétés physiques des déformables linéaires, ce qui justifie la niche que vise DLO-Lab. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'une contribution académique pré-print, non encore évaluée par les pairs. Les prochaines étapes naturelles seraient une intégration dans des environnements de simulation largement adoptés comme Isaac Sim ou MuJoCo, et une validation sur des cas industriels concrets tels que le câblage de faisceaux dans l'automobile.

UELes équipes européennes (Inria, DLR) sont actives sur la manipulation DLO, et l'industrie automobile européenne, notamment le câblage de faisceaux, constitue l'un des débouchés industriels directs visés par ces travaux de simulation différentiable.

RecherchePaper
1 source
Planification POMDP en ligne vectorisée
21arXiv cs.RO 

Planification POMDP en ligne vectorisée

Des chercheurs ont publié VOPP (Vectorized Online POMDP Planner), un nouveau solveur de planification pour robots autonomes opérant sous observabilité partielle. L'article, paru sur arXiv (référence 2510.27191, cinquième version), propose une refonte architecturale des solveurs de POMDP (Partially Observable Markov Decision Process), le cadre formel qui permet à un robot de planifier ses actions quand ses capteurs sont bruités et son environnement incertain. L'innovation centrale : représenter toutes les structures de données de planification sous forme de tenseurs et exécuter chaque étape de calcul en mode entièrement vectorisé, éliminant les dépendances et goulots d'étranglement de synchronisation qui pénalisaient les approches parallèles antérieures. Les résultats expérimentaux affichent un gain d'efficacité d'au moins 20× par rapport au meilleur solveur parallèle existant pour des solutions quasi-optimales, et VOPP surpasse également les meilleurs solveurs séquentiels tout en utilisant un budget de planification 1 000× inférieur. Ces résultats, s'ils se confirment sur des plateformes physiques, changeraient significativement la faisabilité de la planification POMDP embarquée en temps réel. Jusqu'ici, les POMDP restaient souvent cantonnés à la recherche académique ou à des applications à horizons de décision limités, précisément parce que les solveurs classiques, qui alternent optimisation numérique et estimation de valeur avec des synchronisations coûteuses, restaient incompatibles avec des contraintes temps-réel. L'approche tensorielle de VOPP exploite directement les GPU et accélérateurs vectoriels modernes, ouvrant la voie à une planification sous incertitude à grande échelle : navigation d'AMR en entrepôt, manipulation d'objets à préhension incertaine, coordination multi-robots dans des environnements dynamiques. Le POMDP est un cadre établi depuis les années 1990, mais ses applications robotiques ont longtemps buté sur la malédiction de la dimensionnalité. Des travaux comme POMCP (2010) et DESPOT ont progressivement rendu les solveurs en ligne plus tractables. VOPP s'inscrit dans cette lignée en exploitant une reformulation récente qui résout analytiquement une partie du problème d'optimisation, réduisant les calculs numériques à de pures estimations d'espérances. Aucun partenariat industriel ni déploiement concret n'est mentionné dans la publication, il s'agit d'un résultat de recherche fondamentale. Les étapes logiques suivantes seraient une validation sur des benchmarks physiques et une intégration dans des frameworks comme ROS 2 ou Isaac Sim.

RecherchePaper
1 source
OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples
22arXiv cs.RO 

OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples

Des chercheurs ont publié OSCAR (Omni-Embodiment Skeleton-Conditioned World Action Model), un modèle de monde vidéo conditionné par les actions, capable de généraliser à travers différentes morphologies de robots. Décrit dans un preprint arXiv (2606.04463), le système s'appuie sur deux éléments centraux : un pipeline de données à grande échelle qui agrège, filtre et déduplique des jeux de données robotiques et des séquences vidéo égocentrées humaines pour couvrir des tâches, scénarios et morphologies variés ; et un conditionnement par rendu de squelette cinématique 2D, représentation unifiée fonctionnant aussi bien pour des bras robotiques de morphologies différentes que pour des mains humaines. Le modèle de base Cosmos-Predict2.5-2B de NVIDIA a été fine-tuné sur un seul GPU GH200. OSCAR a ensuite été déployé pour évaluer des politiques de contrôle issues de RoboArena, plateforme de benchmark communautaire, et démontre une corrélation significative entre évaluations virtuelles et tests en conditions réelles. L'enjeu central est le sim-to-real gap dans l'évaluation des policies : les environnements de simulation classiques reproduisent mal la physique réelle, rendant les benchmarks peu prédictifs du comportement sur robot physique. OSCAR propose une alternative directe, générer des vidéos conditionnées par les trajectoires d'actions pour simuler l'exécution d'une politique sans déploiement matériel. Si la corrélation annoncée se confirme à plus grande échelle, cela réduirait significativement les coûts et les cycles d'itération pour les équipes développant des VLA (Vision-Language-Action models). La représentation par squelette 2D est également notable : en évitant une spécialisation par embodiment, elle adresse un blocage récurrent de la généralisation multi-robot. Le fine-tuning sur GPU unique, contre des baselines nécessitant des modèles plus grands ou davantage de ressources de calcul, améliore l'accessibilité de l'approche. Les video world models appliqués à la robotique constituent un domaine en forte compétition : UniSim, RoboDreamer et le World Model de 1X Technologies ont chacun tenté d'adresser la simulation vidéo pour l'entraînement ou l'évaluation de robots, avec des résultats limités en diversité de scénarios ou en généralisation inter-embodiment. Le recours au modèle Cosmos de NVIDIA comme base pré-entraînée positionne OSCAR dans l'écosystème robotique croissant de NVIDIA, qui comprend Isaac Lab et GR00T. Les auteurs ouvrent explicitement la perspective d'une évaluation purement virtuelle des politiques robots, une proposition qui intéresse directement les intégrateurs cherchant à réduire les cycles de test hardware. Les étapes naturelles seraient la validation sur des morphologies plus variées, des tâches de manipulation complexes, et un passage à l'échelle vers des configurations multi-GPU.

RechercheOpinion
1 source
NVIDIA Isaac Sim : une simulation GPU accélérée et évolutive pour la robotique
23arXiv cs.RO 

NVIDIA Isaac Sim : une simulation GPU accélérée et évolutive pour la robotique

NVIDIA Isaac Sim s'est imposé comme une infrastructure centrale dans la recherche en robotique, et une étude de synthèse publiée sur arXiv (réf. 2606.03551) en propose la première analyse systématique. Contrairement aux simulateurs classiques comme Gazebo, PyBullet ou MuJoCo, Isaac Sim exploite l'accélération GPU pour permettre un entraînement parallèle à grande échelle et une modélisation physique haute fidélité. La plateforme intègre un pipeline de génération de données synthétiques qui pallie la rareté chronique des données d'entraînement de qualité, un verrou majeur pour le robot learning. Les auteurs analysent des études représentatives dans cinq grands domaines d'application et documentent les patterns d'usage dominants, notamment la génération de données et la simulation haute fidélité, sans se limiter à une liste de fonctionnalités marketing. L'enjeu industriel est significatif : la capacité à générer des données synthétiques crédibles et à entraîner des politiques en simulation massivement parallèle est aujourd'hui au coeur du débat sur le sim-to-real transfer. Pour les intégrateurs et les équipes R&D, une plateforme qui réduit le besoin de données réelles et compresse les cycles d'itération représente un avantage compétitif concret. Les auteurs pointent également les limites : la dépendance au matériel NVIDIA (GPU haut de gamme requis), des contraintes d'utilisabilité pratique, et des questions ouvertes autour de l'apprentissage en environnement ouvert (open-world learning), un domaine où aucun simulateur n'a encore apporté de réponse satisfaisante à l'échelle. Isaac Sim s'inscrit dans la stratégie plus large de NVIDIA dans la robotique, qui comprend le framework Isaac Lab, les modèles de fondation GR00T, et l'écosystème Omniverse. Face à lui, des alternatives open-source comme MuJoCo (DeepMind) ou Genesis gagnent du terrain, notamment pour leur accessibilité. L'étude identifie trois directions futures prioritaires : l'apprentissage physique en monde ouvert, les pipelines d'entraînement centrés sur la simulation, et la réduction des frictions d'adoption. Ces axes correspondent précisément aux blocages actuels pour industrialiser le déploiement de robots apprenants en dehors des labs.

UELes équipes R&D et laboratoires européens en robotique peuvent s'appuyer sur cette première analyse systématique pour arbitrer entre Isaac Sim et les alternatives open-source (MuJoCo, Genesis), notamment au regard de la dépendance au matériel NVIDIA haut de gamme.

InfrastructureOpinion
1 source
SimuScene : reconstruction compositionnelle de scènes 3D prêtes pour la simulation à partir d'une seule image
24arXiv cs.RO 

SimuScene : reconstruction compositionnelle de scènes 3D prêtes pour la simulation à partir d'une seule image

Une équipe de chercheurs a présenté SimuScene (arXiv:2606.03994, juin 2026), un pipeline de reconstruction 3D compositionnelle capable de produire, à partir d'une seule image, des scènes directement exploitables dans un simulateur physique. Le verrou technique adressé est précis : les méthodes existantes de reconstruction mono-image génèrent des géométries par objet plausibles visuellement, mais dès qu'on les compose dans une scène et qu'on lance la simulation, les objets s'interpénètrent, flottent ou s'enfoncent dans le sol, rendant la scène inutilisable pour l'entraînement robotique. SimuScene résout ce problème en intégrant le moteur physique non pas comme une étape de correction a posteriori, mais comme un outil de diagnostic pendant le processus de reconstruction lui-même. Concrètement, les objets reconstruits sont soumis à une simulation gravitationnelle ; les échecs de pénétration ou de support sont convertis en signaux de correction quantitatifs qui pilotent deux mécanismes : un étirement de la géométrie selon l'axe vertical ("gravity-axis stretching") et un rééchantillonnage de la forme amodale pour les parties non visibles. Les auteurs rapportent des résultats état de l'art sur des benchmarks de stabilité physique et d'alignement géométrique, et valident l'utilité de la pipeline sur des tâches de manipulation bras robotique et de contrôle humanoïde. Pour l'industrie robotique et la recherche en manipulation, l'enjeu est direct : l'un des goulots d'étranglement majeurs dans la génération de données simulées est la constitution d'environnements 3D physiquement cohérents. Si une seule image suffit à produire une scène immédiatement utilisable dans un simulateur comme Isaac Sim ou MuJoCo, le coût de création de données d'entraînement pour les VLA (Vision-Language-Action models) et les politiques de manipulation chute drastiquement. L'approche "physics-in-the-loop" pendant la génération, plutôt qu'en correction post-hoc, est une distinction architecturale importante : elle corrige les erreurs géométriques à la source plutôt que de les masquer par un réarrangement de layout, ce qui limite les artefacts cumulatifs. Cela dit, le papier étant un preprint, les benchmarks présentés restent à valider par la communauté, et les métriques de performance sur les tâches robotiques aval (taux de succès de saisie, généralisation hors distribution) ne sont pas détaillées dans l'abstract. SimuScene s'inscrit dans un axe de recherche actif depuis 2022 environ, alimenté par la convergence entre les reconstructeurs 3D génératifs (Zero-1-to-3, One-2-3-45, LRM) et le besoin croissant de données synthétiques pour l'entraînement de robots physiques. Les concurrents directs incluent les méthodes de layout correction physique comme PhyScene ou les pipelines de génération de scènes pour la simulation (GENESIS, RoboVerse), qui opèrent eux aussi sur ce créneau sim-to-real mais partent généralement de descriptions textuelles ou de scans multi-vues. La force revendiquée de SimuScene est la contrainte d'entrée minimale (une image) combinée à la validité physique en sortie. Les applications démontrées sur le contrôle humanoïde suggèrent un intérêt pour les labos travaillant sur des plateformes comme Figure 03, Unitree H1 ou Agility Digit, où la génération rapide d'environnements d'entraînement en simulation reste un facteur limitant. Aucun partenariat industriel ni timeline de déploiement n'est mentionné ; il s'agit pour l'instant d'un résultat de recherche académique.

RecherchePaper
1 source
Assistax : un benchmark multi-agents accéléré par matériel pour l'apprentissage par renforcement en robotique assistive
25arXiv cs.RO 

Assistax : un benchmark multi-agents accéléré par matériel pour l'apprentissage par renforcement en robotique assistive

Une équipe de chercheurs a publié Assistax, un benchmark open-source dédié à l'apprentissage par renforcement (RL) pour la robotique d'assistance aux personnes. Disponible sur GitHub (assistive-autonomy/assistax), la bibliothèque exploite JAX et l'accélération matérielle GPU pour atteindre des vitesses d'entraînement jusqu'à 370 fois supérieures aux alternatives CPU en temps réel (open-loop wall-clock time) lors de la vectorisation des runs d'entraînement. Le framework modélise l'interaction entre un robot d'assistance et un patient humain actif via l'apprentissage par renforcement multi-agent (MARL) : une population d'agents partenaires aux comportements variés est générée pour évaluer la capacité de coordination zero-shot d'un agent robotique embarqué face à des co-agents inconnus. L'enjeu est à la fois méthodologique et pratique. Les benchmarks RL ont jusqu'ici été dominés par les jeux vidéo et de plateau (Atari, Go), des environnements peu coûteux mais structurellement éloignés des contraintes de l'interaction physique réelle. Assistax comble ce fossé en proposant des scénarios de contrôle continu en simulation physique, représentatifs des défis concrets de la robotique d'assistance : gestion de la variabilité humaine, coordination en temps réel, robustesse à des comportements partenaires non vus à l'entraînement. Pour les équipes R&D développant des robots de soin, des exosquelettes ou des bras manipulateurs de service, le benchmark fournit des baselines fiables sur les algorithmes RL et MARL courants, réduisant le temps de comparaison et de validation algorithmique. Le contexte est celui d'une lacune reconnue dans l'écosystème RL : les environnements physiquement réalistes adaptés aux scénarios humain-robot restent rares et coûteux à exécuter. JAX, développé par Google DeepMind, s'impose progressivement comme infrastructure de référence pour la simulation massivement parallèle, en concurrence avec Isaac Lab (NVIDIA) et les frameworks basés sur MuJoCo. Assistax s'inscrit dans un mouvement plus large de spécialisation des benchmarks, BEHAVIOR, HumanoidBench ou SMPL-based environments ciblent des niches similaires, mais positionne explicitement l'assistance à la personne, segment encore peu couvert. Aucune timeline de déploiement réel n'est annoncée : Assistax reste un outil de recherche académique, et ses gains de vitesse annoncés (370x) méritent d'être contextualisés selon les configurations matérielles et les tâches testées.

UELe benchmark open-source pourrait réduire le temps de validation algorithmique pour les équipes R&D françaises développant des robots d'assistance ou des exosquelettes (Wandercraft, CEA-List), mais aucun acteur européen n'est impliqué directement dans la publication.

RecherchePaper
1 source
Apprentissage par renforcement multi-tâches sur GPU avec optimisation de politique guidée par démonstration
26arXiv cs.RO 

Apprentissage par renforcement multi-tâches sur GPU avec optimisation de politique guidée par démonstration

Une équipe de chercheurs a publié le 3 juin 2026 sur arXiv (2606.03335) une méthodologie pour construire des benchmarks d'apprentissage par renforcement multi-tâches sur GPU, et l'a instanciée sous le nom MT-Libero, en s'appuyant sur les assets et prédicats de tâches de LIBERO dans l'environnement de simulation Isaac Lab de NVIDIA. Le benchmark permet d'entraîner simultanément des politiques sur des suites de tâches hétérogènes de manipulation, avec rendu parallèle, randomisation physique, et support des entrées par état ou par caméra. En parallèle, les auteurs proposent DGPO (Demonstration Guided Policy Optimization), une méthode on-policy qui combine PPO pondéré par importance avec un clonage comportemental adaptatif sur des actions de démonstration appariées, permettant de doser l'influence des données de démo sur la politique apprise. L'intérêt de cette contribution est double. D'abord, elle s'attaque à un goulot d'étranglement structurel du domaine : la plupart des pipelines RL actuels en robotique entraînent une politique spécialisée par tâche, ce qui explose les coûts de calcul et limite la généralisation. Passer à un entraînement multi-tâches sur GPU en parallèle change fondamentalement l'économie de la simulation. Ensuite, DGPO résout un problème pratique récurrent : avec des signaux de récompense parcimonieux et peu de données de démonstration, les méthodes RL pures peinent à converger. Les auteurs montrent que leur approche surpasse à la fois le RL sans démonstration et les méthodes existantes à base de démonstration, tout en conservant la stabilité caractéristique de PPO on-policy et sa capacité d'amélioration continue en ligne. Le benchmark LIBERO, développé par des équipes académiques, est devenu une référence pour évaluer le transfert et la généralisation en manipulation robotique. Isaac Lab, le simulateur physique de NVIDIA, est de plus en plus utilisé pour le sim-to-real à grande échelle, notamment par Physical Intelligence (pi0), Figure AI et 1X Technologies. La problématique multi-tâches est au coeur des travaux actuels sur les VLA (Vision-Language-Action models) et les foundation models pour la robotique, où des acteurs comme DeepMind (RT-2, RT-X), Stanford et Berkeley (RoboAgent) cherchent à mutualiser l'apprentissage entre tâches. MT-Libero et DGPO sont publiés en preprint et n'ont pas encore été validés par un processus de peer-review ; les résultats restent à confirmer sur hardware réel.

RechercheOpinion
1 source
URDF-Anything+ : génération bout-en-bout d'actifs articulés prêts pour la simulation
27arXiv cs.RO 

URDF-Anything+ : génération bout-en-bout d'actifs articulés prêts pour la simulation

Une équipe de chercheurs a publié sur arXiv en mars 2026 URDF-Anything+, un modèle de diffusion autorégressive générant des fichiers URDF (Unified Robot Description Format) à partir d'une seule image RGB. Le URDF est le format standard dans l'écosystème ROS et les simulateurs physiques (MuJoCo, Isaac Sim, Gazebo) pour décrire la géométrie et la cinématique des objets articulés. Le système opère dans un espace latent structuré et prédit séquentiellement chaque partie de l'objet avec ses paramètres de joint (type, axe, limites de mouvement), un token de terminaison déterminant dynamiquement le nombre de segments à générer. Évalué sur des benchmarks à grande échelle d'objets articulés, il surpasse les méthodes existantes en reconstruction géométrique, en précision des paramètres de joints et en "physical executability", soit la capacité des URDF produits à s'exécuter directement dans un simulateur sans post-traitement manuel. L'enjeu pour les roboticiens et ingénieurs de simulation est direct : produire des digital twins d'objets articulés réels (tiroirs, portes, vannes, équipements industriels) reste un goulot d'étranglement dans les pipelines de sim-to-real. Les approches classiques imposent segmentation manuelle, retrieval depuis des bibliothèques 3D (PartNet, ShapeNet) ou des pipelines multi-étapes coûteux à maintenir. URDF-Anything+ compresse ce processus en une passe unique, sans retrieval ni post-traitement externe. Le résultat le plus significatif est le transfert zero-shot : des politiques de manipulation entraînées exclusivement en simulation sur des URDF générés ont été transférées dans des environnements réels sans fine-tuning supplémentaire, ce qui constitue une validation directe que le sim-to-real gap sur les objets articulés peut être partiellement absorbé par la fidélité du jumeau numérique. La reconstruction d'objets articulés depuis des observations visuelles est un problème ouvert depuis plus d'une décennie. Des travaux antérieurs comme PARIS, ArticulatedFormer et NSM avaient progressé sur la segmentation et l'estimation cinématique, mais butaient sur la généralisation et l'utilisabilité directe en simulateur. URDF-Anything+ s'inscrit dans la tendance des modèles génératifs 3D orientés simulation, aux côtés des Gaussian Splattings dynamiques et des NeRF articulés. La recherche (arXiv:2603.14010) ne mentionne pas d'affiliation industrielle ni de plan de commercialisation : il s'agit d'un résultat purement académique. L'intégration naturelle serait dans les pipelines de génération de données synthétiques pour la manipulation robotique, domaine où Physical Intelligence, le Boston Dynamics AI Institute et les équipes Nvidia Isaac Lab investissent massivement en ce moment.

UELes équipes académiques européennes en manipulation robotique (INRIA, DLR, TU Munich) pourraient intégrer cet outil dans leurs pipelines de données synthétiques, mais aucun acteur français ou européen n'est directement impliqué.

RecherchePaper
1 source
NVIDIA publie de nouveaux outils et des mises à jour pour les développeurs d'IA physique
28The Robot Report 

NVIDIA publie de nouveaux outils et des mises à jour pour les développeurs d'IA physique

Lors du GTC Taipei et du Computex, NVIDIA a dévoilé un ensemble de nouveaux outils open-source rassemblés sous le nom NVIDIA Agent Toolkit, destinés aux développeurs de systèmes d'IA physique : robotique, véhicules autonomes, vision industrielle et jumeaux numériques. L'objectif affiché est de réduire le coût et la complexité des pipelines de développement en rendant l'ensemble de la pile logicielle de NVIDIA directement orchestrable par des agents IA. Les outils concernés incluent Cosmos 3, le modèle de fondation pour la compréhension du monde physique (vidéo, texte, prédiction d'états futurs), les bibliothèques Omniverse pour la simulation et les jumeaux numériques, Isaac pour la robotique, Metropolis pour la vision IA, Alpamayo pour la conduite autonome, et la plateforme Jetson pour le déploiement embarqué. Le déploiement sécurisé de ces agents est encadré par le blueprint NemoClaw et le runtime OpenShell, qui appliquent des politiques de sécurité et de confidentialité en local comme dans le cloud. L'approche "agent-ready" de NVIDIA marque un changement de paradigme dans le développement de l'IA physique : plutôt que des bibliothèques que les ingénieurs assemblent manuellement, les outils deviennent des briques directement appelables par des agents de codage, capables d'enchaîner automatiquement génération de données, simulation, entraînement et évaluation. Pour les développeurs de véhicules autonomes, cela signifie qu'un agent peut reconstruire des scènes à partir de données de flotte, générer des scénarios de conduite photoréalistes et lancer des boucles de renforcement sans intervention manuelle à chaque étape. Pour les intégrateurs robotiques, des tâches comme l'automatisation de l'entraînement à la navigation ou le tuning de systèmes Jetson deviennent théoriquement scriptables. Rev Lebaredian, vice-président pour la simulation d'IA physique chez NVIDIA, a qualifié Cosmos 3 de "modèle de fondation frontier pour l'IA physique", capable de comprendre vidéo et texte, de prédire les états futurs et de générer des actions, positionnant ce world model comme un candidat généraliste opérationnel, même si aucune métrique de benchmark indépendante n'a été communiquée à ce stade. NVIDIA consolide avec cette annonce sa position d'infrastructure de référence pour l'IA physique, un rôle qu'elle occupe via ses GPU d'entraînement et ses plateformes Isaac Sim et Jetson. La compétition dans ce segment s'intensifie : Google DeepMind pousse MuJoCo et ses dérivés, Boston Dynamics, Figure, Agility Robotics et Physical Intelligence développent leurs propres stacks de simulation et d'apprentissage, tandis que des acteurs industriels comme Siemens ou ANSYS occupent le terrain des jumeaux numériques. En Europe, des entreprises comme Wandercraft ou Enchanted Tools pourraient bénéficier de ces outils si la promesse de réduction de complexité se confirme en pratique. NVIDIA joue ici la carte de la plateforme unifiée plutôt que du modèle de fondation isolé, un positionnement cohérent avec son modèle d'affaires mais qui reste à valider au-delà des démonstrations internes. Les suites annoncées incluent des applications en santé, dont le détail n'a pas été entièrement communiqué lors de l'événement.

UELes entreprises françaises comme Wandercraft et Enchanted Tools pourraient bénéficier de la réduction de complexité annoncée, mais aucun déploiement européen concret n'est confirmé à ce stade.

InfrastructureOpinion
1 source
NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes
29Interesting Engineering 

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes

Lors du GTC Taipei, NVIDIA a dévoilé une plateforme full-stack destinée aux robots humanoïdes, aux véhicules autonomes et à l'automatisation industrielle. Le cœur de l'annonce est Cosmos 3, un omnimodèle fondational open-source construit sur une architecture mixture-of-transformers, capable de traiter simultanément texte, images, vidéo, son et commandes d'action dans un seul système. Il se décline en Cosmos 3 Super, orienté haute précision pour la robotique et les véhicules autonomes, et Cosmos 3 Nano, optimisé pour l'inférence rapide. NVIDIA lance également l'Isaac GR00T Reference Humanoid Robot, un design de référence intégrant le robot Unitree H2 Plus, les mains articulées Sharpa, le calculateur embarqué Jetson Thor et la pile logicielle GR00T, adopté par Ai2, ETH Zurich, Stanford Robotics Center et UC San Diego. La collaboration avec TSMC porte les bibliothèques CUDA-X dans la fab pour la lithographie computationnelle, la simulation de transistors et l'inspection de plaquettes à l'échelle nanométrique. Alpamayo 2 Super, un modèle de raisonnement à 32 milliards de paramètres, cible quant à lui les applications robotaxi. La cohérence verticale de la plateforme est sa principale valeur ajoutée : NVIDIA prétend désormais couvrir l'intégralité de la chaîne de valeur de l'IA physique, de la génération de données synthétiques à la simulation, jusqu'au déploiement en production. Pour les équipes R&D en robotique humanoïde, GR00T Reference Robot réduit potentiellement plusieurs mois d'intégration hardware/software. Cosmos 3 s'attaque par ailleurs au sim-to-real gap en proposant un world model capable de générer des environnements d'entraînement réalistes, l'un des verrous structurels du secteur. Cela dit, les benchmarks avancés ("meilleur modèle ouvert" sur plusieurs évaluations) émanent de NVIDIA lui-même sans validation tierce, ce qui invite à une lecture prudente. L'intégration dans la fab TSMC est plus tangible : des gains d'efficacité mesurables dans la détection de défauts nanométriques signalent une adoption industrielle réelle, pas seulement un proof-of-concept. NVIDIA construit ce positionnement depuis plusieurs années via Isaac Sim, Omniverse et la famille GR00T N2 présentée en 2025. Sur le marché des humanoïdes, les concurrents directs incluent Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics (Atlas) et Agility Robotics (Digit). Le choix du robot Unitree H2 Plus, acteur chinois concurrent sur le segment humanoïde, comme base matérielle du design de référence NVIDIA est notable. En Europe, Enchanted Tools (Miroki, France) et Wandercraft pourraient tirer parti de Cosmos 3 pour la génération de données d'entraînement, même si aucun partenariat public n'a été annoncé. Les prochaines étapes incluent l'accès des institutions de recherche à GR00T Reference Robot et la disponibilité de Cosmos 3 via NVIDIA NGC ; aucune tarification ni date de commercialisation n'a été communiquée pour l'ensemble de la plateforme.

UEEnchanted Tools et Wandercraft pourraient exploiter Cosmos 3 pour la génération de données d'entraînement, et ETH Zurich figure parmi les partenaires de recherche du GR00T Reference Robot, mais aucun déploiement commercial en Europe n'est confirmé à ce stade.

💬 NVIDIA ne vend plus du silicium, il vend une plateforme verticale, de la simulation jusqu'au robot en prod. Le détail qui m'a accroché : le choix d'Unitree, concurrent chinois direct, comme base matérielle du robot de référence GR00T. C'est soit du pragmatisme pur, soit une façon de dire que l'avantage NVIDIA est dans le software, pas le hardware.

IA physiqueOpinion
1 source
Le robot humanoïde de NVIDIA embarque 2 070 téraflops de puissance « cérébrale » pour apprendre dans le monde réel
30Interesting Engineering 

Le robot humanoïde de NVIDIA embarque 2 070 téraflops de puissance « cérébrale » pour apprendre dans le monde réel

NVIDIA a dévoilé le 1er juin 2026, au GTC Taipei, l'Isaac GR00T Reference Humanoid Robot, un design de référence humanoïde open source associant le corps du Unitree H2 (1,80 m, 68 kg, 31 degrés de liberté) aux mains tactiles cinq doigts Sharpa Wave (44 DOF supplémentaires), soit 75 DOF au total. L'intelligence embarquée repose sur le module Jetson AGX Thor T5000, équipé d'un GPU Blackwell délivrant 2 070 téraflops en précision FP4, d'un CPU Arm 14 cœurs et de 128 Go de mémoire unifiée pour le traitement sensoriel en temps réel. Le robot supporte 120 N.m de couple aux bras, 360 N.m aux jambes et une charge utile de 15 kg, avec perception stéréo en tête, caméras montées aux poignets et centrale inertielle. La pile logicielle Isaac GR00T couvre tout le cycle de développement: Isaac Teleop pour la collecte de démonstrations humaines, Isaac Sim et Isaac Lab pour la simulation et l'entraînement, Isaac ROS pour le déploiement sur robot physique. Quatre institutions ont déjà rejoint l'initiative: Ai2, l'ETH Zurich, le Stanford Robotics Center et le laboratoire Advanced Robotics and Controls de l'UC San Diego. La compatibilité avec l'Unitree G1, très répandu en recherche, est également confirmée. La fragmentation du développement humanoïde constitue aujourd'hui l'un des freins majeurs à la recherche: hardware, environnements de simulation, modèles de fondation et middleware proviennent de sources hétérogènes, multipliant les frictions d'intégration. En proposant une pile unifiée et documentée, NVIDIA cherche à compresser le délai entre une nouvelle politique de contrôle et son test sur robot physique. Les 2 070 téraflops FP4 embarqués ne visent pas uniquement l'inférence: la puissance disponible cible l'apprentissage par renforcement en ligne et la collecte de données en situation réelle, deux leviers critiques pour combler le sim-to-real gap qui limite encore la majorité des VLA (Vision-Language-Action models). Steve Cousins, directeur exécutif du Stanford Robotics Center, a résumé la logique: "La robotique avance plus vite quand les chercheurs peuvent construire sur des plateformes ouvertes, partager du code et tester sur de vraies machines." NVIDIA avait posé les premières briques d'Isaac GR00T au GTC 2024 avec des modèles de fondation pour l'imitation et le transfert sim-to-real; l'annonce de Taipei franchit une étape différente avec un design de référence hardware-software complet. NVIDIA ne fabrique pas de robots mais joue explicitement la carte du fournisseur de plateforme, fournissant calcul, modèles et outils à l'ensemble de l'écosystème humanoïde: Figure (02), Tesla (Optimus Gen 3), Physical Intelligence (pi0), Boston Dynamics (Atlas Electric), et les acteurs européens comme Wandercraft ou Enchanted Tools, qui pourraient bénéficier de cette pile ouverte pour accélérer leur R&D. Le risque principal de cette stratégie est que les grands constructeurs, Tesla et Figure en tête, développent des piles entièrement propriétaires, réduisant la surface d'adoption. Les prochaines étapes documentées se limitent aux déploiements dans les quatre institutions partenaires, sans calendrier de commercialisation industrielle annoncé à ce stade.

UEL'ETH Zurich est l'un des quatre partenaires fondateurs de l'initiative, et la plateforme ouverte pourrait permettre à Wandercraft et Enchanted Tools d'accélérer leur R&D humanoïde sans repartir de zéro sur la pile logicielle.

HumanoïdesOpinion
1 source
Nvidia, Unitree et Sharpa s'associent pour concevoir un robot humanoïde capable d'effectuer un travail réel
31SCMP Tech 

Nvidia, Unitree et Sharpa s'associent pour concevoir un robot humanoïde capable d'effectuer un travail réel

L'accès web n'est pas disponible. Je vais rédiger le résumé à partir du texte fourni et de mes connaissances sur cet écosystème. --- Nvidia, Unitree Robotics et Sharpa ont dévoilé H2+, un design de référence pour robot humanoïde destiné à accélérer le développement industriel à l'échelle mondiale. L'annonce a été faite par Jensen Huang, PDG de Nvidia. H2+ intègre la chaîne complète de développement robotique : collecte de données, entraînement de politiques de contrôle (policy training) et déploiement en conditions réelles. Unitree Robotics, spécialiste chinois des robots humanoïdes à bas coût (G1, H1), apporte l'architecture mécanique, tandis que Sharpa, fabricant singapourien de mains robotiques, contribue la préhension dextère. Nvidia fournit la couche logicielle et matérielle, vraisemblablement via Isaac Sim, OSMO et le modèle de fondation GR00T N2. L'intérêt d'un design de référence commun est de réduire le temps de mise en marché pour les intégrateurs en évitant la redondance dans la phase de prototypage. En unifiant la stack sim-to-real sous un seul écosystème Nvidia, H2+ vise à fermer le gap entre démonstrations en laboratoire et déploiements opérationnels, un obstacle persistant dans la commercialisation des humanoïdes. C'est aussi un signal que Nvidia consolide son rôle d'infrastructure centrale dans la course aux humanoïdes, face à des constructeurs comme Boston Dynamics, Figure ou Agility Robotics qui développent leurs propres pipelines propriétaires. La collaboration reflète une tendance de fond : les grandes plateformes technologiques cherchent à s'imposer comme couche commune là où les fabricants de hardware se fragmentent. Nvidia avait déjà lancé GR00T N2 début 2025 pour standardiser l'entraînement des humanoïdes. Unitree, dont le G1 est commercialisé autour de 16 000 dollars, mise sur le volume et l'accessibilité. Les suites concrètes de H2+, pilotes industriels, disponibilité du SDK, partenaires intégrateurs, n'ont pas encore été précisées dans les informations disponibles.

HumanoïdesOpinion
1 source
Dynamique différentiable de corps rigides en batch sur GPU avec PyTorch pour l'apprentissage robotique
32arXiv cs.RO 

Dynamique différentiable de corps rigides en batch sur GPU avec PyTorch pour l'apprentissage robotique

Une équipe de chercheurs publie BARD (Batched Articulated Rigid-body Dynamics), une implémentation PyTorch des algorithmes de dynamique corps rigides de Featherstone, conçue pour l'évaluation GPU en batch et la différentiation automatique. Sur cinq modèles de robots allant de 7 à 23 degrés de liberté, BARD atteint un débit jusqu'à 64 fois supérieur à Pinocchio pour la cinématique directe et 63 fois supérieur pour les jacobiens, à une taille de batch de 4096 sur un NVIDIA H200. La bibliothèque repose sur trois choix d'architecture : un cache à évaluation paresseuse par niveaux qui évite les traversées redondantes de l'arbre cinématique, des transformées de joints sans multiplication matricielle grâce à des constantes de Rodrigues précalculées, et une propagation parallèle par niveaux qui ramène les opérations séquentielles à des étapes batchées proportionnelles à la profondeur de l'arbre. La précision numérique est validée par identification de système sur un manipulateur 7-DOF, avec une erreur moyenne de 1,24 % sur les masses des segments sous 5 % de bruit sur les couples. Intégré dans le pipeline d'entraînement Isaac Lab AMP pour un quadrupède à colonne vertébrale de 11 DOF avec 4096 environnements parallèles, BARD est 8,5 fois plus rapide que Pinocchio et 2 fois plus rapide qu'ADAM pour le calcul de dynamique en boucle d'entraînement. Le code est disponible en open source sur GitHub. L'enjeu est structurel : à mesure que le contrôle robotique migre vers le reinforcement learning à grande échelle avec calcul de dynamique en boucle (in-loop), les librairies CPU comme Pinocchio deviennent un goulot d'étranglement dans les pipelines GPU. BARD élimine ce découplage CPU/GPU sans sacrifier la précision ni la différentiabilité, deux propriétés critiques pour l'optimisation par gradient. Pour les équipes qui entraînent des politiques de locomotion ou de manipulation sur des milliers d'environnements parallèles, ce gain de débit se traduit directement en temps de calcul réduit et en capacité à itérer plus vite sur l'architecture des récompenses et des politiques. Pinocchio reste la référence académique et industrielle pour la dynamique articulée depuis plus de dix ans, mais son architecture CPU-first n'a pas été pensée pour les pipelines d'apprentissage modernes sur GPU. ADAM, autre alternative GPU, est ici surpassé d'un facteur 2 en contexte in-loop. BARD se positionne donc entre les simulateurs physiques complets comme Isaac Sim ou MuJoCo MJX et les librairies de dynamique symbolique, en ciblant explicitement l'usage comme composant différentiable dans une boucle d'entraînement. L'article est une prépublication arXiv (2605.31481), non encore soumise à révision par les pairs, et les benchmarks présentés portent sur des scénarios contrôlés : des tests en conditions de déploiement réel, notamment sur des robots industriels ou des plateformes commerciales, restent à venir.

UEBARD surpasse directement Pinocchio, bibliothèque de dynamique articulée développée et maintenue par LAAS-CNRS et INRIA, ce qui constitue un signal fort pour les équipes de recherche robotique françaises qui l'utilisent comme référence dans leurs pipelines d'apprentissage par renforcement.

RecherchePaper
1 source
ORBBEC s'étend au-delà de la vision robotique vers l'IA physique et l'impression 3D
33Pandaily 

ORBBEC s'étend au-delà de la vision robotique vers l'IA physique et l'impression 3D

ORBBEC (688322.SH), fabricant chinois de capteurs de vision 3D, annonce un élargissement stratégique vers quatre segments: Physical AI, vision IA généraliste, impression 3D et acquisition de données volumétriques. La société revendique plus de 70% de part de marché en Chine et en Corée du Sud sur le créneau vision robotique de service, s'appuyant sur une décennie de R&D qui lui a permis de taper une douzaine de puces propriétaires couvrant lumière structurée, iToF (temps de vol indirect), dToF et LiDAR. Ces capteurs sont d'ores et déjà intégrés dans les chaînes d'approvisionnement des fabricants d'humanoïdes AgiBot, UBTech et Unitree. Le 29 mai 2026, ORBBEC a élargi son partenariat avec Creality 3D, récemment introduite en bourse à Hong Kong, pour co-créer un centre d'innovation en scanners 3D et lancer une plateforme commune baptisée "3D Printing AI Vision Intelligent Platform". Financièrement, le premier trimestre 2026 affiche 203 millions de RMB de chiffre d'affaires, avec un bénéfice net retraité en hausse de 531% sur un an -- chiffre spectaculaire qui s'explique probablement par un faible niveau de base et qui reste à confirmer dans la durée. La portée industrielle de ce repositionnement tient à trois leviers combinés. En Physical AI, les capteurs ORBBEC alimentent les world models de simulation via une intégration confirmée dans NVIDIA Isaac Sim, ce qui positionne la société comme fournisseur de données réelles pour le cycle sim-to-real -- un noeud critique que peu d'acteurs hardware maîtrisent de bout en bout. Sur l'impression 3D, le contexte est porteur: les exports chinois du secteur ont progressé de 119% en glissement annuel sur les quatre premiers mois de 2026, rendant le partenariat Creality stratégiquement opportuniste. Enfin, la transition de "fournisseur de composants" vers "perception-as-a-service" signifie une montée vers les couches logicielles (reconnaissance, décision), ce qui modifie structurellement le profil de marges -- les analystes anticipent une amélioration du mix produit et une expansion des marges brutes tout au long de 2026. ORBBEC prend pied dans un marché longtemps dominé par des acteurs occidentaux aujourd'hui en retrait: Intel a arrêté sa gamme RealSense en 2023, Microsoft a mis fin à l'Azure Kinect la même année, laissant un vide que Stereolabs (ZED Camera), Photoneo ou Zivid cherchent à combler sur le segment industriel haut de gamme. ORBBEC se présente comme une alternative chinoise à coût compétitif, avec un ancrage fort sur le marché asiatique des robots de service et une ambition d'intégration verticale puce-algorithme-optique. Les prochaines étapes déclarées incluent le déploiement effectif du centre d'innovation commun avec Creality et le lancement commercial de la plateforme impression 3D. Les projections sectorielles évoquent un marché combiné scan-impression-modélisation 3D approchant les mille milliards de dollars sur la décennie -- une estimation à prendre avec précaution, mais qui illustre l'amplitude de la thèse de croissance que la société cherche à incarner.

UELe repositionnement d'ORBBEC intensifie la pression concurrentielle sur Stereolabs (France/ZED Camera) et Photoneo dans le segment capteurs 3D pour robotique industrielle, alors qu'Intel et Microsoft ont abandonné ce marché en 2023.

Chine/AsieOpinion
1 source
Validation reproductible de robots par simulation avec traçabilité de provenance
34arXiv cs.RO 

Validation reproductible de robots par simulation avec traçabilité de provenance

Un article publié sur arXiv (2605.29973) propose un cadre méthodologique pour rendre les campagnes de validation robotique par simulation réplicables de façon rigoureuse. Le constat de départ : la simulation est l'outil dominant pour évaluer le comportement des robots avant déploiement, mais les conditions exactes des tests (configuration, exécution, post-traitement) sont rarement documentées de façon structurée. Les auteurs répondent en appliquant les principes FAIR (Findability, Accessibility, Interoperability, Reusability) et en intégrant la traçabilité de provenance directement dans les pipelines de test, plutôt qu'en couche ajoutée après coup. Concrètement, ils ont instrumenté un framework de simulation existant avec des mécanismes de capture de métadonnées machine-readable et appliqué cette approche à un jeu de données de navigation de robot mobile. L'enjeu dépasse la recherche académique : sans documentation fiable des conditions de test, il devient impossible de comparer des résultats entre environnements simulés, de reproduire des scénarios de défaillance, ou de constituer une base certifiable pour des AMR industriels ou des robots de service. Ce travail identifie un problème en amont du sim-to-real gap : un "sim-to-sim replicability gap", l'impossibilité de reproduire fidèlement une campagne d'un laboratoire à l'autre. Pour les intégrateurs et les certifiants, c'est un frein direct à la standardisation des processus de qualification robotique. Les principes FAIR, nés en bioinformatique et en physique des particules, restent peu adoptés en robotique. Ce travail s'inscrit dans un effort plus large de structuration des benchmarks du secteur, porté par des communautés ROS et des groupes de travail ISO sur la performance des robots. Les obstacles identifiés par les auteurs -- alignement des vocabulaires entre outils, sélection des attributs pertinents, adoption de standards de domaine -- soulignent que la transition reste complexe. L'étape naturelle serait une intégration dans des simulateurs populaires comme Gazebo, Isaac Sim de NVIDIA ou MuJoCo, et la convergence vers des ontologies partagées entre laboratoires.

RecherchePaper
1 source
La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles
35Interesting Engineering 

La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles

NVIDIA a présenté huit travaux de recherche en robotique à l'International Conference on Robotics and Automation (ICRA) 2026, tous centrés sur la réduction du "sim-to-real gap" -- l'écart de performance entre un robot entraîné en simulation et ce même robot confronté au monde physique. Parmi les systèmes mis en avant, COMPASS entraîne des robots exclusivement dans Isaac Lab (le simulateur NVIDIA) avant de transférer les politiques apprises vers des corps physiques différents. Sur 20 essais réels impliquant des robots mobiles autonomes et des humanoïdes, le framework atteint un taux de succès de 80 % en navigation, soit 4,5 fois supérieur aux baselines par imitation learning. Le système Grasp-MPC, dédié à la préhension en environnement encombré, a été entraîné sur 2 millions de trajectoires simulées couvrant 8 000 objets distincts, et atteint 75 % de succès sur des objets inconnus contre 41 % pour les méthodes de référence. Le framework SPARR, appliqué à l'assemblage industriel, découpe la tâche en deux couches -- une politique apprise en sim, corrigée en temps réel sur le hardware réel -- et affiche 38 % de gain sur le taux de succès d'assemblage et 30 % de réduction du temps de cycle par rapport aux baselines zero-shot sim-to-real. Enfin, PEEK améliore l'attention visuelle des robots (filtrage du bruit visuel non pertinent), avec une précision multipliée jusqu'à 41 fois pour des politiques purement simulées. Une collaboration avec Carnegie Mellon, l'Université de l'Utah et l'Université de Sydney a produit SEAL, un framework qui contraint le robot à n'exécuter que les séquences d'actions cohérentes avec son raisonnement planifié. Ces résultats sont significatifs pour les intégrateurs et les décideurs industriels, car ils montrent que le sim-to-real gap -- longtemps considéré comme le verrou structurel de la robotique apprise -- commence à se refermer de façon mesurable, au moins en conditions de laboratoire. Le gain de 30 % sur le temps de cycle (SPARR) est un chiffre qui parle directement aux opérateurs de lignes d'assemblage. Il convient cependant de nuancer : les taux de succès rapportés (75-80 %) sont mesurés dans des protocoles contrôlés par les chercheurs eux-mêmes, sans déploiement industriel validé en production. Les vidéos sélectionnées pour illustrer ces travaux suivent les conventions habituelles des communications académiques, qui ne montrent pas les échecs. La progression reste réelle, mais le passage de 80 % à 99 % de fiabilité -- seuil requis pour la plupart des applications industrielles critiques -- reste un problème ouvert. NVIDIA positionne cette recherche comme la couche logicielle et de simulation de son écosystème robotique plus large, qui inclut Isaac Lab, Isaac GR00T X Embodiment Sim et Omniverse NuRec. La compagnie ne fabrique pas de robots mais ambitionne de devenir l'infrastructure sur laquelle l'industrie entraîne ses systèmes, face à des concurrents comme Google DeepMind (avec ses travaux sur RT-2 et Gemini Robotics), Meta (V-JEPA) et Physical Intelligence (pi0). Sur le segment de la simulation pour la robotique, des acteurs comme Mujoco (DeepMind) et Genesis (MIT/CMU) occupent également le terrain. Les prochaines étapes annoncées par NVIDIA passent par l'extension des datasets ouverts et la montée en échelle des plateformes de simulation, sans timeline de commercialisation précisée pour les frameworks présentés à l'ICRA.

UELes intégrateurs industriels européens en robotique d'assemblage pourraient à terme bénéficier des frameworks sim-to-real NVIDIA (Isaac Lab, SPARR), mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

💬 Le 30% de gain sur le temps de cycle, c'est le seul chiffre qui va faire bouger un décideur industriel. NVIDIA ne fabrique pas de robots mais joue exactement le même coup qu'avec les GPU : devenir l'infrastructure incontournable avant que le marché soit mature, face à DeepMind, Meta et les autres. Reste que passer de 80% à 99% de fiabilité, le vrai seuil pour les lignes critiques, c'est encore une autre histoire.

IA physiquePaper
1 source
NVIDIA Research fait progresser la robotique de la simulation au monde réel
36NVIDIA AI Blog 

NVIDIA Research fait progresser la robotique de la simulation au monde réel

À l'occasion de l'International Conference on Robotics and Automation (ICRA) 2026, NVIDIA Research a présenté huit articles scientifiques parmi les 28 acceptés, tous centrés sur le transfert simulation-vers-réel en robotique. Les travaux couvrent l'ensemble de la chaîne de développement : coordination de bras multiples, navigation sur des morphologies de robots variées, préhension d'objets inconnus et manipulation de matières déformables. Parmi les systèmes présentés, ScheduleStream exploite les GPU pour planifier les mouvements de plusieurs bras robotiques en parallèle, atteignant une accélération de 3x par rapport aux approches séquentielles classiques, et tourne notamment sur la plateforme embarquée Jetson de NVIDIA. COMPASS, un cadre de politique de navigation, combine apprentissage par imitation et apprentissage par renforcement résiduel dans le simulateur Isaac Lab pour généraliser à des robots de morphologies très différentes, sans jamais utiliser de données réelles lors de l'entraînement. Résultat : un taux de succès moyen 4,5 fois supérieur à la référence, et environ 80 % de réussite sur 20 essais réels avec des robots mobiles autonomes et des humanoïdes. Grasp-MPC, de son côté, a été entraîné sur 2 millions de trajectoires simulées issues de 8 000 objets différents, apprenant à saisir des objets inédits dans des environnements encombrés avec un taux de succès de 75 %, contre 41 % pour la méthode de référence. L'importance de ces résultats tient à ce qu'ils résolvent des verrous concrets qui bloquaient l'industrialisation de la robotique. Former un robot à naviguer dans un environnement et devoir tout recommencer dès qu'on change de plateforme physique est un frein majeur au déploiement à grande échelle. COMPASS supprime ce problème en apprenant des compétences transférables entre corps mécaniques différents, ouvrant la voie à des flottes hétérogènes d'agents robotiques dans des entrepôts, des hôpitaux ou des usines. Grasp-MPC, lui, corrige en temps réel la trajectoire d'approche du robot dans les derniers centimètres, là où les systèmes à plan fixe échouent le plus souvent. Ces avancées signifient qu'il devient possible de déployer des robots capables de traiter des tâches non scriptées dans des environnements désordonnés et imprévisibles, sans recalibration permanente. Ces recherches s'inscrivent dans une mutation profonde du secteur : la robotique sort de l'ère des démos contrôlées pour entrer dans celle de l'autonomie généralisable. NVIDIA joue un rôle structurant dans cette transition en fournissant à la fois les outils de simulation (Isaac Lab, Omniverse NuRec pour les jumeaux numériques), les bibliothèques de calcul (cuRobo, GraspGen) et le matériel embarqué (Jetson). Le fait que COMPASS et Grasp-MPC atteignent des performances robustes sans aucune donnée réelle lors de l'entraînement est une preuve de maturité du sim-to-real. La prochaine étape sera l'intégration de modèles vision-langage-action capables de raisonner avant d'agir, plusieurs des papiers ICRA ouvrant déjà cette direction.

UELes industriels et laboratoires de robotique européens (automobile, logistique, santé) pourront exploiter ces avancées sim-to-real pour déployer des flottes robotiques hétérogènes sans recalibration permanente entre plateformes.

HumanoïdesActu
1 source
STR Robot : conception d'un robot mobile autonome de la simulation au réel
37arXiv cs.RO 

STR Robot : conception d'un robot mobile autonome de la simulation au réel

Un article de recherche publié le 28 mai 2026 sur arXiv (référence 2505.28110) présente le STR Robot, un robot mobile autonome développé selon une approche simulation-vers-réalité (sim-to-real) à partir d'une plateforme mécanique existante. Le travail porte exclusivement sur la couche logicielle : contrôle embarqué, auto-localisation et navigation autonome en environnement extérieur. Le système intègre capteurs et calcul embarqués pour estimer sa pose et se déplacer sans intervention humaine. L'ensemble du framework a d'abord été développé et validé en simulation, puis transféré sur le robot physique pour évaluation expérimentale. Le code source sera rendu public via un dépôt GitHub associé au projet. À noter : le preprint ne fournit aucune métrique chiffrée précise dans son abstract, ce qui limite l'évaluation indépendante des performances annoncées. L'intérêt de cette contribution réside dans la démonstration pratique du pipeline sim-to-real appliqué à un robot mobile autonome (AMR) sur plateforme mécanique préexistante, un cas d'usage courant pour les intégrateurs industriels qui cherchent à capitaliser sur du matériel existant plutôt que de repartir de zéro. Si le sim-to-real reste un défi structurel dans la robotique, avec des écarts persistants entre comportements simulés et réels, les résultats décrits affirment la faisabilité de l'approche comme fondation pour des systèmes fiables. Pour un COO industriel ou un ingénieur robotique, c'est la validation d'un workflow de développement qui réduit les cycles de test en conditions réelles et donc les coûts d'itération. Le contexte scientifique de ce travail s'inscrit dans une vague de recherches académiques sur le sim-to-real transfer, thème central depuis que des environnements comme Isaac Sim (NVIDIA), Gazebo ou MuJoCo ont atteint une fidélité suffisante pour entraîner des policies directement exportables. Du côté industriel, des acteurs comme Boston Dynamics, Exotec ou Locus Robotics investissent massivement dans ces pipelines pour leurs AMR logistiques. La publication reste toutefois au stade du preprint non évalué par les pairs, sur un démonstrateur dont l'échelle et les conditions de test précises ne sont pas encore divulguées.

RecherchePaper
1 source
Accélérer la planification de trajectoires robotiques grâce à un réseau de propositions de régions préservant la connectivité
38arXiv cs.RO 

Accélérer la planification de trajectoires robotiques grâce à un réseau de propositions de régions préservant la connectivité

Une équipe de chercheurs publie sur arXiv (preprint 2605.28362, mai 2026) le CP-RPN, ou Connectivity-Preserving Region Proposal Network, une architecture de planification de chemin pour robots mobiles conçue pour comprimer drastiquement l'espace de recherche tout en garantissant la cohérence topologique du résultat. Le système repose sur un modèle de segmentation combinant un Deformable Attention Transformer (DAT), qui capture les dépendances longue portée pour assurer la connectivité globale, et un décodeur déconvolutif pour préserver les détails spatiaux fins. La fonction de perte est composite : cross-entropy pixel à pixel, une perte de cohérence locale (Connectivity-Aware loss), et une perte de continuité topologique basée sur l'homologie persistante pour imposer la connectivité globale du masque prédit. Sur ces régions corridor à haute connectivité, le diagramme de Voronoï trace le chemin, avec un mécanisme de repli A* local pour garantir la robustesse. Les résultats expérimentaux annoncés : réduction de la taille des régions candidates de plus de 60,13 % par rapport à la baseline MPT, temps de planification moyen de 0,11 seconde, taux de succès de 99,60 %. Ces métriques, si elles se confirment en dehors du cadre simulé des benchmarks, représentent un gain opérationnel concret pour les intégrateurs d'AMR (autonomous mobile robots) en environnements industriels complexes : la planification déterministe à 0,11 s ouvre la voie à une navigation réactive sans les aléas des algorithmes d'échantillonnage stochastiques comme RRT ou PRM, qui peinent dans les espaces à forte densité d'obstacles. La correction topologique via l'homologie persistante est une approche encore rare dans la robotique mobile, empruntée à l'analyse de données topologiques, et son intégration dans une boucle de planification temps réel est techniquement non triviale. Il convient cependant de noter que le papier est un preprint non relu par les pairs, et que les résultats sont présentés sur des scénarios de benchmark sans déploiement terrain rapporté. La planification de chemin pour robots mobiles est un problème ouvert depuis les travaux fondateurs sur RRT (LaValle, 1998) et PRM. Les approches hybrides apprentissage-planification classique ont connu un regain d'intérêt avec les travaux sur les Motion Planning Transformers (MPT), qui servent ici de baseline. Dans le paysage concurrentiel, des acteurs comme Boston Dynamics (pour la navigation Spot), MiR, ou les équipes de recherche de NVIDIA Isaac Lab travaillent sur des pipelines similaires. Le CP-RPN se positionne comme une brique d'accélération modulaire, potentiellement intégrable à des stacks ROS2 existants. Les prochaines étapes attendues sont une validation sur hardware réel et des benchmarks en environnement dynamique.

RecherchePaper
1 source
Simulateur différentiable neuronal adaptatif : modélisation des contacts rigides par transfert réel-vers-simulation
39arXiv cs.RO 

Simulateur différentiable neuronal adaptatif : modélisation des contacts rigides par transfert réel-vers-simulation

Des chercheurs ont publié sur arXiv (référence 2603.06218v2) un framework baptisé "Few-Shot Neural Differentiable Simulator", conçu pour calibrer des simulateurs analytiques rigides à partir d'un volume réduit de données réelles, puis générer des jeux de données synthétiques à grande échelle. L'approche combine un simulateur analytique traditionnel, utilisé comme générateur de données après calibration, avec un réseau de neurones sur graphe (GNN) basé sur des maillages 3D, chargé de modéliser la dynamique avant des corps rigides. La contribution technique centrale réside dans la dérivation de gradients de substitution pour la détection de collision, rendant l'ensemble du pipeline entièrement différentiable. Les expériences portent sur des scénarios d'interaction multi-objets, où le système apprend des politiques de manipulation directement par optimisation basée sur les gradients dans le simulateur. Ce travail s'attaque à l'un des verrous majeurs du apprentissage robotique : le coût prohibitif de la collecte de données réelles et l'écart persistant entre simulation et réalité (sim-to-real gap). En n'exigeant qu'un petit nombre d'épisodes réels pour recaler le simulateur analytique, plutôt que des milliers de trajectoires pour entraîner un modèle purement appris, le framework réduit significativement la barrière d'accès à la simulation haute-fidélité. La différentiabilité complète est un avantage concret pour les concepteurs de politiques robotiques : elle permet de propager des gradients à travers la dynamique de contact, évitant le recours à des méthodes d'optimisation sans gradient (evolutionary strategies, RL model-free) typiquement moins efficaces en échantillons. Les résultats présentés indiquent que le GNN ainsi entraîné surpasse des baselines différentiables analytiques pour répliquer des trajectoires réelles, bien que ces résultats restent à ce stade expérimentaux et non validés en conditions industrielles réelles. Le problème de la simulation de contact rigide mobilise depuis plusieurs années des équipes académiques et industrielles majeures. Les simulateurs dominants comme MuJoCo (DeepMind), Isaac Sim (NVIDIA) et PyBullet offrent une différentiabilité partielle, mais peinent à modéliser fidèlement les contacts complexes sans paramétrage expert lourd. Des approches concurrentes comme DiffTaichi ou Brax (Google) ont exploré la différentiabilité à l'échelle, tandis que des laboratoires comme MIT CSAIL et Stanford travaillent sur des simulateurs neuronaux pour la manipulation. Ce preprint, non encore soumis à révision par pairs, ouvre une direction crédible vers des simulateurs "grounded" en peu de données réelles, pertinente pour les déploiements en manipulation industrielle et en robotique de service où les données réelles sont coûteuses à acquérir.

RecherchePaper
1 source
IsaacIPC : simulation haute fidélité et rendu réaliste couplés pour la robotique en contact
40arXiv cs.RO 

IsaacIPC : simulation haute fidélité et rendu réaliste couplés pour la robotique en contact

Des chercheurs ont publié le 27 mai 2026 sur arXiv (référence 2605.24339) IsaacIPC, un framework de simulation robotique qui couple le moteur IPC (Incremental Potential Contact) accéléré GPU avec l'environnement IsaacSim/Lab de NVIDIA. Le coeur du système repose sur un mapping de déformation entre maillages de simulation et maillages de rendu, permettant un rendu visuel réaliste en temps réel pour des scénarios à contacts riches (manipulation déformable, préhension complexe). Les auteurs introduisent également le GMCP (Geometric Mortar Contact Potential), une nouvelle formulation de potentiel barrière appliquée aux surfaces tactiles pour résoudre les distributions pression-contact avec une précision supérieure aux approches existantes. Le framework est validé sur un robot quadrupède, une main dextre à doigts multiples et un préhenseur UMI (Universal Manipulation Interface). L'enjeu industriel est direct : la qualité des données de simulation conditionne la robustesse des politiques de manipulation entraînées en sim-to-real. IsaacIPC s'attaque au problème du rendu réaliste couplé à la physique du contact, un point de friction majeur pour l'entraînement de VLA (Vision-Language-Action models) et de politiques de manipulation fine. Une simulation visuellement fidèle réduit le domain gap sans recourir à la randomisation agressive, ce qui accélère le déploiement sur hardware réel. La précision tactile apportée par GMCP est particulièrement pertinente pour les intégrateurs travaillant sur l'assemblage ou la chirurgie assistée par robot. Le contexte scientifique est celui d'une compétition intense autour des simulateurs pour la robotique apprenante. IPC, initialement développé en infographie par Li et al. (2020), est reconnu pour sa robustesse aux contacts mais reste coûteux en calcul -- son intégration dans IsaacSim comble un écart entre fidelité physique et vitesse nécessaire à l'entraînement par reinforcement learning. En face, MuJoCo (DeepMind), Genesis et PhysX restent des références, mais peinent sur les déformables et la tactile. IsaacIPC reste à ce stade un preprint académique sans annonce de disponibilité publique dans Isaac Lab, mais son intégration dans l'écosystème NVIDIA ouvre une voie réaliste vers une adoption industrielle rapide si les benchmarks de contact tiennent à l'échelle.

UELes laboratoires européens travaillant sur la manipulation robotique apprenante (INRIA, DLR, ETH Zurich) pourraient bénéficier de cet outil si NVIDIA le rend public dans Isaac Lab, mais aucun impact direct ou immédiat sur la France/UE n'est identifié à ce stade.

💬 Le gap sim-to-real, c'est le problème de fond de la robotique apprenante depuis des années, et là quelqu'un s'y attaque enfin du bon côté: rendu réaliste et physique du contact au même endroit, dans le même outil. Le GMCP pour la tactile fine couplé à IsaacSim, c'est le genre de truc qui permet d'entraîner des VLA sur de la manipulation délicate sans randomiser dans tous les sens pour compenser. Reste à voir si ça sort vraiment dans Isaac Lab, parce que pour l'instant c'est encore un preprint.

IA physiquePaper
1 source
MuJoCoUni : des primitives d'exécution persistantes et vectorisées pour MuJoCo
41arXiv cs.RO 

MuJoCoUni : des primitives d'exécution persistantes et vectorisées pour MuJoCo

Un préprint arXiv (réf. 2605.24922, mai 2026) présente MuJoCoUni, une distribution dérivée du simulateur physique MuJoCo ciblant l'apprentissage robot en ligne et l'évaluation physique batchée. L'objet central de la bibliothèque est le BatchEnvPool, un exécuteur écrit en C++ et exposé via pybind11, qui maintient des copies indépendantes de mjModel par environnement, des workers mjData par thread, et un pool de threads interne. BatchEnvPool comble ce que l'API upstream mujoco.rollout ne couvrait pas : l'exécution stateful d'environnements en parallèle, avec stepping final-state-only, reset sparse, randomisation de domaine au moment du reset (reset-lifecycle domain randomization), évaluation forward des capteurs sans avancer la dynamique, et requêtes batchées de Jacobiens et de champs de hauteur. Le package est disponible en open source via pip install mujoco-uni. L'enjeu pratique est significatif pour les pipelines de reinforcement learning robotique. L'entraînement RL en ligne exige un débit élevé de transitions simulées, souvent plusieurs milliers d'environnements en parallèle. La plupart des solutions à haute cadence comme Isaac Lab (NVIDIA) ou Brax (Google/JAX) sacrifient la fidélité physique de MuJoCo, notamment sa gestion fine des contacts et des contraintes, au profit de la vitesse GPU. MuJoCoUni prend le parti inverse : conserver la sémantique CPU de MuJoCo intacte, solveur, modèle de contact et intégrateur compris, en parallélisant uniquement au niveau de la couche de liaison Python, sans forker le coeur du simulateur. C'est une approche plus conservative, mais potentiellement plus fiable pour les tâches où la précision physique conditionne le transfert sim-to-real, notamment en manipulation dextre ou en locomotion sur terrain irrégulier. MuJoCo, développé initialement à l'Université de Washington par Emo Todorov, a été acquis par DeepMind en 2021 puis rendu open source en octobre 2022 sous licence Apache 2.0, ce qui a considérablement élargi son adoption dans la communauté RL robotique. L'écosystème s'est depuis structuré autour de plusieurs stacks concurrentes : Isaac Lab (GPU-natif, NVIDIA), Genesis (multi-backend, open source) et Brax (JAX). MuJoCoUni occupe un créneau spécifique : exécution batchée stateful sur CPU avec sémantique MuJoCo garantie, utile pour les équipes qui ne disposent pas d'infrastructure GPU ou qui exigent la reproductibilité exacte du simulateur de référence. Les auteurs publient simultanément des scripts de validation et de benchmark avec le package. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade ; il s'agit d'une contribution infrastructure open source à destination des équipes de recherche et des intégrateurs construisant des pipelines RL robotiques.

InfrastructurePaper
1 source
IntentionNav : un benchmark pour la navigation vers des objets guidée par des intentions humaines implicites
42arXiv cs.RO 

IntentionNav : un benchmark pour la navigation vers des objets guidée par des intentions humaines implicites

Un groupe de chercheurs a publié fin mai 2026 IntentionNav, un benchmark diagnostique conçu pour évaluer la navigation d'agents incarnés à partir d'instructions humaines implicites. Contrairement aux benchmarks classiques d'ObjectNav (MP3D, HM3D), qui fournissent à l'agent une catégorie cible explicite ("trouve un micro-ondes"), IntentionNav formule des intents en langage naturel non directif : "j'ai besoin de quelque chose pour réchauffer ce plat" ou "la pièce me semble étouffante". Le benchmark couvre 500 épisodes distribués sur 176 scènes Isaac Sim et 64 catégories d'objets cibles. Chaque intent est reformulé en quatre styles linguistiques contrôlés et annoté selon quatre modes sémantiques distincts (script d'événement, état physique, affordance, usage contextuel), ce qui permet d'isoler les erreurs de reformulation linguistique des erreurs d'inférence sémantique. Trois modèles VLM (Vision-Language Models) ont été évalués avec un agent de navigation fixe. Les résultats sont sans ambiguïté : les modèles identifient correctement l'objet cible dans 48,3 % des épisodes, atteignent son voisinage à 2 mètres dans 68,7 % des cas, mais ne terminent avec succès que dans 24,9 % des épisodes et n'atteignent un succès ancré à 1 mètre que dans 5,5 % des cas. Ces chiffres révèlent que le bottleneck principal dans la navigation incarnée réelle n'est pas la navigation proprement dite, mais l'inférence d'intention, la vérification visuelle de l'instance correcte, et la décision de terminaison. Les intents de type "script d'événement" (ex : préparer le dîner) obtiennent les meilleurs scores (28,7 % de succès terminal), tandis que les intents fondés sur l'état physique (19,2 %) ou l'affordance (18,5 %) restent en deçà. Pour un COO industriel ou un intégrateur robotique, ce résultat est critique : un robot opérant en environnement humain doit recevoir des instructions naturelles, rarement formulées en termes de catégories d'objets précises. Les VLMs actuels échouent précisément sur ce que l'interaction humaine génère le plus souvent. Le benchmark s'inscrit dans la continuité des travaux sur l'embodied AI et le grounding langage-perception (SQA3D, EQA, R2R), mais comble un angle mort : la déconnexion entre succès agrégé et succès ancré dans la géométrie réelle. L'utilisation d'Isaac Sim comme environnement de simulation soulève la question du sim-to-real gap, non adressée dans cette publication. Aucun acteur industriel (Boston Dynamics, Figure, Agility, ni d'acteurs FR/EU comme Enchanted Tools ou Wandercraft) n'est impliqué dans cette étude académique. Les suites naturelles incluent l'extension à des scènes réelles captées en RGB-D, l'évaluation de modèles VLA (Vision-Language-Action) de bout en bout, et l'intégration de mécanismes de clarification active quand l'intent est ambigu, une direction encore peu explorée dans la littérature.

RecherchePaper
1 source
Google s'associe à un géant japonais de la robotique pour développer les robots d'usine autonomes de prochaine génération
43Interesting Engineering 

Google s'associe à un géant japonais de la robotique pour développer les robots d'usine autonomes de prochaine génération

Google et FANUC America Corporation ont annoncé un partenariat stratégique visant à intégrer les technologies d'intelligence artificielle de Google dans les systèmes de robotique industrielle du géant japonais, dont les robots équipent déjà des milliers de sites de production dans le monde. L'accord, dont les termes financiers n'ont pas été divulgués, vise à accélérer le déploiement de robots dits à "Physical AI" capables de percevoir leur environnement via des capteurs, de prendre des décisions autonomes et d'exécuter des tâches variables sans reprogrammation manuelle. FANUC a également annoncé une intégration élargie entre sa plateforme de simulation ROBOGUIDE et le framework Isaac Sim de NVIDIA, consolidant ainsi un écosystème de développement robotique centré sur la simulation avant déploiement. La gamme concernée couvre des robots de 3 kg de charge utile jusqu'à 2,3 tonnes, ce qui positionne ce Physical AI sur l'ensemble du spectre industriel. FANUC indique avoir déjà expédié plus de 1 000 robots pour des applications Physical AI depuis la présentation de sa plateforme lors de l'International Robot Exhibition (IREX) de Tokyo en décembre 2025. Ce partenariat est structurellement significatif pour plusieurs raisons. Le groupe Intrinsic de Google est l'un des contributeurs majeurs au Robot Operating System (ROS), plateforme open-source de contrôle robotique que FANUC supporte déjà nativement, aux côtés d'interfaces Python et de communications haute vitesse pour le contrôle externe. L'alignement technique entre les deux acteurs est donc réel, pas seulement commercial. Pour les intégrateurs et décideurs industriels, cela signifie concrètement que des capacités d'adaptation à la variabilité de production, jusqu'ici réservées aux environnements de R&D ou aux démos contrôlées, commencent à migrer vers des lignes de production en conditions réelles. Les 1 000 unités expédiées constituent un premier signal de passage à l'échelle, même si ce chiffre reste modeste au regard du parc robotique mondial, estimé à plusieurs millions d'unités en service. La distinction entre "expédié" et "déployé en production continue" mérite d'être gardée en tête. FANUC, fondée en 1956 et filiale de FANUC Corporation (Japon), est l'un des quatre grands fabricants mondiaux de robots industriels avec ABB, KUKA et Yaskawa Motoman. L'entreprise a historiquement misé sur la fiabilité et la précision répétable plutôt que sur l'adaptabilité, ce virage vers le Physical AI représente donc une évolution de positionnement notable. Sur le terrain concurrentiel, Boston Dynamics (via Hyundai), Figure AI avec son robot 03, et Tesla avec Optimus poursuivent des trajectoires humanoïdes, tandis que des acteurs comme Machina Labs ou Covariant ciblent l'adaptation cognitive en environnement industriel conventionnel. En Europe, Wandercraft et Enchanted Tools restent positionnés sur des niches spécifiques. Les prochaines étapes pour FANUC et Google ne sont pas encore précisées publiquement, mais la montée en cadence des déploiements en Amérique du Nord semble être l'axe prioritaire annoncé par Mike Cicco, président et CEO de FANUC America.

UELes concurrents européens de FANUC (ABB, KUKA) subissent une pression accrue pour intégrer des capacités Physical AI comparables sur leurs plateformes industrielles, sous peine de perdre des parts de marché EU face à cet écosystème Google-FANUC-NVIDIA.

IndustrielOpinion
1 source
CoRMA : RMA contrastive pour la méta-adaptation aux tâches riches en contacts
44arXiv cs.RO 

CoRMA : RMA contrastive pour la méta-adaptation aux tâches riches en contacts

Une équipe de recherche a publié CoRMA (Contrastive Robotic Motor Adaptation), un framework de méta-adaptation pour robots manipulateurs confrontés à des tâches d'assemblage à contact intense, insertion de goupille (PegInsert), engrenage (GearMesh) et vissage d'écrou (NutThread). CoRMA étend RMA (Rapid Motor Adaptation), une architecture initialement développée pour la locomotion, en remplaçant l'adaptation brute aux paramètres simulateur par un contexte de contact sémantique compact en six dimensions. Ce vecteur 6D encode cinq états discrets du contact : déclenchement, engagement latéral, transition guidée, direction de force, et blocage par coincement (jamming). Un adaptateur Transformer causal déployable infère ce contexte en ligne à partir des historiques de force, de proprioception et d'actions, sans démonstrations humaines, sans entrées privilégiées ni mise à jour de gradient au déploiement. Les évaluations ont été conduites dans Isaac Lab / Isaac Sim 5.0 et validées sur un bras réel Marvin, en comparaison directe avec les baselines FORGE. Le résultat central est que CoRMA maintient un taux de succès réel supérieur aux baselines FORGE sous bruit contrôlé sur la pose cible, alors que ces baselines obtiennent des scores élevés en simulation mais se dégradent significativement au passage sur hardware. Ce résultat adresse directement l'un des problèmes structurels de l'assemblage robotique industriel : le sim-to-real gap sur les tâches à contact fin, où les forces de contact ne se transfèrent pas fidèlement depuis le simulateur. L'inférence sémantique du contact comme interface d'adaptation réutilisable est une piste directement exploitable par les intégrateurs travaillant sur des familles de tâches d'assemblage proches, sans nécessiter de recalibration ou de données terrain supplémentaires. RMA a originellement démontré sa valeur en locomotion quadrupède chez Berkeley et CMU ; l'extension aux manipulateurs en contact forcé est une direction suivie par plusieurs groupes, dont ceux travaillant sur des politiques de type VLA (Vision-Language-Action) ou sur l'apprentissage par imitation pour l'assemblage. La comparaison avec FORGE situe CoRMA dans un espace concurrent actif. Les auteurs reconnaissent que la généralisation à des tâches hors de la famille d'assemblage testée et la calibration Real2Sim restent des travaux futurs, ce qui limite pour l'instant la portabilité directe en production industrielle.

RecherchePaper
1 source
FANUC s'associe à Google pour développer l'IA physique dans ses robots
45Robotics Business Review 

FANUC s'associe à Google pour développer l'IA physique dans ses robots

FANUC Corp. a annoncé cette semaine un partenariat stratégique avec Google visant à accélérer le déploiement de l'IA physique dans ses robots industriels. L'initiative s'appuie sur les technologies d'intelligence artificielle de Google, notamment les grands modèles de langage (LLM), pour doter les robots FANUC de capacités de perception environnementale, de prise de décision autonome et d'exécution adaptative. Mike Cicco, président et CEO de FANUC America, a résumé l'enjeu sans détour : "Les fabricants ne se demandent plus s'ils doivent utiliser l'IA, mais comment l'appliquer là où ça compte le plus, soit sur le sol de l'usine." Depuis la présentation de son système d'IA physique à l'IREX de Tokyo en décembre 2025, FANUC affirme avoir déjà expédié plus de 1 000 robots pour des applications liées à l'IA physique, une donnée qui distingue ce partenariat d'une simple annonce commerciale. La gamme concernée s'étend des petits bras avec une charge utile de 3 kg jusqu'aux robots industriels lourds supportant 2 300 kg, ainsi que la série collaborative CRX. Sur le plan technique, la compatibilité de FANUC avec le standard ROS (Robot Operating System) via des pilotes open-source constitue le socle de l'intégration. La société prend en charge le langage Python pour le développement IA, des interfaces de communication haute vitesse pour le contrôle externe, et des passerelles vers les automates programmables (PLC), ce qui facilite l'insertion dans des lignes de production existantes sans refonte d'architecture. En parallèle, FANUC annonce un resserrement de l'intégration entre son logiciel de simulation ROBOGUIDE et le framework NVIDIA Isaac Sim, un signal fort vers le sim-to-real, l'un des verrous techniques majeurs de la robotique adaptative. Pour les intégrateurs et les décideurs industriels, ce positionnement signifie que les outils IA grand public deviennent directement utilisables sur des cellules robotisées certifiées production, ce qui réduit significativement la distance entre prototype et déploiement réel. FANUC, fondée au Japon et dont la filiale américaine est basée à Rochester Hills, Michigan, est l'un des leaders mondiaux du contrôle numérique (CNC) et de la robotique industrielle, avec des implantations sur tout le continent américain. Google s'implique dans la robotique principalement via Intrinsic, son unité dédiée à l'IA robotique et l'un des contributeurs majeurs à l'écosystème ROS. Ce partenariat positionne les deux acteurs dans une course qui s'intensifie entre les fournisseurs de robots industriels traditionnels (ABB, KUKA, Yaskawa) et les nouveaux entrants humanoïdes comme Figure ou Agility Robotics, qui misent eux aussi sur des LLM pour la flexibilité d'exécution. FANUC, fort de 1 000 unités déjà expédiées, cherche à démontrer que l'IA physique n'est plus un sujet de R&D mais une réalité commerciale intégrable à grande échelle. Les prochaines démonstrations sont attendues au Robotics Summit & Expo de Boston dans les prochains jours.

UEPression concurrentielle directe sur ABB et KUKA face à un déploiement LLM-robotique industrielle désormais à échelle commerciale chez FANUC (1 000 unités expédiées), accélérant la course à l'IA physique dans l'industrie manufacturière européenne.

IndustrielOpinion
1 source
SubTGraph : synthèse d'environnements souterrains à grande échelle avec variabilité topologique contrôlable pour la validation de l'autonomie robotique
46arXiv cs.RO 

SubTGraph : synthèse d'environnements souterrains à grande échelle avec variabilité topologique contrôlable pour la validation de l'autonomie robotique

SubTGraph est un framework open-source publié en preprint sur arXiv (ref. 2605.20917) par des chercheurs de l'université technologique de Luleå (LTU-RAI, Suède), conçu pour générer automatiquement des environnements souterrains synthétiques à grande échelle destinés à la validation de robots autonomes. Le système s'appuie sur un algorithme de Dijkstra piloté par une matrice de coûts paramétrée par l'utilisateur, qui assemble des tuiles topométriques issues du DARPA World Generator pour produire des scènes variées : mines opérationnelles, grottes naturelles et tubes de lave, y compris des configurations inspirées des tubes martiaux. La librairie est disponible sur GitHub (github.com/LTU-RAI/SubTGraph) et s'accompagne d'une base de données de 150 mondes souterrains distincts. Trois cas d'usage ont été investigués : la segmentation sémantique structurelle comparée à des vérités terrain topométriques, la planification de trajectoires multi-agents pour identifier des tendances algorithmiques, et le SLAM LIO (Lidar-Inertial Odometry) soumis à des conditions sévères pour cartographier les cas d'échec. Le problème central que SubTGraph adresse est un angle mort documenté dans la littérature : la quasi-totalité des articles en robotique souterraine valident leurs algorithmes sur deux ou trois environnements au maximum, rendant les conclusions statistiquement fragiles. Les sites réels (mines actives, grottes) sont difficiles d'accès, dangereux et impossibles à contrôler expérimentalement. La disponibilité d'une infrastructure de benchmarking à grande échelle, avec variabilité topologique contrôlable (niveaux, textures, géométrie), ouvre la voie à des évaluations statistiques rigoureuses des stacks d'autonomie couvrant perception, planification et localisation. Pour les intégrateurs travaillant sur l'inspection minière ou l'exploration planétaire, c'est un accélérateur de validation concret, réduisant la dépendance aux campagnes terrain coûteuses. SubTGraph s'inscrit directement dans l'héritage du DARPA Subterranean Challenge (2018-2021), compétition majeure qui a structuré la recherche en robotique souterraine et produit le World Generator sur lequel ce framework s'appuie. L'intérêt pour ces environnements est dual : automatisation minière (acteurs comme Sandvik, Epiroc, Hexagon Mining) et exploration planétaire (tubes de lave lunaires et martiens, dans la trajectoire des programmes NASA et ESA). Face aux simulateurs généralistes comme Gazebo ou Isaac Sim, SubTGraph se différencie par une génération procédurale spécifiquement calibrée sur les contraintes topologiques souterraines. Les suites logiques incluent l'intégration de modèles de capteurs réalistes et le transfert sim-to-real pour la navigation en environnements dégradés (poussière, faible luminosité, connectivité radio limitée).

UEDéveloppé par l'université de Luleå (Suède, UE), ce framework bénéficie directement aux acteurs européens de l'automatisation minière (Sandvik, Epiroc) et à l'ESA pour la validation de robots d'exploration planétaire.

RecherchePaper
1 source
Planification de mouvement multi-robots à grande échelle par décomposition hiérarchique de l'espace de travail
47arXiv cs.RO 

Planification de mouvement multi-robots à grande échelle par décomposition hiérarchique de l'espace de travail

Une équipe de chercheurs a déposé en mai 2026 sur arXiv (réf. 2605.20395) une méthode de planification de mouvement pour flottes de robots mobiles qui revendique un gain de temps de calcul allant jusqu'à un ordre de grandeur par rapport aux solveurs existants. Le goulot central du domaine, l'explosion combinatoire de l'espace de configuration joint dont la dimension croît exponentiellement avec le nombre de robots N, est contourné par une recherche discrète dans une décomposition de l'espace de travail (workspace decomposition). Contrairement aux approches antérieures qui fusionnent les robots dans cet espace joint dès la détection d'un conflit, la méthode affine itérativement cette décomposition pour ne résoudre que des sous-problèmes à espaces de configuration découplés et de taille réduite, d'où le terme de hierarchical subproblem expansion dans l'intitulé. Pour les intégrateurs de systèmes multi-robots en entrepôt ou en usine, une latence de planification divisée par 10 ouvre concrètement la porte à une replanification quasi-temps-réel sur des flottes de plusieurs dizaines de robots, un seuil difficile à franchir aujourd'hui avec les solveurs MAPF (multi-agent pathfinding) classiques tels que CBS (Conflict-Based Search) et ses variantes ECBS ou BCBS. L'approche par décomposition itérative de l'espace de travail suggère également une meilleure adaptabilité aux environnements dynamiques, où obstacles ou priorités de mission changent en cours d'exécution. Prudence cependant : il s'agit d'un preprint non encore évalué par les pairs, et l'abstract disponible ne détaille pas les conditions expérimentales précises, notamment la densité de robots testée, la topologie des environnements ou les horizons de planification retenus. La planification multi-robots est un champ structuré depuis deux décennies autour de deux familles antagonistes : méthodes couplées, qui garantissent l'optimalité mais à coût prohibitif, et méthodes découplées, rapides mais sous-optimales. CBS et ses dérivés constituent aujourd'hui la référence académique dominante. Dans l'industrie, des acteurs comme Exotec (Croix, Nord, déployé dans plus de 10 pays avec plus de 600 clients) ou Locus Robotics ont intégré des planificateurs propriétaires à leurs flottes AMR. Ce travail ne mentionne ni partenariat industriel ni calendrier de transfert technologique ; la prochaine étape naturelle serait une validation sur plateforme réelle ou dans un simulateur de référence tel qu'Isaac Sim ou MoveIt 2.

UEDes acteurs français comme Exotec, dont les flottes AMR sont déployées dans plus de 10 pays, pourraient bénéficier d'une replanification quasi-temps-réel si cette méthode est validée et transférée en production.

RecherchePaper
1 source
roto 2.0 : l'Olympiade de robotique tactile
48arXiv cs.RO 

roto 2.0 : l'Olympiade de robotique tactile

Une équipe de chercheurs a publié roto 2.0, deuxième version du Robot Tactile Olympiad, un benchmark standardisé pour l'apprentissage par renforcement (RL) basé sur le toucher. La plateforme, accélérée GPU en parallèle, couvre quatre morphologies robotiques de 16 à 24 degrés de liberté (DOF) et impose un régime de manipulation strictement "aveugle" : les agents n'ont accès qu'à la proprioception et aux capteurs tactiles, sans information d'état, sans vision, sans distillation depuis un teacher model. Le résultat phare : les agents entraînés atteignent 13 rotations de boules Baoding en 10 secondes, que les auteurs décrivent comme un ordre de grandeur supérieur aux performances actuelles de l'état de l'art sur cette tâche. Les environnements, configurations et baselines sont publiés en open source. Ce travail pointe un problème structurel reconnu dans la communauté : la recherche en manipulation tactile reste morcelée, avec une concentration excessive sur des tâches d'orientation surexploitées et peu de benchmarks permettant des comparaisons rigoureuses entre approches. En forçant l'absence totale de perception visuelle, roto 2.0 adresse une contrainte concrète pour les intégrateurs industriels : un manipulateur opérant uniquement par retour tactile et proprioceptif peut fonctionner dans des environnements où les caméras sont inutilisables (assemblage en aveugle, poussière, occlusion totale). L'affirmation d'"un ordre de grandeur plus rapide" mérite cependant d'être nuancée : elle s'applique à cette tâche spécifique en simulation, et le gap sim-to-real reste entièrement à démontrer sur hardware réel. La manipulation dextère sans vision est un défi porté depuis des années par des laboratoires majeurs, notamment OpenAI avec Dactyl (équipe robotique dissoute en 2021) et Stanford avec ses travaux sur la préhension en contact riche, ainsi que par des fabricants de capteurs tactiles comme Xela Robotics ou GelSight MIT. roto 2.0 s'inscrit dans une dynamique de benchmarking plus rigoureux qui traverse la communauté, dans le sillage de ManiSkill et Isaac Lab. En France, le LAAS-CNRS mène des recherches sur des approches similaires de manipulation par contact. En open-sourçant les environnements et des baselines correctement tuned, les auteurs visent explicitement à libérer les chercheurs du coût en temps lié au réglage RL pour qu'ils se concentrent sur les défis algorithmiques fondamentaux.

UELe LAAS-CNRS mène des travaux sur la manipulation par contact similaires à ceux que roto 2.0 cherche à benchmarker ; la publication open-source des environnements et baselines peut directement accélérer ces recherches françaises et réduire leur coût de réglage RL.

RecherchePaper
1 source
Améliorer automatiquement la physique de simulation des objets articulés
49arXiv cs.RO 

Améliorer automatiquement la physique de simulation des objets articulés

Une thèse publiée sur arXiv en mai 2026 (identifiant 2605.19136) propose une méthode automatisée pour corriger les propriétés physiques des objets articulés destinés aux simulateurs de robotique. L'approche introduit le concept d'"interaction-readiness", qui caractérise la capacité d'un objet à être simulé de façon fiable lors de tâches de manipulation. Le constat de départ est précis : les grands datasets 3D existants, comme PartNet-Mobility ou Objaverse, fournissent des représentations géométriques et cinématiques riches, mais omettent les paramètres physiques indispensables à une simulation stable (masse, friction, amortissement, limites d'articulations), contraignant les équipes à un travail manuel coûteux. La méthode proposée fusionne des informations géométriques, visuelles et sémantiques dans une boucle itérative avec le simulateur, qui affine ces propriétés automatiquement jusqu'à atteindre une cohérence physique suffisante pour des tâches de manipulation. L'enjeu est concret pour les équipes qui entraînent des politiques de contrôle robotique par apprentissage en simulation. Les expériences conduites sur des objets articulés variés montrent que la qualité des assets influe directement sur la stabilité de la simulation, le comportement lors des interactions, et les performances des politiques apprises, validant empiriquement ce que beaucoup d'équipes observaient sans pouvoir le quantifier. Construire manuellement un objet simulation-ready (tiroir, porte, boîte à couvercle) représente un effort d'ingénierie significatif qui freine la diversification des scénarios d'entraînement. Une pipeline automatisée réutilisant des assets géométriques existants pour y injecter des propriétés physiques réalistes pourrait débloquer la mise à l'échelle des données de simulation, un goulot d'étranglement reconnu dans la course aux VLA (Vision-Language-Action models) et aux politiques de manipulation généralistes. Cette problématique s'inscrit dans un effort collectif pour réduire le sim-to-real gap, domaine où NVIDIA (Isaac Lab) et Google DeepMind (MuJoCo) investissent massivement via la domain randomization et la génération procédurale d'environnements. Le cadre d'évaluation proposé, qui décompose l'"interaction-readiness" en composantes mesurables, constitue aussi une contribution méthodologique indépendante, potentiellement utile comme benchmark pour comparer des pipelines de génération d'assets. Aucune affiliation industrielle n'est précisée dans le préprint, et la méthode n'a pas encore été validée à l'échelle industrielle ; les prochaines étapes naturelles iraient vers des applications de bin-picking ou d'assemblage, où les objets articulés restent un défi ouvert pour les intégrateurs.

UEImpact indirect : les équipes de recherche françaises et européennes (INRIA, CEA-List) travaillant sur la manipulation robotique et les politiques VLA pourraient exploiter cette pipeline pour réduire le coût d'ingénierie lié à la création d'assets simulation-ready.

RecherchePaper
1 source
Apprentissage par renforcement visuel avec politique primitive séparée pour l'assemblage par emboîtement
50arXiv cs.RO 

Apprentissage par renforcement visuel avec politique primitive séparée pour l'assemblage par emboîtement

Des chercheurs ont publié sur arXiv (référence 2504.14820) une approche de reinforcement learning visuel baptisée Separate Primitive Policy (S2P), conçue pour automatiser les tâches d'assemblage par insertion cheville-trou (peg-in-hole). La méthode s'inspire du comportement humain en vision binoculaire : un opérateur localise d'abord visuellement la cheville au-dessus de la surface cible, puis exécute l'insertion. S2P décompose ce processus en deux primitives apprises simultanément, la localisation et l'insertion, dans un cadre de reinforcement learning sans modèle (model-free). Les auteurs ont développé dix tâches d'insertion distinctes utilisant des formes polygonales variées comme banc d'essai standardisé, ont conduit des expériences en simulation avec contraintes de force, puis validé l'approche sur robot réel. L'intérêt principal de S2P réside dans son gain de sample efficiency, c'est-à-dire la capacité à apprendre une politique efficace avec moins d'interactions avec l'environnement, combiné à une amélioration du taux de succès même lorsque des contraintes de force sont imposées. Pour les intégrateurs industriels, c'est un signal concret : l'assemblage fin, encore largement opéré par des systèmes rigides à programmation manuelle, devient plus accessible à l'apprentissage automatique en présence de retour visuel. La compatibilité affichée avec n'importe quel algorithme RL model-free élargit le spectre d'application, même si les performances absolues restent à confirmer hors des conditions de laboratoire présentées dans le papier. Le peg-in-hole est un benchmark historique en manipulation robotique, standardisé notamment dans le cadre des compétitions NIST Assembly Task Board. Des approches concurrentes combinent typiquement vision et retour d'effort (force-torque control), ou s'appuient sur des politiques d'imitation comme les VLA (Vision-Language-Action models) de Physical Intelligence (Pi-0) ou les travaux de simulation massive de NVIDIA Isaac Lab. S2P se positionne dans un espace différent, celui du RL visuel pur avec décomposition de primitives, une direction que des équipes comme celles de DeepMind et CMU explorent également. Les prochaines étapes naturelles concernent la robustesse aux variations d'éclairage, aux tolérances mécaniques réelles, et la généralisation à des géométries non vues en entraînement.

UEImpact indirect : les équipes R&D et intégrateurs industriels européens travaillant sur l'assemblage automatisé peuvent intégrer S2P dans leur veille sur le RL visuel pour la manipulation fine, sans déploiement ni acteur européen directement impliqué.

RecherchePaper
1 source