Intégration IA-IoT-Robotique : panorama des…

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot pour la communauté robotique ouverte

47

1NVIDIA Blog Robotics

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot pour la communauté robotique ouverte

NVIDIA et Hugging Face annoncent l'intégration du modèle NVIDIA Isaac GR00T 1.7 et du framework NVIDIA Isaac Teleop dans LeRobot, la bibliothèque open source de Hugging Face pour la robotique, avec l'arrivée prochaine de NVIDIA Cosmos 3, un modèle monde pour l'IA physique. Isaac Teleop capture des démonstrations humaines via des dispositifs externes dans des formats standardisés, directement dans LeRobot, pour constituer et partager des jeux de données. Isaac GR00T 1.7, présenté par NVIDIA comme le premier modèle fondation robotique open source et commercialement exploitable, facilite le post-entraînement et le déploiement via les workflows LeRobot sur de nouvelles morphologies de robots, avec des benchmarks publiés. Ces briques s'appuient sur des ressources déjà connectées à LeRobot: le plus grand jeu de données open source d'IA physique, téléchargé plus de 15 millions de fois, avec plus de 350 000 trajectoires réelles et simulées et 57 millions de prises (grasps); les frameworks de simulation Isaac Sim et Isaac Lab; Isaac Lab-Arena, intégré au LeRobot Environment Hub pour prototyper des environnements et entraîner des politiques généralistes comme GR00T, Pi ou SmolVLA; et l'intégration de Jetson Thor avec le robot humanoïde open source Reachy 2 pour déployer des modèles VLA (vision-langage-action). Thomas Wolf, cofondateur et chief science officer de Hugging Face, décrit cette collaboration comme un moyen de faire passer la recherche avancée à un stade où la communauté peut l'étudier, l'adapter et la faire évoluer. Pour les intégrateurs et équipes R&D, l'enjeu est de standardiser un pipeline jusque-là fragmenté, collecte de données, entraînement, évaluation, déploiement, en connectant les 3 millions de développeurs robotique de NVIDIA aux 16 millions de builders IA de Hugging Face. Cela réduit le coût d'entrée pour tester des modèles VLA sur du matériel réel sans dépendre d'une pile propriétaire fermée. La mise en avant du caractère "commercialement viable" de GR00T 1.7 tranche avec des modèles concurrents (Pi de Physical Intelligence, Helix de Figure) souvent montrés en démonstration mais rarement publiés en open source avec benchmarks vérifiables. Coupler cela à un futur modèle monde comme Cosmos 3, censé générer des données synthétiques quand les données réelles sont trop chères ou rares à collecter, répond directement à l'un des goulots d'étranglement les plus documentés du secteur humanoïde. Cette annonce prolonge un partenariat plus ancien entre NVIDIA et Hugging Face autour de LeRobot, devenu une référence pour le partage ouvert de données et de politiques robotiques. Elle s'inscrit dans la stratégie de verticalisation physical AI de NVIDIA, de la simulation (Isaac Sim, Isaac Lab) au calcul embarqué (Jetson Thor) en passant par les modèles fondation et, prochainement, les modèles monde. Elle positionne NVIDIA face à des acteurs misant sur des piles intégrées fermées, comme Figure ou Physical Intelligence, en jouant la carte de l'infrastructure ouverte et mutualisée. Aucun acteur français n'apparaît directement, mais Reachy 2 est développé par Pollen Robotics, racheté par Hugging Face, ce qui donne une visibilité indirecte à cet acteur français dans l'écosystème. Les prochaines étapes annoncées restent pour l'instant limitées à la sortie de Cosmos 3 dans LeRobot, sans calendrier de déploiement industriel précisé.

UEImpact indirect: Reachy 2, developpe par Pollen Robotics (racheté par Hugging Face), gagne en visibilité via l'integration Jetson Thor, mais aucun acteur francais n'est directement implique dans cette annonce NVIDIA/Hugging Face.

IA physiqueActu

1 source

Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique

35

2arXiv cs.RO

Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2507.01099, version 4) un modèle de génération vidéo 4D destiné à améliorer la planification et la manipulation robotique. L'approche prend en entrée une seule image RGB-D par point de vue, c'est-à-dire une image couleur couplée à une carte de profondeur, et génère des séquences vidéo futures alignées spatialement et temporellement depuis de nouveaux angles de caméra, sans nécessiter la connaissance préalable des poses de caméra. La cohérence géométrique multi-vue est imposée pendant l'entraînement par une supervision fondée sur l'alignement de nuages de points inter-vues (cross-view pointmap alignment), forçant le modèle à construire une représentation 3D partagée de la scène. Les vidéos 4D prédites sont ensuite exploitées par un tracker de pose 6DoF disponible sur étagère pour reconstituer les trajectoires de l'effecteur terminal du robot, produisant des politiques de manipulation qui généralisent à des points de vue inédits. Les expériences portent sur plusieurs jeux de données robotiques simulés et réels, avec de meilleures performances visuelles et spatiales que les approches de référence. Ce résultat s'attaque directement à l'un des verrous majeurs du déploiement industriel de la manipulation robotique : la dépendance à une calibration précise des caméras et à leur positionnement fixe. En apprenant implicitement la géométrie de la scène plutôt qu'en la recevant comme entrée explicite, le modèle produit des prédictions visuellement stables là où les approches concurrentes dérivent dès qu'on change l'angle de vue. Pour un intégrateur ou un COO industriel, cela signifie qu'une cellule robotisée pourrait potentiellement réutiliser une politique apprise sans reconfigurer l'ensemble du système de vision si une caméra est déplacée. L'utilisation d'un tracker 6DoF hors catalogue pour extraire les trajectoires limite par ailleurs le besoin d'infrastructure propriétaire et simplifie l'intégration. Ce travail s'inscrit dans la vague des "world models" appliqués à la robotique, aux côtés d'approches comme UniSim ou des modèles VLA (Vision-Language-Action) à grande échelle qui cherchent eux aussi à donner aux robots une compréhension prédictive de leur environnement. La principale réserve est que le papier est une prépublication arXiv, sans validation industrielle annoncée ni partenaire de déploiement identifié : c'est de la recherche amont, pas un produit expédié. Les méthodes concurrentes s'appuyant sur des poses de caméra explicites, comme les approches NeRF ou 3D Gaussian Splatting pour la manipulation, offrent parfois une précision supérieure dans des environnements très contrôlés, mais au prix d'une configuration plus contraignante. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation plus complexes, une montée en échelle sur des plateformes comme les bras Franka ou UR, et une intégration dans des pipelines de politique complète de type diffusion ou transformer.

IA physiquePaper

1 source

π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes

47

3arXiv cs.RO

π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes

Physical Intelligence, le laboratoire californien fondé en 2023 par d'anciens chercheurs de Google DeepMind et Stanford, publie π0.7 (pi-zéro-point-sept), un nouveau modèle de fondation robotique généraliste présenté dans un preprint arXiv (2604.15483) daté d'avril 2026. Le modèle démontre des capacités zero-shot sur des tâches multi-étapes en environnements inconnus : manipulation d'appareils de cuisine variés, pliage de linge sans avoir vu la tâche en entraînement, et opération d'une machine à expresso à un niveau de performance comparable à des modèles spécialisés entraînés par reinforcement learning. La généralisation cross-embodiment, c'est-à-dire la capacité à transférer des comportements entre plateformes robotiques différentes sans réentraînement dédié, est présentée comme une propriété émergente du système. L'innovation centrale de π0.7 est un mécanisme de conditionnement contextuel multimodal étendu. Là où la plupart des VLA (Vision-Language-Action models) se contentent d'une instruction textuelle, π0.7 reçoit en entrée de prompt des métadonnées sur la qualité de l'exécution, des images de sous-objectifs intermédiaires, et des informations sur la stratégie à adopter. Ce conditionnement riche permet d'intégrer à l'entraînement des données hétérogènes : démonstrations humaines, données autonomes potentiellement sous-optimales incluant des échecs, et données issues de sources non-robotiques. C'est un levier direct sur le problème du sim-to-real gap et sur le coût de collecte de données de qualité, deux freins majeurs au déploiement industriel. Pour un intégrateur ou un COO industriel, la promesse est concrète : un modèle qui fonctionne correctement sans fine-tuning coûteux sur chaque nouvelle tâche. Physical Intelligence avait introduit π0 fin 2024 comme premier modèle de fondation robotique à architecture flow matching, capable de piloter des bras manipulateurs avec haute dextérité. π0.7 constitue une évolution orientée généralité et pilotabilité plutôt que spécialisation. Dans le paysage concurrentiel, ce positionnement affronte directement Google DeepMind avec RT-2 et ses successeurs, Figure AI avec son modèle Helix, ainsi qu'1X Technologies. Aucun déploiement commercial n'est annoncé à ce stade : il s'agit d'un preprint académique sans validation industrielle publiée. Les évaluations portent sur plusieurs plateformes robotiques en laboratoire, et les prochaines étapes probables incluent des collaborations avec des fabricants de robots pour valider le passage à l'échelle en conditions réelles.

IA physiqueOpinion

1 source

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

37

4arXiv cs.RO

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Des chercheurs présentent dans un preprint arXiv (2511.06754v3, troisième révision, mai 2026) SlotVLA, un framework de manipulation robotique multitatches qui repose sur des représentations centrées sur les objets et leurs relations plutôt que sur les plongements denses utilisés par la majorité des modèles VLA actuels. L'architecture combine trois composants : un tokeniseur visuel à slots qui maintient des représentations temporellement cohérentes pour chaque objet détecté dans la scène, un décodeur centré sur les relations entre objets pour produire des embeddings pertinents à la tâche, et un module LLM qui traduit ces embeddings en séquences d'actions exécutables. En parallèle, les auteurs publient LIBERO+, un benchmark de manipulation dérivé du jeu de données LIBERO existant, enrichi d'annotations objet-centriques au niveau des boîtes englobantes et des masques de segmentation, ainsi qu'un suivi temporel des instances entre frames. Les expériences conduites sur LIBERO+ montrent que les représentations à slots réduisent significativement le nombre de tokens visuels nécessaires tout en conservant des performances de généralisation comparables aux baselines denses. L'intérêt principal de cette approche réside dans la tension qu'elle adresse directement : les VLAs déployés à ce jour (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure) s'appuient sur des encodeurs visuels qui traitent la scène comme un champ dense, sans distinction explicite entre objets manipulables et arrière-plan. Cette architecture entraîne une redondance computationnelle et rend difficile l'audit du raisonnement du modèle, ce qui freine l'adoption industrielle dans des contextes certifiables. SlotVLA propose que des représentations structurées, inspirées de la cognition humaine sur les objets discrets, puissent constituer une base plus efficace et interprétable pour le contrôle visuomoteur. La réduction du nombre de tokens visuels est un levier concret de coût d'inférence pour des systèmes embarqués ou des flottes de robots. Il convient toutefois de noter que les résultats présentés restent confinés à l'environnement simulé LIBERO+ : aucune validation physique sur robot réel n'est rapportée dans ce preprint, ce qui laisse ouverte la question du sim-to-real gap pour ce type de représentation. Cette publication s'inscrit dans un courant actif de recherche sur les architectures objet-centriques pour la robotique, dont les travaux fondateurs incluent les modèles de slot attention de Locatello et al. (2020) et les approches OCRL. LIBERO avait déjà été introduit comme benchmark multitatches pour la manipulation, mais sans annotations objet-centriques fines : LIBERO+ vient combler ce manque pour faciliter l'évaluation comparative de ce type de représentation. Sur le plan concurrentiel, les laboratoires académiques (notamment ceux liés à CMU, Berkeley, Stanford) et industriels travaillent en parallèle sur des architectures plus interprétables pour répondre aux demandes croissantes de traçabilité dans l'automatisation industrielle. Les prochaines étapes naturelles seront la validation sim-to-real sur des plateformes physiques standard (Franka, UR, ou humanoïdes) et l'intégration dans des pipelines de fine-tuning avec des modèles fondateurs publics.

IA physiqueOpinion

1 source

Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée

À lire aussi

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot pour la communauté robotique ouverte

Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique

π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique