Aller au contenu principal
Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation
IA physiquearXiv cs.RO6sem

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2604.17258, avril 2026) un pipeline de déploiement rapide permettant de préparer un robot humanoïde à manipuler un nouvel objet en environ 30 minutes, contre un à deux jours dans les approches classiques. Le système s'appuie sur trois composants à base de modèles de fondation : l'annotation automatique via Roboflow pour entraîner un détecteur YOLOv8, la reconstruction 3D par Meta SAM 3D à partir d'images standard (smartphone suffisant, pas de scanner laser), et le suivi de pose 6-DoF en zero-shot par FoundationPose, qui utilise directement le maillage généré par SAM 3D comme gabarit. Les commandes de pose alimentent un planificateur de cinématique inverse sous Unity, transmises en UDP au robot Unitree G1 via le SDK propriétaire. Les métriques annoncées : mAP@0.5 = 0,995 en détection, précision de suivi σ inférieure à 1,05 mm, et saisie réussie sur cinq positions dans l'espace de travail. Le pipeline a également été validé sur une tâche d'application de mastic sur vitre d'automobile, ce qui constitue un environnement industriel concret.

L'enjeu principal est la réduction du "time-to-deployment" pour la manipulation humanoïde, un goulot d'étranglement majeur qui freine l'intégration en environnement industriel réel. Passer de deux jours à 30 minutes sans équipement spécialisé change la donne pour les intégrateurs et les PME industrielles qui ne disposent pas d'équipes robotique dédiées. Le recours au zero-shot pour FoundationPose signifie qu'aucun réentraînement n'est nécessaire pour chaque nouvel objet, ce qui valide partiellement l'hypothèse que les modèles de fondation peuvent absorber la variabilité d'objets sans collecte de données lourde. Cela dit, les résultats sont présentés sur cinq positions fixes et deux tâches seulement ; la robustesse en conditions de production non contrôlées reste à démontrer.

Le robot support, le Unitree G1, est un humanoïde commercial chinois à 16 degrés de liberté vendu autour de 16 000 dollars, positionné comme plateforme de recherche accessible. Les composants logiciels mobilisés (Roboflow, Meta SAM 3D, FoundationPose de NVidia) sont tous open-source ou accessibles via API, ce qui renforce la reproductibilité. Dans le paysage actuel où Figure (Figure 03), Tesla (Optimus), Physical Intelligence (pi0) et Boston Dynamics investissent massivement dans les pipelines de manipulation apprise, cette approche modulaire et frugale en données offre une alternative pragmatique, notamment pour les déploiements pilotes dans des cellules de production à faible volume ou à variété élevée d'objets.

Impact France/UE

Les intégrateurs robotiques et PME industrielles européens peuvent évaluer et reproduire ce pipeline open-source (Roboflow, Meta SAM 3D, FoundationPose) pour réduire drastiquement le time-to-deployment sur des cellules de production à haute variété d'objets, sans équipement spécialisé ni équipe robotique dédiée.

À lire aussi

RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes
1Robotics & Automation News 

RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes

RLWRLD, une startup spécialisée dans les modèles fondation pour la robotique physique, a dévoilé RLDX-1 lors d'un événement privé baptisé "Dexterity Night in SF". Ce modèle fondation est conçu pour permettre aux robots humanoïdes d'exécuter des tâches à contact riche : préhension d'objets, versement de liquides et utilisation d'outils. L'entreprise a publié des résultats sur trois types de benchmarks : manipulation sur table avec des humanoïdes, manipulation en cuisine et versement de café en conditions réelles. Les métriques précises n'ont pas été rendues publiques au moment de l'annonce, ce qui limite toute évaluation indépendante des performances revendiquées. L'approche "dexterity-first" marque un choix de priorité distinct dans la course aux modèles fondation pour robots. La manipulation fine reste le principal goulot d'étranglement de la robotique humanoïde à usage industriel : la locomotion est largement résolue, mais la préhension d'objets variés dans des environnements non structurés demeure difficile à généraliser. L'inclusion d'évaluations en conditions réelles (café, cuisine) plutôt qu'exclusivement en laboratoire suggère une volonté de démontrer une réduction du sim-to-real gap. Pour un intégrateur ou un COO industriel, un modèle capable de gérer des objets divers sans reprogrammation par tâche représente un levier de productivité concret, à condition que les résultats tiennent hors conditions contrôlées. RLWRLD s'inscrit dans un segment en densification rapide : celui des fournisseurs de couche d'intelligence logicielle pour robots tiers, sans fabriquer leur propre hardware. Physical Intelligence (modèle Pi-0), qui adopte une stratégie similaire, est le concurrent le plus direct. En parallèle, Figure AI (Figure 03), Apptronik, 1X et Boston Dynamics développent des modèles intégrés hardware-logiciel. L'annonce de RLWRLD reste au stade du teaser technique : aucune date de disponibilité commerciale, aucun partenaire constructeur ni client pilote n'a été communiqué.

IA physiqueOpinion
1 source
RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques
2Robotics Business Review 

RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques

La startup sud-coréenne RLWRLD a présenté la semaine dernière RLDX-1, un modèle de fondation conçu spécifiquement pour les mains robotiques à haut nombre de degrés de liberté (DoF). L'architecture multi-flux couvre les configurations single-arm, dual-arm et humanoïde, et intègre l'ensemble du cycle robotique : collecte de données, entraînement et déploiement. RLWRLD structure ses travaux autour d'un benchmark maison, DexBench, qui organise les défis industriels en cinq régimes de dextérité : diversité de préhension, précision spatiale, précision temporelle, précision de contact, et conscience du contexte. Pour chaque régime, un module dédié : un VLM (vision language model) fin-tuné sur des questions-réponses spatiales pour la localisation précise des contacts ; un module de mouvement extrayant des correspondances visuelles spatio-temporelles pour anticiper les objets en déplacement sur convoyeur ; un module physique qui traite couple et force tactile comme des flux séparés, permettant de prédire les transitions de contact avant qu'elles n'arrivent. Les données d'entraînement combinent téleopération synthétique et démonstrations humaines pour couvrir la manipulation en main (in-hand dexterity) inaccessible à la téléopération standard. L'enjeu est concret : les robots échouent encore sur des tâches en apparence banales comme verser du café depuis une cafetière qui s'allège, attraper un objet en mouvement sur un convoyeur, ou visser un écrou hexagonal avec des doigts. Ce "dernier kilomètre" de l'automatisation industrielle est précisément la cible de RLDX-1. L'architecture multi-flux, où chaque modalité (couple haute fréquence, frames vidéo, mémoire d'état) dispose de sa propre capacité gradient, répond à un problème réel d'optimisation : dans un transformer classique, la modalité dominante absorbe toute la capacité au détriment des autres. Cela dit, les affirmations de RLWRLD sur des performances "état de l'art" restent à valider indépendamment -- les vidéos de démonstration ne constituent pas des métriques de taux de succès en conditions industrielles réelles, et aucun cycle time chiffré n'est communiqué. RLWRLD s'inscrit dans une vague de startups cherchant à combler le fossé entre modèles d'action généralistes et déploiements industriels réels. Elle affronte des acteurs aux ressources bien supérieures : Physical Intelligence avec son modèle pi0 (fondée par d'anciens de Google et Stanford, 400 M$ levés en 2024), Figure AI avec son humanoïde Figure 03, ou encore Agility Robotics et 1X. En Europe, des acteurs comme Enchanted Tools (humanoïde Mirokaï) ou Wandercraft se positionnent sur la mobilité et l'assistance plutôt que sur la manipulation haute-dextérité, laissant ce créneau industriel quasi exclusivement aux acteurs américains et asiatiques. Aucun déploiement pilote chez un client industriel n'a été annoncé à ce stade par RLWRLD.

IA physiqueOpinion
1 source
MolmoAct2 : un modèle de raisonnement d'action pour le déploiement réel
3arXiv cs.RO 

MolmoAct2 : un modèle de raisonnement d'action pour le déploiement réel

L'Allen Institute for Artificial Intelligence (AllenAI) a publié MolmoAct2 en mai 2025, un modèle VLA (Vision-Language-Action) entièrement open source conçu pour le déploiement robotique en conditions réelles. Cinq contributions structurent le système : MolmoER, un backbone visio-linguistique entraîné sur 3,3 millions d'exemples spécialisés en raisonnement spatial et incarné ; MolmoAct2-BimanualYAM, 720 heures de trajectoires de manipulation bimanuelle téléopérées sur plateformes à coût modéré (SO100/101 et sous-ensembles Franka DROID), le plus grand corpus bimanuel ouvert à ce jour ; OpenFAST, un tokeniseur d'actions open weight couvrant cinq types d'embodiments ; une architecture hybride couplant un expert à actions continues par flow-matching à un VLM à tokens discrets via conditionnement KV-cache couche par couche ; et MolmoThink, qui ne recalcule les tokens de profondeur géométrique que pour les zones de scène modifiées entre deux pas de temps, réduisant la latence d'inférence. Sur sept benchmarks mêlant simulation et environnements réels, MolmoAct2 surpasse Pi-0.5 de Physical Intelligence ; MolmoER dépasse GPT-5 et Gemini Robotics ER-1.5 d'Alphabet sur treize benchmarks de raisonnement incarné. Poids, code et données d'entraînement sont publiés intégralement. La publication s'attaque à quatre verrous concrets du déploiement des VLA : modèles frontier fermés, dépendance à du matériel onéreux, latence prohibitive des politiques augmentées par raisonnement, et taux de succès trop bas pour un usage fiable en production. La mise à disposition simultanée des poids, du code d'entraînement et des données complètes reste rare dans un domaine largement dominé par le propriétaire. Ces 720 heures de données sur plateformes abordables élargissent l'accès à un corpus bimanuel jusqu'ici réservé à des setups coûteux. MolmoThink représente une approche concrète pour rendre le raisonnement géométrique compatible avec les contraintes temps-réel des contrôleurs embarqués. Il faut cependant souligner que ces performances sont mesurées sur benchmarks académiques : aucun déploiement industriel validé n'est annoncé dans cet article. AllenAI, institut non lucratif cofondé par Paul Allen à Seattle, avait publié le modèle Molmo fin 2024 avant d'étendre ses travaux au contrôle robotique avec MolmoAct. MolmoAct2 s'inscrit dans un paysage VLA dominé par des acteurs fermés : Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-2) et des équipes d'OpenAI dont les développements robotiques restent non publiés. Dans l'espace open source, il concurrence OpenVLA et Octo, avec l'avantage d'un corpus bimanuel inédit et d'un tokeniseur multi-embodiments standardisé. Aucun pilote commercial n'est annoncé ; la publication cible en priorité les équipes universitaires et les startups robotiques cherchant à s'affranchir de la dépendance aux modèles propriétaires.

UELa publication intégrale des poids, du code et des données réduit la dépendance des équipes universitaires et startups européennes aux modèles VLA propriétaires, offrant un accès immédiat au plus grand corpus bimanuel ouvert à ce jour.

💬 AllenAI publie les poids, le code et les données d'entraînement, et ça reste rarissime dans un domaine où les gros jouent à guichet fermé. 720 heures de manipulation bimanuelle sur du matériel accessible, un tokeniseur multi-embodiments open weight, et des scores au-dessus de Pi-0.5 et GPT-5 sur les benchmarks incarnés : les startups robotiques qui n'ont pas le budget Physical Intelligence vont s'en saisir. Bon, aucun déploiement industriel validé pour l'instant.

IA physiqueOpinion
1 source
AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace
4arXiv cs.RO 

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Une équipe de recherche a publié AutoSpatial (arXiv:2503.07557), une méthode destinée à améliorer la capacité des modèles de vision-langage (VLM) à raisonner dans l'espace pour la navigation sociale des robots, c'est-à-dire la capacité d'un robot à se déplacer en présence d'humains de façon naturelle et sûre. La technique combine une supervision manuelle minimale avec un étiquetage automatique à grande échelle de paires de questions-réponses visuelles (VQA). Un protocole d'entraînement en deux rounds hiérarchiques permet au modèle d'acquérir à la fois une compréhension globale d'une scène et une analyse fine des détails. L'évaluation a mobilisé trois juges LLM (GPT-4o, Gemini 2.0 Flash et Claude 3.5 Sonnet) en validation croisée, complétés par des évaluateurs humains. Les gains mesurés sur les bases de référence sont de +10,71% en perception et prédiction, +16,26% en raisonnement, +20,50% en sélection d'action et +18,73% en capacité d'explication, par rapport à des modèles entraînés uniquement sur données annotées manuellement. Le résultat le plus pertinent pour les intégrateurs et les décideurs industriels est celui sur l'action : +20,50%, qui est le composant directement lié au comportement réel du robot. Le goulot d'étranglement classique de la navigation sociale reste l'annotation manuelle, coûteuse et peu scalable. AutoSpatial propose une voie d'auto-étiquetage qui réduit significativement ce frein, ce qui ouvre la possibilité de monter en volume de données sans exploser les coûts. Cela renforce également l'hypothèse que les VLA (Vision-Language-Action models) peuvent progresser par la donnée synthétique plutôt que par la seule supervision humaine. Un point de prudence méthodologique : les scores de performance sont évalués par d'autres LLM, ce qui introduit un biais circulaire potentiel que l'article ne discute pas en profondeur. La navigation sociale est un problème ouvert depuis plusieurs années, au croisement de la robotique de service et des modèles fondation. Les VLM ont montré des lacunes persistantes en raisonnement spatial, notamment pour estimer des distances, anticiper les trajectoires humaines ou interpréter des scènes encombrées. AutoSpatial s'inscrit dans une dynamique plus large incluant des travaux comme RT-2, OpenVLA ou le récent GR00T N2 de NVIDIA, qui cherchent tous à injecter du raisonnement langagier dans la boucle de contrôle robot. La méthode présentée reste pour l'instant un résultat de recherche sans déploiement terrain annoncé. Les prochaines étapes naturelles seraient une validation dans des environnements réels peuplés et une comparaison directe avec des architectures VLA de type diffusion comme Pi-0 de Physical Intelligence.

IA physiqueActu
1 source