Aller au contenu principal

Dossier Physical Intelligence — π0 — page 4

1187 articles · page 4 sur 24

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

RE4 : imitation des interactions avec les objets, sensible aux transformations, via des modes de manipulation
151arXiv cs.RO RecherchePaper

RE4 : imitation des interactions avec les objets, sensible aux transformations, via des modes de manipulation

Une équipe de chercheurs a soumis le 24 juin 2026 sur arXiv (référence 2606.24403) RE4, un cadre d'apprentissage par imitation pour la manipulation d'objets en robotique. L'approche articule quatre étapes modulaires : estimation légère de la pose de l'objet cible par auto-supervision sur les données de démonstration disponibles, récupération d'une démonstration compatible avec le mode de manipulation identifié, transformation géométrique de cette démonstration pour correspondre à la configuration courante de la scène, puis replanification locale reliant l'état initial au point de récupération tout en respectant les contraintes de mode, avant de dérouler la séquence transformée. Le système a été évalué sur deux benchmarks de référence de la communauté : Push-T (en modalité image et état pur) et Robomimic. Un protocole adversarial spécifique a également été construit pour cibler les zones de données rares du Push-T en mode image, afin d'éprouver la robustesse de l'approche en dehors de la distribution d'entraînement. Ce travail s'attaque à une tension centrale de l'imitation learning : les méthodes de bout en bout basées sur la diffusion, comme Diffusion Policy, ou sur les flux normalisant atteignent de bonnes performances, mais sacrifient toute interprétabilité, ce qui complique le diagnostic et la validation en contexte industriel. RE4 démontre qu'il est possible de maintenir des performances compétitives en s'appuyant sur des briques théoriques issues de la manipulation planifiée, notamment la notion de mode de manipulation, qui encode des contraintes de contact et de transition de trajectoire. La robustesse observée en régime de données rares est un signal pertinent pour les intégrateurs industriels : les jeux de démonstrations terrain dépassent rarement quelques dizaines d'exemples par tâche, rendant la densité de données un critère de sélection concret. L'apprentissage par imitation pour la manipulation robotique a connu depuis 2022 une accélération portée par ACT, Diffusion Policy puis Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, architectures qui ont montré une généralisation impressionnante au prix d'une opacité croissante. RE4 s'inscrit dans un courant concurrent qui défend des approches hybrides combinant connaissance géométrique et représentations centrées objet, dans la lignée de PerAct ou RVT. Il convient de souligner qu'il s'agit d'un preprint académique sans validation sur robot physique publiée à ce stade : les résultats sont entièrement simulés ou en environnement de benchmark logiciel. Les prolongements naturels incluent une validation hardware et une extension à des tâches de manipulation multi-étapes, qui constitueront le vrai test de transférabilité de l'approche.

1 source
RTFF : politique de mise à plat de tissu aléatoire vers cible avec manipulateur bi-bras
152arXiv cs.RO 

RTFF : politique de mise à plat de tissu aléatoire vers cible avec manipulateur bi-bras

Des chercheurs ont publié sur arXiv (réf. 2510.00814v2) une méthode robotique pour aplatir automatiquement un tissu froissé et le repositionner dans une pose cible arbitraire définie par l'utilisateur, à l'aide d'un manipulateur bi-bras. La tâche, baptisée RTFF (Random-to-Target Fabric Flattening), va au-delà du simple froissage-défroissage : le système doit simultanément éliminer les faux plis et aligner le tissu sur une configuration précise, deux objectifs structurellement antagonistes puisque tout aplatissement déplace la pose, et tout réalignement tend à réintroduire des plis. L'approche repose sur l'ancrage de l'état courant et de l'état cible du tissu à un même maillage de référence (template mesh), ce qui permet une évaluation directe au niveau des sommets (vertex-level) sans recalage préalable. Sur cette représentation, les auteurs ont développé une politique hybride combinant imitation learning et visual servoing (IL-VS), avec un composant clé baptisé MACT (Mesh Action Chunking Transformer) : ce transformeur exploite la structure du maillage pour réaliser un alignement grossier conditionné par l'objectif à partir d'un petit nombre de démonstrations, avant qu'un étage de visual servoing assure la convergence précise vers la cible. Les expériences sont menées sur un vrai système bi-bras à téléopération, avec généralisation à des poses cibles, des types de tissus et des échelles non vus pendant l'entraînement. Ce résultat est notable pour la manipulation d'objets déformables (DOM), un sous-domaine où le sim-to-real gap reste structurellement élevé en raison de la variabilité infinie des états du tissu et des occlusions causées par les plis. L'architecture MACT est intéressante car elle extrait de l'information structurée (maillage) plutôt que des images brutes, ce qui réduit l'ambiguïté de représentation typique des approches vision-seule. Le fait que la politique généralise à des tissus non vus à partir d'un ensemble compact de démonstrations suggère une efficacité de données supérieure aux pipelines RL purs, souvent gourmands en interactions simulées. Pour les intégrateurs industriels ciblant la manipulation textile (confection, logistique, blanchisserie), c'est un signal que les approches hybrides IL+VS méritent attention ; la limite reste la validation sur un seul système de téléopération en laboratoire, sans métriques de cycle time ni de robustesse sur longue durée. La manipulation de textiles en robotique est un problème ouvert depuis plusieurs décennies, historiquement traité par des méthodes analytiques, de la vision par ordinateur classique, ou plus récemment par du reinforcement learning en simulation. Des travaux récents comme pi0 de Physical Intelligence et les approches VLA (Vision-Language-Action) ont renouvelé l'intérêt pour les politiques généralisables sur objets déformables, mais sans cibler spécifiquement le repositionnement joint. Du côté des acteurs industriels, des startups comme Apptronik, 1X ou Kepler explorent la manipulation de tissus dans des contextes de logistique ou d'assistance, mais restent sur des tâches de saisie-dépose. Aucun acteur européen ou français n'est mentionné dans ce travail académique. La prochaine étape naturelle serait l'intégration dans un pipeline plus autonome avec perception RGB-D sans marqueurs, et des tests de robustesse sur des cycles répétés en environnement non contrôlé.

RecherchePaper
1 source
EquiVLA : un cadre général pour les modèles VLA équivariants par rotation
153arXiv cs.RO 

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation

Des chercheurs ont publié EquiVLA (arXiv:2606.19784), le premier cadre général pour rendre les modèles Vision-Langage-Action (VLA) équivariants par rotation SO(2) de bout en bout. Le système introduit deux composants modulaires : EquiPerceptor, qui extrait des représentations visuelles approximativement SO(2)-équivariantes à partir de features ViT gelées, et EquiActor, une tête d'action exactement SO(2)-équivariante basée sur un Diffusion Transformer à flow-matching. Instancié sur GR00T N1.5 (le modèle de manipulation généraliste de NVIDIA), EquiVLA atteint 92,6 % de succès moyen sur les quatre suites de benchmarks LIBERO contre 78,1 % pour la baseline, une longueur de séquence de 4,03 sur CALVIN ABCD→D contre 3,45, et améliore le taux de succès sur cinq tâches réelles avec le robot Mobile ALOHA de 54 % à 72 %. Le problème central qu'adresse EquiVLA est structurel : les VLA actuels manquent de biais inductifs géométriques, ce qui signifie qu'une politique entraînée dans une orientation donnée nécessite substantiellement plus de données pour généraliser à d'autres configurations rotationnelles. En imposant l'équivariance SO(2) de la caméra jusqu'aux séquences d'actions prédites, le framework réduit la dépendance aux données d'orientation. Pour un intégrateur ou un COO industriel, l'implication concrète est une meilleure robustesse opérationnelle sans retraining coûteux lorsqu'un poste de travail est réorganisé. Le gain de 18 points absolus sur LIBERO et le passage de 54 % à 72 % sur robot réel sont significatifs, même si ces résultats restent obtenus en conditions de laboratoire contrôlé et ne constituent pas encore un déploiement industriel. Les VLA sont devenus le paradigme dominant de la manipulation généraliste depuis RT-2 et PaLM-E, avec des modèles concurrents comme Pi-0 (Physical Intelligence), OpenVLA et GR00T N1.5 de NVIDIA, publié début 2025 comme modèle de référence pour la manipulation humanoïde. L'approche modulaire d'EquiVLA - les backbones vision-langage gelés restent intacts - facilite l'adoption sur des architectures existantes sans repartir de zéro. Ce papier est une contribution académique sans partenariat commercial annoncé ; les suites naturelles seraient d'étendre l'équivariance à SO(3) pour les manipulateurs à 6 DOF, et de valider la robustesse à grande échelle dans des environnements industriels moins structurés.

💬 Le vrai sujet ici, c'est pas le benchmark : c'est que si tu déplaces ton poste de travail de 90°, tu n'as plus à réentraîner ton robot. C'est précisément le genre de friction silencieuse qui rendait les déploiements industriels galères, et là ils y répondent de façon architecturale, sans toucher aux backbones existants. 72% sur robot réel c'est encore du labo, mais la direction est la bonne.

IA physiqueOpinion
1 source
RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel
154arXiv cs.RO 

RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel

Des chercheurs de Microsoft Research ont publié fin juin 2026 un framework baptisé Object-Centric Residual RL (arXiv:2606.18953), conçu pour améliorer la robustesse des modèles Vision-Language-Action (VLA) dans des tâches de manipulation physique précise. Le principe : entraîner une politique correctrice en simulation pure, basée non pas sur des images mais sur les poses des objets, puis la transférer directement sur un robot réel sans aucun fine-tuning supplémentaire. Sur un bras Franka Research 3 (FR3), la méthode fait passer le taux de succès moyen de 42 % à 76 % en zero-shot sur cinq tâches de manipulation, avec une politique résiduelle entraînée exclusivement en simulation, avec injection de bruit de pose et dropout. Le processus inclut également le rejeu des démonstrations de télé-opération en simulation pour entraîner un VLA "jumeau" simulé, auquel la politique résiduelle est ensuite couplée avant transfert zero-shot. L'enjeu est direct pour les intégrateurs et les équipes de déploiement robotique : les VLA actuels, qu'il s'agisse de Pi-0 (Physical Intelligence), d'OpenVLA ou des modèles RT de Google, généralisent bien à travers des tâches variées mais accumulent des erreurs d'exécution lors d'interactions physiques précises (pincements, insertions, assemblages) où la précision millimétrique est requise. Les approches concurrentes butent sur un trilemme classique : les méthodes à états privilégiés nécessitent une distillation coûteuse pour le déploiement, les méthodes basées image souffrent du fossé visuel sim-to-réel, et le RL en conditions réelles reste coûteux et risqué pour le matériel. En substituant les poses d'objets aux images comme espace d'observation, le framework crée une représentation compacte et cohérente entre simulation et réalité, suffisamment légère pour un transfert zero-shot fiable. Autre résultat notable : les rollouts améliorés peuvent être réutilisés pour ré-entraîner le VLA de base, ouvrant une boucle d'auto-amélioration sans télé-opération supplémentaire. Le sim-to-real gap est un problème structurel qui freine la commercialisation des robots polyvalents depuis plusieurs années, et les VLA n'y échappent pas malgré leurs capacités de généralisation linguistique. Cette publication s'inscrit dans une dynamique de recherche intense où Physical Intelligence (Pi-0, Pi-0 FAST), Figure AI et 1X Technologies tentent chacun de réduire cet écart par des voies différentes : données réelles massives, domain randomization, ou standardisation du hardware. Microsoft Research, moins visible sur le déploiement commercial que ces acteurs, confirme ici un axe de recherche sur la correction post-entraînement des fondations robotiques par RL simulé. La page projet est publiée en accès ouvert sur le site de Microsoft Research ; aucun partenariat industriel ni timeline de déploiement n'est mentionné dans la publication, qui reste pour l'heure une contribution académique.

💬 La précision millimétrique, c'est là où tous les VLA craquent en conditions réelles. Microsoft Research contourne le problème par le bon bout : en travaillant sur des poses d'objets plutôt que sur des images, le fossé visuel sim-to-real disparaît, et on monte de 42 % à 76 % de succès sur un Franka réel, zero-shot. Aucun partenaire industriel dans la publication pour l'instant, mais l'approche est solide.

IA physiqueOpinion
1 source
Sanctuary AI valide les performances de son IA physique chez un équipementier automobile de rang 1
155Robotics Business Review 

Sanctuary AI valide les performances de son IA physique chez un équipementier automobile de rang 1

Sanctuary AI (Sanctuary Cognitive Systems Corp.), basée à Vancouver, vient de valider une performance industrielle significative chez un équipementier automobile de rang 1 mondial, non nommé. La tâche consiste en l'insertion d'un connecteur filaire souple dans une cible en mouvement sur un convoyeur actif, un problème classique de manipulation dite "contact-rich" qui résiste depuis longtemps à l'automatisation traditionnelle. Le résultat annoncé est un taux de succès supérieur à 99,5% pour un temps de cycle de 2,54 secondes, aligné sur les cadences de production réelle du client. À noter que les métriques sont présentées sans détail sur la durée de l'essai ni le volume de cycles validés, ce qui invite à traiter ce résultat comme un proof-of-concept industriel plutôt qu'un déploiement en série. La démonstration s'inscrit dans la continuité de la présentation en avril 2026 de capacités de manipulation en zero-shot learning pour la préhension dextère. Ce résultat illustre une tendance de fond dans le secteur : face à l'horizon encore incertain de la commercialisation de masse des robots humanoïdes, certains acteurs pivotent vers une approche hardware-agnostique, en injectant leur couche d'IA physique sur des plateformes industrielles existantes. Pour un intégrateur ou un directeur de production, cela représente un chemin à valeur immédiate sans attendre la maturité mécanique des humanoïdes, tout en capitalisant sur des modèles d'IA qui seront ensuite portables vers les systèmes de prochaine génération. Le vrai verrou que Sanctuary prétend avoir levé est le couplage performance/cycle time : les projets de physical AI échouent souvent non par manque de précision mais par débit insuffisant. Si le taux de 99,5% à 2,54 secondes est confirmé en production continue, c'est un signal crédible que les VLA (vision-language-action models) commencent à franchir le seuil de l'exigence industrielle, pas seulement du laboratoire. Fondée au Canada, Sanctuary AI développe depuis plusieurs années une approche centrée sur l'IA généraliste pour corps robotiques, incluant des mains hydrauliques propriétaires haute dextérité. La société avait jusqu'ici communiqué davantage autour de son robot humanoïde Phoenix, mais le pivot stratégique annoncé aujourd'hui signale un repositionnement vers le déploiement accéléré sur bras industriels standards. Dans l'espace concurrent, Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et 1X (Helix) continuent d'investir massivement dans la voie humanoïde complète. Côté manipulation pure, Festo a testé ce mois-ci son GripperAI et lancé un préhenseur pneumatique léger, tandis que PSYONIC s'est associé à ABB Robotics. Sanctuary semble parier que la voie la plus rapide vers le chiffre d'affaires en manufacturing et logistique passe par l'intégration logicielle sur hardware existant, avant le déploiement des prochains systèmes industriels humanoïdes qu'elle annonce vouloir adresser également.

UEL'équipementier de rang 1 non nommé pourrait être européen (Valeo, Bosch, Continental, Aptiv), auquel cas ce pilote serait directement pertinent pour l'automobile FR/EU, mais l'absence de confirmation maintient l'impact au stade potentiel.

💬 99,5% à 2,54 secondes sur une cible mobile, c'est le genre de résultat qui sort enfin du labo. Le pivot de Sanctuary est net: plutôt que d'attendre que le robot humanoïde soit prêt, ils injectent leur IA sur les bras industriels existants, ce qui ouvre un chemin court vers la valeur pour pas mal d'intégrateurs. Sans durée ni volume de cycles communiqués, on reste sur du pilote, pas du déploiement série.

IA physiqueOpinion
1 source
Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique
156arXiv cs.RO 

Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique

L'équipe Qwen d'Alibaba a publié le 22 juin 2026 un rapport technique décrivant Qwen-RobotManip, un modèle fondation Vision-Langage-Action (VLA) conçu pour la manipulation robotique généraliste. Construit sur l'architecture Qwen-VL, le modèle introduit un cadre d'alignement unifié couvrant trois dimensions : la représentation sensorielle, le mouvement, et le comportement. Son corpus d'entraînement atteint environ 38 100 heures de données, constitué exclusivement de jeux de données open source et de vidéos en vue subjective des mains humaines, sans aucune collecte propriétaire. Un pipeline de synthèse convertit ces démonstrations égocentrées en trajectoires robot compatibles avec 15 plateformes matérielles différentes, dont AgileX ALOHA, Franka, UR et ARX. Évalué sur six benchmarks out-of-distribution (RoboCasa365, LIBERO-Plus, EBench, RoboTwin-Clean2Rand, RoboTwin-IF, RoboTwin-XE), Qwen-RobotManip surpasse les modèles précédents sur l'ensemble des configurations et remporte la première place du RoboChallenge avec une amélioration relative de 20 % par rapport à l'état de l'art antérieur. Ce résultat est significatif parce qu'il répond directement à une question centrale du secteur : peut-on appliquer aux données de manipulation robotique la même recette de scaling qui a propulsé les grands modèles de langage ? Jusqu'ici, la réponse restait négative, en raison de l'hétérogénéité structurelle des données de manipulation (formats, espaces d'action, embodiments incompatibles), qui rendait l'entraînement multi-sources incohérent plutôt que synergique. Qwen-RobotManip avance que l'alignement préalable des données résout ce problème, permettant l'absorption à grande échelle sans dégradation. Les capacités émergentes documentées (suivi d'instructions zero-shot, récupération d'erreurs réactive, transfert cross-embodiment) constituent, si elles se confirment en conditions industrielles réelles, un changement de paradigme pour les intégrateurs : moins de fine-tuning spécifique par robot, généralisation à de nouvelles tâches sans redéploiement complet du pipeline. Il convient toutefois de noter que les résultats reposent sur des benchmarks académiques et des validations en laboratoire réel ; aucun déploiement industriel n'est encore documenté, et l'écart sim-to-real reste une inconnue à l'échelle. Qwen-RobotManip s'inscrit dans une course serrée autour des VLA pour la manipulation, où Physical Intelligence (pi0 et pi0.5), Google DeepMind (RT-2, pi-0), et Hugging Face (LeRobot) occupent déjà des positions fortes. Le modèle de Qwen se distingue en revendiquant la performance la plus élevée sur les benchmarks OOD publiés à ce jour, et surtout en n'utilisant aucune donnée propriétaire, ce qui ouvre théoriquement la voie à une adoption plus large. La publication est un preprint arXiv (arXiv:2506.17846v1), pas encore soumis à peer review, et aucune date de disponibilité du modèle ni annonce de pilote industriel n'accompagne ce rapport. Les prochaines étapes probables incluent une intégration dans l'écosystème Hugging Face ou ModelScope et des évaluations indépendantes en conditions réelles.

💬 L'obstacle au scaling en robotique, c'était pas le manque de données, c'était leur incohérence structurelle. Qwen le prouve ici : aligner avant de scaler, et les benchmarks OOD s'envolent de 20%. Bon, c'est encore du labo et je ne vois aucun déploiement industriel documenté, mais avec zéro donnée propriétaire dans le corpus, les intégrateurs sur Franka ou UR ont une vraie porte d'entrée.

IA physiqueOpinion
1 source
Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots
157SCMP Tech 

Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots

Alibaba Group a dévoilé mardi le Qwen Robot Suite, sa première suite de modèles d'intelligence artificielle dédiée à la robotique. Développée par Tongyi Lab, l'unité de recherche IA du géant de Hangzhou, cette collection de modèles vise à doter les robots de capacités de perception, de raisonnement et d'interaction avec l'environnement physique, ce que le secteur désigne par le terme "embodied AI". La suite a déjà été engagée dans des phases de test pilote avec un cercle restreint de partenaires sélectionnés par Alibaba. Les métriques de performance restent à ce stade non communiquées publiquement, ce qui ne permet pas d'évaluer les capacités réelles par rapport aux annonces. L'entrée d'Alibaba dans l'embodied AI représente un signal fort pour l'industrie robotique : les grandes plateformes cloud et LLM cherchent désormais à étendre leur emprise vers le monde physique, transformant le marché des intégrateurs et des fabricants OEM. Pour les décideurs industriels, cela signifie potentiellement un accès à des couches d'IA robotique portées par une infrastructure cloud établie, avec la question ouverte du sim-to-real gap, qui reste le défi critique non résolu dans le déploiement à l'échelle des robots polyvalents. Alibaba s'inscrit dans une course mondiale déjà peuplée d'acteurs hétérogènes : Figure (Figure 03), Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Tesla (Optimus Gen 3) et 1X Technologies côté startups, auxquels s'ajoutent Huawei et Xiaomi côté géants technologiques chinois. Le Qwen Robot Suite s'appuie sur la famille de modèles Qwen, déjà bien implantée dans le paysage LLM mondial. Les prochaines étapes probables incluent un élargissement des pilotes industriels et une intégration avec l'écosystème cloud d'Alibaba (Alibaba Cloud / Aliyun).

UEL'entrée d'Alibaba dans l'IA robotique intensifie la pression concurrentielle mondiale sur les fabricants et intégrateurs européens, mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

Chine/AsieActu
1 source
Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)
158arXiv cs.RO 

Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)

Une étude publiée le 19 juin 2026 sur arXiv (réf. 2606.15714) présente la première évaluation systématique des capacités multilingues des modèles VLA (Vision-Language-Action), cette famille d'architectures qui combine vision, langage et contrôle moteur pour produire des politiques robotiques généralisées. Les chercheurs ont construit des benchmarks multilingues en traduisant les instructions de jeux d'évaluation existants, puis ont testé plusieurs modèles VLA représentatifs sur un ensemble de tâches en environnement simulé. Le constat est net : les modèles entraînés principalement sur des instructions en anglais accusent une dégradation significative de leurs performances lorsqu'on les interroge dans d'autres langues, même quand le backbone LLM sous-jacent est nativement multilingue. Ce résultat a des implications directes pour quiconque envisage de déployer des robots à instructions verbales en dehors d'un contexte anglophone. Il invalide l'hypothèse commode selon laquelle les capacités multilingues d'un grand modèle de langage se transfèrent automatiquement au modèle VLA lors du fine-tuning sur données robotiques. L'analyse cross-linguale révèle deux sources d'échec distinctes : la compréhension de l'instruction d'une part, l'exécution de l'action d'autre part. Les auteurs identifient également des décalages de représentation interne provoqués par les instructions non-anglaises comme facteur structurel du gap, ce qui suggère que le problème est ancré dans la dynamique d'entraînement et pas seulement dans le vocabulaire. Les VLA généralisés ont connu une accélération notable depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence, OpenVLA (Berkeley), ou encore GR00T N2 de NVIDIA, tous entraînés quasi-exclusivement sur des corpus anglophones. Pour combler le gap mis en évidence, les auteurs proposent une méthode de fine-tuning appelée Multilingual Principal Component Alignment (MPCA), qui utilise une analyse en composantes principales (ACP) pour aligner les représentations multilingues dans un sous-espace commun. Les résultats sont obtenus en simulation et n'ont pas encore été validés sur robot réel, ce qui constitue la limite principale à relativiser avant tout déploiement industriel. L'étude ouvre néanmoins une piste de travail concrète pour les équipes qui ciblent des marchés européens ou asiatiques.

UELes équipes R&D européennes ciblant des déploiements en langues non-anglaises (français, allemand, etc.) doivent intégrer cette limitation structurelle dans leurs protocoles d'entraînement VLA et ne peuvent pas supposer que le multilinguisme du LLM backbone se transfère automatiquement.

RechercheOpinion
1 source
Récupération guidée par renforcement et fusion souple pour l'imitation multimodale robuste aux modalités manquantes
159arXiv cs.RO 

Récupération guidée par renforcement et fusion souple pour l'imitation multimodale robuste aux modalités manquantes

Des chercheurs présentent RL4IL, une méthode d'apprentissage par imitation guidée par renforcement qui s'attaque à un problème concret du déploiement robotique : la défaillance de capteurs en cours d'opération. Publiée en préprint sur arXiv (2606.15514), l'approche sélectionne dynamiquement les démonstrations d'experts les plus pertinentes depuis une bibliothèque d'entraînement, plutôt que d'entraîner un réseau de politique classique. Une politique RL entraînée via Proximal Policy Optimisation (PPO) sur des ensembles de candidats générés par recherche en largeur (BFS) classe ces démonstrations, et une tête de fusion par cross-attention agrège leurs signaux d'action pour produire la prédiction finale. Lorsqu'une modalité est absente à l'inférence, caméra obstruée, flux langage interrompu, une politique RL dédiée par modalité identifie des démonstrations "donneuses" dans la bibliothèque, et une tête d'imputation reconstruit l'embedding manquant par cross-attention sur les meilleures correspondances, sans aucun réentraînement du système. Évaluée sur trois suites du benchmark LIBERO, RL4IL surpasse les méthodes d'apprentissage par imitation de l'état de l'art dans les conditions de perte de capteurs. Ce résultat adresse une hypothèse fragile qui traverse l'ensemble des architectures VLA (Vision-Language-Action) actuelles : la disponibilité permanente de toutes les entrées sensorielles. En conditions réelles, une caméra peut être occultée par un objet, un module langage peut tomber hors ligne, un capteur de profondeur peut saturer. La capacité à inférer sans réentraînement est particulièrement notable pour les intégrateurs industriels : redéployer un modèle en production à chaque nouvelle configuration de panne est prohibitif. RL4IL découple la robustesse à la perte de modalité du coût d'apprentissage, ce qui représente un levier opérationnel concret, à nuancer cependant par l'absence, dans le papier, de tests sur des robots physiques réels. L'apprentissage par imitation fondé sur la récupération de démonstrations (retrieval-based IL) est une direction active depuis les travaux sur VINN et les approches kNN pour la robotique. Les architectures VLA dominantes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) supposent toutes des capteurs intègres. RL4IL s'inscrit dans une veine de recherche visant à rendre ces systèmes tolérants aux pannes sans modifier leur entraînement initial. Le code est disponible publiquement sur GitHub. Les prochaines étapes naturelles incluent une validation sur manipulateurs physiques et l'extension à des bibliothèques de démonstrations à grande échelle, deux conditions nécessaires pour crédibiliser le passage au déploiement réel.

RecherchePaper
1 source
Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action
160arXiv cs.RO 

Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action

Une équipe de chercheurs a publié Token Steering (TS), une méthode permettant de piloter dynamiquement les trajectoires générées par des modèles de fondation robotiques de type VLA (vision-language-action autorégressif). Le principe : injecter des entrées utilisateur de faible dimension directement dans l'espace de représentation des tokens d'action du modèle, sans modifier l'architecture du modèle de langage visuel (VLM) sous-jacent. TS opère entièrement à l'inférence, sans réentraînement ni fine-tuning. Évalué sur deux tâches de manipulation domestique, fermeture d'un tiroir après placement d'objet, et permutation d'objets en contexte dynamique, le taux de succès passe respectivement de 10,0 % à 72,5 % et de 16,7 % à 93,8 %. Ces résultats sont issus de la préprint arXiv:2606.15021 et n'ont pas encore fait l'objet d'une révision par les pairs. L'intérêt opérationnel est direct : supprimer le besoin de réentraînement lève un verrou majeur pour le déploiement de robots de fondation en conditions réelles. Des intégrateurs peuvent adapter le comportement d'un VLA pré-entraîné à des variations de scénario sans coût de calcul additionnel significatif. Le mécanisme guide l'action sans l'écraser, ce qui préserve les priors de dextérité et de fluidité appris durant le pré-entraînement. C'est un avantage concret sur les approches classiques de surcharge par commande directe, qui dégradent souvent la qualité du mouvement. L'article évoque également des cas d'usage d'accessibilité pour des personnes à mobilité limitée, piste crédible vers une robotique d'assistance plus inclusive. Les politiques VLA constituent l'un des axes les plus actifs de la robotique actuelle : Physical Intelligence a commercialisé Pi-0, NVIDIA a présenté GR00T N2, et plusieurs groupes académiques développent des variantes d'OpenVLA. Token Steering s'inscrit dans une tendance plus large qui cherche à rendre ces politiques modulables sans réentraînement, direction que poursuit également Enchanted Tools sur le plan applicatif. La contribution reste pour l'heure académique : aucun déploiement industriel ni partenariat n'est annoncé, et le site projet (jasontchan.github.io/token-steering) présente des vidéos de démonstration en environnement contrôlé. Les prochaines étapes attendues sont une validation sur hardware hors laboratoire et une extension aux VLA de génération récente comme Pi-0 ou GR00T N2.

UEEnchanted Tools (entreprise française) est citée comme poursuivant la même direction applicative ; la méthode de pilotage à l'inférence sans réentraînement pourrait directement accélérer les travaux européens sur la robotique d'assistance.

💬 Passer de 10% à 72% de réussite sur une tâche de manipulation sans toucher au modèle, c'est le chiffre qui compte. Le vrai frein des VLA hors du labo, c'est exactement ça : chaque variation de scénario forçait un fine-tuning coûteux, et Token Steering court-circuite ça à l'inférence. Reste à valider sur du hardware moins coopératif, mais c'est précisément le bon problème à avoir résolu en premier.

IA physiqueOpinion
1 source
Exosquelette universel de manipulation : politiques corps entier compliantes avec retour de couple en temps réel
161arXiv cs.RO 

Exosquelette universel de manipulation : politiques corps entier compliantes avec retour de couple en temps réel

Des chercheurs ont publié sur arXiv (2606.14218) l'UME, Universal Manipulation Exoskeleton, un exosquelette du membre supérieur combinant retour de couple haptique en temps réel et enregistrement des signaux de couple articulaire pour la téléopération robotique. Léger, portable, équipé d'une IMU, il supporte la manipulation mobile et pilote trois bras commerciaux via un algorithme de reciblage universel : OpenArm 7DoF, Franka 7DoF et X-ARM 6DoF. Les politiques apprises à partir de données UME atteignent des taux de succès élevés sur des tâches bimanuelle, longue-horizon et en occultation visuelle : retournement de carton guidé par la force, poussage en aveugle, manipulation en espace contraint. La précision haptique est telle que des opérateurs peuvent extraire des objets cinématiquement contraints les yeux bandés. L'enjeu n'est pas l'exosquelette lui-même, mais les données qu'il produit : la quasi-totalité des pipelines de collecte pour l'apprentissage par imitation capture des positions articulaires sans les couples de force, cantonnant les politiques apprises à un mode position pur sans compliance active. L'UME comble cette lacune et ouvre la voie à des politiques réactives aux contacts non anticipés, condition nécessaire pour des robots opérant en environnement domestique ou aux côtés d'humains. La compatibilité avec trois cinématiques différentes et le faible coût de fabrication annoncé sont des arguments concrets pour les intégrateurs. Les taux de succès présentés restent néanmoins à confirmer au-delà des démonstrations sélectionnées pour la publication. Les systèmes de téléopération bimanuelle comme ALOHA (Stanford/UC Berkeley) ont établi des standards pour la collecte de données visuomotrices, mais sans retour de couple systématique. Les exosquelettes haptiques commerciaux existants (HaptX, Shadow Robot) intègrent ce retour à des coûts rédhibitoires pour la recherche académique. L'UME se positionne comme une alternative bas coût, avec code et données annoncés publics sur ume-exo.github.io, ce qui pourrait enrichir l'entraînement de modèles de politiques visuomotrices (VLA) comme pi-zero (Physical Intelligence) ou OpenVLA avec des signaux de force jusqu'ici absents des datasets standards. Il s'agit à ce stade d'un travail purement académique, sans partenaire industriel ni calendrier de déploiement annoncé.

ExosquelettesPaper
1 source
Un modèle fondation VLA pragmatique
162arXiv cs.RO 

Un modèle fondation VLA pragmatique

LingBot-VLA est un modèle fondation de type Vision-Language-Action (VLA) publié en janvier 2026 sur arXiv (v3), conçu pour la manipulation robotique sur bras duals. Entraîné sur environ 20 000 heures de données réelles issues de 9 configurations distinctes de robots bi-bras, le modèle a été évalué sur 3 plateformes robotiques différentes, chacune complétant 100 tâches avec 130 épisodes de post-entraînement par tâche. Sur le plan de l'efficacité computationnelle, la codebase développée atteint un débit de 261 échantillons par seconde sur un cluster de 8 GPU, représentant une accélération de 1,5 à 2,8 fois selon le VLM de base choisi. Le code, le modèle de base et les données de benchmark sont publiés en open access. Ce travail s'attaque à l'un des verrous structurels des VLA en production : la généralisation croisée entre tâches et entre plateformes, couplée à un coût d'adaptation acceptable en données et en GPU-heures. Le fait que le modèle surpasse ses concurrents sur 100 tâches distinctes par plateforme, avec seulement 130 épisodes de fine-tuning, indique que le sim-to-real gap et l'adaptation à de nouveaux morphologies de bras sont partiellement résolus dans ce cadre, du moins pour la manipulation bi-bras. Pour un intégrateur industriel ou un équipementier, c'est un signal concret : l'écart entre démo labo et déploiement réel se réduit sur des tâches structurées, même si les conditions de benchmark restent contrôlées et méritent d'être vérifiées en environnement ouvert. La course aux VLA généralisables oppose aujourd'hui plusieurs approches : Pi-0 de Physical Intelligence sur des données hétérogènes multi-robots, OpenVLA et Octo comme baselines open-source établies, et GR00T N2 de NVIDIA ciblant l'humanoïde. LingBot-VLA se positionne sur le segment bi-bras industriel, avec une volumétrie de données réelles supérieure à la plupart des travaux publiés et un accent explicite sur l'efficacité d'entraînement, ce qui le rend pertinent pour des laboratoires sans infrastructure cloud massive. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit d'une contribution académique avec ouverture du code, dont les suites dépendront de l'adoption communautaire et d'éventuels partenariats industriels non encore divulgués.

UELes laboratoires et intégrateurs européens sans infrastructure cloud massive peuvent adopter directement le modèle et les données open-access pour accélérer leurs travaux de manipulation bi-bras.

💬 130 épisodes pour adapter le modèle à un nouveau robot, c'est un seuil qu'on n'osait pas espérer il y a deux ans. L'open access complet du modèle, du code et des données, c'est ça la vraie nouvelle, parce que les labos sans infrastructure cloud massive peuvent maintenant entrer dans la course face à NVIDIA et Physical Intelligence. Reste à voir si ça tient hors benchmark.

IA physiqueOpinion
1 source
THEKER lève 85 millions de dollars : l’Europe produit enfin ses candidats à la robotique généraliste
163FrenchWeb 

THEKER lève 85 millions de dollars : l’Europe produit enfin ses candidats à la robotique généraliste

La startup barcelonaise THEKER a annoncé une levée de fonds de 85 millions de dollars, s'imposant comme l'un des paris les plus ambitieux de l'écosystème européen sur la robotique généraliste. Ce financement, dont les détails du tour et des investisseurs n'ont pas été précisés dans l'annonce publique, intervient alors que le secteur de l'intelligence physique connaît une accélération notable des investissements à l'échelle mondiale. THEKER développe des robots capables d'accomplir une grande variété de tâches dans des environnements non structurés, une approche dite "généraliste" qui contraste avec les robots industriels traditionnels, conçus pour des tâches répétitives et prédéfinies. Ce financement marque un tournant pour la scène technologique européenne, longtemps absente de la course à la robotique avancée dominée par des acteurs américains comme Figure AI ou Physical Intelligence, et asiatiques comme Unitree. Pour l'industrie, l'enjeu est considérable : des robots capables de s'adapter à des contextes variés pourraient transformer la logistique, les soins, la construction et l'agriculture sans nécessiter de reprogrammation coûteuse. THEKER représente ainsi un signal que l'Europe peut produire des challengers crédibles dans ce segment stratégique. Après trois années dominées par les modèles de langage, les data centers et les agents logiciels, les capitaux se redirigent désormais vers l'intelligence physique, c'est-à-dire la capacité des machines à agir dans le monde réel. Plusieurs facteurs alimentent cette tendance : la maturité des modèles de fondation multimodaux, la baisse des coûts des composants mécaniques et la pression des industriels cherchant à automatiser dans un contexte de pénurie de main-d'oeuvre. THEKER devra démontrer que ses robots tiennent leurs promesses hors des laboratoires, face à une compétition mondiale qui se densifie rapidement.

UETHEKER, startup barcelonaise, s'impose comme l'un des premiers challengers européens crédibles dans la robotique généraliste, un secteur stratégique jusqu'ici dominé par des acteurs américains et asiatiques.

HumanoïdesOpinion
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
164arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
World Pilot : piloter les modèles VLA avec des a priori monde-action
165arXiv cs.RO 

World Pilot : piloter les modèles VLA avec des a priori monde-action

Une équipe de chercheurs a publié World Pilot (arXiv:2606.12403, juin 2026), un framework conçu pour combler une lacune structurelle des modèles Vision-Language-Action (VLA). Ces modèles, comme Pi-0 de Physical Intelligence ou RT-2 de Google Robotics, tirent leur force d'un préentraînement sur de vastes corpus image-texte, mais ce préentraînement s'appuie sur des paires statiques, alors que la manipulation robotique est un processus continu et riche en contacts dont la dynamique leur échappe. World Pilot introduit un World-Action Model (WAM) qui injecte deux types de priors dans la chaîne de décision : le Latent Steering conditionne la couche de perception sur un latent d'évolution de scène, et l'Action Steering fournit une trajectoire anticipée comme prior de mouvement au générateur d'actions. Sur le benchmark LIBERO-Plus en configuration zero-shot out-of-distribution (OOD), le système atteint 84,7 % de taux de succès global et affiche les meilleurs résultats sur quatre tâches de manipulation en environnement réel, avec des marges significatives lors de variations de point de vue, de géométrie d'objets, d'état déformable et de pose. L'intérêt principal de cette approche est de renforcer la robustesse des VLA face aux écarts de distribution sans réentraînement massif. Fait notable : le prior d'évolution de scène reste efficace même lorsqu'il provient d'un world model préentraîné sur vidéo uniquement, sans post-entraînement sur des données d'action, ce qui rend l'augmentation de VLA existants nettement plus accessible. Pour les équipes de déploiement industriel, cela signifie potentiellement moins de données de fine-tuning pour adapter un modèle à un contexte visuel inédit. Le benchmark zero-shot OOD reste l'un des indicateurs les plus exigeants du domaine, là où la majorité des politiques robotiques s'effondrent dès qu'elles sortent de leur distribution d'entraînement. World Pilot s'inscrit dans un courant actif qui vise à doter les politiques robotiques d'un modèle interne du monde, une direction explorée par DeepMind avec DreamerV3 et par Meta via l'architecture JEPA de Yann LeCun. Les VLA ont démontré des capacités de généralisation sémantique prometteuses, mais leur fragilité face aux variations physiques de l'environnement constituait un frein structurel au déploiement industriel. La question ouverte est de savoir si les marges observées sur LIBERO-Plus se maintiendront sur des benchmarks plus larges comme Open-X-Embodiment et sur des plateformes commerciales telles que les bras Franka Robotics ou Universal Robots, étapes nécessaires pour valider la portée industrielle de l'approche.

UESi les résultats se confirment sur Franka Robotics (allemand) et Universal Robots (danois), plateformes dominantes en Europe, cette approche pourrait réduire le coût d'adaptation des VLA aux lignes industrielles européennes sans données d'action supplémentaires.

💬 Le résultat qui compte vraiment, c'est pas les 84% sur le benchmark, c'est que le prior de scène fonctionne avec un world model entraîné sur vidéo uniquement, zéro donnée d'action. Ça veut dire qu'on peut augmenter un Pi-0 ou un RT-2 sans repartir en fine-tuning robotique de zéro, ce qui était le vrai blocage jusqu'ici. Reste à voir si ça tient sur un Franka en prod, mais c'est le genre de papier qu'on garde sous le coude.

IA physiqueOpinion
1 source
Ce que les métriques de curation des démonstrations font à votre politique
166arXiv cs.RO 

Ce que les métriques de curation des démonstrations font à votre politique

Une étude publiée en juin 2026 (arXiv:2606.10229) révèle une décorrélation surprenante au cœur du pipeline d'imitation learning en robotique : les métriques qui détectent le mieux les épisodes de démonstration défectueux ne sont pas celles qui produisent les meilleures politiques de behavior cloning. Les chercheurs ont travaillé sur le benchmark LIBERO de pick-and-place en contact riche, en injectant un défaut structurel contrôlé, un relâchement prématuré du préhenseur pendant la phase de transport. Parmi sept métriques de curation évaluées, celle affichant le meilleur AUROC de détection de défauts (0,804) génère la pire politique downstream, avec un taux de succès de seulement 13,3 %. À l'inverse, une métrique avec un AUROC bien plus faible (0,638) produit une politique atteignant 90,0 % de réussite, contre 93,3 % pour l'oracle entraîné sur données propres vérifiées. La baseline contaminée, sans aucune curation, ne dépasse pas 3,3 % de succès. Ce résultat remet en cause un présupposé largement répandu dans la communauté robotique : l'idée qu'améliorer la détection des démonstrations défectueuses suffit à améliorer la politique apprise. L'étude montre que cinq des sept métriques testées utilisent en réalité la longueur d'épisode comme proxy trivial pour le label de défaut, un biais qui gonfle artificiellement les AUROC jusqu'à des valeurs quasi-parfaites, et qui disparaît dès lors qu'on neutralise cette variable. Pour les équipes qui construisent des systèmes de robot learning à partir de données humaines (notamment dans les approches VLA ou diffusion policy), cela signifie que les outils de curation standard peuvent induire en erreur, en sélectionnant des données qui « semblent » propres sans réellement améliorer le comportement en rollout. L'imitation learning par behavior cloning est aujourd'hui au cœur des approches de référence en manipulation robotique, des systèmes Pi-0 de Physical Intelligence aux architectures ACT et Diffusion Policy largement reproduites en recherche académique. LIBERO est un benchmark établi, utilisé précisément pour sa richesse en interactions contact. Les auteurs de cette étude vont plus loin que le constat en publiant le testbed complet, toutes les implémentations de métriques et le pipeline d'évaluation, ce qui permet à la communauté de recalibrer ses outils de curation. La recommandation centrale est méthodologique : évaluer une méthode de curation à l'aune de la politique qu'elle produit, pas des défauts qu'elle signale, et imposer un contrôle systématique de la longueur d'épisode avant toute publication de score de détection.

UELes laboratoires académiques et startups européennes travaillant sur le behavior cloning ou les politiques de diffusion peuvent recalibrer leurs pipelines de curation grâce au testbed complet publié par les auteurs.

RecherchePaper
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
167arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

IA physiquePaper
1 source
Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?
168arXiv cs.RO 

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Une équipe de chercheurs publie sur arXiv (2510.06492v2) une étude systématique des défaillances des modèles du monde latents face à des contraintes de sécurité partiellement observables. Appliquée à un bras manipulateur Franka Research 3 sur des tâches de cuisine, la recherche identifie deux modes de défaillance distincts. Le premier, appelé "estimation gap", survient quand l'observation courante ne révèle pas une grandeur critique pour la sécurité : la température d'une surface de cuisson, invisible en RGB seul, en est l'exemple central. Le second, le "prediction gap", désigne les situations où la défaillance devient observable dès qu'elle se produit, mais ne peut être anticipée à partir des observations disponibles. Les auteurs proposent deux diagnostics quantitatifs associés : une mesure d'observabilité de sécurité basée sur l'information mutuelle, et une mesure de prédictibilité future fondée sur des rollouts simulés. Deux stratégies de mitigation sont ensuite validées en hardware : la supervision multimodale privilégiée (ajout de capteurs thermiques ou tactiles au flux RGB) pour combler les estimation gaps, et la calibration de risque conforme (conformal risk calibration) pour les prediction gaps, avec des résultats mesurés sur le robot réel. Ces résultats posent une question structurante pour le secteur : les représentations latentes produites par un world model entraîné sur observations RGB sont-elles suffisantes pour garantir un contrôle fiable en environnement industriel ? La réponse empirique ici est non, et ce constat a des implications directes pour les intégrateurs qui déploient des bras robotisés sur des lignes de production où des variables non-visuelles (température, force de contact, couple) conditionnent la sécurité. La calibration conforme, issue de la théorie statistique de la prédiction, permet de borner le risque de violation de contrainte sans retrainer le modèle, ce qui représente un avantage pratique pour les déploiements existants. La contrepartie documentée est une conservatisme accru du contrôleur, se traduisant par une réduction du taux de complétion des tâches : la sécurité est améliorée, mais au prix d'une productivité moindre, un arbitrage classique que les COO devront quantifier pour leur contexte. Le travail s'inscrit dans la lignée des world models de type Dreamer et RSSM (Recurrent State Space Model), popularisés par DeepMind, qui apprennent une représentation compressée de l'état du monde pour planifier en espace latent. Cette approche gagne du terrain face aux politiques purement réactives, notamment dans les architectures VLA (Vision-Language-Action) portées par des équipes comme Physical Intelligence (Pi-0), Google DeepMind (GR00T) ou Figure AI. La plupart de ces modèles s'appuient sur des flux RGB ou RGBD, ignorant les modalités thermiques ou haptiques, ce que cette étude remet en cause sur des tâches à risque. Le Franka Research 3 est le banc d'essai standard de la communauté, ce qui facilite la reproductibilité. Les prochaines étapes probables incluent l'extension à des configurations multi-bras, l'intégration dans des pipelines VLA de production, et la question ouverte de savoir comment sélectionner automatiquement les modalités nécessaires à la sécurité pour une tâche donnée.

RechercheActu
1 source
Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation
169arXiv cs.RO 

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

Une étude soumise sur arXiv (arXiv:2606.05588, juin 2026) audit sept métriques de curation de démonstrations robotiques utilisées en apprentissage par imitation. Les chercheurs ont construit un banc d'essai contrôlé dans lequel des défauts sont injectés avec un type connu, puis évalué chaque métrique selon deux axes : sa capacité à séparer démonstrations défectueuses et saines, et son impact réel sur le taux de succès d'une politique de behavior cloning entraînée sur le sous-ensemble filtré. Les perturbations subtiles (bruit d'action corrélé, tremblements, troncatures) sont détectées par scoring outlier multivarié ; leur suppression restaure l'intégralité de l'écart de performance en aval. Les erreurs structurelles, en revanche, où une action incorrecte est exécutée à un moment décisif, restent invisibles à toutes les métriques action-only testées. Deux d'entre elles sont même inversées : elles notent ces démonstrations défectueuses comme étant de meilleure qualité et laissent la politique au niveau ou en dessous de la baseline non filtrée. Seules les métriques examinant la trajectoire d'état détectent ces erreurs, mais même la meilleure ne récupère qu'un tiers de l'écart de performance downstream. Ce résultat interpelle directement les équipes qui entraînent des politiques robotiques à partir de données de téléopération. Le filtrage standard par métriques d'action seules s'avère insuffisant dès que les défauts sont de nature structurelle, précisément les cas les plus difficiles à labelliser manuellement : ceux qu'un opérateur humain commet lors d'une hésitation ou d'un mauvais geste à un instant clé. L'étude établit également que haute précision de détection ne garantit pas d'amélioration downstream, une nuance critique pour toute pipeline industrielle de curation automatique prétendant améliorer la qualité des données à l'échelle. La course à la donnée de démonstration s'est accélérée avec des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques d'Optimus (Tesla), dont les performances en déploiement dépendent directement de la qualité des corpus téléopérés. Avec la multiplication des infrastructures de collecte, la curation automatique est devenue un noeud critique dans les pipelines de formation. Les chercheurs publient le banc d'essai et les implémentations en open source, offrant à la communauté un outil de référence pour auditer rigoureusement tout système de filtrage. Leurs conclusions confirment que la trajectoire d'état doit être intégrée à tout scoring sérieux, et que l'erreur structurelle reste le talon d'Achille des approches action-only.

RecherchePaper
1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
170arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

IA physiqueOpinion
1 source
RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines
171arXiv cs.RO 

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

Une équipe de chercheurs a publié début juin 2026 RobotValues (arXiv:2606.03312), un benchmark constitué de 10 000 scénarios destinés à évaluer les robots domestiques dans des situations où les valeurs humaines entrent en conflit. Chaque instance associe une image réaliste d'intérieur résidentiel à plusieurs actions robot plausibles, chacune privilégiant une valeur différente : autonomie de l'utilisateur, efficacité, sécurité, ou respect de la vie privée. Le corpus a été généré par une pipeline semi-automatique combinant génération assistée par LLM, extraction de valeurs ancrée dans des retours de parties prenantes, génération d'images et contrôle qualité automatique. Les modèles de vision-langage (VLM) couramment utilisés comme planificateurs robotiques y ont été évalués, avec des résultats préoccupants : lorsqu'on leur demande explicitement de prioriser une valeur qui contredit leurs préférences par défaut, les modèles échouent dans 80 % des cas et maintiennent leur comportement initial. Ce résultat chiffré remet en cause un angle mort de l'évaluation robotique standard, qui se concentre quasi exclusivement sur le taux de complétion de tâche et la conformité aux règles de sécurité. Dans un foyer, un robot aspirateur qui désactive un microphone pour respecter la vie privée d'un utilisateur fait un choix contraire à l'efficacité opérationnelle mais aligné avec une valeur légitime. RobotValues formalise exactement ces arbitrages. Le constat que les modèles favorisent par défaut la sécurité et l'accommodement au détriment de la protection de la vie privée soulève des questions concrètes pour les intégrateurs B2B et les équipes produit déployant des assistants domestiques, notamment sur la robustesse des mécanismes d'instruction fine-grained dans les VLMs. Les VLMs utilisés comme planificateurs robotiques constituent une tendance lourde depuis les travaux de Google sur RT-2 et les architectures Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou OpenVLA. Ces modèles héritent de biais d'entraînement qui ne posent pas de problème dans des contextes de complétion de tâche pure, mais deviennent critiques dès que le robot opère dans un espace privé avec des occupants ayant des préférences potentiellement contradictoires. RobotValues s'inscrit dans un agenda de recherche plus large sur l'alignement des agents embarqués, distinct des débats sur les LLMs conversationnels. Aucun fabricant de robot domestique (Samsung, LG, Amazon Astro, ou les startups européennes comme Enchanted Tools) n'est cité dans le papier ; le benchmark reste pour l'instant un outil académique, mais sa structure modulaire et son échelle de 10 000 instances le positionnent comme un candidat sérieux à l'intégration dans les pipelines d'évaluation de prochaines générations de plateformes embarquées.

UELe benchmark RobotValues pourrait servir de référentiel d'évaluation pour les startups européennes de robotique domestique comme Enchanted Tools, notamment dans le cadre des exigences de l'AI Act sur les systèmes autonomes opérant en espace privé.

RecherchePaper
1 source
SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA
172arXiv cs.RO 

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

Une équipe de recherche a publié en juin 2026 SafeVLA-Bench (arXiv:2606.00773), un cadre d'évaluation de la sécurité conçu spécifiquement pour les modèles vision-langage-action (VLA). Contrairement aux benchmarks existants qui se limitent à mesurer si une tâche de manipulation a été accomplie ou non, SafeVLA-Bench évalue ce qui se passe pendant la trajectoire d'exécution : contact excessif avec l'environnement, perturbation d'objets adjacents, déstabilisation de l'objet tenu, ou auto-contact du robot. Le framework formalise ces critères sous forme de spécifications Signal Temporal Logic (STL) et introduit deux métriques complémentaires : SBU (Succ-But-Unsafe), la fraction des séquences d'exécution qui réussissent la tâche tout en violant une contrainte de sécurité, et VSI (Violation Severity Index), un score de profondeur de violation borné. Appliqué à deux environnements de simulation, LIBERO (manipulation sur table) et RoboCasa-365 (cuisine), sur neuf entrées politique-benchmark, le framework révèle des chiffres préoccupants : les meilleures baselines tabletop affichent encore 13 à 15 % d'épisodes non sécurisés, et 36 à 56 % des rollouts réussis de RoboCasa-365 violent au moins une clause de sécurité active. Ce travail met en évidence un angle mort systémique dans l'évaluation des VLA : un taux de succès élevé ne garantit pas une exécution sûre. Pour les intégrateurs industriels et les équipes qui envisagent de déployer des politiques VLA en environnement réel, cela signifie que les benchmarks habituels surestiment structurellement la maturité des modèles. La distinction que pose SafeVLA-Bench entre "tâche accomplie" et "accomplie de façon acceptable" est exactement le type de critère qui sépare une démo convaincante d'un déploiement industriellement viable. Il faut noter que l'ensemble des résultats repose sur des simulations, ce qui laisse entière la question du transfert sim-to-real pour les violations de sécurité elles-mêmes. L'initiative s'inscrit dans une dynamique plus large de maturation de l'évaluation des VLA, portée notamment par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure), dont les capacités de manipulation généraliste progressent plus vite que les outils pour les qualifier rigoureusement. Jusqu'ici, la communauté s'appuyait sur des métriques de succès binaires héritées de l'ère pré-VLA, insuffisantes dès lors que les politiques sont intégrées dans des chaînes de production ou à proximité d'opérateurs humains. SafeVLA-Bench se positionne comme un outil post-hoc, applicable aux benchmarks existants sans refaire les évaluations depuis zéro. Les prochaines étapes naturelles incluent l'extension à des environnements physiques réels et l'intégration dans les pipelines de certification des systèmes cobotiques. Le projet est documenté sur safevla.org.

UESafeVLA-Bench pourrait alimenter les cadres de certification des systèmes cobotiques en Europe, notamment dans le contexte de l'AI Act qui impose des évaluations de sécurité rigoureuses pour les systèmes IA à haut risque déployés à proximité d'opérateurs humains.

RechercheOpinion
1 source
Modèles du monde pour la manipulation robotique : une synthèse de la littérature
173arXiv cs.RO 

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

Une revue de littérature publiée sur arXiv (2606.00113) cartographie l'état de l'art des modèles du monde (world models) appliqués à la manipulation robotique. Les auteurs recensent cinq familles de représentations prédictives : modèles de dynamique latente, générateurs vidéo conditionnés par l'action, prédicteurs de scène 3D et 4D, simulateurs à contraintes physiques, et modules prédictifs embarqués dans les systèmes vision-langage-action (VLA). La revue couvre 34 jeux de données de manipulation et propose une taxonomie fonctionnelle distinguant les modèles intégrant prédiction et action de ceux servant de planificateurs explicites. Trois axes structurent l'analyse : quelle représentation future est prédite, comment la prédiction se connecte à l'action, et à quel moment du pipeline d'apprentissage robotique elle intervient. Cette synthèse répond à un besoin concret : le terme "world model" recouvre des réalités très hétérogènes, ce qui brouille les comparaisons et ralentit les transferts technologiques entre laboratoires. En posant une définition opérationnelle stricte (un world model est un système prédictif conditionné par l'action, distinct des modules de perception, des politiques ou des fonctions de valeur), les auteurs établissent un cadre commun dont manquait le secteur. La revue confirme que ces systèmes évoluent d'outils de simulation spécialisés vers une infrastructure générique pour l'apprentissage robotique : génération d'expériences synthétiques, filtrage de candidats, vérification de résultats. Ce glissement architectural touche directement les pipelines de pré-entraînement, de post-entraînement et d'adaptation à l'inférence, trois phases critiques pour quiconque industrialise un robot manipulateur. Le domaine a accéléré avec l'essor des VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), et l'adoption des architectures Transformer en robotique, mais sans convergence méthodologique. La fragmentation reflète une course entre grands labs (Google DeepMind, MIT, Stanford, Berkeley) et startups qui ne partagent ni benchmarks ni protocoles d'évaluation communs. Les défis ouverts identifiés par les auteurs, notamment la modélisation des contacts, le contrôle des hallucinations, l'alignement action-prédiction et le benchmarking en boucle fermée, tracent un agenda de recherche pour les prochaines années. Pour les équipes travaillant sur la manipulation industrielle ou les bras collaboratifs, cette revue constitue une feuille de route pour choisir quelle classe de world model intégrer selon le cas d'usage : data augmentation, planification prédictive ou vérification de trajectoires.

UELes équipes européennes (INRIA, CEA-List, labos collaboratifs) travaillant sur la manipulation robotique peuvent s'appuyer sur cette taxonomie pour structurer leurs choix d'architecture world model, mais aucun acteur ni financement européen n'est impliqué directement.

RecherchePaper
1 source
NVIDIA publie de nouveaux outils et des mises à jour pour les développeurs d'IA physique
174The Robot Report 

NVIDIA publie de nouveaux outils et des mises à jour pour les développeurs d'IA physique

Lors du GTC Taipei et du Computex, NVIDIA a dévoilé un ensemble de nouveaux outils open-source rassemblés sous le nom NVIDIA Agent Toolkit, destinés aux développeurs de systèmes d'IA physique : robotique, véhicules autonomes, vision industrielle et jumeaux numériques. L'objectif affiché est de réduire le coût et la complexité des pipelines de développement en rendant l'ensemble de la pile logicielle de NVIDIA directement orchestrable par des agents IA. Les outils concernés incluent Cosmos 3, le modèle de fondation pour la compréhension du monde physique (vidéo, texte, prédiction d'états futurs), les bibliothèques Omniverse pour la simulation et les jumeaux numériques, Isaac pour la robotique, Metropolis pour la vision IA, Alpamayo pour la conduite autonome, et la plateforme Jetson pour le déploiement embarqué. Le déploiement sécurisé de ces agents est encadré par le blueprint NemoClaw et le runtime OpenShell, qui appliquent des politiques de sécurité et de confidentialité en local comme dans le cloud. L'approche "agent-ready" de NVIDIA marque un changement de paradigme dans le développement de l'IA physique : plutôt que des bibliothèques que les ingénieurs assemblent manuellement, les outils deviennent des briques directement appelables par des agents de codage, capables d'enchaîner automatiquement génération de données, simulation, entraînement et évaluation. Pour les développeurs de véhicules autonomes, cela signifie qu'un agent peut reconstruire des scènes à partir de données de flotte, générer des scénarios de conduite photoréalistes et lancer des boucles de renforcement sans intervention manuelle à chaque étape. Pour les intégrateurs robotiques, des tâches comme l'automatisation de l'entraînement à la navigation ou le tuning de systèmes Jetson deviennent théoriquement scriptables. Rev Lebaredian, vice-président pour la simulation d'IA physique chez NVIDIA, a qualifié Cosmos 3 de "modèle de fondation frontier pour l'IA physique", capable de comprendre vidéo et texte, de prédire les états futurs et de générer des actions, positionnant ce world model comme un candidat généraliste opérationnel, même si aucune métrique de benchmark indépendante n'a été communiquée à ce stade. NVIDIA consolide avec cette annonce sa position d'infrastructure de référence pour l'IA physique, un rôle qu'elle occupe via ses GPU d'entraînement et ses plateformes Isaac Sim et Jetson. La compétition dans ce segment s'intensifie : Google DeepMind pousse MuJoCo et ses dérivés, Boston Dynamics, Figure, Agility Robotics et Physical Intelligence développent leurs propres stacks de simulation et d'apprentissage, tandis que des acteurs industriels comme Siemens ou ANSYS occupent le terrain des jumeaux numériques. En Europe, des entreprises comme Wandercraft ou Enchanted Tools pourraient bénéficier de ces outils si la promesse de réduction de complexité se confirme en pratique. NVIDIA joue ici la carte de la plateforme unifiée plutôt que du modèle de fondation isolé, un positionnement cohérent avec son modèle d'affaires mais qui reste à valider au-delà des démonstrations internes. Les suites annoncées incluent des applications en santé, dont le détail n'a pas été entièrement communiqué lors de l'événement.

UELes entreprises françaises comme Wandercraft et Enchanted Tools pourraient bénéficier de la réduction de complexité annoncée, mais aucun déploiement européen concret n'est confirmé à ce stade.

InfrastructureOpinion
1 source
Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée
175arXiv cs.RO 

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

Une équipe de chercheurs a publié TouchSafeBench (arXiv:2605.31196), un benchmark pour évaluer ce qu'ils nomment le "collision grounding" dans les modèles de vision-langage (VLM) : la capacité à relier des observations visuelles à la géométrie du robot, la disposition de la scène et la proximité humaine pour déduire un contact présent ou imminent. Construit dans le simulateur Habitat 3.0 de Meta, il comprend 2 940 épisodes de coprésence indoor simulés, couvrant navigation sociale et réorganisation spatiale, avec des observations RGB-D multi-vues synchronisées, des cartes de trajectoire top-down et des labels de contact dérivés directement du simulateur. Trois VLMs orientés robotique ou frontier models ont été testés sur neuf représentations visuelles, autour de deux tâches : classifier l'état de sécurité courant et anticiper une collision imminente avant tout contact physique. Le meilleur score moyen Macro-F1 obtenu reste inférieur à 50 %. Ce chiffre souligne une limite fondamentale : la fluidité visuelle n'implique pas la responsabilité physique. Un modèle capable de décrire précisément une scène peut échouer à détecter si un bras robotique effleure un opérateur. Pour les intégrateurs travaillant sur la collaboration homme-robot, le signal est sans ambiguité : les VLMs actuels ne peuvent pas jouer le rôle de moniteurs de sécurité sans couche d'abstraction géométrique explicite. L'étude montre également que le contact robot-scène (obstacles, mobilier) est systématiquement plus difficile à détecter que la proximité humaine, contredisant l'intuition courante. Plus frappant encore : la profondeur RGB-D n'est pas automatiquement convertie en évidence de collision corps-robot, faute de représentation morphologique intégrée dans ces modèles. Ces résultats arrivent au moment où les architectures vision-langage-action (VLA) comme RT-2, OpenVLA ou pi0 de Physical Intelligence s'imposent dans les pipelines robotiques, en pariant sur la généralisation sémantique des VLMs pour piloter manipulateurs et robots mobiles. TouchSafeBench constitue un contrepoids empirique à cet enthousiasme : la généralisation linguistique ne résout pas la conscience géométrique nécessaire à la sécurité fonctionnelle. La plateforme sous-jacente, Habitat 3.0, est développée par Meta AI Research et fait référence en navigation sociale simulée. Le benchmark sera publié à l'acceptation de l'article. Les auteurs identifient comme prochaine étape des représentations liant explicitement point de vue caméra, morphologie du robot et géométrie métrique, potentiellement via des approches hybrides VLM et modèles cinématiques.

UELes intégrateurs européens développant des cobots sous contraintes AI Act doivent intégrer que les VLMs actuels ne sont pas des moniteurs de sécurité fiables sans couche d'abstraction géométrique explicite, ce qui impacte directement les architectures VLA en cours de déploiement industriel.

RecherchePaper
1 source
Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences
176arXiv cs.RO 

Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences

Des chercheurs proposent sur arXiv (2605.27919) FGO (Frequency Guidance Operator), une méthode qui s'attaque au bruit haute fréquence inhérent aux démonstrations humaines utilisées pour entraîner des politiques robotiques par imitation. Ces artefacts, saccades et micro-pauses capturés lors des démonstrations opérateur, sont amplifiés lors du débruitage itératif propre aux politiques par diffusion, produisant des trajectoires erratiques en exécution. FGO guide les échantillons bruités à travers des variétés spectrales intermédiaires à bandes progressivement élargies, forçant la génération à structurer d'abord les composantes basse fréquence avant de raffiner les détails fins. Résultat annoncé : une meilleure régularité d'action et cohérence temporelle sur 15 tâches de manipulation issues de 5 benchmarks distincts, sans dégrader le taux de succès. L'intérêt pour les déployeurs tient à deux points. D'une part, les politiques diffusion (pi-0 de Physical Intelligence, Diffusion Policy de Columbia, ACT) sont devenues le paradigme dominant pour la manipulation dextère, et les comportements saccadés en production réduisent la durée de vie des actionneurs et génèrent des arrêts de ligne. D'autre part, FGO se présente comme une correction applicable sans ré-entraînement complet, là où les correctifs habituels restent des filtres de post-traitement ad hoc (lissage temporel, filtre de Kalman sur les actions). L'absence de validation sur hardware physique dans la publication invite toutefois à la prudence avant tout transfert industriel direct. Diffusion Policy (Columbia University, 2023) a posé les bases de cette famille d'algorithmes, rapidement adoptée par Physical Intelligence, Figure AI, Apptronik, et des laboratoires comme ETH Zurich et Stanford. Le bruit haute fréquence dans les données d'imitation est un problème connu, mais rarement traité au niveau du processus de génération lui-même plutôt qu'en aval. FGO s'inscrit dans une tendance émergente de régularisation spectrale des politiques de contrôle ; les étapes suivantes attendues sont une validation sur plateformes physiques réelles et une intégration dans des frameworks open-source comme LeRobot de Hugging Face.

UEL'intégration potentielle dans HuggingFace LeRobot (entreprise française) pourrait rendre cette correction spectrale accessible à l'écosystème robotique open-source francophone sans effort de ré-entraînement.

RechercheActu
1 source
Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)
177arXiv cs.RO 

Colosseum V2 : benchmark de généralisation pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié Colosseum V2, un benchmark de simulation à grande échelle conçu pour évaluer la capacité de généralisation des modèles VLA (Vision-Language-Action) en manipulation robotique. Le benchmark intègre 28 tâches réparties en 13 catégories et couvre deux morphologies de robots distinctes, allant de primitives de manipulation élémentaires à des comportements long-horizon complexes. Construit sur le simulateur ManiSkill, il exploite la parallélisation GPU pour des évaluations massives et prend en charge les tests en domaine connu (in-domain) comme hors domaine d'entraînement (out-of-domain). Les auteurs ont évalué deux architectures de référence : les Action Chunking Transformers (ACT) et Pi0.5, le modèle de la startup Physical Intelligence. Les résultats exposent une tension centrale dans le domaine : les VLAs affichent des capacités de perception et de compréhension du langage en zéro-shot héritées de leur pré-entraînement sur de larges corpus, mais leurs performances se dégradent significativement dès que la distribution des données change, qu'il s'agisse de variations d'éclairage, de textures d'objets ou de configurations inédites. Ce fossé entre compréhension sémantique de haut niveau et comportement moteur robuste reste l'un des blocages majeurs à la commercialisation de politiques robotiques générales. Point notable : les auteurs documentent une forte corrélation entre métriques en simulation et métriques réelles, ce qui valide l'utilité écologique du benchmark et réduit la dépendance aux cycles d'évaluation physique, coûteux et peu reproductibles. Colosseum V2 est l'extension d'un premier benchmark Colosseum publié en 2024, centré sur la robustesse aux perturbations contrôlées. Le domaine manquait jusqu'ici d'un protocole unifié : RoboVQA, OpenVLA-OFT et les évaluations internes de Physical Intelligence ont chacun proposé des métriques partielles, rendant les comparaisons entre systèmes quasi impossibles. Colosseum V2 ambitionne de jouer le rôle fédérateur qu'ImageNet a tenu pour la vision par ordinateur. Les auteurs annoncent l'intégration prochaine de nouvelles morphologies et de tâches bimanuelles, des axes sur lesquels Figure (Figure 03), Apptronik, et dans une moindre mesure des acteurs européens comme Enchanted Tools, commencent à capitaliser avec des données de déploiement réel.

UELe benchmark offre un protocole d'évaluation standardisé que les équipes R&D françaises et européennes, dont Enchanted Tools, citée pour ses travaux sur les tâches bimanuelles, pourront utiliser pour comparer objectivement leurs modèles VLA face aux acteurs américains et asiatiques.

RechercheOpinion
1 source
Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)
178arXiv cs.RO 

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

Une étude déposée sur arXiv (2605.24642) analyse rigoureusement l'intégration des modèles de fondation géométriques (GFM) dans les modèles vision-langage-action (VLA) pour la robotique de manipulation. Les chercheurs ont choisi comme sujets d'étude GR00T N1.5, le VLA de NVIDIA dédié aux robots humanoïdes, et VGGT, un GFM spécialisé dans la reconstruction 3D multi-vues. À l'aide d'une technique de sondage linéaire (linear probing), ils ont quantifié pour la première fois ce qu'ils nomment le "geometric gap" : l'écart mesurable entre la représentation spatiale d'un GFM et celle d'un VLA contemporain. Trois architectures distinctes d'injection de la géométrie dans un VLA ont ensuite été implémentées et comparées, avec des détails bas niveau maintenus constants pour assurer l'équité expérimentale. L'équipe a également mesuré l'impact de facteurs non-architecturaux : volume de données d'entraînement, nombre de caméras utilisées, et qualité de la reconstruction 3D résultante. Ce travail répond à une question que beaucoup de praticiens esquivaient : les VLAs actuels "voient-ils" vraiment en 3D, ou s'appuient-ils sur des corrélations 2D apprises statistiquement ? La réponse est formellement négative. L'analyse quantitative démontre que les VLAs de dernière génération, y compris GR00T N1.5, manquent de représentations géométriques structurées, ce qui constitue un frein identifiable pour les tâches de manipulation fine en environnement non contrôlé. Pour les intégrateurs et les équipes R&D, cela valide l'hypothèse justifiant les architectures hybrides géométriques, tout en fournissant une méthodologie d'évaluation reproductible plutôt qu'une démonstration isolée, souvent peu généralisable. Les VLAs ont connu une accélération marquée depuis 2023, avec Physical Intelligence (pi0), Google DeepMind (RT-2) et NVIDIA (GR00T N1 puis N1.5, disponible depuis début 2025) qui rivalisent sur les benchmarks de manipulation. VGGT s'inscrit dans une vague de GFMs récents visant à fournir une compréhension 3D dense sans LiDAR. Cette étude s'intègre dans une tendance plus large : combler le sim-to-real gap par une modélisation spatiale explicite plutôt que par un simple scaling de données. Les suites logiques incluent l'extension de cette analyse comparative à d'autres paires VLA/GFM, et la validation sur robots physiques des trois architectures proposées pour trancher sur laquelle produit le meilleur transfer vers les tâches réelles.

UEImpact indirect : la méthodologie de linear probing et la quantification du 'geometric gap' sont directement réutilisables par les équipes R&D européennes (INRIA, CEA-List, startups VLA) pour évaluer et améliorer leurs propres architectures hybrides avant validation sur robot physique.

💬 Ce que tout le monde dans la communauté robotique savait intuitivement, c'est maintenant mesuré proprement : les VLAs actuels, GR00T inclus, ne "voient" pas vraiment en 3D. La vraie valeur de ce papier, c'est moins la conclusion (qu'on pressentait) que la méthodologie, le linear probing pour quantifier le geometric gap est directement réutilisable par n'importe quelle équipe R&D sans repartir de zéro. Reste à voir laquelle des trois architectures d'injection tient face à du hardware physique réel, parce que les benchmarks en sim, on connaît la chanson.

IA physiqueOpinion
1 source
EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)
179arXiv cs.RO 

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

EXPO-FT est un système de fine-tuning par apprentissage par renforcement (RL) destiné à améliorer la fiabilité des politiques robotiques issues de modèles Vision-Langage-Action (VLA) pré-entraînés. Présenté dans un preprint arXiv (2605.25477, mai 2026), le système atteint un taux de réussite parfait : 30 succès sur 30 tentatives sur trois tâches de manipulation exigeantes. Ces tâches incluent guider une guirlande lumineuse dans son connecteur pour la faire s'allumer, frapper une balle de billard dans une poche, et insérer une fleur dans un goulot de bouteille à vin. Les résultats sont obtenus avec seulement 19,1 minutes en moyenne de données collectées sur robot réel, sans recours à la simulation. Le code source est publié en open source. Ce résultat attaque directement le "reliability gap" : l'écart persistant entre les capacités de généralisation des VLA pré-entraînés et leur fiabilité effective en conditions opérationnelles. Les modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) ou RT-2 (Google DeepMind) montrent une bonne généralisation entre tâches, mais peinent à dépasser les seuils de succès nécessaires en production industrielle. EXPO-FT propose une voie médiane : ni repartir de zéro avec du RL pur, coûteux en données et instable, ni se limiter au fine-tuning supervisé qui plafonne rapidement. En moins de 20 minutes de données réelles, le système atteint la perfection sur des exercices combinant précision millimétrique, dynamique de mouvement et robustesse aux variations d'état initial. Pour un intégrateur ou un COO déployant des bras robotiques sur ligne, c'est un signal que le commissioning par RL pourrait se mesurer en minutes plutôt qu'en jours, si ces résultats se confirment hors conditions de laboratoire. Ce travail s'inscrit dans la convergence accélérée entre LLM fondationnels et contrôle robotique amorcée depuis 2023. Google DeepMind avec Gemini Robotics, Physical Intelligence avec pi-0 et Covariant ont démontré que des politiques pré-entraînées à grande échelle offrent une base solide, mais la question du "last mile" restait ouverte. EXPO-FT y répond en publiant une infrastructure de RL finetuning stable et accessible. Les concurrents directs sur ce créneau sont les approches de reinforcement finetuning développées chez 1X Technologies et dans plusieurs labos académiques américains. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'ont pas encore publié de travaux équivalents sur le RL finetuning de VLA, soulignant un écart notable avec la recherche américaine sur ce segment précis.

UEL'absence de travaux équivalents côté européen (Enchanted Tools, Wandercraft) souligne un retard compétitif de l'écosystème EU sur le RL finetuning de VLA, segment clé pour industrialiser les politiques robotiques.

💬 30 sur 30, moins de 20 minutes de données réelles, code open source. C'est exactement le type de résultat qu'on attendait pour débloquer le commissioning robotique, parce que le vrai blocage n'a jamais été la généralisation (pi-0 et RT-2 l'ont prouvé) mais la fiabilité en conditions opérationnelles, ce fameux écart qui rend les démos impressionnantes et les déploiements industriels galères. Bon, sur le papier c'est parfait, mais je veux voir ça tenir sur une ligne d'assemblage qui ne ressemble pas à un setup de labo.

IA physiqueOpinion
1 source
Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres
180arXiv cs.RO 

Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres

Des chercheurs ont publié en mai 2026 sur arXiv (2605.23847) une étude portant sur l'instrumentation des objets manipulés comme levier pour améliorer l'apprentissage par imitation en robotique. La tâche choisie est l'insertion d'un cintre sur une tringle, opération représentative des défis de manipulation fine avec contact. L'équipe a collecté 180 démonstrations téléopérées pour entraîner des politiques de diffusion (diffusion policies), en comparant des variantes avec et sans accès aux données d'instrumentation, c'est-à-dire des capteurs intégrés directement dans l'objet manipulé plutôt que dans le robot. Les résultats montrent que les politiques exploitant ces signaux surpassent les variantes vision-only de 14 à 25 points de pourcentage, avec une meilleure conscience de la tâche. Point notable : une politique boîte noire apprend à prioriser spontanément les signaux capteurs sans guidage explicite lors de l'entraînement. Une approche student-teacher complète le tableau : en enrichissant le jeu de données avec des rollouts générés par un expert instrumenté, une politique vision-only étudiante atteint des performances comparables à cet expert, surpassant ainsi la ligne de base vision-only originale. Les datasets sont disponibles sur Zenodo. Ce résultat adresse un verrou structurel du domaine : les grands modèles de comportement (large behaviour models) pour la manipulation robotique restent bridés par des exigences de données prohibitives, contrairement aux modèles de vision-langage qui ont pu capitaliser sur des corpus massifs issus d'internet. L'instrumentation des objets, en fournissant des informations d'état précises sur les contacts et les forces lors de chaque démonstration, augmente la densité informationnelle sans multiplier le nombre de démos. L'approche student-teacher est particulièrement stratégique pour le déploiement industriel : elle permet de distiller la connaissance sensorielle dans un modèle déployable avec une simple caméra, sans instrumentation permanente de la production. Ces travaux s'inscrivent dans une dynamique plus large autour des politiques de diffusion en manipulation, popularisées par Chi et al. (2023) et intégrées dans des systèmes comme Pi-0 (Physical Intelligence) ou ACT. La piste de l'instrumentation rejoint des efforts parallèles sur les peaux tactiles et les capteurs force-couple, explorés notamment par MIT CSAIL, ETH Zurich, et des équipes INRIA côté européen. La portée reste cependant à nuancer : 180 démos sur une tâche de laboratoire contrôlée ne constitue pas une validation à l'échelle industrielle, et les auteurs ne rapportent aucune expérience en environnement de production réel. La mise à disposition publique des données sur Zenodo ouvre toutefois la voie à des reproductions et extensions indépendantes sur des tâches plus complexes.

UELes équipes INRIA et laboratoires européens travaillant sur les politiques de diffusion pour la manipulation peuvent directement exploiter les datasets publics Zenodo et reproduire l'approche student-teacher pour améliorer l'efficacité de leurs pipelines d'apprentissage par imitation.

RechercheOpinion
1 source
VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)
181arXiv cs.RO 

VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)

Une équipe de recherche vient de publier VLA-REPLICA (arXiv:2605.20774, mai 2026), un banc d'évaluation réel, bas coût et reproductible, conçu pour tester les modèles de type Vision-Language-Action (VLA) sur des tâches de manipulation robotique. L'architecture repose entièrement sur des composants disponibles dans le commerce, ce qui permet à n'importe quel laboratoire d'assembler le setup en quelques jours et de reproduire les mêmes conditions expérimentales. Le benchmark intègre une suite de tâches de manipulation variées, un dataset de démonstrations de petite taille pour l'adaptation au domaine cible, ainsi que des protocoles d'évaluation distincts pour des scénarios en distribution et hors distribution. Les expériences menées couvrent l'apprentissage par imitation classique et plusieurs modèles VLA de l'état de l'art, avec des résultats cohérents obtenus sur des setups construits indépendamment dans différents sites. L'enjeu derrière VLA-REPLICA est directement lié à un problème structurel du secteur : l'évaluation réelle des modèles VLA reste fragmentée, coûteuse, et difficile à comparer d'un labo à l'autre. Les benchmarks en simulation ne capturent pas la complexité du monde physique, tandis que les benchmarks réels existants exigent souvent du matériel spécialisé onéreux ou une évaluation centralisée. Ce benchmark vise à combler ce fossé en fournissant une infrastructure standardisée et décentralisée, ce qui est une condition nécessaire pour que la communauté puisse comparer honnêtement les modèles et identifier leurs limites réelles, notamment face au sim-to-real gap qui affecte encore la plupart des politiques de manipulation. Les modèles VLA ont connu une montée en puissance rapide ces deux dernières années, avec des systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA issu des travaux de Stanford et Berkeley. Malgré des performances impressionnantes en démo, leur déploiement industriel reste freiné par l'absence de protocoles d'évaluation partagés et comparables. VLA-REPLICA s'inscrit dans un mouvement plus large de standardisation des benchmarks robotiques, comparable à ce qu'ont représenté BOP ou NIST Task Board pour d'autres sous-domaines. La prochaine étape logique serait l'adoption de ce protocole par plusieurs équipes tier-1 pour valider la reproductibilité à grande échelle et créer une baseline commune sur laquelle ancrer les publications futures.

UELes laboratoires européens de robotique (CEA-List, INRIA, universités) peuvent adopter ce benchmark reproductible bas coût pour évaluer leurs modèles VLA sur une infrastructure standardisée, abaissant la barrière d'entrée aux comparaisons internationales sans dépendre de matériel onéreux ou de benchmarks centralisés.

💬 C'est le genre de truc qu'on attendait depuis deux ans, même si ça fait moins de bruit qu'un nouveau modèle. Les benchmarks en simulation ne capturent pas le monde physique, et les vrais setups coûtaient trop cher pour être reproduits d'un labo à l'autre. Du matos grand public et des protocoles partagés, c'est la fondation qui manquait pour que les comparaisons aient enfin du sens.

IA physiquePaper
1 source
Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine
182arXiv cs.RO 

Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine

Des chercheurs ont publié en mai 2026 MetaFine, un cadre de méta-évaluation diagnostique conçu pour mesurer avec précision les capacités de manipulation fine des robots. Contrairement aux benchmarks existants qui réduisent la performance à un taux de succès binaire (réussi ou échoué), MetaFine décompose la compétence de manipulation en trois axes distincts : la compréhension contextuelle de la scène, la perception spatiale haute fidélité, et l'exécution motrice sous contraintes. L'étude démontre que l'approche binaire classique surestime artificiellement les capacités des modèles vision-langage-action (VLA) jusqu'à 70%, masquant les goulots d'étranglement architecturaux qui bloquent le déploiement réel. Le framework s'appuie sur un graphe de tâches compositionnel capable d'absorber des benchmarks externes hétérogènes et de les reconstruire en scénarios diagnostiques de complexité variable, sous un protocole unifié. La validation hybride réel-simulation est également intégrée : un nombre limité de rollouts réels sert à calibrer des estimations simulées scalables pour un benchmarking physique plus robuste. L'enjeu est structurant pour le secteur : si les meilleurs modèles VLA actuels semblent performants selon les métriques classiques, MetaFine révèle des échecs sévères et dimension-spécifiques, invisibles jusqu'ici aux évaluateurs. L'analyse causale ciblée identifie l'encodeur visuel comme principal goulot d'étranglement pour la précision fine. Sa capacité à préserver la structure spatiale locale détermine directement l'accès à des capacités de manipulation jugées hors de portée : améliorer cet encodeur suffit à les débloquer sans modifier la politique de contrôle aval. Cette découverte oriente concrètement les priorités R&D pour les équipes d'ingénierie et les intégrateurs industriels qui cherchent à comprendre pourquoi leurs systèmes échouent en conditions réelles. MetaFine s'inscrit dans un contexte de prolifération de benchmarks pour la manipulation embodied, où la course aux métriques produit des systèmes sur-optimisés pour les tests mais fragiles à l'échelle. La communauté VLA fait face depuis plusieurs années au fossé démo-réalité : des résultats impressionnants en laboratoire qui ne se transfèrent pas en production. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix ont montré des performances prometteuses, mais leurs architectures restent difficiles à comparer rigoureusement faute d'outils d'évaluation adaptés. MetaFine propose de renverser la logique : passer du classement au diagnostic, pour identifier et corriger systématiquement les couches de capacités défaillantes. Le framework, les benchmarks et les ressources associées seront publiés en accès libre sur metafine.github.io.

UELe framework MetaFine, publié en accès libre, offre aux équipes R&D et intégrateurs industriels européens un outil diagnostique concret pour identifier les goulots d'étranglement architecturaux de leurs systèmes VLA, sans impact direct sur un acteur français ou européen spécifique.

IA physiquePaper
1 source
Auto-encodeurs épars ancrés dans les événements pour les politiques VLA
183arXiv cs.RO 

Auto-encodeurs épars ancrés dans les événements pour les politiques VLA

Une équipe de chercheurs a publié le 22 mai 2025 sur arXiv (référence 2605.17204) un pipeline d'interprétabilité pour les politiques Vision-Language-Action (VLA), ces modèles qui traduisent des instructions en langage naturel et des entrées visuelles directement en commandes motrices pour robots. Leur approche, baptisée Event-Grounded SAE (Sparse Autoencoder), ancre l'analyse des représentations internes du modèle à des événements comportementaux concrets plutôt qu'à des contextes textuels. Concrètement, des images-clés (keyframes) de l'effecteur terminal sont extraites et regroupées en clusters selon des critères visuels, d'état et temporels, puis associées optionnellement à des annotations sémantiques via un VLM. La méthode a été validée sur deux architectures en simulation et dans une étude sur robot réel, en ciblant notamment les modèles OpenVLA et pi-0.5 (Physical Intelligence). L'enjeu est considérable pour quiconque déploie des VLA en conditions industrielles : ces politiques restent des boîtes noires dont les représentations internes sont difficiles à auditer. Les outils d'interprétabilité mécaniste développés pour les LLMs ne se transfèrent pas directement aux VLA, car les sorties sont des vecteurs d'action continus, non des tokens lisibles, et chaque intervention ne peut être évaluée que via des rollouts en boucle fermée, coûteux à opérer. Le pipeline présenté est, selon les auteurs, parmi les premiers à ancrer l'analyse SAE dans des événements comportementaux fermés, ce qui produit les effets causaux les plus forts mesurés sur OpenVLA et se transfère aux chunks d'action continus de pi-0.5. Les auteurs notent toutefois des limites : le SAE est une base d'intervention sparse mais imparfaite, dont l'utilisabilité varie selon l'architecture et le point d'injection, et des interventions agressives révèlent des défaillances de sécurité non triviales. Ce travail s'inscrit dans une dynamique d'accélération autour des VLA, où des modèles comme OpenVLA (Berkeley), pi-0 et pi-0.5 (Physical Intelligence), ou encore GR00T N2 (NVIDIA) cherchent à généraliser la commande de robots via des fondations pré-entraînées à grande échelle. L'interprétabilité de ces modèles est devenue un prérequis non négociable pour les déploiements à risque élevé, un angle encore peu adressé face à la course aux benchmarks de performance. Les chercheurs identifient plusieurs directions prioritaires : aller au-delà des coordonnées alignées sur l'action, développer des évaluations en boucle fermée plus granulaires, et concevoir des mécanismes d'intervention sûrs. Le code est disponible publiquement sur GitHub (xc-j/Event-SAE).

UELes outils d'interprétabilité VLA présentés pourraient faciliter la conformité aux exigences d'explicabilité de l'AI Act européen pour les systèmes robotiques à haut risque, un angle encore peu adressé par les acteurs européens.

💬 Tout le monde court après les benchmarks VLA, et je vois peu de monde s'inquiéter de la boîte noire. Ce papier prend l'angle inverse et ancre l'interprétabilité dans des événements comportementaux concrets, validé sur robot réel (pas juste en sim), c'est exactement le genre de boulot qu'on attendait. Mauvaise surprise : les interventions agressives révèlent des failles de sécurité sérieuses, et si tu déploies des VLA en prod, ce papier mérite ton attention.

IA physiqueOpinion
1 source
Derrière le marathon robotique d'Honor : 7 fournisseurs chinois au service du robot Lightning
184Pandaily 

Derrière le marathon robotique d'Honor : 7 fournisseurs chinois au service du robot Lightning

Le 19 avril, sur le parcours semi-marathon de 21,0975 kilomètres du district de Yizhuang à Pékin, le robot humanoïde "Lightning" d'Honor, engagé sous l'étiquette de l'équipe Qitian Daxiansen, a franchi la ligne d'arrivée en 50 minutes et 26 secondes nets. Ce temps réduit de près des deux tiers le record de la compétition établi l'année précédente à 2 heures 40 minutes, et passe sous la barre du record du monde du semi-marathon masculin humain, fixé à 57 minutes et 20 secondes. Ce qui retient davantage l'attention que la performance brute, c'est la chaîne d'approvisionnement entièrement domestique qui sous-tend le robot : GigaDevice (兆易创新) fournit les puces NOR Flash et MCU pour le calcul et le stockage embarqués ; Lingyi iTech (领益智造) livre les composants structuraux de précision et les boîtiers assurant la gestion thermique ; Lens Technology (蓝思科技) produit les optiques de perception visuelle ; AAC Technologies (瑞声科技) contribue aux capteurs haute précision et aux composants acoustiques. Plusieurs autres fournisseurs non nommés couvrent les systèmes de motorisation, de gestion d'énergie et de capteurs de précision. Pour les intégrateurs et décideurs industriels, ce résultat constitue un signal plus structurel que conjoncturel. Il invalide en partie l'hypothèse du "demo gap" : "Lightning" a performé sous les contraintes d'un événement chronométré public, pas en environnement lab. Plus significatif encore, l'ensemble de la chaîne de valeur critique (semi-conducteurs, optique, acoustique, mécanique de précision) provient d'acteurs cotés en Chine, indiquant une autonomie croissante vis-à-vis des fournisseurs occidentaux ou japonais pour les composants humanoides. Ce n'est pas anecdotique dans un contexte de restrictions export sur puces avancées. Honor, connu comme fabricant de smartphones et ex-marque de Huawei, s'est positionné dans la robotique humanoïde depuis 2024, période de montée en puissance massive du secteur en Chine. La compétition de Yizhuang s'inscrit dans une série de benchmarks outdoor visant à différencier les constructeurs capables d'endurance réelle des acteurs encore en phase de démonstration vidéo. Les concurrents directs dans la course humanoïde incluent Unitree, Agibot et Fourier Intelligence côté chinois, ainsi que Figure (Figure 03), Tesla (Optimus Gen 3) et Physical Intelligence (pi0) côté américain. L'article source ne précise ni roadmap de déploiement commercial pour "Lightning" ni pilotes industriels annoncés, ce qui invite à traiter ce résultat comme un jalon technique plutôt qu'un produit shipé.

UELe découplage de la chaîne d'approvisionnement humanoïde chinoise vis-à-vis des fournisseurs occidentaux (semi-conducteurs, optique, mécanique de précision) fragilise à terme la compétitivité des équipementiers européens et renforce le débat autour des contrôles à l'export sur composants avancés.

Chine/AsieOpinion
1 source
Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA
185Robotics & Automation News 

Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA

L'Allen Institute for AI (Ai2), centre de recherche indépendant basé à Seattle et fondé par Paul Allen en 2014, a publié cette semaine MolmoAct 2, un modèle de fondation robotique open source conçu pour améliorer l'exécution de tâches physiques en environnement réel. Contrairement aux approches précédentes centrées sur des scénarios de laboratoire hautement contrôlés, MolmoAct 2 cible la généralisation à des environnements non structurés, en s'appuyant sur l'architecture multimodale de Molmo, le modèle vision-langage qu'Ai2 avait rendu public en 2024. Le modèle est diffusé sous licence ouverte, avec poids et code disponibles publiquement. L'enjeu pour l'industrie est direct : les modèles de fondation robotiques à diffusion ouverte réduisent la barrière d'entrée pour les intégrateurs et les équipes R&D qui ne disposent pas des ressources pour entraîner des politiques de zéro. MolmoAct 2 s'inscrit dans la lignée des travaux sur les VLA (Vision-Language-Action models), une architecture qui couple perception visuelle, compréhension du langage naturel et génération de commandes motrices. L'ouverture du modèle permet des audits indépendants et une adaptation à des morphologies robotiques variées, ce qui est difficile avec des modèles propriétaires comme GR00T N2 de NVIDIA ou π0 de Physical Intelligence. Ai2 est surtout connu pour ses contributions au NLP (AllenNLP, Semantic Scholar) avant de pivoter vers la robotique incarnée. MolmoAct 2 le place directement en concurrence avec les initiatives open source existantes comme OpenVLA (Berkeley) et les modèles RT-X de Google DeepMind, dans un secteur où Physical Intelligence, Figure AI et 1X Technologies se disputent le leadership sur les déploiements industriels. L'article source étant partiellement tronqué, les métriques de performance (taux de succès, benchmarks sur manipulation) et les éventuels partenariats de déploiement n'ont pas pu être vérifiés.

UELes équipes R&D et intégrateurs européens peuvent accéder librement aux poids et au code de MolmoAct 2, réduisant la dépendance aux modèles propriétaires américains pour le développement de politiques robotiques.

💬 C'est le genre de modèle qu'on attend depuis que tout le monde se bat pour faire des démos en labo. L'ouverture des poids, c'est pas juste un geste de générosité, c'est ce qui permet aux équipes R&D d'adapter le truc à leur propre morphologie robotique sans repartir de zéro. Reste à voir si ça tient face à des environnements vraiment non structurés, parce que "généralisation" c'est un mot qu'on lit souvent dans les papiers, moins souvent dans les entrepôts.

IA physiqueOpinion
1 source
Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur
186arXiv cs.RO 

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Le fine-tuning non contraint des modèles Vision-Language-Action (VLA) basés sur le flow matching provoque un phénomène bien documenté : l'écrasement massif des paramètres entraînés, qui dégrade les capacités générales acquises en pré-entraînement. Une équipe de recherche publie sur arXiv (2605.08879) une méthode baptisée ConSFT (Conservative Supervised Fine-Tuning), un nouvel objectif d'optimisation qui permet d'adapter un VLA à une distribution cible sans effacer ses compétences préalables. La méthode a été évaluée sur les benchmarks LIBERO et RoboTwin avec trois modèles de référence : pi-0, pi-0.5 et GR00T-N1.6-3B. Résultat : ConSFT dépasse le fine-tuning supervisé classique de plus de 20 points absolus en rétention de capacités, et rivalise avec l'Experience Replay, une méthode connue mais gourmande en données historiques, sans en nécessiter aucune. Des déploiements physiques sur robots confirment que la méthode évite le surapprentissage spatial lors de l'adaptation à des tâches séquentielles nouvelles. L'enjeu est central pour l'industrialisation des robots manipulateurs polyvalents. Les VLA de type flow matching, comme pi-0 de Physical Intelligence ou GR00T-N1.6-3B de NVIDIA, sont pré-entraînés sur de larges corpus de démonstrations et constituent la base d'agents robotiques généralistes. Mais leur adaptation à un contexte opérationnel précis (cellule de montage, poste de picking spécifique) détruit systématiquement une partie des compétences acquises, forçant les intégrateurs à choisir entre spécialisation et généralité. ConSFT rompt ce compromis : en modulant dynamiquement le signal d'apprentissage selon la confiance du modèle sur chaque échantillon, il bride les gradients excessifs des cas à faible confiance, limitant la perturbation des paramètres. L'inspiration provient du trust-region clipping du reinforcement learning (PPO), transposé ici en apprentissage supervisé. Les modèles VLA à flow matching représentent la génération actuelle des architectures de contrôle robot les plus performantes. Physical Intelligence a lancé pi-0 fin 2024, suivi de pi-0.5 en 2025 ; NVIDIA a publié GR00T N1 puis N1.6 dans le même intervalle. L'oubli catastrophique lors du fine-tuning est un obstacle pratique que plusieurs équipes tentent de contourner, notamment via l'Experience Replay ou des architectures à réseau de référence parallèle. ConSFT propose une voie plus légère : aucune donnée antérieure requise, aucun réseau auxiliaire, aucune modification architecturale. La méthode reste à valider sur des tâches industrielles longues et des robots avec dextérité fine, mais les résultats sur LIBERO et les expériences physiques publiées suggèrent un transfert sim-to-real fonctionnel.

IA physiqueOpinion
1 source
AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances
187arXiv cs.RO 

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

AffordSim est un générateur de données simulées et benchmark pour la manipulation robotique consciente des affordances, publié en preprint sur arXiv en mai 2026 (référence 2604.11674). Le système répond à un problème structurel : les estimateurs de préhension génériques optimisent la stabilité sans logique de tâche et sélectionnent souvent la mauvaise zone fonctionnelle de l'objet, tandis que les annotations manuelles de contact doivent être réécrites pour chaque nouvel objet et chaque nouvelle tâche. AffordSim intègre la prédiction d'affordances 3D à vocabulaire ouvert dans un pipeline de simulation : à partir d'une instruction en langage naturel, il synthétise la scène, localise les régions fonctionnelles pertinentes sur les surfaces d'objets (la poignée d'une casserole, le bouton d'un tiroir), échantillonne des prises conditionnées à ces régions, puis sélectionne les trajectoires exécutables par planification de mouvement. La randomisation de pose, texture, éclairage et bruit d'image est intégrée pour favoriser le transfert sim-to-real. Le benchmark couvre 50 tâches, cinq embodiments robotiques distincts et plus de 500 objets rigides et articulés. Les politiques VLA (Vision-Language-Action) entraînées sur ces données transfèrent zéro-shot vers un Franka FR3 réel avec 24 % de succès moyen, sans aucun fine-tuning sur données physiques. La zone fonctionnelle d'un objet, l'affordance, est précisément le point de défaillance ignoré par les benchmarks de manipulation génériques : saisir le mauvais endroit rend l'action aval impossible quel que soit le planificateur. AffordSim atteint 93 % du taux de succès des annotations manuelles sur les tâches critiques d'affordance, et 89 % sur les tâches composites difficiles, ce qui valide l'annotation automatisée comme substitut crédible à l'annotation humaine à grande échelle. Pour les équipes développant des modèles de fondation robotique ou des politiques VLA, cela réduit drastiquement le coût de génération de données diversifiées. Le score de 24 % en zero-shot reste modeste, mais il constitue une preuve de principe importante : un pipeline entièrement simulé peut produire des politiques opérationnelles sur matériel réel, condition nécessaire à un déploiement industriel scalable. AffordSim s'inscrit dans la vague des générateurs de données synthétiques pour la manipulation, aux côtés de RoboGen, GenSim et des pipelines Nvidia Isaac. Le Franka FR3, bras académique de référence vendu autour de 15 000 euros, est l'unique plateforme réelle testée, ce qui limite la portée des conclusions hors de ce contexte de laboratoire. Les modèles de fondation robotique comme pi0 (Physical Intelligence) ou OpenVLA constituent le terrain applicatif naturel de cet outil. En Europe, des équipes comme le LAAS-CNRS à Toulouse et des startups comme Enchanted Tools (Paris, robots manipulateurs expressifs) pourraient exploiter ce type de générateur pour réduire leur dépendance aux plateformes de données propriétaires américaines. Ce travail restant un preprint non encore évalué par les pairs, les métriques avancées devront être confirmées lors d'une soumission en conférence (CoRL, RSS ou ICRA).

UELes équipes européennes comme le LAAS-CNRS (Toulouse) et Enchanted Tools (Paris) pourraient exploiter AffordSim pour réduire leur dépendance aux plateformes de données propriétaires américaines dans le développement de politiques VLA.

RechercheOpinion
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
188arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

IA physiqueOpinion
1 source
Comment enseigner la même compétence à différents robots
189Robohub 

Comment enseigner la même compétence à différents robots

Des chercheurs de l'EPFL ont publié en 2026 dans la revue Science Robotics un nouveau cadre de contrôle robotique baptisé "Kinematic Intelligence", développé au sein du laboratoire LASA (Learning Algorithms and Systems Laboratory) sous la direction d'Aude Billard. Le principe repose sur trois étapes : une tâche démontrée une seule fois par un opérateur humain est capturée via motion-capture, convertie mathématiquement en une stratégie de mouvement générique, puis automatiquement adaptée aux contraintes cinématiques de chaque robot cible (amplitudes articulaires, positions d'équilibre, limites mécaniques). Dans une expérience conduite sur une ligne d'assemblage, un humain démontre trois actions successives - pousser un bloc de bois d'un convoyeur vers un établi, le déposer sur une table, puis le lancer dans un panier - et trois robots commerciaux de morphologies différentes reproduisent fidèlement cette séquence, y compris lorsque la répartition des étapes entre machines est modifiée en cours d'exécution. L'enjeu industriel est direct : reprogrammer une flotte de robots lors d'un changement de génération matérielle représente aujourd'hui un coût significatif en temps et en expertise, même quand les nouvelles machines remplissent des fonctions identiques. Kinematic Intelligence propose une alternative concrète : démontrer une fois, déployer sur plusieurs plateformes sans réécriture. Pour les intégrateurs et les décideurs industriels, cela ouvre la voie à une réduction du temps de mise en service et à une meilleure résilience face à l'évolution rapide du hardware robotique. La publication valide également une hypothèse structurante : un transfert de compétences cross-robot peut garantir formellement un comportement sûr et prédictible, sans recourir à de l'apprentissage par renforcement spécifique à chaque plateforme. Sthithpragya Gupta (doctorant LASA, co-premier auteur) et Durgesh Haribhau Salunkhe (chercheur LASA, co-premier auteur) soulignent que "chaque robot interprète la même compétence à sa façon, mais toujours dans des limites sûres et faisables". À noter : aucune métrique de taux de succès agrégé ni de temps de cycle n'est communiquée publiquement, ce qui limite l'évaluation quantitative de la robustesse à grande échelle. Le LASA est un laboratoire de référence en apprentissage par démonstration (Learning from Demonstration), avec une trajectoire longue sur l'imitation du mouvement humain. La recherche s'inscrit dans un paysage concurrentiel dense : les approches VLA (Vision-Language-Action) de Google DeepMind, pi-0 de Physical Intelligence ou les frameworks sim-to-real de Figure AI et Boston Dynamics visent eux aussi à réduire le coût de déploiement cross-plateforme, mais s'appuient sur de grands volumes de données et du fine-tuning. Kinematic Intelligence se distingue par son approche analytique et sa garantie formelle de sécurité, deux propriétés potentiellement attractives dans des environnements réglementés comme l'industrie pharmaceutique, automobile ou agroalimentaire. Les prochaines étapes annoncées incluent la collaboration humain-robot et l'interaction en langage naturel, avec l'ambition de rendre le système opérable sans expertise en programmation robotique.

UELa recherche de l'EPFL-LASA ouvre une piste concrète pour les intégrateurs industriels européens souhaitant réduire les coûts de reprogrammation lors des renouvellements de flottes robotiques, notamment dans les secteurs pharmaceutique, automobile et agroalimentaire.

RecherchePaper
1 source
Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls
190Interesting Engineering 

Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls

Figure AI a publié en mai 2026 une vidéo montrant deux robots humanoïdes Helix-02 réinitialiser une chambre à coucher de façon autonome en moins de deux minutes. Les robots ouvrent une porte, accrochent un manteau, ferment un ordinateur portable, rangent un casque, repositionnent des meubles, gèrent une poubelle, et confectionnent ensemble le lit en lissant la couette. L'ensemble de la séquence repose sur un unique modèle Vision-Language-Action (VLA) partagé, le système Helix développé en interne. Aucun planificateur central, aucun contrôleur partagé, aucune communication directe entre les deux unités : chaque robot n'utilise que ses caméras embarquées et sa politique apprise pour inférer les intentions de son partenaire via le mouvement observé. En parallèle, Figure a annoncé que son usine BotQ en Californie produit désormais un robot Figure 03 par heure, contre un par jour quatre mois plus tôt, une cadence de production qui change la discussion sur la scalabilité industrielle des humanoïdes. Ce que cette démonstration prouve, avec les réserves habituelles sur les vidéos sélectionnées, c'est que la coordination multi-robot sans communication explicite devient opérationnelle dans des environnements non structurés. Le défi de la couette est illustratif : un objet déformable sans géométrie stable ni point de préhension prédéfini, tenu simultanément par deux agents qui doivent anticiper les mouvements l'un de l'autre en temps réel. C'est précisément le type de tâche que les approches par script ou par planification centralisée échouent à généraliser. L'intégration du whole-body control, locomotion dynamique sur un seul appui, utilisation de pédales, manipulation d'objets articulés, dans le même modèle VLA suggère que le gap sim-to-real se réduit concrètement : Figure affirme que les comportements entraînés en simulation par reinforcement learning se transfèrent sans calibration supplémentaire sur le robot physique, une affirmation qui mérite confirmation sur des volumes de déploiement plus larges. Figure AI, fondée en 2022 et ayant levé plus d'un milliard de dollars auprès d'investisseurs dont OpenAI, Microsoft et NVIDIA, positionne Helix comme une alternative aux approches modulaires de Boston Dynamics (Atlas), Tesla (Optimus Gen 3) et Physical Intelligence (Pi-0). Agility Robotics (Digit) et Apptronik (Apollo) ciblent davantage la logistique en entrepôt, tandis que Figure et 1X Technologies visent explicitement le domicile et les environnements non structurés. La mise à jour récente de Helix ajoute des caméras stéréo RGB pour une compréhension 3D temps réel via le modèle S0, combinant perception visuelle et proprioception là où les versions précédentes ne s'appuyaient que sur cette dernière. Aucun déploiement commercial en milieu résidentiel n'a encore été annoncé, mais le rythme de production de BotQ et les jalons techniques publiés positionnent un pilote industriel en environnement semi-contrôlé comme horizon réaliste à 12-18 mois.

UELa montée en cadence industrielle de Figure AI (1 robot/heure chez BotQ) et la coordination multi-robot sans communication explicite fixent un étalon technique que les acteurs européens de l'humanoïde comme Enchanted Tools devront intégrer dans leurs feuilles de route concurrentielles.

HumanoïdesOpinion
1 source
Large Video Planner permet un contrôle robotique généralisable
191arXiv cs.RO 

Large Video Planner permet un contrôle robotique généralisable

Des chercheurs publient Large Video Planner (LVP), un modèle de fondation robotique reposant sur un préentraînement vidéo massif plutôt que sur les approches vision-langage-action (VLA) dominantes. Alimenté par un corpus à l'échelle internet d'activités humaines et de démonstrations de tâches, LVP est le premier modèle de ce type entraîné à l'échelle d'un modèle de fondation. Le système génère des plans vidéo en zero-shot pour des scènes et tâches inédites, que l'équipe post-traite pour en extraire des actions exécutables sur un robot physique. Des tests en conditions réelles, avec des tâches sélectionnées par des tiers indépendants, confirment la faisabilité de l'exécution. Le modèle et le jeu de données sont publiés en open source. L'intérêt stratégique de LVP tient au paradigme alternatif qu'il représente face aux VLA dominants, qui étendent des grands modèles de langage multimodaux (MLLM) avec des sorties d'actions. L'argument central est que la vidéo, contrairement aux images statiques et au texte, capture naturellement la dynamique spatio-temporelle du monde physique, offrant un biais inductif mieux aligné avec les politiques motrices robotiques. La généralisation zero-shot validée par des tiers apporte de la crédibilité à cette thèse. En revanche, le post-traitement nécessaire pour convertir des plans vidéo en commandes robotiques exécutables constitue un maillon méthodologique critique dont la robustesse hors conditions de laboratoire reste à démontrer à grande échelle. Ce travail s'inscrit dans une course aux modèles de fondation robotiques où Physical Intelligence (Pi-0, 400 millions de dollars levés fin 2024), NVIDIA (GR00T N2), Figure AI (Helix) et Google DeepMind (RT-2, RT-X) imposent leurs architectures VLA. Déposé sur arXiv en décembre 2025 (2512.15840v2), LVP représente l'une des premières alternatives open source à cette échelle, ce qui pourrait le rendre structurant pour les laboratoires académiques et les intégrateurs ne disposant pas de ressources de calcul propriétaires. La publication reste au stade de la preuve de concept académique, mais l'ouverture du modèle et du dataset est susceptible d'accélérer les travaux sur l'apprentissage robotique par démonstration vidéo.

UELes laboratoires académiques et intégrateurs européens sans ressources de calcul propriétaires pourront exploiter le modèle et le dataset open source de LVP comme alternative crédible aux architectures VLA propriétaires des acteurs américains.

💬 L'approche VLA écrase tout en ce moment, donc quand quelqu'un propose un paradigme différent, à l'échelle d'un modèle de fondation et en open source, c'est pas anodin. La logique tient : la vidéo capture la dynamique du monde physique mieux que du texte ou des images statiques, et les tests zero-shot validés par des tiers donnent de la crédibilité à ça. Le point critique, c'est le post-traitement pour convertir les plans vidéo en commandes robot, et hors conditions de labo, reste à voir si ça tient.

IA physiqueOpinion
1 source
ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA
192arXiv cs.RO 

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Une équipe de recherche publie ce 7 mai 2026 ConsisVLA-4D (arXiv:2605.05126), un framework unifié pour la manipulation robotique qui cherche à résoudre deux angles morts structurels des modèles Vision-Language-Action actuels : la perception spatiale 3D et le raisonnement temporel 4D. L'architecture repose sur trois modules complémentaires. Le premier, CV-Aligner, filtre les régions pertinentes à l'instruction en cours et aligne les identités d'objets entre plusieurs points de vue, assurant une cohérence sémantique inter-caméras. Le second, CO-Fuser, élimine les ambiguïtés de relations spatiales entre objets via des représentations latentes compactes, sans recourir à des capteurs de profondeur dédiés. Le troisième, CS-Thinker, combine les tokens sémantiques de CV-Aligner et les tokens géométriques de CO-Fuser pour construire une représentation implicite des dynamiques locales et globales de la scène, permettant un raisonnement visuel continu au fil de l'exécution. Les auteurs rapportent des gains de 21,6 % sur le benchmark LIBERO et de 41,5 % en environnement réel par rapport à OpenVLA, avec des accélérations d'inférence respectives de 2,3x et 2,4x. Le code est publié en open source. Ces résultats sont significatifs pour le débat, toujours ouvert dans le secteur, sur la capacité des VLA à passer de la démonstration contrôlée au déploiement réel. Le gain le plus notable est celui en conditions réelles (+41,5 % vs +21,6 % en simulation), ce qui suggère que la cohérence spatiotemporelle adresse précisément le sim-to-real gap que d'autres architectures peinent à combler. L'absence de capteur de profondeur dédié est également un point concret pour les intégrateurs industriels : réduire la dépendance à des capteurs supplémentaires diminue le coût de déploiement et la surface de défaillance. L'accélération d'inférence de 2,3x à 2,4x, si elle se confirme dans des cycles de manipulation industriels (pick-and-place, assemblage), est un argument directement actionnable pour des COO cherchant à calibrer le throughput de cellules robotisées. Il convient toutefois de noter que les métriques sont mesurées contre OpenVLA, qui reste une baseline académique, et non contre des systèmes commerciaux comme pi-0 (Physical Intelligence) ou Helix (Figure), ce qui limite la portée comparative. Les modèles VLA de première génération, dont OpenVLA et RT-2, se sont construits sur des pipelines essentiellement 2D, héritant des architectures vision-langage conçues pour la compréhension d'images statiques. La contrainte de cohérence spatiotemporelle que ConsisVLA-4D formalise est un problème que l'ensemble des acteurs du secteur, Physical Intelligence avec pi-0, DeepMind avec RT-X, et Boston Dynamics sur le plan applicatif, tentent de résoudre par des voies différentes (données de préentraînement massives, retour haptique, diffusion de politiques). Dans le paysage français et européen, des entreprises comme Enchanted Tools et Wandercraft travaillent sur des problématiques adjacentes de contrôle robuste en environnement non structuré, où la perception multi-vue est également un verrou. La prochaine étape logique pour ConsisVLA-4D sera de confronter le framework à des tâches longue-horizon et à des environnements non rigides, deux cas d'usage encore peu couverts par le benchmark LIBERO.

UELes entreprises européennes comme Enchanted Tools et Wandercraft, confrontées au verrou de la perception multi-vue en environnement non structuré, pourraient intégrer le framework open-source ConsisVLA-4D pour renforcer leur contrôle robuste sans capteur de profondeur dédié.

💬 Le gain en conditions réelles (+41,5 %) qui dépasse celui en simulation, c'est le signe que quelque chose de structurel est résolu, pas juste un overfitting sur benchmark. Pas de capteur de profondeur dédié en plus, ce qui change vraiment le calcul pour l'intégration industrielle. Bon, la baseline c'est OpenVLA, pas pi-0, donc on garde les pieds sur terre.

IA physiqueOpinion
1 source
Atlas de Boston Dynamics épate avec un appui tendu renversé parfait
193Interesting Engineering 

Atlas de Boston Dynamics épate avec un appui tendu renversé parfait

Boston Dynamics a publié de nouvelles séquences de test montrant son robot humanoïde Atlas enchaîner une série de figures acrobatiques avancées : passage d'une posture debout vers un équilibre sur une jambe, descente des mains au sol, puis montée en poirier complet avec rotation des jambes à 180 degrés grâce à des épaules à mobilité étendue, maintien en L-sit pendant plusieurs secondes, et retour fluide en position verticale. Ces capacités reposent sur un système de contrôle corps entier entraîné par apprentissage par renforcement en simulation, conçu pour un transfert dit "zero-shot" : les politiques apprises en simulation sont déployées directement sur le matériel sans recalibration spécifique à la tâche. La version de production de l'Atlas dispose de 56 degrés de liberté et d'un préhenseur à quatre doigts avec retour haptique. Hyundai Motor Group, maison-mère de Boston Dynamics, a confirmé un déploiement sur le site Hyundai Motor Group Metaplant America d'ici 2028, d'abord pour le séquençage de pièces, puis pour l'assemblage complet de composants à l'horizon 2030. Ce que ces démonstrations valident avant tout, c'est la robustesse du sim-to-real sur des comportements hautement dynamiques : le fait qu'une politique unique gouverne à la fois la locomotion, la manipulation et la récupération après instabilité contredit les architectures traditionnelles en pipeline séparé. Pour les intégrateurs industriels et les décideurs B2B, le signal important n'est pas le poirier en lui-même, mais ce qu'il teste : la capacité du stack logiciel à gérer des forces de contact imprévisibles, des transitions posturales rapides et des corrections de couple articulaire en temps réel. C'est exactement ce que requièrent les environnements d'assemblage contraints, où un robot doit adapter sa posture à des espaces réduits et manipuler des pièces à géométrie variable. Cela dit, la prudence s'impose : les vidéos publiées sont sélectionnées et ne renseignent pas sur les taux d'échec, le temps de cycle moyen, ni les conditions environnementales réelles. Boston Dynamics développe Atlas depuis plus d'une décennie, le robot ayant progressivement évolué d'une plateforme hydraulique à un système entièrement électrique présenté en 2024. Cette phase de validation acrobatique, menée en collaboration avec le Robotics & AI Institute, s'inscrit dans la transition explicite de la recherche vers la production industrielle. Sur le marché humanoïde, l'entreprise se positionne face à Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), et NVIDIA/GR00T N2 comme backbone de contrôle, ainsi que 1X, Agility Robotics ou Apptronik pour les applications logistiques. L'ancrage dans l'écosystème Hyundai lui confère un débouché industriel direct que peu de concurrents peuvent revendiquer aujourd'hui. Les prochaines étapes annoncées pointent vers des pilotes terrain chez Hyundai en 2026-2027 avant le déploiement confirmé à grande échelle en 2028.

HumanoïdesOpinion
1 source
Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation
194arXiv cs.RO 

Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation

Des chercheurs ont proposé sur arXiv (arXiv:2605.01544, mai 2026) une métrique automatisée pour évaluer la qualité des démonstrations en apprentissage par imitation (IL), fondée sur la densité spectrale de puissance (PSD) des trajectoires enregistrées. Une PSD faible signale une trajectoire lisse et exploitable ; une PSD élevée indique oscillations, corrections abruptes et mouvements erratiques qui dégradent les politiques apprises. Contrairement aux méthodes existantes, la métrique ne requiert ni rollout de politique, ni interaction avec l'environnement, ni étiquetage expert. Elle a été évaluée sur deux benchmarks IL et via une étude terrain avec des résidents âgés d'un établissement de retraite, dont les démonstrations ont servi à affiner π0.5 de Physical Intelligence pour une tâche de vie quotidienne. Les politiques issues des données filtrées par PSD surpassent les baselines non filtrées et deux méthodes concurrentes en taux de succès et en fluidité d'exécution. Le déploiement réel de robots guidés par imitation bute sur les scénarios hors distribution (OOD), aggravés par la faible qualité des démonstrations d'utilisateurs finaux. Les approches existantes de curation automatisée exigeaient des rollouts en environnement, coûteux et impraticables à grande échelle. La métrique PSD supprime ce verrou : applicable avant tout entraînement, elle filtre les démonstrations directement au moment de la collecte terrain. Pour les intégrateurs de robots manipulateurs en environnements non contrôlés, cela réduit concrètement le coût de mise en qualité des données sans ressources RL dédiées. Le travail s'inscrit dans l'essor des VLA (Vision-Language-Action models), où π0.5 de Physical Intelligence figure parmi les modèles de fondation robotique disponibles pour le fine-tuning, mais le défi du "demo-to-reality gap" reste l'un des freins majeurs au passage à l'échelle de l'IL. En ciblant des utilisateurs âgés peu habitués au guidage de robots, l'étude ouvre une piste vers la robotique d'assistance, segment où des acteurs comme Enchanted Tools en France cherchent à s'implanter. La prochaine étape logique serait l'intégration de cette métrique dans des pipelines de collecte en production, couplée à des retours temps réel pour guider les utilisateurs vers de meilleures démonstrations dès la capture.

UELa métrique PSD pourrait réduire le coût de curation de données pour des acteurs européens comme Enchanted Tools (France), actifs en robotique d'assistance, en supprimant le besoin de rollouts environnementaux coûteux lors du fine-tuning de modèles VLA.

RechercheOpinion
1 source
Revue complète des modèles du monde pour l'apprentissage robotique
195arXiv cs.RO 

Revue complète des modèles du monde pour l'apprentissage robotique

Un groupe de chercheurs a publié début mai 2026 une revue systématique sur les modèles de monde appliqués à l'apprentissage robotique (arXiv:2605.00080). Ces modèles sont des représentations prédictives qui modélisent l'évolution d'un environnement en réponse aux actions d'un agent. Utilisés dans six fonctions distinctes, policy learning, planification, simulation, évaluation, génération de données et entraînement à l'échelle fondation, ils sont devenus un composant central des architectures robotiques modernes. Le survey couvre les grandes familles d'architectures, leurs rôles fonctionnels et leurs applications dans l'embodied AI, en s'étendant à la navigation mobile et à la conduite autonome. Les auteurs inventorient également les benchmarks et protocoles d'évaluation disponibles dans le domaine, et maintiennent un dépôt GitHub mis à jour en continu pour intégrer les travaux émergents. L'intérêt de cette synthèse réside dans la fragmentation actuelle du domaine : les architectures de modèles de monde se développent en silos, reinforcement learning, génération vidéo, VLA (Vision-Language-Action models), avec peu de recoupement méthodologique. Le survey clarifie comment ces modèles s'articulent avec les politiques robotiques, comment ils servent de simulateurs appris pour le RL, et comment les modèles de monde vidéo ont évolué de la génération par imagination vers des formulations contrôlables à l'échelle fondation. Pour les équipes R&D et les intégrateurs industriels, cette cartographie facilite le choix architectural et réduit le risque de duplication des efforts. L'accélération récente du domaine est en partie portée par la montée en puissance des foundation models et de la génération vidéo large-scale depuis 2023. Les modèles de monde en robotique s'enracinent dans les travaux de Schmidhuber dans les années 1990 et ont connu un regain majeur avec DreamerV3 (Google DeepMind, 2023), UniSim, et les VLA récents intégrant une prédiction d'état futur comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les acteurs dominants restent américains et chinois, DeepMind, NVIDIA, Physical Intelligence, Figure AI, avec des contributions académiques majeures de Stanford, MIT et Berkeley. En Europe, les contributions restent moins visibles à l'échelle internationale, bien que des acteurs comme Pollen Robotics (France) et l'INRIA travaillent sur des approches connexes. Le principal défi identifié est de combler le sim-to-real gap via des modèles suffisamment fidèles pour substituer partiellement les environnements physiques dans la boucle d'entraînement.

UEPollen Robotics et l'INRIA sont mentionnés comme acteurs connexes mais restent en retrait international ; cette cartographie peut aider les équipes européennes à identifier les lacunes à combler face à la domination américaine et chinoise.

RecherchePaper
1 source
Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites
196arXiv cs.RO 

Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites

Une étude publiée sur arXiv (référence 2505.03500, version 5, mai 2026) expose une limitation structurelle des modèles VLA (Vision-Language-Action) : leur incapacité à combiner des compétences apprises séparément pour exécuter des tâches inédites. L'exemple présenté est parlant, un VLA peut réussir à placer du fromage frais dans un bol et à poser ce bol sur une armoire, mais échoue à placer directement le fromage sur l'armoire. Pour quantifier ce déficit, les chercheurs ont créé libero-ood, un benchmark de 20 tâches extrapolées depuis les suites standards LIBERO. Résultat net : l'ensemble des VLA état-de-l'art testés plafonnent à moins de 15 % de succès. En appliquant leur technique d'interpolation de latents textuels au modèle π0 de Physical Intelligence, les auteurs atteignent 83 % sans aucun réentraînement. Autre découverte préoccupante : des prompts illisibles pour un humain, obtenus par décodage du latent textuel, suffisent à piloter le VLA à 70 % de succès sur LIBERO standard, ouvrant la voie à des attaques de type backdoor ou à des instructions privées non auditables. La méthode repose sur l'extraction d'un "latent textuel" par tâche de base, en moyennant les états cachés des tokens textuels sur l'ensemble des trajectoires démontrées. Pour exécuter une tâche composite inédite, les chercheurs interpolent temporellement les latents de deux tâches sources et les réinjectent dans le modèle à l'inférence, activant séquentiellement les sous-comportements correspondants. Ce résultat remet en question l'hypothèse d'une compréhension sémantique robuste dans les VLA actuels : l'analyse qualitative révèle un phénomène de surapprentissage spatial, les modèles associant les noms d'objets à des emplacements démontrés plutôt qu'à des entités abstraites. Pour les intégrateurs et décideurs industriels, cela signifie que les benchmarks standards ne détectent pas ces angles morts compositionnels, et que la qualification de systèmes autonomes en production devrait systématiquement inclure des tâches out-of-distribution. LIBERO est depuis plusieurs années une référence en manipulation robotique tabletop ; libero-ood comble un angle mort important sur la généralisation hors distribution. π0, développé par Physical Intelligence (fondée en 2023 par d'anciens chercheurs de Google et DeepMind, dont Sergey Levine et Chelsea Finn), s'est imposé comme l'un des VLA les plus performants du marché via son architecture flow-matching. Les modèles concurrents testés ici, notamment OpenVLA (Berkeley) et Octo, affichent les mêmes limites compositionnelles. Ce travail, encore au stade preprint, pose les bases d'un nouveau critère d'évaluation pour les VLA et soulève des questions de sécurité concrètes qui devraient alerter les équipes déployant ces modèles en environnement industriel non supervisé.

UELes équipes R&D et industriels européens déployant des VLA en production doivent revoir leurs protocoles de qualification pour y intégrer des tâches hors-distribution, les benchmarks standards ne détectant pas les angles morts compositionnels exposés ici.

IA physiqueOpinion
1 source
Unitree redéfinit le marché des robots humanoïdes d'entrée de gamme avec un modèle à 4 290 $
197Interesting Engineering 

Unitree redéfinit le marché des robots humanoïdes d'entrée de gamme avec un modèle à 4 290 $

Unitree, la firme de robotique fondée à Hangzhou en Chine, a dévoilé un nouveau robot humanoïde à bras duaux baptisé G1 (version upper-body), commercialisé à partir de 26 900 yuans, soit environ 4 290 dollars. Le robot abandonne la structure corps entier traditionnelle au profit d'une architecture modulaire : base fixe ou châssis mobile selon le cas d'usage. Chaque bras est disponible en configuration 5-DOF ou 7-DOF, pour un total de 15 à 31 degrés de liberté selon la variante choisie. Le poignet offre une rotation de la taille à ±150°, la tête supporte ±115° en lacet et ±36° en tangage, et le préhenseur atteint une répétabilité de ±0,1 mm. La charge utile est de 2 kg par bras. Le système embarque une vision binoculaire stéréo, un tableau de quatre microphones et une interaction vocale, le tout animé par deux CPU 8 cœurs haute performance, complétés par un module de vision en tête délivrant 10 TOPS de calcul IA. Le robot supporte alimentation externe ou embarquée, et pèse entre 11 et 32 kg selon configuration. La même semaine, Unitree publiait une démonstration de son G1 bipède intégral effectuant des pirouettes et des rotations sur patins à roulettes via un contrôle roue-jambe coordonné, un exercice spectaculaire mais sans lien direct avec les capacités industrielles annoncées ici. Ce tarif de 4 290 dollars positionne Unitree comme l'entrée de gamme la plus accessible du segment manipulation humanoïde, un marché encore dominé par des plateformes à cinq ou six chiffres. Si la stratégie reproduit le succès de la série Go (robots quadrupèdes qui ont conquis la communauté académique et dev en cassant les prix), elle pourrait accélérer significativement l'écosystème autour de la robotique de manipulation. L'accès à du matériel capable à faible coût réduit la dépendance à la simulation, raccourcit les cycles d'itération et permet des tests en conditions réelles, ce qui est critique pour les travaux en embodied AI, notamment sur les VLA (Vision-Language-Action models). Reste que les interfaces de bas niveau exposées pour le développement secondaire sont un vrai signal positif : elles indiquent un positionnement outillage de recherche autant que produit commercial. Unitree avait déjà introduit en 2025 le R1, un humanoïde complet à 26 articulations vendu 39 999 yuans (environ 5 900 dollars), confirmant une ligne directrice claire : prix d'entrée agressif, itération rapide, capture de l'écosystème développeur avant de monter en gamme. Le paysage concurrentiel reste dense : Boston Dynamics dispose d'une profondeur technique éprouvée et de relations entreprise établies ; Figure AI (Figure 03), Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Agility Robotics positionnent leurs systèmes sur la fiabilité industrielle et les déploiements à grande échelle, segments où la réputation et le support comptent autant que le prix. La vraie mesure du succès de cette plateforme se lira dans six à douze mois, au travers des projets open-source, travaux académiques et startups early-stage qui choisiront, ou non, de construire dessus.

UEL'offre à prix cassé de Unitree pourrait abaisser les barrières matérielles pour les laboratoires académiques et startups européens travaillant sur les modèles VLA, sans déploiement ni partenariat européen annoncé à ce stade.

Chine/AsieOpinion
1 source
Figure affirme produire un robot humanoïde par heure, soit une multiplication par 24 en quatre mois
198Interesting Engineering 

Figure affirme produire un robot humanoïde par heure, soit une multiplication par 24 en quatre mois

Figure, la startup californienne spécialisée en robotique humanoïde, a annoncé avoir atteint un rythme de production d'un robot Figure 03 par heure dans son usine BotQ, située en Californie. Ce chiffre représente une multiplication par 24 du cadence de fabrication en moins de quatre mois, partant d'un robot par jour début 2026. Plus de 350 unités ont été livrées à ce jour, plus de 500 batteries expédiées, et plus de 9 000 actionneurs produits. La ligne de fabrication s'appuie sur un logiciel propriétaire déployé sur plus de 150 postes de travail en réseau, avec plus de 50 points d'inspection intermédiaires. Le taux de réussite en fin de ligne (first-pass yield) dépasse 80 %, et le rendement de production des batteries atteint 99,3 %. Chaque unité subit plus de 80 tests fonctionnels incluant des exercices de stress mécanique (squats, jogging) avant expédition. L'objectif affiché reste de 12 000 robots par an à pleine capacité. Ce passage du stade prototype à la production industrielle est significatif dans la course aux humanoïdes, où la majorité des acteurs restent encore dans des phases de démonstrateur ou de déploiement pilote très limité. Un taux de rendement end-of-line supérieur à 80 % sur un produit mécatronique aussi complexe est un indicateur industriel crédible, bien que Figure ne précise pas la définition exacte de ce seuil ni les conditions de test. En parallèle, Figure a publié une mise à jour majeure de son modèle d'IA Helix, baptisée System 0 (S0). L'ancienne version reposait uniquement sur la proprioception (états articulaires, posture). S0 intègre désormais des caméras stéréo embarquées qui génèrent une représentation 3D de l'environnement, permettant au robot de naviguer des escaliers et des terrains variés avec une stabilité décrite comme comparable à celle d'un humain. Le système est entraîné par renforcement en simulation sur des terrains aléatoires, et les comportements appris se transfèrent directement au monde réel sans recalibration, ce qui constitue une avancée notable sur le classique problème du sim-to-real gap. Figure a été fondée en 2022 par Brett Adcock et a levé plus de 675 millions de dollars, dont une ronde notable en 2024 avec des participations de Microsoft, Nvidia, OpenAI et Samsung. Le Figure 03 est la troisième génération de son robot humanoïde, succédant au Figure 01 et 02. Dans un secteur extrêmement concurrentiel, Figure se positionne face à Tesla (Optimus Gen 2), Boston Dynamics (Atlas électrique), Agility Robotics (Digit, déployé chez Amazon), Physical Intelligence (Pi-0) et Unitree. La montée en volume de BotQ est aussi une course aux données : plus de robots déployés signifie davantage de données réelles pour entraîner Helix. Figure indique viser des déploiements dans les secteurs de la recherche, du commercial et de l'usage domestique, sans préciser de calendrier client ni de prix public pour le Figure 03.

HumanoïdesActu
1 source
Comment fonctionnent réellement les VLA en environnements ouverts
199arXiv cs.RO 

Comment fonctionnent réellement les VLA en environnements ouverts

Un article de recherche publié sur arXiv (référence 2604.21192) soumet les modèles vision-langage-action (VLA) à une évaluation critique sur le benchmark BEHAVIOR1K (B1K), un protocole simulant des tâches domestiques complexes de longue durée dans des environnements ouverts. Le constat est net : les métriques standards de ces benchmarks, taux de succès ou score partiel, ne mesurent que l'état final des objets manipulés, indépendamment des événements qui y ont conduit. Un robot qui renverse un verre avant de le replacer peut ainsi obtenir le même score qu'un robot qui l'a manipulé sans incident. Ce protocole dit "progress-agnostic" ignore entièrement les comportements dangereux en cours d'exécution. Les chercheurs ont soumis plusieurs VLA de pointe à une analyse multidimensionnelle couvrant robustesse, reproductibilité, violations de sécurité et causes d'échec des tâches. Les implications sont directes pour tout acteur envisageant un déploiement réel. Si les métriques actuelles gonflent artificiellement les performances rapportées, les décisions d'intégration basées sur ces benchmarks reposent sur des bases fragiles. La distinction est capitale entre un modèle qui complète une tâche et un modèle qui la complète de façon sûre et reproductible, deux propriétés que les scores agrégés actuels confondent. Les auteurs proposent de nouveaux protocoles d'évaluation capables de capturer les violations de sécurité, comblant un angle mort majeur de la recherche. Pour un intégrateur ou un décideur industriel, cela signifie que les chiffres de "success rate" publiés par les laboratoires doivent être lus avec prudence, en exigeant explicitement des données de reproductibilité et des métriques comportementales. La course aux VLA s'est accélérée depuis 2024 avec des modèles comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA issu de Stanford et Berkeley. Ces systèmes combinent une fondation vision-langage avec un module d'action, affichant des capacités de généralisation notables en simulation. Ce papier suggère que le fossé simulation-réel est peut-être plus profond qu'estimé : des modèles performants sur B1K pourraient s'avérer moins fiables dès lors qu'on intègre sécurité et consistance comportementale comme critères d'évaluation. Les auteurs appellent la communauté à adopter ces nouveaux protocoles dans les futures éditions du B1K Challenge pour aligner les standards de recherche avec les exigences concrètes du déploiement en environnement ouvert.

RechercheOpinion
1 source
VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
200arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

IA physiqueOpinion
1 source