Aller au contenu principal

IA physique — page 3

536 articles · page 3 sur 11

Modèles vision-langage-action (VLA) et IA physique : NVIDIA GR00T, Figure Helix, Physical Intelligence π0, Gemini Robotics, OpenVLA, world models Cosmos/Genie.

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots
101arXiv cs.RO IA physiquePaper

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

EgoEngine, un framework décrit dans un preprint arXiv de juin 2026 (arXiv:2606.12604), automatise la transformation de vidéos humaines en vue égocentrique en données d'entraînement exploitables par des robots manipulateurs. Le système prend en entrée une vidéo RGB et produit deux sorties : une séquence où les mains humaines sont remplacées par un effecteur robotique tout en conservant le contexte de la scène et l'alignement temporel, et une trajectoire d'action exécutable sous contraintes de faisabilité cinématique. Le pipeline attaque deux verrous documentés dans la littérature : le visual gap (différence d'apparence entre humain et robot en manipulation) et l'action gap (incommensurabilité entre gestes humains et commandes articulaires d'un bras robotique). Les auteurs rapportent des résultats en simulation et sur robots réels, et affirment, avec la précaution habituelle "à leur connaissance", une première en apprentissage visuomoteur dextère en zero-shot depuis des vidéos égocentriques humaines, sans aucune démonstration préalable sur robot réel. Collecter des démonstrations robotiques à grande échelle pour la manipulation dextère reste l'un des principaux goulots d'étranglement du secteur, en coût et en temps opérateur. Un pipeline capable de valoriser des corpus vidéo égocentriques existants (EPIC-Kitchens, HOI4D, captations industrielles) sans robot disponible au moment de la collecte représenterait un raccourci significatif pour intégrateurs et équipes R&D. La revendication zero-shot est néanmoins à pondérer : les performances en manipulation dextère restent très sensibles à la fidélité du retargeting visuel et des trajectoires synthétisées, et les démonstrations sur robot réel dans les preprints de ce type sélectionnent rarement des scénarios représentatifs de la variabilité terrain. Ce travail s'inscrit dans un champ concurrentiel où NVIDIA (GR00T N2), Physical Intelligence (pi-0) et HuggingFace (Lerobot) développent chacun leurs stratégies de scalabilité des données robotiques. EgoEngine se positionne spécifiquement sur la manipulation dextère fine (doigts, pas seulement le poignet), segment où la sim-to-real gap est la plus difficile à combler et où aucun standard industriel de collecte n'existe encore. En tant que preprint non peer-reviewed, la prochaine étape critique sera une validation sur benchmarks standardisés comme DROID ou Open X-Embodiment pour confirmer la généralisation à des embodiments et tâches diversifiés.

1 source
FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles
102arXiv cs.RO 

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.13102) FTP-1, une politique tactile fondatrice généraliste préentraînée sur environ 3 000 heures de données de manipulation tactile agrégées depuis 26 sources distinctes, couvrant des démonstrations humaines et robotiques sur 21 capteurs différents. L'architecture repose sur des encodeurs hétérogènes qui projettent des signaux tactiles de natures variées -- images, tableaux de valeurs, états discrets -- en tokens latents unifiés et conscients de la morphologie, traités ensuite par un Transformer tactile partagé. Lors des expériences de fine-tuning sur 5 configurations matérielles distinctes, FTP-1 améliore les performances en manipulation riche en contacts de +17,2 % sur les capteurs vus à l'entraînement, et atteint un gain de +31 % sur deux configurations de capteurs jamais rencontrées lors du préentraînement. Ces chiffres sont issus d'un preprint académique et n'ont pas encore été soumis à évaluation par les pairs. Le résultat clé ici n'est pas la performance absolue mais la généralisation hors distribution. Depuis plusieurs années, les politiques tactiles restent prisonnières de leur hardware : un modèle entraîné sur un capteur GelSight ne transfère pas sur un capteur BioTac ou un réseau de pression matriciel. FTP-1 casse cette contrainte en proposant un point de départ partagé au niveau modèle, analogue à ce que les grands modèles de vision-langage-action (VLA) comme Pi-0 ou OpenVLA ont fait pour la manipulation visuelle. Pour un intégrateur industriel ou un laboratoire robotique, cela signifie potentiellement réduire le coût de collecte de données par capteur cible, en capitalisant sur un préentraînement généraliste plutôt que de repartir de zéro à chaque changement de gripper ou de skin tactile. Le chantier des politiques tactiles généralisables reste neuf. Les approches précédentes, comme celles développées autour des capteurs DIGIT (Meta) ou des grippers instrumentés de Stanford et MIT, sont restées cantonnées à des benchmarks monosenseurs. FTP-1 s'inscrit dans la tendance plus large des foundation models appliqués à la robotique physique, portée notamment par Physical Intelligence (Pi-0), Google DeepMind (RoboVLMs) et Figure AI. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; les poids préentraînés, les données et le code d'entraînement sont mis à disposition publiquement sur le site du projet, ce qui pourrait accélérer l'adoption par la communauté académique et les startups robotiques cherchant une base tactile mutualisée.

UELes laboratoires et startups européens travaillant sur la manipulation en contact peuvent exploiter directement les poids, données et code open-source de FTP-1 pour démarrer le développement de politiques tactiles sur leurs propres capteurs sans collecter de données from scratch.

💬 Le +31% sur les capteurs jamais vus pendant l'entraînement, c'est ça le vrai chiffre à retenir. Depuis des années, chaque politique tactile restait coincée sur son hardware, impossible de capitaliser d'un gripper à l'autre sans tout recommencer de zéro. Là on a enfin une base commune open-source pour le toucher, et ça c'est du concret.

IA physiqueOpinion
1 source
EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots
103arXiv cs.RO 

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

Une équipe de chercheurs a publié EmbodiSteer, un cadre d'inférence sans réentraînement conçu pour déployer des politiques visuomotrices généralistes sur des robots arbitraires sans adaptation préalable. Le problème qu'il résout est structurel : l'apprentissage par imitation à grande échelle (imitation learning) s'appuie aujourd'hui sur des données hétérogènes collectées sur des robots différents, ce qui pousse les architectures modernes à raisonner dans l'espace cartésien de l'effecteur terminal, un espace agnostique au corps. Cette abstraction est utile pour la généralisation, mais elle rend les politiques aveugles aux contraintes cinématiques propres à chaque robot, notamment la détection de collision avec le propre corps de la machine. EmbodiSteer corrige ce défaut au moment de l'inférence : il projette chaque pas de débruitagede diffusion depuis l'espace cartésien vers l'espace articulaire du robot cible via la cinématique directe et des mises à jour jacobiennes, puis applique un guidage de trajectoire tenant compte des collisions corps entier avant de rebasculer en cartésien pour l'étape suivante. Sur neuf robots simulés, le taux de collision chute de 46,1 % et le taux de succès augmente de 28,5 % par rapport à une exécution purement cartésienne. Sur deux robots physiques dans des scénarios très contraints, les gains montent respectivement à 90,0 % et 36,7 %. L'intérêt industriel de ce résultat réside dans ce qu'il évite : un réentraînement complet du modèle à chaque changement de plateforme matérielle. Pour un intégrateur qui déploie une politique généraliste (type pi-0, GR00T N2, ou toute VLA diffusion-based) sur plusieurs variantes d'un bras industriel, EmbodiSteer représente une couche d'adaptation plug-and-play à l'inférence, sans toucher aux poids. C'est une réponse directe au "sim-to-real gap" qui frappe les politiques cartésiennes lorsqu'elles rencontrent des obstacles inattendus dans le référentiel articulaire du robot réel. La méthode valide aussi une hypothèse importante : les politiques diffusion en espace cartésien ne sont pas intrinsèquement fragiles, elles manquent simplement d'un pont vers la géométrie du corps déployé, un pont que l'on peut construire sans données supplémentaires. EmbodiSteer s'inscrit dans un mouvement plus large vers les politiques universelles (cross-embodiment), dont les représentants notables incluent pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les travaux du Columbia Robotics Lab sur les transformers multi-robot. La plupart de ces architectures partagent le même talon d'Achille cartésien qu'EmbodiSteer cible. Le papier, déposé sur arXiv (2606.12965) en juin 2026, ne mentionne pas de partenaire industriel ni de calendrier de commercialisation : il s'agit d'une contribution académique, sans produit shipé ni déploiement annoncé. Le code et la page projet sont publics, ce qui facilite l'expérimentation par des tiers. La prochaine étape logique serait de tester le cadre sur des robots à configuration non standard, comme des bras à redondance élevée ou des humanoïdes complets, où le guidage jacobien pose des défis d'ambiguïté cinématique plus sérieux.

UELes intégrateurs robotiques européens déployant des politiques VLA sur plusieurs plateformes matérielles pourraient adopter EmbodiSteer comme couche d'adaptation plug-and-play, mais aucun acteur FR/EU n'est impliqué dans ces travaux.

💬 Une couche d'adaptation à l'inférence sans réentraînement, ça semble anodin, mais c'est exactement ce qui manque quand tu veux déployer une politique généraliste sur plusieurs bots différents sans exploser ton budget GPU. Les chiffres de simulation, je les prends avec des pincettes, mais 90% de réduction de collisions sur robot physique en conditions contraintes, c'est pas du flan. Le code est public, donc si t'es intégrateur robotique, t'as déjà ta prochaine expérimentation du vendredi.

IA physiqueOpinion
1 source
WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique
104arXiv cs.RO 

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.13672) WEAVER (World Estimation Across Views for Embodied Reasoning), une architecture de modèle de monde (world model, WM) dédiée à la manipulation robotique. Le système, multi-vue, est entraîné à prédire des représentations latentes futures et des valeurs de récompense via une perte de flow-matching. Sur robot physique, WEAVER atteint une corrélation ρ = 0,870 entre trajectoires simulées et taux de succès réel en évaluation de politique (policy evaluation). Appliqué à l'amélioration de politique (policy improvement), il produit un gain de 38 % de taux de succès réel au-dessus du modèle de fondation robotique π₀.₅ de Physical Intelligence. En planification à l'inférence (test-time planning), il ajoute 14 % de succès supplémentaires, avec une vitesse de génération 5 à 10 fois supérieure aux WMs précédents. Le code, les modèles et les vidéos sont publiquement accessibles. Les modèles de monde représentent un levier structurant pour la robotique : évaluer ou améliorer des politiques de contrôle, planifier à l'exécution, sans multiplier les interactions coûteuses en environnement réel. Le verrou technique est triple, fidélité (les trajectoires simulées doivent refléter la réalité), cohérence sur longue horizon (les simulations ne doivent pas diverger dans le temps), et efficacité computationnelle. WEAVER satisfait simultanément ces trois critères là où les architectures précédentes échouaient généralement sur au moins l'un d'eux, en particulier sur la cohérence à long horizon pour des tâches de manipulation dynamique complexes. Le gain de 38 % sur π₀.₅ est particulièrement significatif : il démontre qu'un WM peut améliorer un modèle de fondation déjà performant sans collecte de données additionnelles en conditions réelles, réduisant ainsi les coûts de déploiement pour les intégrateurs industriels. Ce travail s'inscrit dans une compétition accélérée autour des world models pour la robotique embodied. Physical Intelligence avec π₀ et π₀.₅, Google DeepMind avec ses variantes RT et RoboDreamer, ainsi que des équipes académiques de Berkeley, CMU et Stanford ont chacun proposé des approches partielles. WEAVER se positionne comme une synthèse architecturale, avec un soin particulier apporté à la gestion de la mémoire et au traitement multi-vue. Aucun partenariat industriel ni calendrier commercial n'est annoncé à ce stade, et la validation reste circonscrite à des environnements de laboratoire contrôlés. La question centrale du sim-to-real gap à l'échelle, dans des environnements industriels non structurés, reste entièrement ouverte.

💬 38 % de gain sur π₀.₅ sans ajouter une seule donnée en conditions réelles, c'est du concret. Ce qui est rare, c'est qu'ils résolvent les trois verrous en même temps : fidélité, cohérence à long horizon, vitesse de génération. Le sim-to-real à l'échelle industrielle reste entier, mais pour l'instant c'est l'architecture la plus sérieuse que j'ai vue sur le sujet.

IA physiqueOpinion
1 source
WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force
105arXiv cs.RO 

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

Une équipe de chercheurs présente WT-UMI dans un preprint arXiv déposé en juin 2026, une interface tactile portable conçue pour la manipulation corps entier par des robots humanoïdes. Le dispositif se porte sur un opérateur humain ou se monte directement sur un humanoïde, et capture simultanément des images tactiles, des mesures de force de contact et les poses des effecteurs terminaux, aussi bien en mode démonstration humaine qu'en téléopération. L'architecture repose sur deux modules complémentaires : un correcteur de pose cible conditionné par la force, qui apprend à traduire les poses humaines en commandes exécutables par le robot à partir de données de téléopération, et un planificateur supervisé par la force qui prédit conjointement les trajectoires de pose et les profils de force de contact. Ces prédictions servent de référence à un contrôleur d'admittance basé sur le retour tactile. Évalué sur cinq tâches à contacts riches couvrant des objets déformables, des charges rigides encombrantes et la collaboration humain-humanoïde, WT-UMI surpasse quatre politiques de référence en taux de succès et en précision de suivi des contacts. L'enjeu sous-jacent est structurel : la quasi-totalité des politiques d'imitation actuelles traitent les forces de contact de manière implicite, par le signal visuel ou proprioceptif uniquement, ce qui atteint ses limites physiques dès que l'objet manipulé est souple, encombrant ou porté à plusieurs agents. WT-UMI attaque directement le dilemme classique entre démonstrations humaines, riches en interactions de contact naturelles mais non exécutables telles quelles par un robot, et téléopération, précise dans les actions robot mais moins naturelle dans la régulation des forces. La fusion des deux sources via un module de correction appris propose une troisième voie. Pour les intégrateurs et les décideurs industriels, cela ouvre une piste concrète vers la manipulation de charges souples ou asymétriques, un verrou persistant en logistique et en assemblage. WT-UMI s'inscrit dans la lignée des interfaces UMI (Universal Manipulation Interface) apparues vers 2023-2024 pour faciliter la collecte de démonstrations à faible coût. L'extension "WT" ajoute la détection tactile distribuée sur l'ensemble du corps, au-delà des capteurs de poignet ou de doigts habituels. Il s'agit à ce stade d'un preprint de recherche sans déploiement industriel annoncé, ce point mérite d'être précisé face à des métriques présentées sans contexte de cadence de cycle ni de robustesse à l'échelle. Dans le paysage concurrent, Physical Intelligence avec Pi-0, Figure avec ses humanoïdes commerciaux et Boston Dynamics ciblent également la manipulation robuste, mais restent majoritairement dans une logique visuo-motrice ou de politiques VLA. WT-UMI se distingue en faisant du contact une variable de planification explicite plutôt qu'un résidu à corriger a posteriori. Les prochaines étapes logiques seraient une validation sur matériel humanoïde commercial et une comparaison frontale avec des architectures VLA, aujourd'hui dominantes dans la course à la généralisation.

IA physiquePaper
1 source
EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée
106arXiv cs.RO 

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

Une équipe de recherche publie sur arXiv (arXiv:2606.12690, juin 2026) une architecture baptisée EWAM (Enhanced World Action Model), conçue pour adapter un robot à de nouvelles configurations de tâches sans aucun jeu de démonstrations supplémentaires et sans réentraîner le réseau de base. EWAM s'appuie sur Cosmos3, le modèle fondationnel de simulation-prédiction monde développé par NVIDIA, maintenu entièrement gelé. Quatre couches neuronales légères y sont greffées : une couche mémoire d'expérience (Neural Experience Memory Layer) insérée dans les couches intermédiaires du Diffusion Transformer (DiT), qui injecte du contexte d'exécution ; une couche de détection d'anomalies (Neural Anomaly Detection Layer) placée après la tête de prédiction d'état, qui mesure en temps réel la divergence entre état prédit et état observé ; une couche de routage de politique (Neural Policy Routing Layer) qui choisit dynamiquement entre exécution directe, replanification conservative ou rollback de récupération selon la sévérité de l'anomalie ; et une couche de correction d'action (Neural Action Correction Layer) qui affine les séquences d'actions générées à partir des diagnostics d'exécution. L'ensemble est évalué exclusivement en protocole zéro-shot. Ce que montre EWAM, c'est qu'il est possible d'obtenir des gains de performance significatifs à l'inférence uniquement, sans toucher aux poids du modèle de base et sans collecter de nouvelles démonstrations spécifiques à chaque tâche. Pour un intégrateur industriel ou un COO, c'est un signal important : le coût de redéploiement sur de nouveaux layouts d'atelier, qui constitue aujourd'hui l'un des freins majeurs à la généralisation des robots mobiles et des manipulateurs apprenants, pourrait être absorbé par de l'adaptation en ligne plutôt que par des cycles coûteux de collecte de données et de fine-tuning. Le module de détection d'anomalies couplé au routage de récupération adresse directement le "demo-to-reality gap" : les modèles génératifs de type monde peuvent prédire des états plausibles mais diverger sur le terrain ; EWAM tente de corriger cette dérive en boucle fermée. La différenciabilité des modules mémoire, détection et correction dans le chemin forward de Cosmos3 distingue cette approche d'une simple fusion de features en post-processing. Cosmos3 est le modèle monde physique de NVIDIA, successeur de Cosmos1 et Cosmos2, entraîné sur des volumes massifs de vidéos de manipulation et de navigation pour prédire des trajectoires d'états futurs vraisemblables. L'architecture EWAM s'inscrit dans une vague de travaux qui cherchent à exploiter ces fondations gelées plutôt qu'à les réentraîner, une tendance que l'on retrouve aussi dans Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA Robotics) ou les approches VLA (Vision-Language-Action) basées sur des backbones pré-entraînés. Les acteurs concurrents sur ce créneau de l'adaptation légère incluent les équipes de DeepMind (RT-2, AutoRT), de Physical Intelligence et de plusieurs laboratoires universitaires américains et chinois. EWAM est pour l'instant un résultat de recherche académique non déployé en production, et les auteurs ne précisent pas de partenaires industriels ni de calendrier de transfert. Les prochaines étapes naturelles seraient une validation sur hardware réel à grande échelle et une comparaison directe en termes de coût de déploiement face aux méthodes de fine-tuning léger (LoRA, QLoRA) appliquées à ces mêmes backbones.

IA physiqueOpinion
1 source
IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui
107arXiv cs.RO 

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

Des chercheurs ont publié en juin 2026 un préprint sur arXiv (2606.13222) décrivant un système permettant à un robot humanoïde d'apprendre à se distinguer des autres agents présents dans son environnement, sans recourir à des étiquettes d'identité ni à des modèles cinématiques prédéfinis. Le mécanisme repose sur la correspondance proprioceptive-visuelle : le robot corrèle ses propres états articulaires avec ce qu'il perçoit visuellement, ce qui lui permet d'identifier ses propres membres parmi d'autres corps en mouvement. À partir de cette capacité, le système construit automatiquement un modèle prédictif de soi qui associe les configurations articulaires à une représentation d'occupation corporelle en trois dimensions. Le système a été validé dans des scènes multi-agents impliquant soit des humains, soit des robots morphologiquement identiques, et supporte des tâches aval concrètes : atteinte de cibles, planification de mouvement avec évitement de collision, et retargeting de mouvement humain-robot. L'enjeu pratique est significatif pour les intégrateurs déployant des humanoïdes en environnements partagés. Jusqu'ici, la distinction soi/autrui dans les robots était traitée soit par des marqueurs extérieurs, soit par des modèles cinématiques codés en dur, deux approches qui échouent dès que le robot opère aux côtés d'agents inconnus ou de copies identiques de lui-même. Que cette capacité puisse émerger d'un signal d'apprentissage auto-supervisé, sans annotation, contredit l'hypothèse selon laquelle la conscience corporelle nécessite une ingénierie explicite. La robustesse face à des robots morphologiquement identiques est particulièrement notable : c'est précisément le scénario qui se généralise dans les lignes d'assemblage où plusieurs unités du même modèle cohabitent. Le problème de la représentation de soi chez les robots est un sujet actif depuis les travaux fondateurs sur le « miroir robotique », mais les approches précédentes restaient limitées à des configurations contrôlées. Côté concurrent, des équipes chez Figure AI, Boston Dynamics et Sanctuary AI travaillent sur des architectures d'apprentissage incarné, mais peu publient sur la distinction soi/autrui en contexte multi-agent. Ce travail reste à ce stade un preprint non évalué par les pairs ; aucun déploiement industriel ni partenariat n'est annoncé. Les auteurs publient une page projet avec démonstrations vidéo, ce qui permettra d'évaluer la robustesse hors conditions de laboratoire.

IA physiquePaper
1 source
SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA
108arXiv cs.RO 

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Une équipe de chercheurs propose SCALE (Self-uncertainty Conditioned Adaptive Looking and Execution), une méthode d'inférence adaptative pour les modèles Vision-Language-Action (VLA) publiée sur arXiv (2602.04208v2). Contrairement aux approches de test-time scaling (TTS) existantes, SCALE ne nécessite ni entraînement supplémentaire, ni vérificateur externe, ni passes multiples : un seul passage forward suffit. Le système repose sur un mécanisme de self-uncertainty (auto-incertitude) qui module simultanément deux dimensions : la représentation visuelle, c'est-à-dire comment le modèle perçoit la scène, et l'action produite. Inspiré de la théorie de l'inférence active (Active Inference), SCALE élargit son exploration perceptuelle et motrice en situation d'incertitude élevée, et se concentre sur l'exploitation lorsque la confiance est forte. Les auteurs valident l'approche sur des benchmarks simulés et réels, avec des gains mesurés sur plusieurs VLA de l'état de l'art. L'intérêt industriel est direct. Les méthodes TTS existantes pour robots empruntent leur logique aux succès des LLM comme o1, mais exigent des ressources difficilement compatibles avec la production : vérificateurs externes, passes multiples, parfois fine-tuning ciblé. SCALE lève ce verrou en maintenant l'efficacité d'un passage unique, compatible avec des contraintes de temps réel sur systèmes embarqués. Plus structurellement, la méthode adresse un angle souvent ignoré par les approches concurrentes : l'ambiguïté perceptuelle. En conditions réelles, un robot confronté à une scène mal éclairée ou partiellement occultée a autant besoin de reconsidérer sa perception que son action. SCALE couple ces deux dimensions, là où les TTS classiques n'interviennent qu'au niveau du décodage d'action -- une distinction qui compte dès que l'on sort des environnements contrôlés de laboratoire. Le test-time scaling appliqué à la robotique reste un champ en construction. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA visent à généraliser le contrôle robotique via des architectures VLA, mais leur robustesse hors distribution est un problème ouvert. La plupart des améliorations passent encore par du fine-tuning ; SCALE propose une voie alternative en améliorant le comportement à l'inférence sans toucher aux poids du modèle. L'article ne documente pas encore de déploiements industriels à grande échelle, et les benchmarks utilisés restent des environnements relativement balisés. Si la robustesse se confirme dans des configurations non contrôlées, la méthode pourrait s'intégrer comme composant standard dans les pipelines VLA déployés par des acteurs comme Figure AI, Agility Robotics ou 1X Technologies.

IA physiqueOpinion
1 source
Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot
109arXiv cs.RO 

Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot

Une équipe de chercheurs a publié le 16 juin 2026 (arXiv:2606.13279) un nouveau cadre VLA pour la manipulation bimanuelles robotique, baptisé "Dual-Level Structural Decomposition". L'architecture repose sur deux modules distincts : un "View-Selective Visual Router" qui pondère dynamiquement la contribution de chaque caméra de poignet selon le contexte de la tâche, et un générateur d'actions basé sur un Mixture-of-Experts (MoE) qui sépare explicitement les trajectoires coordonnées (les deux bras agissent ensemble) des trajectoires indépendantes (chaque bras opère séparément). Évalué sur six tâches bimanuelles simulées dans l'environnement RoboTwin 2.0 et trois tâches longues en conditions réelles, le système affiche un gain de 27,7 % de taux de réussite moyen en simulation et de 43,3 % en déploiement physique par rapport à une baseline VLA monolithique équivalente. Ces résultats interpellent directement les équipes qui développent des politiques de contrôle pour robots humanoïdes ou manipulateurs industriels à deux bras. La progression de 43 % en real-world est significative car elle s'applique à des tâches dites "long-horizon", c'est-à-dire enchaînant plusieurs sous-étapes, là où les VLA monolithiques accumulent les erreurs. Le choix du MoE comme mécanisme de décomposition est notable : plutôt que d'entraîner deux politiques séparées, le modèle apprend à router dynamiquement selon le mode d'interaction détecté, ce qui limite l'explosion du coût d'inférence. Cela valide partiellement l'hypothèse que la structure de l'interaction bimanuele est un biais inductif exploitable -- et que les architectures "tout-en-un" atteignent leurs limites sur ces configurations. Les VLA bimanuelles constituent un chantier actif depuis l'essor des modèles de fondation robotiques en 2024-2025. Des systèmes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ciblent déjà la manipulation généraliste, mais traitent souvent l'entrée visuelle et la génération d'action de façon uniforme. Ce travail s'inscrit dans une tendance plus large vers des architectures modulaires, aux côtés d'initiatives comme RoboTwin 2.0 lui-même, qui sert ici de benchmark standardisé. Les prochaines étapes naturelles seraient un test sur des robots humanoïdes commerciaux (Figure 03, Unitree H1) ou une intégration dans des cellules industrielles bimanuelles -- les auteurs ne mentionnent pas de partenariat industriel ni de timeline de transfert dans la version preprint.

IA physiqueOpinion
1 source
LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques
110arXiv cs.RO 

LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (référence 2606.13578) un article présentant LabVLA, un modèle Vision-Language-Action conçu spécifiquement pour l'exécution autonome de protocoles expérimentaux en laboratoire scientifique. Le système repose sur deux briques : RoboGenesis, un moteur de génération de données par simulation qui décompose des flux de travail en compétences atomiques, valide les exécutions et exporte des démonstrations structurées pour différents profils de robots ; et LabVLA lui-même, dont l'entraînement se déroule en deux étapes -- un préentraînement par tokenisation d'actions FAST sur le backbone Qwen3-VL-4B-Instruct, suivi d'un affinage par flow matching avec un expert d'actions de type DiT (Diffusion Transformer) sous isolation des connaissances. Sur le benchmark LabUtopia, LabVLA affiche le taux de succès moyen le plus élevé parmi tous les systèmes testés, en distribution comme hors distribution. L'enjeu est structurant : les IA actuelles peuvent lire de la littérature scientifique, générer des hypothèses et planifier des protocoles, mais l'exécution physique au banc de laboratoire reste humaine. Les instruments spécialisés, les liquides transparents (difficiles à percevoir pour les capteurs RGB classiques) et les séquences protocolaires rigides créent des défis absents des benchmarks domestiques sur lesquels la plupart des VLA existants -- Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA -- ont été entraînés. Si LabVLA tient ses promesses hors simulation, cela ouvrirait la voie à une automatisation crédible des laboratoires de biologie, chimie ou pharmacologie, un marché adressé aujourd'hui par des acteurs comme Automata, Opentrons ou Hamilton Robotics. La course aux VLA généralistes a démarré en 2024 avec Octo, puis OpenVLA et Pi-0, calibrés principalement sur des tâches ménagères. Le sim-to-real gap en milieu laboratoire reste un obstacle non résolu : les résultats présentés dans ce preprint sont entièrement issus de simulation -- LabUtopia est lui-même un environnement virtuel -- et aucun déploiement sur robot physique n'est rapporté. La robustesse sur de vraies paillasses, avec contaminations, vibrations et variabilités instrumentales, reste à démontrer. Les auteurs annoncent comme prochaines étapes l'extension des profils de robots compatibles avec RoboGenesis et des évaluations sur hardware réel.

UEImpact indirect pour les laboratoires pharmaceutiques et biotechs européens si le sim-to-real gap est comblé, mais aucun déploiement ni partenariat européen annoncé.

IA physiqueOpinion
1 source
GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique
111arXiv cs.RO 

GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique

Une équipe de chercheurs propose GenHOI (arXiv:2606.12995, juin 2026), un cadre logiciel permettant à des robots humanoïdes d'interagir avec des objets variés en mode zéro-shot, sans entraînement spécifique à la tâche ni données de démonstration physique. Le système prend en entrée une commande en langage naturel et une image du premier plan de la scène robot-objet reconstruite en simulation, à partir desquels un modèle génératif produit une vidéo d'interaction synthétique orientée tâche. Cette vidéo est analysée pour identifier les événements de contact pertinents et estimer les régions de contact main-objet, encodés sous forme de contraintes géométriques centrées sur l'objet. Ces contraintes servent de priors d'optimisation pour raffiner la trajectoire de référence extraite de la vidéo 2D, résolvant l'ambiguïté d'échelle inhérente à la génération vidéo, et adaptent une trajectoire unique à des poses relatives robot-objet non vues à l'entraînement. Un contrôleur de suivi en boucle fermée assure l'exécution finale. Les tâches validées en simulation et en réel incluent la saisie de boîtes, le transport bimanuel asymétrique d'une chaise, le soulèvement d'une table par en-dessous et l'enveloppement d'objets cylindriques. Il s'agit d'un preprint académique, pas d'un produit déployé. L'enjeu central est la rupture avec le paradigme d'entraînement par tâche, principal goulot d'étranglement du déploiement industriel des humanoïdes. Les approches existantes exigent soit des centaines d'heures de collecte de démonstrations physiques par tâche, soit rejouent des trajectoires rigides incapables de s'adapter à des variations de pose ou d'objet. GenHOI contourne ces deux limites en substituant la génération vidéo à la démonstration réelle, tout en maintenant une conscience physique du contact via des contraintes géométriques explicites. La capacité d'adaptation à des configurations inédites robot-objet sans réentraînement est particulièrement significative pour les intégrateurs industriels devant déployer rapidement un humanoïde sur de nouvelles références produit. La problématique de l'interaction humanoïde-objet est activement travaillée par plusieurs acteurs concurrents : Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et les équipes de Figure AI ou Boston Dynamics opèrent dans un espace voisin, mais s'appuient majoritairement sur du fine-tuning tâche par tâche ou du reinforcement learning avec simulateurs massivement parallèles. GenHOI se positionne comme une approche complémentaire, plus légère en données, exploitant la capacité des générateurs vidéo récents à produire des séquences physiquement plausibles. La principale limite non adressée est la robustesse à l'échelle sur des centaines de tâches distinctes et la gestion des objets déformables. Les prochaines étapes naturelles seraient une évaluation sur des plateformes commerciales comme l'Unitree G1 ou l'Agility Digit, et une intégration avec des policies de bas niveau plus génériques.

IA physiqueOpinion
1 source
SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon
112arXiv cs.RO 

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

Des chercheurs ont présenté SERF (Spatiotemporal Environment and Robot Feature Map), une architecture de représentation spatiale et temporelle destinée à améliorer la manipulation mobile sur des horizons longs. Publiée sur arXiv sous l'identifiant 2606.12956, l'approche conditionne une politique de manipulation mobile sur une carte de caractéristiques qui encode simultanément l'environnement et le corps articulé du robot sous forme de points neuronaux dans un espace latent partagé. Cette carte est mise à jour en ligne à partir d'observations égocentriques et de données proprioceptives: les points neuronaux de l'environnement sont actualisés via un suivi rigide au niveau objet, tandis que les points du robot exploitent la cinématique directe. Les tokens extraits de la carte SERF, à plusieurs échelles spatiales et depuis plusieurs cadres de référence, sont injectés comme entrée d'état dans un modèle VLA (vision-language-action), fournissant à la politique un contexte à la fois local et global. L'évaluation est conduite sur BEHAVIOR-1K, un benchmark standard pour la manipulation mobile longue durée en environnements domestiques simulés. L'intérêt de SERF réside dans sa réponse à une limite structurelle des politiques basées uniquement sur l'image: l'incapacité à maintenir une représentation cohérente de l'environnement, de la localisation et de l'avancement de la tâche sur des séquences longues. Les résultats montrent que la politique SERF surpasse les baselines image-only sur BEHAVIOR-1K, atteint les sous-objectifs plus rapidement en empruntant des trajectoires plus directes, se montre plus robuste aux changements de configuration de scène, et parvient à récupérer après un échec de type "object drop" -- capacité critique pour un déploiement industriel. Pour les intégrateurs de systèmes manipulateurs mobiles, la capacité à gérer des perturbations imprévues sans replanning complet représente un gain opérationnel concret, même si les performances sont ici mesurées en simulation. SERF s'inscrit dans un courant de recherche actif qui cherche à doter les modèles VLA d'une mémoire spatiale persistante, en complément de travaux comme GNFactor ou RVT qui exploitent des représentations 3D de la scène. L'approche se distingue en intégrant explicitement la représentation du robot lui-même dans la carte, aux côtés de l'environnement, ce que la plupart des architectures traitent séparément. Dans l'écosystème VLA, où Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA opèrent principalement sur des observations de courte durée, SERF propose une piste pour étendre l'horizon de raisonnement sans augmenter la complexité d'entrée brute. Les prochaines étapes naturelles sont un transfert sim-to-real sur hardware réel et une validation sur des benchmarks en environnement physique, absente à ce stade de l'article.

IA physiqueOpinion
1 source
GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)
113arXiv cs.RO 

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs a soumis en juin 2026 sur arXiv un article décrivant GIVE (Gesture Intent via Visual-Semantic Enhancement), une méthode d'intégration de la compréhension gestuelle dans des modèles VLA (Vision-Language-Action) pré-entraînés, sans modification architecturale. Le système repose sur deux voies complémentaires : une voie visuelle superposant squelettes de mains et rayons de bout de doigt sur les images perçues par le robot pour ancrer explicitement l'objet visé, et une voie sémantique générant des descriptions textuelles du geste et de l'instruction de tâche. Testé en conditions réelles d'interaction humain-robot, GIVE améliore la précision de reconnaissance de l'objet cible de 40 % et le taux de succès global des tâches de manipulation de 80 % par rapport au modèle VLA de base, avec une généralisation démontrée sur des configurations spatiales inédites et des participants variés. Ce résultat touche un point sensible de la robotique collaborative : les modèles VLA actuels, qu'il s'agisse d'OpenVLA, de pi-0 de Physical Intelligence ou des modèles RT-2 de Google DeepMind, traitent la manipulation comme un problème purement text-driven. Dès qu'une instruction verbale est ambiguë, plusieurs objets similaires se trouvant dans la scène, le taux d'échec grimpe. GIVE propose une réponse à ce problème d'ancrage de l'intention (intent grounding) sans réentraîner le modèle de base, atout concret pour les équipes d'intégration. Les gains sont mesurés sur des expériences physiques réelles, ce qui renforce la crédibilité du résultat, même si l'article ne publie pas le nombre total d'essais ni la distribution précise des scènes testées. La méthode s'inscrit dans une tendance d'enrichissement des interfaces humain-robot au-delà de la commande vocale, dans un champ où des travaux sur le pointage gestuel et des modèles comme Gemini Robotics de Google ou GR00T N2 de NVIDIA explorent des directions voisines. GIVE se distingue par son approche non-invasive, compatible avec tout VLA pré-entraîné. Aucun déploiement industriel n'est annoncé à ce stade, le travail restant académique. Les suites attendues portent sur des gestes plus complexes, bimanuel ou dynamique, et une évaluation sur des plateformes robotiques mobiles pour valider la généralisation dans des contextes industriels à haute variabilité.

IA physiqueOpinion
1 source
MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action
114arXiv cs.RO 

MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action

Une équipe de chercheurs a soumis sur arXiv (référence 2606.13515) un modèle baptisé MaskWAM, visant à lever deux verrous structurels des World Action Models (WAMs) pour le contrôle robotique par prédiction vidéo. Les WAMs constituent une approche active : au lieu d'apprendre directement une politique motrice, le modèle prédit des frames vidéo futures conditionnées par les actions du robot et extrait la politique de cette représentation. Le problème identifié est double. Les entrées textuelles génèrent une ambiguïté référentielle dans les scènes encombrées : si deux objets similaires cohabitent dans le champ de la caméra, le texte ne suffit pas à désambiguïser la cible. Par ailleurs, les prédictions RGB brutes manquent d'ancrage sémantique et restent perturbées par des arrière-plans sans lien avec la tâche. MaskWAM intègre des masques de segmentation à la fois comme entrées explicites (premier frame annoté avec la cible) et comme sorties prédites, au sein d'une architecture unifiée Mixture of Transformers (MoT). L'apport central est l'introduction d'une supervision sémantique centrée sur l'objet : en forçant le modèle à prédire les masques futurs en parallèle des frames RGB, les auteurs réduisent l'influence du bruit visuel de fond sur la politique apprise. Évalué sur les benchmarks LIBERO et RoboTwin, ainsi que sur des tâches réelles non précisées en détail, MaskWAM surpasse significativement les baselines existantes en conditions de langage clair comme ambigu. Pour les équipes R&D en manipulation robotique, l'enjeu concret est la robustesse des politiques face aux variations de décor et aux instructions imprécises, deux points de friction récurrents dans le transfert du labo vers la ligne de production. Ces résultats restent toutefois ceux d'une prépublication académique sur benchmarks standardisés : aucun déploiement industriel n'est mentionné, et les conditions exactes des expérimentations réelles ne sont pas détaillées dans le résumé disponible. MaskWAM s'inscrit dans la dynamique des Visual Language Action models et des WAMs apparus depuis 2023, notamment Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. Sa spécificité est l'exploitation systématique des masques de segmentation comme signal de supervision, là où la plupart des approches concurrentes restent ancrées sur du texte libre ou des images de référence non structurées. Les prochaines étapes prévisibles pour ce type de travaux sont l'évaluation sur des manipulations multi-objets en environnement non contrôlé et l'intégration dans des fondations robotiques plus larges. Aucun partenariat industriel ni calendrier de transfert applicatif ne sont mentionnés à ce stade.

IA physiqueOpinion
1 source
NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif
115arXiv cs.RO 

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

Des chercheurs présentent NavWAM (Navigation World Action Model), une architecture diffusion-transformer publiée en préprint sur arXiv (identifiant 2606.13494, juin 2026), conçue pour la navigation visuelle conditionnée par un objectif. Le problème posé est classique en robotique mobile : un robot doit naviguer vers une cible image sous observabilité partielle, en anticipant uniquement depuis sa caméra embarquée comment ses déplacements vont modifier son champ de vision. NavWAM fusionne dans une séquence latente partagée trois composantes distinctes : les observations visuelles futures prédites, les valeurs de progression vers l'objectif, et les blocs d'actions (action chunks). L'entraînement combine un préentraînement en simulation suivi d'une adaptation sur robot réel, avec une évaluation en boucle fermée sur des tâches de navigation image-à-image. Ce travail répond à une limitation bien identifiée des modèles de monde pour la navigation : ces modèles prédisent correctement l'évolution visuelle future, mais restent des modules passifs qui exigent un planificateur externe pour convertir leurs prédictions en commandes effectives. NavWAM élimine ce découplage en apprenant conjointement la prédiction visuelle, les valeurs d'objectif et la politique d'action. Concrètement, la clairvoyance visuelle du modèle de monde devient directement exploitable pour le contrôle moteur, sans recourir à une recherche d'actions de type CEM (Cross-Entropy Method). Sur les benchmarks offline et en déploiement réel en boucle fermée, NavWAM surpasse les baselines world-model à planification externe reportées par les auteurs. Comme pour tout préprint non encore revu par les pairs, ces résultats restent à valider sur une diversité d'environnements plus large. L'approche s'inscrit dans une tendance qui cherche à unifier modèles génératifs et politiques de contrôle, direction explorée notamment par les modèles VLA (Vision-Language-Action) tels que Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui opèrent eux aussi sur des espaces latents partagés multi-modalités. La différence ici est la focalisation stricte sur la navigation monoculaire, sans instruction sémantique en langage naturel. Le passage sim-to-real est traité par fine-tuning sur données réelles, méthode désormais standard mais dont la robustesse dépend fortement de la diversité des scènes d'entraînement, non précisée dans l'abstract. Aucun code ni dataset n'est encore annoncé ; une page projet avec démonstrations vidéo est disponible à l'adresse fournie par les auteurs.

IA physiqueOpinion
1 source
À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique
116Robotics Business Review 

À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique

X Square Robot a mis en open source XRZero-G0, un système de collecte de données robotiques combinant un casque VR PICO 4 à tracking spatial inside-out, une caméra frontale et deux caméras poignet, ainsi qu'une paire de grippers physiques duals, un gripper en H à actionnement par pression et un gripper en G à entraînement digital. Le dispositif assure une estimation de pose 6-DOF à précision millimétrique et intègre un parsing spatiotemporel embarqué pour synchroniser flux visuels, données de trajectoire et annotations langagières. En parallèle, la société publie le G0-Dataset : 2 000 heures de démonstrations humaines multimodales, disponibles sur HuggingFace avec le code source sur GitHub. Sous conditions expérimentales contrôlées, X Square Robot annonce une réduction des besoins en données réelles pouvant atteindre un facteur 20x : environ 10 épisodes collectés sans robot, combinés à un seul épisode sur robot réel, suffiraient à égaler les performances d'un entraînement purement issu de données robotiques. L'enjeu est direct pour les équipes qui développent des politiques de manipulation dextre : le goulot d'étranglement de l'embodied AI n'est pas le compute, c'est la donnée de qualité à grande échelle. XRZero-G0 formalise ce que le secteur cherche depuis plusieurs années, une pipeline fermée "collecte-inspection-entraînement-évaluation" qui filtre automatiquement les trajectoires invalides via cinématique inverse corps entier avec contraintes de collision et de limites articulaires, et valide par rejeu réel sur robot avant d'intégrer les épisodes à l'entraînement. Si les chiffres de réduction 20x se confirment sur des tâches variées hors conditions de labo, cela change structurellement l'économie de déploiement des VLA (Vision-Language-Action models) : les industriels pourraient composer leurs datasets sans immobiliser de flotte robotique pendant des semaines. Le transfert cross-embodiment revendiqué, démontration humaine transférable à des plateformes non vues à l'entraînement, reste la promesse la plus forte, et la plus à vérifier indépendamment. X Square Robot s'inscrit dans un mouvement plus large de standardisation de la collecte de données robotiques, aux côtés d'initiatives comme Open-X Embodiment (Google DeepMind, 2023), DROID (Berkeley, 2024) ou les efforts de Physical Intelligence autour de pi0. Le positionnement open source du G0-Dataset rappelle la stratégie d'Hugging Face avec LeRobot, visant à créer une infrastructure commune de benchmarking. Aucun concurrent européen direct n'est impliqué ici, bien qu'Enchanted Tools et Wandercraft opèrent sur des segments adjacents (interaction et mobilité bipède) qui pourraient bénéficier de telles ressources de préentraînement. Les prochaines étapes annoncées incluent l'utilisation du dataset pour du préentraînement à grande échelle et des expériences de transfert cross-embodiment, sans timeline commerciale précisée, ce projet reste pour l'instant dans le périmètre recherche.

UELes équipes R&D françaises et européennes (Enchanted Tools, Wandercraft) pourraient exploiter le G0-Dataset open source pour le préentraînement de leurs modèles VLA, réduisant potentiellement leur dépendance à la collecte de données robotiques en flotte, si le facteur 20x se confirme hors conditions contrôlées.

IA physiqueOpinion
1 source
IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation
117arXiv cs.RO 

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Une équipe de chercheurs a publié sur arXiv Embodied-R1.5, un modèle de fondation incarné (EFM pour Embodied Foundation Model) de 8 milliards de paramètres intégrant cognition incarnée, planification, auto-correction et pointage d'affordances dans une architecture unifiée, entraîné sur un corpus dépassant 15 milliards de tokens construit via trois pipelines automatisés. Le cadre Planner-Grounder-Corrector (PGC) en boucle fermée permet l'exécution autonome et l'auto-correction sur des tâches longues, soutenu par une recette d'apprentissage par renforcement multi-tâches équilibré pour atténuer les conflits entre sous-domaines hétérogènes. Sur les benchmarks standardisés, Embodied-R1.5 atteint l'état de l'art sur 16 des 24 benchmarks de VLM incarnés, devançant Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI. Adapté en VLA (Vision-Language-Action) avec peu de données de fine-tuning, il surpasse pi-0.5 de Physical Intelligence sur quatre suites de benchmarks de manipulation. Des tests zero-shot sur robot réel valident les performances en suivi d'instructions, ancrage d'affordances, manipulation d'objets articulés et tâches longues, les poids, le code d'entraînement et EmbodiedEvalKit, un framework d'évaluation dédié, étant publiés en open source. Qu'un modèle de 8 milliards de paramètres surpasse des systèmes adossés aux ressources de Google et d'OpenAI est un signal notable pour les intégrateurs industriels, car la compacité ouvre la voie à un déploiement embarqué sur plateformes contraintes. L'auto-correction en boucle fermée du PGC répond directement au demo-to-reality gap qui freine la commercialisation des robots polyvalents, tandis que la capacité à fine-tuner en VLA avec peu de données cible le goulot d'étranglement central de la collecte de données de manipulation étiquetées. L'open source complet facilite la comparaison reproductible et devrait accélérer les itérations communautaires, à condition que les performances zero-shot annoncées soient confirmées dans des configurations adversariales que le papier ne documente pas. Embodied-R1.5 s'inscrit dans la vague des modèles de fondation robotiques généraux densifiée depuis RT-2 de Google et OpenVLA, avec pour concurrents directs Physical Intelligence (pi-0, pi-0.5) et Google DeepMind (Gemini Robotics). L'absence d'acteurs européens parmi les concurrents benchmarkés reflète le retard du continent, où des acteurs comme Wandercraft ou Enchanted Tools restent cantonnés à des niches spécialisées. L'approche open source total distingue ce travail des modèles propriétaires de Figure AI (Figure 03) ou de 1X Technologies, positionnant potentiellement Embodied-R1.5 comme base de référence pour les laboratoires et industriels souhaitant spécialiser un EFM sur leurs propres flux de manipulation.

UELes poids et le code d'Embodied-R1.5 publiés en open source constituent une base de référence accessible pour les laboratoires européens (CEA-List, INRIA) souhaitant spécialiser un EFM sur leurs propres flux de manipulation sans dépendre des modèles propriétaires de Google ou OpenAI.

💬 8 milliards de paramètres qui coiffent Gemini Robotics et GPT-5.4 sur leurs propres benchmarks, en open source total, c'est inattendu. L'auto-correction en boucle fermée s'attaque directement au fossé entre la démo en labo et le robot qui tient la route en prod, ce qui est le vrai mur depuis RT-2. Bon, le papier esquive les configurations difficiles, donc on verra ce que ça donne quand la communauté s'en empare.

IA physiqueOpinion
1 source
Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif
118arXiv cs.RO 

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

Des chercheurs publient sur arXiv (2606.12299, juin 2026) une méthode pour rendre les VLA (Vision-Language-Action) plus robustes aux variations de formulation en langage naturel. Le problème documenté est précis : des instructions sémantiquement proches induisent des comportements radicalement différents chez un robot piloté par VLA, et certaines capacités restent inaccessibles via le prompting standard. L'approche proposée, la "language feedback policy" (LFP), recherche interactivement des formulations optimales en boucle fermée, les distille en une politique de feedback activée au moment du test, puis utilise la prédiction conforme pour bloquer toute intervention susceptible de dégrader les performances hors distribution. Les résultats annoncés sont significatifs : +24,7 % de succès en simulation et +65,0 % sur matériel réel, sans fine-tuning du modèle sous-jacent ni accès aux données d'entraînement d'origine. Ce gain de 65 % sur robot physique est notable, même si les auteurs ne précisent pas les tâches ou les manipulateurs testés, ce qui rend la comparaison directe avec d'autres travaux difficile. L'absence totale de réentraînement constitue l'apport pratique le plus clair : les intégrateurs peuvent superposer cette couche sur n'importe quel VLA pré-entraîné gelé (Pi-0, GR00T N2, Helix, OpenVLA) sans toucher aux pipelines existants. La garantie de "harmlessness" via prédiction conforme est une contribution méthodologique rigoureuse : l'intervention est bloquée dès que la LFP risque de faire pire que l'instruction originale, critère essentiel pour un déploiement industriel où la fiabilité prime sur la performance brute. Ce travail s'inscrit dans un contexte de déploiements VLA accélérés : Physical Intelligence a commercialisé Pi-0, NVIDIA a publié GR00T N2, Figure déploie Helix en production chez BMW à Spartanburg. En Europe, Wandercraft intègre des architectures de contrôle apprenant pour la rééducation, et Enchanted Tools teste des interactions langage-robot sur son humanoïde Miroka. Tous ces systèmes partagent la même fragilité au prompt que l'ingénierie manuelle ne résout pas systématiquement. Ce travail propose une couche d'adaptation automatique complémentaire aux approches de fine-tuning comme RLHF ou DPO appliqués aux VLA. Les suites naturelles seraient une évaluation sur des benchmarks standardisés tels que LIBERO ou OpenX-Embodiment, et un test sur des VLA propriétaires à architecture fermée.

UEWandercraft et Enchanted Tools, qui intègrent des architectures de contrôle apprenant sur leurs systèmes respectifs, sont des bénéficiaires directs potentiels de cette couche d'adaptation VLA déployable sans réentraînement ni accès aux données d'origine.

💬 65 % de gain sur matériel réel sans toucher au modèle sous-jacent, c'est pas rien. Ce qui m'intéresse surtout, c'est la garantie de ne pas dégrader les performances : l'intervention est bloquée dès qu'elle risque de faire pire que l'instruction d'origine, et ça c'est le seul argument qui tient vraiment dans un déploiement industriel. Reste à voir sur quelles tâches ils ont testé ça, les détails manquent pour comparer sérieusement avec l'existant.

IA physiqueOpinion
1 source
FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques
119arXiv cs.RO 

FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques

Des chercheurs ont publié en juin 2026 sur arXiv (2606.12406) deux méthodes complémentaires pour doter les bras robotiques low-cost d'une sensibilité à l'effort sans capteur de force dédié. NEXT (Neural External Torque Estimation) estime les couples externes appliqués aux articulations à partir de données de mouvement libre uniquement : dix minutes de collecte suffisent pour un entraînement d'une minute, avec des performances comparables à celles de capteurs de couples articulaires dédiés. FIRST (Force-Informed Re-Sampling Training) exploite ces estimations pendant le behavior cloning en sur-échantillonnant les phases précédant le contact et les phases de contact elles-mêmes. Sur cinq tâches à horizon long impliquant des manipulations contacts-riches, FIRST dépasse les politiques force-aware antérieures de plus de 17% en progression de tâche. Code et vidéos sont disponibles à jasonjzliu.com/factr2. L'impact principal concerne les intégrateurs opérant sur des bras collaboratifs sans instrumentation force-couple : UR, Franka, Kinova ou Dobot ne sont pas livrés avec des capteurs six axes, dont le coût unitaire dépasse fréquemment 5 000 euros. En éliminant ce prérequis matériel, NEXT rend la télé-opération à retour d'effort et l'apprentissage par démonstration accessibles sur flottilles existantes sans modification mécanique. Le gain de 17% sur des tâches longues comme l'insertion ou l'assemblage est non trivial, même si ces benchmarks en laboratoire restent à valider en conditions industrielles. Ce que cette contribution établit : la perception d'effort peut être inférée par voie logicielle, sans modifier la mécanique du robot. La publication s'inscrit dans la continuité de FACTR (arXiv:2502.02022, 2025, même groupe), qui explorait déjà l'apprentissage de politiques contacts-riches par télé-opération avec retour de force. Le paysage concurrentiel inclut les approches à capteurs tactiles (DIGIT de Meta, GelSight du MIT), les estimateurs de couple par résidus de dynamique utilisés à DLR et Fraunhofer, et les travaux sur la perception haptique chez Physical Intelligence et Figure AI. Les prochaines étapes naturelles seront la validation sur hardware industriel certifié et l'intégration dans des pipelines VLA (Vision-Language-Action), où la perception d'effort reste une lacune connue des politiques déployées à grande échelle.

UELes laboratoires européens (DLR, Fraunhofer) et intégrateurs utilisant des bras Franka Emika (fabricant allemand) peuvent évaluer NEXT/FIRST sur leurs flottes existantes sans investissement matériel supplémentaire, abaissant le coût d'accès à l'apprentissage contacts-riches.

💬 Dix minutes de collecte de données pour remplacer un capteur à 5 000€, c'est là que ça devient vraiment intéressant. Les intégrateurs qui tournent sur du Franka ou du UR sans instrumentation force-couple vont pouvoir tester ça sur leurs flottes sans toucher à la mécanique, et le +17% sur des tâches longues comme l'insertion c'est pas du bruit. Reste à voir si ça tient hors conditions de labo, mais la direction est la bonne.

IA physiquePaper
1 source
World Pilot : piloter les modèles VLA avec des a priori monde-action
120arXiv cs.RO 

World Pilot : piloter les modèles VLA avec des a priori monde-action

Une équipe de chercheurs a publié World Pilot (arXiv:2606.12403, juin 2026), un framework conçu pour combler une lacune structurelle des modèles Vision-Language-Action (VLA). Ces modèles, comme Pi-0 de Physical Intelligence ou RT-2 de Google Robotics, tirent leur force d'un préentraînement sur de vastes corpus image-texte, mais ce préentraînement s'appuie sur des paires statiques, alors que la manipulation robotique est un processus continu et riche en contacts dont la dynamique leur échappe. World Pilot introduit un World-Action Model (WAM) qui injecte deux types de priors dans la chaîne de décision : le Latent Steering conditionne la couche de perception sur un latent d'évolution de scène, et l'Action Steering fournit une trajectoire anticipée comme prior de mouvement au générateur d'actions. Sur le benchmark LIBERO-Plus en configuration zero-shot out-of-distribution (OOD), le système atteint 84,7 % de taux de succès global et affiche les meilleurs résultats sur quatre tâches de manipulation en environnement réel, avec des marges significatives lors de variations de point de vue, de géométrie d'objets, d'état déformable et de pose. L'intérêt principal de cette approche est de renforcer la robustesse des VLA face aux écarts de distribution sans réentraînement massif. Fait notable : le prior d'évolution de scène reste efficace même lorsqu'il provient d'un world model préentraîné sur vidéo uniquement, sans post-entraînement sur des données d'action, ce qui rend l'augmentation de VLA existants nettement plus accessible. Pour les équipes de déploiement industriel, cela signifie potentiellement moins de données de fine-tuning pour adapter un modèle à un contexte visuel inédit. Le benchmark zero-shot OOD reste l'un des indicateurs les plus exigeants du domaine, là où la majorité des politiques robotiques s'effondrent dès qu'elles sortent de leur distribution d'entraînement. World Pilot s'inscrit dans un courant actif qui vise à doter les politiques robotiques d'un modèle interne du monde, une direction explorée par DeepMind avec DreamerV3 et par Meta via l'architecture JEPA de Yann LeCun. Les VLA ont démontré des capacités de généralisation sémantique prometteuses, mais leur fragilité face aux variations physiques de l'environnement constituait un frein structurel au déploiement industriel. La question ouverte est de savoir si les marges observées sur LIBERO-Plus se maintiendront sur des benchmarks plus larges comme Open-X-Embodiment et sur des plateformes commerciales telles que les bras Franka Robotics ou Universal Robots, étapes nécessaires pour valider la portée industrielle de l'approche.

UESi les résultats se confirment sur Franka Robotics (allemand) et Universal Robots (danois), plateformes dominantes en Europe, cette approche pourrait réduire le coût d'adaptation des VLA aux lignes industrielles européennes sans données d'action supplémentaires.

💬 Le résultat qui compte vraiment, c'est pas les 84% sur le benchmark, c'est que le prior de scène fonctionne avec un world model entraîné sur vidéo uniquement, zéro donnée d'action. Ça veut dire qu'on peut augmenter un Pi-0 ou un RT-2 sans repartir en fine-tuning robotique de zéro, ce qui était le vrai blocage jusqu'ici. Reste à voir si ça tient sur un Franka en prod, mais c'est le genre de papier qu'on garde sous le coude.

IA physiqueOpinion
1 source
Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante
121arXiv cs.RO 

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

Des chercheurs ont publié le 12 juin 2026 un article sur arXiv (2606.12365) présentant l'Ambient Diffusion Policy, une méthode d'apprentissage par imitation conçue pour exploiter des données de démonstration sous-optimales en robotique. Le problème de fond est économique : collecter des données de haute qualité, spécifiques à une tâche, reste coûteux et chronophage, tandis que des datasets hétérogènes, bruités ou hors distribution sont abondants. La méthode introduit un nouvel axe de co-entraînement fondé sur le bruit : la contribution des données sous-optimales est restreinte aux seuls niveaux de bruit élevés et faibles dans le processus de diffusion, plutôt que sur l'ensemble des timesteps d'entraînement. Cette sélectivité permet d'extraire les caractéristiques utiles tout en neutralisant les signaux parasites. Testée sur six tâches couvrant quatre types de données dégradées (trajectoires bruitées, écart sim-to-réel, désalignement de tâche, mélanges de datasets à grande échelle), la méthode surpasse les baselines de co-entraînement existantes de jusqu'à 33% sur Open X-Embodiment, un dataset public de référence regroupant des données robotiques hétérogènes issues de multiples plates-formes. L'impact pour les intégrateurs et les équipes R&D est direct : l'un des goulots d'étranglement majeurs du déploiement de politiques de contrôle apprises n'est plus la quantité de données parfaites disponibles, mais la capacité à valoriser des données imparfaites déjà collectées. La justification théorique repose sur l'observation que les données d'action robotique suivent une loi de puissance spectrale, ce qui induit deux propriétés exploitables dans les Diffusion Policies : une hiérarchie global-to-local et une propriété de localité. Ces propriétés permettent de comprendre pourquoi les niveaux de bruit extrêmes encodent respectivement la structure globale du mouvement et les détails fins, et donc pourquoi la restriction de la contribution des données sous-optimales à ces deux régimes fonctionne. C'est un résultat notable : la méthode n'exige pas de filtrage préalable ni de pondération manuelle des sources, ce qui simplifie le pipeline d'ingestion de données. L'Ambient Diffusion Policy s'inscrit dans le sillage des Diffusion Policies (Chi et al., 2023, Columbia University), devenues une référence dans le contrôle robotique par imitation depuis leur démonstration sur des tâches de manipulation précise. Le co-entraînement sur données hétérogènes est un défi actif, notamment pour les grandes politiques généralistes comme RT-2, Octo ou OpenVLA, qui s'appuient sur Open X-Embodiment. L'approche "Ambient" s'inspire des travaux sur l'apprentissage par diffusion à partir de données corrompues (Gokaslan et al., 2023), ici réinterprétés pour le contexte robotique. Les concurrents directs incluent les méthodes de filtrage par récompense (IQL, AWR) et les approches de pondération implicite comme DWSL. La prochaine étape naturelle, non annoncée dans l'article, serait une intégration dans des pipelines de fine-tuning de politiques fondatrices (foundation policies) où la qualité des données de démonstration spécifiques au site de déploiement reste variable.

UELes équipes R&D robotique françaises et européennes travaillant sur des politiques d'imitation peuvent directement exploiter la méthode pour valoriser leurs datasets de démonstration hétérogènes existants, réduisant le coût de collecte de données haute qualité pour le déploiement industriel ou humanoïde.

IA physiquePaper
1 source
DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé
122arXiv cs.RO 

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Une équipe du groupe Intuitive Robots publie DAM-VLA (Decoupled Asynchronous Multimodal Vision-Language-Action), un modèle VLA déposé sur arXiv le 11 juin 2026 (2606.12105) qui remet en cause le paradigme d'horloge synchrone des architectures VLA actuelles. Le problème identifié est structurel : les modèles vision-langage-action héritent d'un préentraînement où toutes les modalités partagent la même fréquence de traitement. Or en manipulation physique, les capteurs proprioceptifs opèrent à plusieurs centaines de hertz, la vision évolue bien plus lentement, et les instructions langagières restent constantes sur l'ensemble d'un épisode. Oversampler la vision et sous-échantillonner la proprioception plafonne la qualité du contrôle. DAM-VLA maintient des tampons latents par modalité, chacun rafraîchi à la fréquence de son propre capteur et consulté en continu par la tête d'action via gated cross-attention, sans modifier le backbone préentraîné. Sur sept tâches de manipulation en contact réel (contact-rich), le modèle atteint 95,2 % de succès contre 40,95 % pour la meilleure baseline synchrone, tout en assurant un contrôle fluide à 100 Hz. Ce doublement du taux de succès sur des tâches contact-rich est un résultat conséquent. Il suggère que le sim-to-real gap dans les VLA est aussi un problème de temporalité : rater des transitions haptiques critiques lors d'une insertion ou d'un vissage dégrade le contrôle plus que la généralisation visuelle. Pour un intégrateur industriel, 100 Hz en sortie d'action passe le seuil minimal pour des tâches de précision en cellule automatisée. L'architecture ne modifiant pas le backbone, elle préserve la réutilisabilité des poids préentraînés, ce qui réduit le coût d'adoption pour les équipes déjà investies sur des bases VLA existantes. Les VLA déployés en production récente, Pi-0 de Physical Intelligence, OpenVLA et Octo, ainsi que les approches commerciales de Figure AI (Figure 03) ou NVIDIA (GR00T N2), opèrent sur le paradigme synchrone. DAM-VLA propose une troisième voie entre la boucle unifiée et le découpage hiérarchique dual-system. Quelques réserves s'imposent : il s'agit d'un preprint sans revue par les pairs confirmée, les sept tâches évaluées restent de portée laboratoire, et aucun déploiement industriel ni partenariat commercial n'est annoncé. Les étapes critiques, validation sur manipulateurs bi-bras et intégration de capteurs force-couple haute fréquence comme modalité principale, restent à démontrer hors contexte académique.

IA physiqueOpinion
1 source
DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?
123arXiv cs.RO 

DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?

Une équipe de chercheurs a publié en juin 2026 DIRECT (arXiv:2606.12402), un cadre de routage conçu pour allouer dynamiquement le calcul à l'inférence, ce que le milieu appelle test-time compute, dans les agents embarqués pilotés par des modèles de vision-langage (VLMs). Plutôt que d'appliquer uniformément plus de puissance de calcul à chaque requête, DIRECT utilise le contexte visuel et multimodal de la scène pour décider, prompt par prompt, combien de ressources mobiliser. Le système a été évalué sur deux benchmarks de référence, VLABench et RoboMME, puis validé sur un bras Franka physique dans une configuration DROID couvrant manipulation zero-shot et enchaînements de tâches longues. Le résultat clé : DIRECT égale ou dépasse un modèle plus puissant tout en réduisant la latence moyenne jusqu'à 65 %. L'apport scientifique dépasse l'optimisation des coûts. Les auteurs montrent que les trois grands axes de montée en puissance à l'inférence, profondeur de la chaîne de pensée (chain-of-thought), taille du modèle, et longueur de l'historique mémoire, ne sont pas interchangeables : chacun produit des gains qualitativement distincts selon le type de tâche. Cela contredit l'hypothèse implicite de nombreux travaux récents selon laquelle "plus de compute = meilleures performances" de façon uniforme. Pour un intégrateur ou un COO industriel, l'implication est directe : un routeur intelligent peut tenir les contraintes de latence des applications temps réel sans sacrifier les capacités de planification, rendant les VLMs plausibles hors des environnements lab. Ce travail s'inscrit dans une accélération marquée de l'usage des VLMs comme planificateurs de haut niveau pour la robotique, portée notamment par des modèles comme GPT-4o, Gemini 2.0 ou les architectures Vision-Language-Action (VLA) type pi0 de Physical Intelligence. Le setup DROID utilisé pour la validation physique est un environnement de manipulation à grande échelle devenu standard dans la recherche académique américaine. Côté concurrence, les approches alternatives, décodage spéculatif, distillation, sélection statique de modèle, n'exploitent pas le contexte de scène pour router dynamiquement. DIRECT ouvre la voie à des pipelines adaptatifs, mais reste à ce stade une contribution de recherche : aucun déploiement industriel ni partenariat industriel n'est annoncé.

IA physiqueOpinion
1 source
SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation
124arXiv cs.RO 

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

Une équipe de chercheurs présente SAFER-Nav (arXiv:2606.11636), une méthode de fine-tuning pour améliorer la sécurité des modèles de navigation visuelle robotique opérant uniquement à partir d'images RGB. Le problème est connu : les politiques basées sur des transformeurs ou modèles de diffusion, telles que ViNT (Visual Navigation Transformer) et NoMaD, restent orientées vers leur objectif même dans des environnements inconnus, mais génèrent des trajectoires dangereuses en présence d'obstacles non vus ou de conditions décalées. SAFER-Nav intègre directement dans la politique, via un fine-tuning "segmentation-aware", la représentation explicite des frontières d'obstacles et de l'espace libre traversable, une information absente des approches existantes fondées sur la correction externe de trajectoire ou des priors géométriques internes. Les évaluations portent sur plusieurs plateformes robotiques mobiles, des environnements intérieurs, et des scénarios avec obstacles statiques et dynamiques ; elles montrent une réduction de la fréquence de collisions par rapport à ViNT, NoMaD et leurs variantes augmentées CARE, avec maintien des performances d'atteinte d'objectif. Il s'agit d'un preprint arXiv déposé en juin 2026, non encore évalué par les pairs, sans déploiement commercial annoncé. L'enjeu central est la généralisation à des environnements non vus, verrou majeur pour le déploiement industriel de robots mobiles autonomes dans des entrepôts, hôpitaux ou chantiers. Les méthodes existantes de correction de trajectoire agissent en aval de la politique sans modifier sa représentation interne, laissant intacte la cause première des comportements dangereux. En encodant la structure sémantique de la scène directement dans les poids du modèle, SAFER-Nav adresse le problème à la source ; sa compatibilité avec des backbones RGB variés représente un avantage pratique pour les intégrateurs souhaitant améliorer des systèmes existants sans changer d'architecture. Ces résultats appuient l'hypothèse que le "demo-to-real gap" peut être réduit par supervision sémantique au fine-tuning, sans refonte architecturale complète. ViNT et NoMaD, issus de groupes de recherche de l'Université de Californie à Berkeley, ont instauré un paradigme de modèles de fondation navigants déployables sur des plateformes robotiques hétérogènes sans reprogrammation dédiée. CARE visait à les augmenter par des mécanismes d'évitement sans modifier la politique de base. SAFER-Nav s'inscrit dans la tendance d'adaptation efficace des politiques robotiques par fine-tuning ciblé, parallèlement aux travaux sur les VLA (Vision-Language-Action models) comme pi-zero (Physical Intelligence) ou GR00T N2 (NVIDIA). Les prochaines étapes naturelles incluent une validation en environnement extérieur et en conditions dynamiques réelles, ainsi qu'une évaluation par les pairs. L'absence de financement industriel dans le preprint indique une contribution de recherche fondamentale, non une annonce produit imminente.

UELes équipes R&D et intégrateurs européens de robots mobiles autonomes (entrepôts, hôpitaux, chantiers) pourraient exploiter cette méthode de fine-tuning pour réduire les collisions sur flottes RGB existantes sans refonte architecturale, sous réserve de validation par les pairs et de mise à disposition publique des poids.

IA physiquePaper
1 source
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
125arXiv cs.RO 

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

IA physiqueOpinion
1 source
LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines
126arXiv cs.RO 

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines

Des chercheurs ont publié LUCID (arXiv:2606.11628, juin 2026), un framework en deux étapes qui apprend des compétences de manipulation dextère à partir de vidéos humaines non étiquetées issues d'internet, sans démonstrations robotiques coûteuses. LUCID découple l'apprentissage en un modèle d'intention, qui prédit à court horizon ce qui doit se passer ensuite dans la scène en boucle fermée, et une politique sensorimorale spécifique à chaque effecteur, chargée de convertir cette intention en actions concrètes. Ce découplage permet au même modèle d'intention d'opérer sur des effecteurs différents, de la main dextère multi-doigts au préhenseur parallèle à deux mâchoires, sans réentraînement. Le système a été validé sur cinq tâches réelles : mélange, essuyage et tri en bac, supervisés par des vidéos internet uniquement avec transfert zéro-shot vers de nouveaux objets et scènes, et push-T et routage de câbles, supervisés chacun par une heure de vidéo smartphone collectée par les auteurs. Ce résultat s'attaque au principal goulot d'étranglement du robot learning industriel : la dépendance à des démonstrations coûteuses et liées à un embodiment précis. Les pipelines actuels, qu'ils reposent sur la télé-opération (Figure AI, 1X), l'imitation structurée (ACT, Diffusion Policy) ou les VLA end-to-end, exigent tous des données robotiques spécifiques à l'effecteur. LUCID substitue à cela des vidéos humaines à l'échelle web pour la compréhension de tâche, et de la simulation massivement parallèle pour le contrôle moteur. Si le paradigme passe à l'échelle, il réduit significativement les coûts d'intégration pour chaque nouvel effecteur, argument directement adressé aux intégrateurs industriels qui gèrent des parcs de bras multi-marques. LUCID se positionne face à pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui privilégient des architectures end-to-end. La principale différenciation est l'interface d'intention agnostique à l'embodiment, apprise depuis des données internet non étiquetées, ce qui constitue une direction distincte de la course à la collecte massive de démonstrations robotiques. Le preprint ne mentionne ni partenaire industriel ni feuille de route commerciale ; les résultats restent en environnement laboratoire sur des tâches de complexité modérée, et le passage à des contextes industriels non contraints reste à démontrer.

IA physiqueOpinion
1 source
Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention
127arXiv cs.RO 

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

Des chercheurs ont publié sur arXiv (référence 2506.12109) un travail présentant InDex, un cadre d'adaptation permettant d'appliquer des modèles Vision-Language-Action (VLA) pré-entraînés aux mains dextres multi-doigts à haut degré de liberté (high-DoF), sans recourir à de larges volumes de données de démonstration. Le problème central adressé est le "morphology gap" : les VLA existants comme Pi-0, RT-2 ou OpenVLA sont presque exclusivement entraînés avec des préhenseurs parallèles à faible degré de liberté (1-DoF), alors que les mains dextres industrielles opèrent avec 12 à 24 DoF ou davantage. Adapter directement ces modèles par fine-tuning bout-en-bout sur mains multi-digitales provoque deux problèmes critiques : l'oubli catastrophique du raisonnement spatial acquis lors du pré-entraînement, et un effondrement de l'espace d'action causé par la rareté des données de démonstration. InDex y répond via une architecture découplée en deux étapes : la première aligne efficacement le backbone VLA pour prédire des trajectoires de bras et une intention de préhension scalaire continue ; la seconde fige ce backbone et utilise une tête de débruitage par diffusion, conditionnée sur cette intention, pour décoder les articulations fines des doigts. Tous les résultats présentés sont des benchmarks en simulation sur des tâches multi-étapes à contact riche, où InDex surpasse les baselines monolithiques. Ce travail identifie une limite structurelle des pipelines VLA que l'industrie commence à percevoir concrètement : passer d'un gripper à pince vers une main dextre n'est pas un simple problème de données supplémentaires, c'est une rupture topologique dans l'espace de contrôle. L'approche par héritage sémantique cross-morphologie réutilise le signal de préhension 1-DoF comme proxy macroscopique d'intention plutôt que de le jeter, ce qui préserve les priors spatiaux acquis. Pour un intégrateur ou un responsable R&D, la promesse est celle d'un fine-tuning efficace en données sur des end-effectors complexes sans repartir de zéro. Une réserve s'impose cependant : l'absence totale de résultats sur hardware réel laisse entière la question du sim-to-real transfer pour des contacts précis au niveau des phalanges, un défi encore non résolu dans le domaine. Le contexte dans lequel s'inscrit InDex est celui de la montée en puissance des VLA comme couche universelle de planification motrice. Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2, et NVIDIA avec GR00T N2 ont chacun démontré des capacités de généralisation remarquables en manipulation générale, mais systématiquement avec des grippers standards. Côté mains dextres, les fabricants Shadow Robot, Inspire Robots ou Schunk disposent d'hardware performant sans politiques visuomotrices généralisables. Des approches concurrentes tentent l'adaptation par apprentissage par renforcement ou par réseaux de diffusion dédiés, mais InDex parie sur la réutilisation maximale des priors VLA existants. La prochaine étape logique serait une validation sur robot réel avec des benchmarks normalisés comme DEXART ou Bi-DexHands ; en l'état, l'article reste une contribution théoriquement solide en simulation, prometteuse mais non encore validée en conditions industrielles.

IA physiqueOpinion
1 source
Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde
128arXiv cs.RO 

Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde

Une équipe de chercheurs a publié sur arXiv (2606.12217) une analyse d'une limitation fondamentale des World Action Models (WAMs), architecture émergente pour la manipulation robotique. Les WAMs combinent un modèle de génération vidéo, chargé de prédire l'évolution future de la scène, avec un décodeur d'actions qui traduit ces prédictions en commandes motrices. Les auteurs constatent empiriquement qu'un modèle produisant des séquences visuelles plausibles ne génère pas nécessairement des actions précises. Par des analyses d'attention sur la tête d'action et des interventions causales, ils identifient un "mismatch" de représentations : les états cachés du modèle de diffusion vidéo sont optimisés pour la reconstruction visuelle, pas pour le contrôle moteur à bas niveau. Le décodeur d'actions peine à se focaliser sur les zones d'interaction pertinentes et reste sensible aux perturbations dans les régions non pertinentes de la scène. En réponse, les auteurs proposent AGRA (Action-Grounded Representation Alignment), un objectif de régularisation qui aligne les features intermédiaires de la diffusion vidéo avec des représentations sémantiques spatialement cohérentes issues d'un encodeur visuel de fondation. Les tests sur des tâches de manipulation réelles montrent une meilleure localisation d'objets, une compréhension accrue des affordances, et une robustesse améliorée face aux perturbations hors distribution. Ce résultat pointe un problème structurel rarement formalisé dans la littérature WAM : le gradient d'entraînement de la génération vidéo ne suffit pas à organiser les représentations internes de façon utile pour le contrôle moteur. C'est une distinction critique pour les équipes R&D investissant dans les architectures VLA (Vision-Language-Action) ou world-model-based, car posséder un bon simulateur interne ne garantit pas une bonne politique. AGRA démontre qu'un alignement explicite entre features du monde et sémantique spatiale améliore simultanément les performances en distribution et la généralisation hors distribution, un double bénéfice difficile à obtenir et précieux pour les déploiements industriels où les variations d'environnement sont inévitables. Les WAMs s'inscrivent dans une lignée de recherches incluant Dreamer (DeepMind) et les architectures world-model appliquées à la navigation et la manipulation. AGRA se distingue en ajoutant un objectif de régularisation à l'interface monde-action sans modifier l'architecture de base, ce qui le rend potentiellement applicable à d'autres variantes de WAMs. Dans l'espace de la manipulation robotique, les approches concurrentes comme Pi-0 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA contournent le problème en n'utilisant pas de génération vidéo explicite, ce qui place AGRA comme une réponse directe aux faiblesses spécifiques des architectures à modèle du monde. Il s'agit à ce stade d'une contribution académique arXiv sans déploiement industriel ni code public annoncé.

IA physiqueOpinion
1 source
CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA
129arXiv cs.RO 

CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA

Des chercheurs ont publié en juin 2026 un preprint (arXiv:2606.12352) présentant CHORUS, un cadre de coordination multi-robots qui s'appuie sur un unique backbone VLA (vision-language-action) pour piloter des équipes hétérogènes de robots mobiles. Le principe est radical dans sa simplicité : à l'inférence, chaque robot exécute une copie indépendante de CHORUS, conditionnée uniquement par ses propres observations et un prompt identifiant son rôle dans l'équipe -- aucune communication inter-robots n'est requise à l'exécution. Les expériences en conditions réelles portent sur trois tâches collaboratives : mesure de distance avec ruban mobile, transfert de livres en bibliothèque, et soulèvement de paniers de linge. Sur ces scénarios, CHORUS affiche un gain de 64 points de pourcentage par rapport à des modèles décentralisés entraînés de zéro, et améliore la réactivité aux comportements des partenaires de 40 points, tout en surpassant les approches centralisées classiques. Ce résultat bouscule une hypothèse structurante du domaine : pour coordonner plusieurs robots, il fallait soit centraliser les observations (coûteux en communication, ne passe pas à l'échelle avec la taille de l'équipe), soit entraîner une politique par robot avec des procédures d'alignement explicites ou des échanges d'état à l'inférence. CHORUS démontre que les priors visuomoteurs acquis lors du préentraînement VLA sont suffisants pour surmonter l'observabilité partielle sans aucune communication réseau entre robots au moment de l'exécution. C'est une validation concrète, en conditions réelles, de la thèse que les VLA généralisent au-delà de la manipulation single-agent -- un point encore contesté dans la littérature. Pour les intégrateurs industriels, l'implication pratique est directe : une flotte hétérogène peut partager un seul modèle déployé, ce qui simplifie drastiquement la gestion des mises à jour et réduit les coûts d'infrastructure d'inférence. Les VLA connaissent une montée en puissance rapide depuis 2024, avec des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou Helix de Figure Robotics, chacun ciblant principalement la manipulation monobras ou bimanuelle sur un seul robot. La coordination multi-robots reste un chantier ouvert : les travaux existants (MOMA, SMART) imposent généralement des canaux de communication ou des architectures centralisées. CHORUS s'inscrit dans ce manque, mais reste à ce stade un preprint académique -- les tâches testées sont volontairement contraintes et il n'existe pas de déploiement industriel annoncé. Les prochaines étapes naturelles porteront sur le passage à l'échelle (équipes de plus de deux robots), la robustesse aux perturbations dynamiques, et l'intégration dans des stacks de planification existants.

UEAucun acteur français ou européen n'est impliqué, mais la possibilité de piloter une flotte hétérogène avec un seul modèle VLA partagé représente un avantage de coût et de gestion potentiellement pertinent pour les intégrateurs industriels européens si CHORUS atteint la maturité déploiement.

IA physiqueOpinion
1 source
UniIntervene : intervention à base d'agents pour un apprentissage par renforcement efficace en conditions réelles
130arXiv cs.RO 

UniIntervene : intervention à base d'agents pour un apprentissage par renforcement efficace en conditions réelles

UniIntervene est un modèle d'intervention autonome présenté dans un preprint arXiv (2606.12372, juin 2026) qui cible un goulot d'étranglement concret de l'apprentissage par renforcement en boucle humaine (HiL-RL) pour la manipulation robotique réelle. Le système combine trois composants : un estimateur de valeur d'action conditionné sur le futur, qui prédit les conséquences latentes d'une action et évalue leur valeur avant exécution ; un critique temporel de risque de valeur (temporal value-risk critic), qui agrège la dynamique récente des signaux de valeur et déclenche une intervention dès qu'une stagnation ou dégradation soutenue est détectée ; et une politique de récupération conditionnée sur un objectif, qui extrait une cible de haute valeur depuis une mémoire d'épisodes d'intervention passés et génère des actions correctives exécutables. Sur des tâches de manipulation en conditions réelles, UniIntervene améliore le taux de succès moyen de 8,6 points de pourcentage tout en réduisant les interventions humaines de 57 % par rapport aux baselines HiL-RL de l'état de l'art. L'enjeu industriel est direct : le HiL-RL est l'une des approches les plus prometteuses pour déployer des bras manipulateurs apprenants hors du laboratoire, mais son coût opérateur reste prohibitif à l'échelle. Chaque correction humaine représente du temps d'ingénieur ou de technicien immobilisé devant le robot. En délégant la majorité des interventions à un agent autonome -- tout en conservant la supervision humaine pour les cas limites -- UniIntervene ouvre un chemin vers un fine-tuning continu en production sans équipe dédiée. La réduction de 57 % est notable, mais les auteurs ne précisent pas la nature exacte des tâches testées ni si les vidéos publiées sont représentatives de l'ensemble du benchmark ; prudence donc sur la généralisabilité immédiate. Le HiL-RL pour la robotique réelle a connu une accélération depuis les travaux de DAgger (Ross et al., 2011) et leurs dérivés, avec des systèmes récents comme RLIF et IWR qui ont montré que l'intervention humaine ponctuelle surpasse le RL pur en environnements non structurés. UniIntervene s'inscrit dans cette lignée mais déplace le curseur : là où IWR demande à l'humain de décider quand intervenir, ici c'est le modèle lui-même qui prend cette décision via son critic temporel. Les concurrents directs incluent les approches de HITL proposées par des équipes de Chelsea Finn (Stanford) et Pieter Abbeel (UC Berkeley / Covariant). Aucun partenaire industriel ni timeline de déploiement n'est mentionné dans le preprint ; il s'agit pour l'instant d'une contribution de recherche sans pilote annoncé.

IA physiquePaper
1 source
iPack : rangement intuitif dans des bacs grâce aux grands modèles de langage
131arXiv cs.RO 

iPack : rangement intuitif dans des bacs grâce aux grands modèles de langage

Une équipe de chercheurs a publié sur arXiv (papier 2503.08445v2, mars 2025) un travail intitulé iPack, dont le coeur est un système baptisé LLM-Pack, conçu pour automatiser la séquence d'emballage de produits alimentaires. Le principe repose sur la combinaison d'un modèle de langage (LLM) et d'un modèle de vision (VLM) : l'IA identifie visuellement les articles présents dans un panier, puis génère un ordre d'emballage qui reproduit la logique humaine intuitive, en plaçant les produits lourds en premier et les fragiles au-dessus. Le système fonctionne sans entraînement dédié sur de nouveaux articles, son architecture modulaire permettant de substituer les modèles fondamentaux sous-jacents sans modifier le reste du pipeline. Le code source sera rendu public à la publication définitive. Ce travail comble un angle mort notable de la robotique logistique. Le problème du "bin picking" (saisir un objet dans un bac) est intensément étudié depuis des années, mais l'ordre d'emballage séquentiel des courses, pour éviter d'écraser une baguette ou un produit fragile, est resté quasi inexploré. L'approche zero-shot est le point différenciant : elle offre une généralisation immédiate à la variété extrême des SKU en grande distribution, là où les systèmes classiques exigent des catalogues annotés et des cycles de réentraînement. Si les performances se confirment hors conditions de laboratoire, cela représente une brique concrète pour des systèmes de caisse automatisée avec emballage intégré, avec un intérêt direct pour les intégrateurs retail et les enseignes pilotant des projets d'automatisation. La grande distribution automatise en ordre dispersé : les supermarchés sans caissier comme Amazon Fresh ou Auchan Go existent, mais le geste d'emballage reste systématiquement manuel. LLM-Pack se positionne comme la brique manquante entre la détection d'articles et la manipulation robotique. Les concurrents commerciaux directs, tels que Focal Systems ou Mashgin côté vision de caisse, n'ont pas publié d'approche comparable sur le séquençage d'emballage. Il reste cependant à souligner que ce travail est un preprint sans validation industrielle ni déploiement annoncé : les évaluations présentées sont réalisées en environnement contrôlé, et la robustesse sur la variabilité réelle d'un point de vente, avec des milliers de références différentes, reste entièrement à démontrer.

UELes enseignes françaises comme Auchan Go, déjà engagées dans l'automatisation des caisses, pourraient bénéficier de cette brique technologique si elle est validée à l'échelle industrielle.

IA physiquePaper
1 source
VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte
132arXiv cs.RO 

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte

Une équipe de chercheurs publie sur arXiv (juin 2026, ref. 2606.12028) VICX, un framework de manipulation robotique généraliste articulé autour d'une architecture découplée en deux blocs : un modèle de génération vidéo figé (non fine-tuné) produit des plans visuels de haut niveau conditionnés par langage naturel, tandis qu'un réseau baptisé V2T-ICON (Video-to-Trajectory In-Context Operator Network) traduit ces plans en trajectoires exécutables pour le robot. La particularité de V2T-ICON réside dans son fonctionnement par apprentissage en contexte : au moment de l'inférence, il récupère des paires image-état préenregistrées et travaille sur des images segmentées du seul bras robotique, permettant un mapping visuel-vers-état sans mise à jour des paramètres. Les expériences sont conduites sur Meta-World, un benchmark de simulation standard, et démontrent la généralisation inter-tâches, la correction en boucle fermée, et le transfert inter-corps (cross-embodiment). L'intérêt de cette approche pour les équipes de R&D réside dans sa modularité : en découplant planification visuelle et exécution motrice, VICX permet théoriquement de substituer l'un des deux blocs de façon indépendante, réduisant le coût d'adaptation à de nouvelles tâches sans réentraînement complet. Le mécanisme d'in-context learning évite de paramétrer le réseau pour chaque tâche inédite, ce qui est pertinent pour des environnements industriels changeants. Cela dit, les résultats restent cantonnés à Meta-World, un environnement de simulation simplifié : aucune validation sur robot physique n'est publiée dans ce preprint, une limite structurelle dans un domaine où le sim-to-real gap demeure l'obstacle central non résolu. VICX s'inscrit dans la vague des Visual Language Action models (VLA) cherchant à dépasser l'imitation learning classique via des représentations visuelles génératives. Les approches concurrentes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA adoptent des architectures majoritairement end-to-end et ont déjà fait l'objet de déploiements ou démonstrations sur hardware réel, ce qui les positionne en avance sur l'applicabilité industrielle à court terme. VICX constitue une contribution méthodologique solide sur la question de la généralisation, mais son chemin vers un déploiement concret reste entièrement à démontrer.

IA physiqueOpinion
1 source
La robotique ne connaîtra pas de moment Llama bien défini
133Robotics Business Review 

La robotique ne connaîtra pas de moment Llama bien défini

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome. La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service. Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

UEWayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

IA physiqueOpinion
1 source
Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation
134arXiv cs.RO 

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Des chercheurs ont publié le 10 juin 2026 (arXiv:2606.10501) une étude identifiant une vulnérabilité critique des modèles Vision-Language-Action (VLA) face aux défauts physiques articulaires. Ces modèles, qui traduisent instructions en langage naturel et observations visuelles en commandes motrices, équipent aujourd'hui les robots humanoïdes et manipulateurs les plus avancés. Les auteurs montrent que des failles réalistes, notamment dégradation d'actionneur, friction excessive due à l'usure, dommages de collision ou limites de sécurité restreintes, cassent la boucle fermée entre action commandée, mouvement réalisé et observation suivante, dégradant les taux de succès même pour des défauts physiquement « faisables ». L'impact varie selon l'articulation affectée, rendant toute mitigation générique difficile. En réponse, les auteurs proposent J-PARC (Joint-level Physical-fault Aware Residual Calibrator), un module léger ajouté au-dessus d'une politique VLA figée, qui infère un régime de défaut latent depuis la dynamique articulaire récente et applique une correction résiduelle adaptative sans modifier le modèle de base. Ce résultat comble un angle mort réel dans la validation des systèmes robotiques à base de VLA. L'effort de robustification s'est jusqu'ici concentré sur les variations perceptuelles et sémantiques : éclairage, occlusion, reformulation d'instructions. Or tout robot industriel accumule friction, chocs et dégradation d'actionneur au fil du temps. Montrer que ces perturbations physiquement réalisables suffisent à faire chuter les performances remet en cause l'hypothèse implicite qu'un VLA entraîné sur hardware neuf reste fiable tout au long de son cycle de vie opérationnel. Pour les intégrateurs et responsables de certification, c'est un signal fort : la robustesse mécanique doit entrer dans les critères de qualification aux côtés de la généralisation sémantique. L'approche J-PARC, sans fine-tuning ni capteur supplémentaire, offre une piste d'adaptation réaliste pour les déploiements existants. Les VLA ont connu une montée en puissance rapide depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), avec des déploiements annoncés chez Figure (modèle 03), Agility Robotics et 1X Technologies. Malgré leurs performances en laboratoire, leur comportement sur hardware vieillissant reste peu documenté dans la littérature. Ce papier s'inscrit dans une tendance croissante sur la fiabilité opérationnelle à long terme, aux côtés des travaux sur le sim-to-real gap. En Europe, des acteurs comme Enchanted Tools avec Mirokaï ou Wandercraft, où la dégradation articulaire est un enjeu quotidien en milieu médical ou logistique, sont directement concernés par ces résultats. Les prochaines étapes naturelles seront une validation sur hardware en vieillissement accéléré et l'intégration de J-PARC dans des pipelines de déploiement continu.

UELes acteurs français Enchanted Tools et Wandercraft, confrontés à la dégradation articulaire en milieu médical et logistique, peuvent directement intégrer J-PARC pour fiabiliser leurs déploiements VLA sans modifier leurs modèles de base.

💬 On a tous fait cette hypothèse implicite : un VLA entraîné en labo reste fiable sur un robot qui a pris des coups après 18 mois en prod. Ce papier montre que non, et c'est un angle mort réel pour tous les intégrateurs qui déploient en milieu industriel ou médical. J-PARC corrige ça sans toucher au modèle de base, bon, reste à voir si ça tient sur du vrai hardware vieilli.

IA physiqueOpinion
1 source
Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel
135arXiv cs.RO 

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

Des chercheurs publient en juin 2026 une méthode baptisée "flow control" (arXiv:2606.10180) permettant de piloter en temps réel les modèles VLA (Vision-Language-Action) via des entrées génériques, comme un clavier ou un joystick, sans aucun ré-entraînement ni fine-tuning. L'approche opère à l'inférence en orientant l'échantillonnage du modèle vers des actions qui reflètent l'intention de l'opérateur tout en restant dans la distribution experte apprise à l'entraînement. Les auteurs documentent dans ce preprint quatre propriétés mesurées : guidage précis et réactif, robustesse aux commandes imprécises, taux de succès améliorés avec réduction des temps de tâche, et enfin un gain de performance autonome lorsqu'on fine-tune le VLA sur les trajectoires corrigées par flow control. L'enjeu est concret pour les intégrateurs : les VLAs montrent des performances solides en démo, mais leurs taux d'échec en déploiement réel restent non nuls face aux variations d'environnement et aux instructions ambiguës. Plutôt que de corriger ces défauts par du ré-entraînement coûteux, flow control permet à un opérateur de guider le robot à la volée sans dégrader la qualité des mouvements générés. La boucle est vertueuse : les corrections humaines produisent des trajectoires haute qualité réutilisables comme données d'entraînement, traçant un chemin de déploiement progressif où la supervision humaine se retire au fil des itérations. Les VLAs ont pris de l'ampleur avec Pi-0 de Physical Intelligence (publié fin 2024), dont l'architecture repose précisément sur le flow matching, d'où le jeu de mots du titre. NVIDIA GR00T N2, OpenVLA (Berkeley/Stanford), et les modèles LeRobot de Hugging Face (Paris) constituent les autres plateformes où cette couche de contrôle pourrait s'intégrer sans modifier le pipeline d'entraînement existant. L'idée de guidage conditionné à l'inférence existe déjà en génération d'images via le classifier guidance des modèles de diffusion, mais son application à la robotique physique restait peu explorée. Les prochaines étapes annoncées dans le papier incluent le fine-tuning systématique sur trajectoires flow-control pour quantifier le gain autonome à plus grande échelle.

UEHugging Face (Paris) est explicitement cité comme plateforme d'intégration via LeRobot, ce qui rend cette méthode directement applicable à l'initiative robotique open-source française sans modifier le pipeline d'entraînement existant.

💬 C'est exactement le problème que personne ne veut admettre sur les VLAs : ils impressionnent en démo et flanchent en prod dès que l'environnement bouge un peu. L'idée de guider l'échantillonnage à l'inférence plutôt que de tout ré-entraîner, c'est le genre de solution pragmatique qu'on attendait. La boucle où les corrections humaines deviennent des données d'entraînement, c'est propre, et si ça marche à l'échelle avec LeRobot, Hugging Face tient quelque chose de sérieux.

IA physiqueOpinion
1 source
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
136arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

IA physiqueOpinion
1 source
Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation
137arXiv cs.RO 

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

Une équipe de recherche présente Efficient-WAM, un World-Action Model (WAM) d'un milliard de paramètres conçu pour la manipulation robotique en temps réel, dont les résultats sont publiés sur arXiv (2606.10040) en juin 2026. Les WAMs constituent une classe de modèles qui couplent la prédiction visuelle du futur avec la génération d'actions motrices : le robot "imagine" ce que va ressembler la scène dans quelques instants avant de décider quoi faire. Efficient-WAM ramène la latence d'inférence à environ 100 ms par chunk lors du déploiement physique, soit un gain de 30x par rapport aux WAMs existants. Pour y parvenir, trois leviers techniques sont combinés : un expert vidéo compact distillé depuis WAN-2.2-5B (modèle de génération vidéo à 5 milliards de paramètres), des représentations vidéo token-sparse, et un débruitage asymétrique qui alloue moins d'étapes d'échantillonnage à la branche vidéo qu'à la branche action. Les évaluations portent sur le benchmark RoboTwin 2.0 et des tâches de manipulation en conditions réelles. Le résultat central est contre-intuitif : Efficient-WAM maintient des performances d'action compétitives même si ses prédictions visuelles sont visiblement grossières, ce qui invalide l'hypothèse implicite que la fidélité photorealiste de l'imagination future est nécessaire au contrôle. Pour un intégrateur ou un responsable robotique, cela signifie que le goulot d'étranglement computationnel des WAMs n'est pas une fatalité architecturale mais un problème de design résolu ici par une re-priorisation : la vidéo future n'est plus un objectif visuel mais un signal de guidage compact pour la génération d'actions. À 100 ms par chunk, le modèle entre dans la fenêtre de faisabilité pour des boucles de contrôle sur manipulateurs industriels ou cobots, là où les WAMs précédents restaient confinés à la démonstration labo. Les WAMs s'inscrivent dans une compétition dense avec les Vision-Language-Action models (VLAs) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, qui traitent directement la génération d'actions sans passer par la prédiction vidéo explicite. L'argument des WAMs est que l'imagination du futur améliore la robustesse en dehors de la distribution d'entraînement, mais leur coût computationnel a jusqu'ici limité leur adoption. Efficient-WAM rééquilibre ce trade-off. La distillation depuis WAN-2.2-5B, un modèle de génération vidéo généraliste, suggère une stratégie de transfer learning inter-domaine qui pourrait s'étendre à d'autres architectures. Les prochaines étapes naturelles sont l'évaluation sur des plateformes humanoïdes complètes et des déploiements en environnements semi-structurés, deux dimensions absentes de ce papier.

IA physiqueActu
1 source
Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)
138arXiv cs.RO 

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 10 juin 2026 sur arXiv (2606.10495) SALSA, un framework de post-entraînement en deux étapes destiné à rendre les modèles Vision-Language-Action (VLA) capables de naviguer en sécurité parmi des piétons. Sans aucune annotation humaine, la méthode réduit les quasi-collisions de 86,4 % et fait passer la précision de reconnaissance des situations sociales critiques de 53 % à 93 %, mesurée sur le dataset SCAND et lors de déploiements en conditions réelles. SALSA opère en deux temps : une étape d'alignement comportemental social connecte les représentations internes des couches intermédiaires du VLA à sa tête d'action, via un entraînement sur des paires scènes humain/objet contrefactuelles pour casser les raccourcis de saillance visuelle ; une étape d'alignement temporel de sécurité génère automatiquement une supervision sur le risque futur pour permettre une évitement anticipatoire, avant que le danger ne soit imminent, plutôt que purement réactif. L'intérêt principal de ce résultat est de démontrer que les VLA pré-entraînés encodent déjà, dans leurs représentations latentes, la distinction piéton/obstacle et des signaux de collision future, mais que le behavior cloning classique échoue à traduire ces signaux en actions appropriées. Pour les intégrateurs et décideurs industriels, cela signifie que des robots équipés de VLA existants (Pi-0, OpenVLA, GR00T N2) peuvent être rendus plus sûrs en navigation sociale sans réentraînement complet ni pipeline d'annotation coûteux. Le caractère annotation-free est industriellement significatif : il supprime le goulot d'étranglement du labeling humain qui freine le passage à l'échelle des approches d'apprentissage pour la navigation sociale. La navigation sociale en robotique mobile est un problème ouvert depuis une décennie : les approches classiques (Social Force Model, ORCA) ignorent le contexte sémantique, tandis que les méthodes RLHF nécessitent une récompense dense difficile à définir. SALSA s'inscrit dans une vague de travaux post-entraînement sur les VLA, aux côtés de méthodes comme DPO appliqué à la robotique et les pipelines de fine-tuning de Physical Intelligence. Les concurrents directs incluent les approches à modules de détection piéton explicites (Spot de Boston Dynamics, Nav2 avec costmaps sociaux) et les frameworks d'apprentissage par renforcement socialement conscients. Les chercheurs valident sur déploiement réel, mais sans préciser le matériel robotique utilisé ni les conditions d'environnement, un point à surveiller avant toute généralisation industrielle.

IA physiqueOpinion
1 source
AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel
139arXiv cs.RO 

AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel

Des chercheurs ont publié sur arXiv (réf. 2606.10927) AllDayNav, un système de navigation robotique lifelong capable d'évoluer indéfiniment dans des environnements dynamiques sans carte explicite. Son architecture combine un grand modèle d'un milliard de paramètres, entraîné par apprentissage par renforcement directement en conditions réelles, et une mémoire multimodale auto-évolutive qui agrège images-clés visuelles, descriptions sémantiques et contexte temporel. Ce mécanisme permet au robot de générer automatiquement des instructions en vocabulaire ouvert, des objectifs visuels et des récompenses structurées, sans annotation humaine à chaque nouvelle tâche. Évalué sur des scénarios de navigation inter-pièces, inter-épisodes et inter-tâches, AllDayNav atteint des taux de succès proches de 100 % et surpasse des baselines de type SLAM, VLM et RL classique en efficacité de trajectoire et en robustesse, aussi bien en simulation qu'en environnement physique. Ce travail remet en question une hypothèse structurante du domaine : la navigation autonome fiable nécessiterait une représentation spatiale explicite de l'environnement (cartes métriques, graphes de scènes). AllDayNav montre qu'un modèle suffisamment large, affiné en continu par RL avec une mémoire implicite, peut dépasser ces approches y compris hors contextes contrôlés. Pour les intégrateurs de robots mobiles (AMR en logistique, robots de service en espaces publics), cela préfigure des systèmes adaptables aux modifications d'environnement sans reconfiguration manuelle. La prudence reste de mise : les chiffres de "100 % de succès" proviennent d'un preprint non encore évalué par les pairs, sans détail complet sur les conditions exactes d'évaluation ni sur la variabilité entre scènes. AllDayNav s'inscrit dans une tendance de fond visant à remplacer les pipelines modulaires perception-cartographie-planification par des modèles de fondation entraînés de bout en bout. Google DeepMind (travaux NavIRL, SayCan), CMU et Berkeley explorent des directions similaires pour la navigation mobile généraliste, tandis que des acteurs comme Boston Dynamics et ANYbotics continuent de s'appuyer sur des approches hybrides métriques. Soumis le 10 juin 2026, ce papier reste une contribution académique : aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

UEImpact indirect pour les intégrateurs européens d'AMR logistique : si les résultats se confirment après peer review, cette approche pourrait réduire les coûts de reconfiguration dans des entrepôts et espaces publics dynamiques.

IA physiquePaper
1 source
SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante
140arXiv cs.RO 

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

Des chercheurs publient sur arXiv (2606.10305) SARM2, un modèle de récompense dense multi-tâches pour l'affinement de politiques vision-langage-action (VLA) en manipulation robotique, accompagné du framework SPIRAL (Self-Policy Improvement via Reward-Aligned Learning). L'approche combine un estimateur de stade fondé sur des primitives d'action et une tête de valeur Mixture-of-Experts multi-portes (MMoE) pour produire des récompenses denses à chaque étape sur dix tâches de manipulation distinctes. Sur ce benchmark, SARM2 réduit l'erreur quadratique moyenne d'estimation de valeur de 80 % par rapport aux meilleures méthodes existantes. Via SPIRAL, qui génère des rollouts autonomes et les recycle sans démonstrations humaines supplémentaires, le taux de succès progresse de 58 % à 100 % sur "Folding Shorts" et de 50 % à 90 % sur "Cleaning Whiteboard". Ces résultats pointent un levier concret pour réduire la dépendance au clonage comportemental (behavior cloning), approche encore dominante mais coûteuse : elle exige des démonstrations de haute qualité et bloque les politiques près de la distribution d'entraînement. Un reward model suffisamment dense et précis permet d'alimenter un data flywheel autonome, de réduire les cycles de supervision humaine, et d'adapter les politiques à de nouvelles tâches sans re-collecte de données. Le papier adresse aussi un écueil bien connu du secteur : les reward models VLM généralistes sont trop grossiers pour les tâches longue-horizon, tandis que les modèles spécialisés nécessitent des annotations par tâche. L'architecture MMoE multi-tâches vise précisément cet entre-deux, ce qui intéresse directement les intégrateurs devant déployer un même robot sur des variantes de tâches. Ce travail s'inscrit dans la course intense autour des politiques VLA -- Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), OpenVLA (UC Berkeley) -- où la phase de fine-tuning et d'amélioration continue reste un goulot d'étranglement non résolu. SARM2 et SPIRAL se positionnent en briques complémentaires au pré-entraînement, ciblant l'adaptation terrain. À ce stade, il s'agit d'un préprint académique sans déploiement industriel annoncé ni code public disponible, et les benchmarks sélectionnés (pliage de vêtements, nettoyage de tableau blanc) restent des tâches de laboratoire contrôlées. La combinaison reward model dense et self-improvement loop sans démonstrations humaines est néanmoins exactement le type de composant que les acteurs commerciaux comme Agility Robotics, Figure AI ou 1X Technologies cherchent à consolider pour abaisser les coûts d'adaptation en production.

IA physiqueOpinion
1 source
VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action
141arXiv cs.RO 

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

Un préprint déposé sur arXiv le 10 juin 2026 (identifiant 2606.10568) présente VeriSpace, un vérificateur d'actions tridimensionnel conçu pour renforcer la fiabilité des modèles VLA (Vision-Language-Action) en robotique de manipulation. Ces modèles interprètent une scène visuelle et un objectif en langage naturel pour générer des commandes motrices, mais souffrent d'une limite structurelle : la prédiction se fait en un seul coup, sans réévaluation avant exécution. La moindre imprécision sur la position de préhension peut provoquer un échec de saisie, une collision ou une progression erronée dans la tâche. VeriSpace propose une vérification au moment du test (test-time verification) : le système génère plusieurs actions candidates que le vérificateur évalue avant d'en sélectionner une pour exécution. Il s'appuie sur deux composants : un encodage de scène à double chemin intégrant la géométrie 3D explicite (Dual-Path 3D-Injected Scene Encoding), et un raisonnement spatial sur les relations géométriques, la validité de chaque action et sa progression attendue vers l'objectif. Les expériences couvrent des benchmarks publics et des tâches de manipulation réelles, avec des gains rapportés en distribution et hors distribution, bien que les valeurs précises ne figurent pas dans le résumé du preprint. Cette approche répond à une fragilité bien documentée : les VLA, malgré les progrès de modèles comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), restent vulnérables dès que la scène présente une ambiguïté géométrique subtile. La vérification au test-time n'est pas une idée nouvelle, mais VeriSpace la rend opérationnelle sur des scènes 3D réelles, là où les approches précédentes peinent à distinguer des actions candidates géométriquement proches aux conséquences pourtant très différentes. Son mode d'intégration plug-in, compatible avec les politiques VLA existantes sans modification, facilite l'adoption dans des pipelines déjà déployés. Pour les équipes robotique industrielle, c'est un mécanisme potentiellement utile pour réduire les taux d'échec sans requalifier les modèles sous-jacents. Le contexte est celui d'une compétition intense autour de la robustesse des VLA. Physical Intelligence, Google DeepMind (RT-2), NVIDIA et plusieurs équipes académiques de Berkeley, Stanford et CMU investissent massivement dans la généralisation et la réduction du sim-to-real gap. La vérification d'actions au test-time est une direction en émergence, distincte du fine-tuning continu ou de l'augmentation de données d'entraînement. VeriSpace reste pour l'instant au stade de préprint académique, sans annonce de déploiement industriel ni partenariat commercial associé. Les prochaines étapes naturelles seraient une évaluation chiffrée sur des benchmarks standardisés comme RoboSuite ou Open X-Embodiment, et une intégration dans des pipelines open-source pour validation par la communauté.

IA physiqueOpinion
1 source
MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle
142arXiv cs.RO 

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

Des chercheurs ont présenté MV-Actor (arXiv:2606.10899, juin 2026), un framework de perception multi-vues conçu pour la manipulation bimanuele robotique. Le système intègre trois modules successifs : Multi-view Semantic Interaction, qui partage la perception sémantique entre les différents flux caméra plutôt que de les traiter isolément ; Semantic-Spatial Token Interaction, qui ancre ces sémantiques visuelles dans une représentation 3D via un modèle de reconstruction feed-forward ; et un module Guided Metric Depth Repair, qui corrige la profondeur dégradée issue de capteurs grand public (Intel RealSense, Azure Kinect) pour fournir des ancres métriques fiables. Sur le benchmark PerAct2, référence académique dédiée à la manipulation bimanuele multi-tâches, MV-Actor atteint un taux de succès moyen de 87,8%, niveau state-of-the-art. Les évaluations en conditions réelles, avec changements de points de vue fréquents et profondeur bruitée, confirment des gains mesurables par rapport aux baselines RGB et RGB-D. Le verrou que MV-Actor tente de lever est structurel : les politiques multi-vues existantes encodent chaque vue indépendamment ou fusionnent les features de façon superficielle, ce qui produit une perception sémantique fragmentée et une localisation spatiale peu fiable. Pour les intégrateurs B2B qui déploient des cellules à deux bras (assemblage, emballage, picking de pièces déformables), c'est un problème concret : une politique qui "voit" mais ne comprend pas la cohérence entre vues génère des échecs en tâches coordonnées. Le module de réparation de profondeur est notable car il évite le recours à des lidars industriels onéreux, ce qui abaisse le seuil d'adoption. Le 87,8% sur PerAct2 est encourageant, mais ce benchmark reste simulé pour l'essentiel ; les auteurs mentionnent des tests réels sans publier de métriques détaillées par tâche, un point à nuancer. La manipulation bimanuele est un objectif central de plusieurs équipes : CMU, Stanford, ETH Zurich côté académique, et côté industrie les équipes de Figure, 1X Technologies et Sanctuary AI, qui intègrent des bras duaux dans leurs humanoïdes. Les politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux DeepMind sur RoboVLMs s'attaquent au même problème de coordination multi-membres. PerAct2, publié en 2024, étend PerAct au cas bimanuel et s'impose comme référence de comparaison. MV-Actor est pour l'heure un travail académique sans affiliation industrielle déclarée ; aucun pilote ni partenariat de déploiement n'est annoncé, ce qui le situe côté recherche fondamentale plutôt que produit imminent.

UEETH Zurich est cité comme acteur académique sur la manipulation bimanuele, mais MV-Actor n'implique aucune institution ou entreprise européenne directement ; pas d'impact immédiat sur la France/UE.

IA physiqueOpinion
1 source
SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique
143arXiv cs.RO 

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

Des chercheurs ont publié fin mai 2026 SAFE-Pruner (arXiv:2605.29662), un framework d'élagage de tokens conçu pour accélérer l'inférence des modèles vision-language-action (VLA) en robotique. Les VLA combinent perception visuelle, compréhension du langage et génération de commandes motrices, mais leur charge computationnelle freine leur déploiement en temps réel. Les méthodes d'élagage existantes s'appuient sur les couches superficielles du réseau et risquent de supprimer des tokens visuels encore requis par les couches profondes. SAFE-Pruner intègre une stratégie prospective qui prédit la saillance future des tokens en exploitant la "semantic attention consistency" : la tendance des VLA à concentrer leur attention sur la même entité sémantique à travers les étapes successives d'exécution. Un second mécanisme, la division adaptative de sous-tâches, détecte les ruptures brusques d'attention pour affiner les prévisions. Sur simulation et en conditions réelles, la méthode atteint un gain de vitesse jusqu'à 1,89x avec une dégradation du taux de succès inférieure à 1,7%, surpassant l'état de l'art de jusqu'à 1,9%. Pour les intégrateurs industriels déployant des VLA sur du matériel embarqué à puissance limitée, un gain de 1,89x sans refonte d'infrastructure représente un levier concret. La contribution théorique sur la cohérence sémantique de l'attention ouvre aussi une piste pour mieux comprendre ce que les VLA perçoivent réellement lors de l'exécution de tâches, un angle utile pour le débogage et la sûreté fonctionnelle. Il faut toutefois rester prudent : les benchmarks présentés ne précisent pas les environnements de test, le matériel utilisé ni le spectre complet des tâches évaluées, un bémol habituel dans les papiers de recherche en manipulation. SAFE-Pruner s'inscrit dans un mouvement plus large d'optimisation des modèles fondation pour la robotique, porté notamment par RT-2 (Google DeepMind, 2023), OpenVLA (Berkeley, 2024) et Pi-0 de Physical Intelligence (2024). Face à des architectures combinant des backbones de plusieurs milliards de paramètres avec un policy head, la communauté explore en parallèle la quantification, la distillation et l'élagage adaptatif. Le framework se présente comme un module plug-and-play compatible avec les VLA existants, ce qui faciliterait l'adoption sans refonte des pipelines si la compatibilité est confirmée sur un panel représentatif de modèles. L'article est disponible en preprint sur arXiv ; aucune intégration dans un framework open-source ni déploiement sur robot commercial n'est annoncé à ce stade.

IA physiqueOpinion
1 source
OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes
144arXiv cs.RO 

OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes

Une équipe de chercheurs a déposé le 10 juin 2026 sur arXiv (ref. 2606.10340) un système baptisé OMG, Omni-Modal Motion Generation, conçu pour le contrôle whole-body généraliste des robots humanoïdes. L'architecture adopte une structure hiérarchique inspirée du système moteur biologique : un module supérieur de génération de mouvement basé sur la diffusion joue le rôle de "cerveau" planificateur, tandis qu'un contrôleur de suivi réactif bas niveau fait office de "cervelet". Ce cerveau est conditionnable simultanément sur du langage naturel, des signaux audio et des mouvements de référence humains. Le système s'appuie sur un pipeline de curation, filtrage et labellisation de données conçu pour couvrir un large spectre de comportements whole-body. Les auteurs revendiquent des performances state-of-the-art sur les benchmarks de contrôle humanoïde généraliste, ainsi qu'un comportement de scaling en fonction de la taille du modèle, deux propriétés clés pour qui veut construire un foundation model robotique. L'intérêt de OMG tient à son traitement simultané de deux limitations structurelles du domaine : d'un côté, les politiques spécialisées actuelles exigent un reward engineering intensif et ne généralisent pas au-delà de quelques skills ; de l'autre, les motion trackers existants peinent à intégrer de nouvelles modalités d'entrée sans refonte architecturale. En conditionnant un unique modèle sur des entrées multimodales extensibles, le papier prolonge la logique des VLA (Vision-Language-Action models) vers la génération de mouvement full-body. Si les résultats survivent à l'évaluation externe, cela plaiderait pour qu'un seul modèle généraliste remplace plusieurs politiques spécialisées par déploiement, un argument commercial direct pour les intégrateurs. Point de vigilance : il s'agit d'un preprint non évalué par les pairs, sans données de déploiement physique publiées à ce stade. Le papier s'inscrit dans une course active autour du contrôle humanoïde généraliste. Physical Intelligence a publié Pi-0 et Pi-0.5 autour d'architectures diffusion-based, NVIDIA a présenté GR00T N2 comme backbone transformer pour whole-body control, et Figure déploie Helix sur ses plateformes H1/H2 dans des environnements d'entrepôt. L'abstract ne mentionne ni institution d'origine ni robot physique cible, ce qui rend la comparaison directe avec ces systèmes impossible à ce stade. Les prochaines étapes naturelles seraient une soumission à CoRL ou RSS 2026 et une validation sur hardware réel, deux éléments absents de la publication actuelle.

IA physiqueOpinion
1 source
MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL
145arXiv cs.RO 

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

Des chercheurs ont publié MIND-V, un modèle de monde hiérarchique conçu pour générer automatiquement des vidéos d'entraînement de manipulation robotique à long horizon, problème resté en grande partie non résolu jusqu'ici. L'architecture s'articule autour de trois modules : un Semantic Reasoning Hub (SRH) qui s'appuie sur un vision-language model pré-entraîné pour la planification de tâches, un Behavioral Semantic Bridge (BSB) qui traduit ces instructions abstraites en représentations invariantes au domaine, et un Motor Video Generator (MVG) chargé du rendu vidéo conditionnel. Pour garantir la cohérence physique des séquences générées, les auteurs ont introduit une phase de post-entraînement par reinforcement learning GRPO pilotée par une récompense inédite, la Physical Foresight Coherence (PFC), qui mobilise V-JEPA2 (le modèle de monde de Meta) comme arbitre de physique dans l'espace latent. Les expériences en simulation montrent des résultats état de l'art sur les benchmarks long-horizon, selon les auteurs. Le problème central que MIND-V adresse est la pénurie de données diversifiées pour l'intelligence incarnée : entraîner des politiques de manipulation requiert des milliers d'épisodes réussis sur des tâches enchaînées, données coûteuses à collecter en réel et difficiles à simuler de façon convaincante. L'approche est entièrement autonome, sans trajectoires définies manuellement, ce qui la distingue des générateurs de vidéos robotiques antérieurs limités à des clips courts et des gestes simples. La valeur opérationnelle est directe pour les équipes qui développent des VLA (Vision-Language-Action models) : des pipelines de synthèse de données à grande échelle pourraient réduire significativement la dépendance aux démonstrations téléopérées, principal goulot d'étranglement des robots comme Figure 03, Optimus ou 1X NEO. Ce travail s'inscrit dans une vague de recherche sur les world models pour la robotique, aux côtés de Dreamer, GAIA-1 adapté au robot, et du propre V-JEPA2 de Meta qu'il intègre comme brique de validation physique. L'article, initialement soumis en décembre 2024 (arXiv:2512.06628) et mis à jour en juin 2026, reste à ce stade un résultat en simulation uniquement : aucun déploiement physique ni intégration industrielle n'est mentionné, et le franchissement du sim-to-real gap reste à démontrer sur hardware réel.

IA physiqueOpinion
1 source
Robustesse des tâches par ré-étiquetage des données vision-action pour robots
146arXiv cs.RO 

Robustesse des tâches par ré-étiquetage des données vision-action pour robots

Une équipe de chercheurs a publié TREAD (Task Robustness via Re-Labelling Vision-Action Robot Data), un framework de ré-annotation automatique des datasets de robotique présenté sur arXiv (arXiv:2606.10918, juin 2026). L'approche exploite un grand modèle vision-langage (VLM) pré-entraîné en trois étapes séquentielles : génération de sous-tâches sémantiques à partir des labels d'instruction originaux et des scènes initiales, segmentation des vidéos de démonstration conditionnée sur ces sous-tâches, puis production d'instructions textuelles diversifiées intégrant les propriétés des objets manipulés. Le résultat : des démonstrations longues décomposées en paires langage-action ancrées dans la scène, enrichies de reformulations linguistiques variées du même objectif. Les évaluations sur le benchmark LIBERO montrent une amélioration des performances sur des tâches et objectifs non vus à l'entraînement, sans collecte de données supplémentaire. Ce travail cible un goulot d'étranglement bien identifié dans la course aux politiques de manipulation généralistes : les datasets de robotique existants manquent de diversité linguistique et de variété dans les séquences d'action, ce qui fait que les politiques de type VLA (Vision-Language-Action) peinent à suivre des instructions paraphrasées ou décomposées différemment. TREAD contourne ce problème en réutilisant la connaissance transférable des VLMs pour synthétiser de la diversité là où la collecte terrain serait coûteuse. L'approche améliore simultanément la généralisation de planification via la décomposition de trajectoires et la généralisation des politiques conditionnées au langage via la diversité des formulations, deux axes que les approches de scaling pur (plus de données, plus de paramètres) n'adressent pas directement. Le contexte est celui de la montée en puissance des politiques généralistes pour la manipulation robotique, incarnée par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Ces architectures héritent des faiblesses de leurs datasets d'entraînement, souvent collectés avec des instructions standardisées et des démonstrations d'une seule séquence. TREAD s'inscrit dans une tendance émergente de data augmentation sémantique, en complémentarité avec les approches de génération synthétique par simulation (sim-to-real) ou de téléopération à grande échelle. LIBERO, le benchmark utilisé pour validation, est largement adopté dans la communauté pour comparer les politiques de manipulation en environnement tabletop. Les prochaines étapes naturelles seraient la validation sur des datasets plus larges comme Open X-Embodiment et des tests en déploiement réel sur plateformes commerciales.

IA physiqueOpinion
1 source
QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)
147arXiv cs.RO 

QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (identifiant 2510.14836, troisième révision) QDepth-VLA, un cadre d'apprentissage qui augmente les modèles Vision-Language-Action (VLA) avec une tâche auxiliaire de prédiction de profondeur. Le principe : un module spécialisé, baptisé "depth expert", apprend à prédire des tokens latents quantifiés de cartes de profondeur, générés par un encodeur VQ-VAE (Vector Quantized Variational Autoencoder). Ces tokens sont intégrés au pipeline VLA comme supervision auxiliaire durant l'entraînement, sans modifier l'architecture de base du modèle. L'approche est validée sur des benchmarks de simulation et sur des tâches réelles de manipulation robotique, avec des résultats décrits par les auteurs comme "compétitifs", formulation prudente qui suggère des gains réels mais pas nécessairement un état de l'art incontestable. L'enjeu fondamental que traite QDepth-VLA est le déficit de perception 3D des VLA actuels. Des modèles comme OpenVLA, Pi-0 ou les variantes de RT-2 traitent les images comme des entrées 2D et peinent à raisonner sur la géométrie de la scène (distance d'un objet, orientation, profondeur d'emprise), ce qui limite leur précision sur des tâches de manipulation fine : assemblage, insertion de connecteurs, saisie d'objets transparents ou réfléchissants. En forçant le modèle à reconstruire une structure de profondeur quantifiée, QDepth-VLA injecte des indices géométriques explicites dans les représentations apprises, sans nécessiter de capteur de profondeur supplémentaire à l'inférence. C'est un argument concret pour les intégrateurs déployant des robots sur des cellules équipées uniquement de caméras RGB standard. QDepth-VLA s'inscrit dans une tendance plus large d'augmentation des VLA par des tâches auxiliaires : prédiction de flux optique chez Physical Intelligence avec Pi-0, estimation de pose 3D dans les travaux Google DeepMind, ou représentations implicites de scène. Les concurrents directs incluent SpatialVLA et plusieurs variantes de RoboVLMs intégrant des indices 3D explicites. Un point de vigilance : les auteurs ne précisent ni le robot utilisé pour les expériences réelles, ni les conditions expérimentales détaillées, ce qui rend difficile la comparaison directe avec d'autres approches. La prochaine étape pour positionner objectivement QDepth-VLA dans le paysage sera une évaluation sur des benchmarks standardisés comme LIBERO ou Open X-Embodiment, qui font aujourd'hui référence dans la communauté VLA.

IA physiqueOpinion
1 source
NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur
148Interesting Engineering 

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

NVIDIA et le groupe sud-coréen LG ont annoncé lors du Computex 2026 un partenariat stratégique multisectoriel visant à construire un écosystème d'intelligence artificielle physique couvrant la robotique industrielle, les robots domestiques, la mobilité autonome et les infrastructures de calcul. La collaboration mobilise plusieurs entités du conglomérat LG : LG Electronics, LG CNS, LG Innotek, LG Uplus et LG Energy Solution, chacune apportant un périmètre spécifique. Concrètement, LG prévoit de déployer NVIDIA Isaac Sim et Isaac Lab dans ses workflows robotique pour entraîner ses robots domestiques en environnements virtuels avant tout déploiement physique, et d'explorer le modèle de fondation GR00T pour renforcer leurs capacités de raisonnement. LG Electronics construit par ailleurs ce qu'il appelle une "data factory pour l'IA physique", utilisant les world models NVIDIA Cosmos pour générer des datasets synthétiques destinés à la robotique et à l'automatisation industrielle. Sur le volet infrastructure, LG Uplus s'engage à construire des centres de données à grande échelle compatibles avec les dernières générations de GPU NVIDIA, LG Electronics travaillera sur des technologies de refroidissement liquide alignées avec la plateforme NVIDIA DSX, et LG Energy Solution évalue des architectures d'alimentation en courant continu 800 volts pour les installations nouvelle génération. L'intérêt de ce partenariat pour les décideurs industriels tient moins à l'annonce elle-même qu'à ce qu'elle révèle sur la maturité du cycle de développement robotique. L'adoption d'Isaac Sim comme environnement d'entraînement primaire signale que le sim-to-real gap, longtemps le principal obstacle au déploiement à grande échelle, est considéré comme suffisamment maîtrisé pour structurer une chaîne industrielle dessus. La création d'une data factory synthétique répond à l'un des goulots d'étranglement les plus critiques du secteur : la rareté des données labellisées de qualité pour entraîner des VLA (Vision-Language-Action models). Pour les intégrateurs et les COO industriels, le message est que les outils de simulation et les modèles de fondation convergent vers une stack unifiée, ce qui devrait réduire les coûts et délais de portage de nouvelles applications robotiques. Il convient toutefois de noter que l'annonce reste au stade de la feuille de route : aucun chiffre de déploiement, aucun timeline de livraison ni prix n'ont été communiqués. Le contexte de ce rapprochement est celui d'une course mondiale à l'IA physique dans laquelle NVIDIA cherche à s'imposer comme couche d'infrastructure universelle face à des concurrents comme Boston Dynamics Atlas (désormais intégré chez Hyundai), Figure AI avec son modèle Helix, ou encore Physical Intelligence (pi-0) côté recherche. LG, de son côté, investit depuis plusieurs années dans la robotique de service avec ses robots CLOi, sans avoir encore atteint une adoption commerciale significative. Le groupe fait aussi face à la pression de concurrents coréens comme Samsung, qui développe ses propres robots domestiques avec Ballie. Les prochaines étapes annoncées incluent l'intégration des technologies NVIDIA DRIVE dans les systèmes ADAS de LG Electronics pour les véhicules définis par logiciel, et le déploiement de la plateforme d'automatisation industrielle de LG CNS enrichie de briques NVIDIA. La concrétisation de ces engagements sur les 12 à 24 prochains mois sera le véritable indicateur de la profondeur du partenariat.

UECe partenariat accélère la convergence vers une stack NVIDIA (Isaac Sim, GR00T, Cosmos) comme infrastructure d'entraînement robotique de référence, forçant les intégrateurs et OEM européens à évaluer leur alignement avec cet écosystème dans leurs roadmaps 2026-2027.

💬 Le truc intéressant, c'est pas le deal NVIDIA-LG, c'est ce qu'il révèle : le sim-to-real gap est maintenant considéré comme suffisamment sous contrôle pour construire une filière industrielle dessus. Isaac Sim comme environnement d'entraînement primaire dans une data factory à l'échelle d'un conglomérat coréen, ça signale un vrai changement de maturité, pas juste un POC de plus. Sur le papier, du moins, parce qu'aucun chiffre ni calendrier n'a filtré.

IA physiqueOpinion
1 source
Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique
149IEEE Spectrum Robotics 

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique

Lors de l'IEEE International Conference on Robotics and Automation (ICRA 2026) à Vienne, la démonstration ayant le plus mobilisé les visiteurs n'était pas un bras industriel ni un humanoïde en équilibre : c'était une paire de mains robotiques en train de fabriquer un animal en ballon. La société AGILINK y a présenté son système bimain OmniHand 3 Ultra-M réalisant une torsion séquentielle de ballon long format, sans le faire éclater, en gérant en temps réel la déformation de l'objet, la pression interne et la friction de contact. Ce type de tâche, qualifié de "long-horizon contact-rich manipulation", constitue un benchmark reconnu dans la communauté : la légèreté et la déformabilité d'un ballon rendent toute régulation de force particulièrement délicate, et chaque torsion modifie la géométrie et les propriétés mécaniques de l'objet, imposant une adaptation continue du contrôle. Pour entraîner le système, AGILINK a capturé des démonstrations d'artistes professionnels en sculpture sur ballon, les a transposées en politiques de manipulation sur ses mains robotiques, puis a enrichi l'apprentissage par renforcement non seulement avec les séquences réussies, mais aussi avec les interventions correctrices d'opérateurs humains enregistrées chaque fois que l'exécution dérivait vers l'échec. Ce résultat illustre un glissement de paradigme dans la manipulation robotique : après des années centrées sur la dextérité au sens cinématique (nombre de degrés de liberté, précision de positionnement), le vrai verrou se situerait désormais dans la gestion du contact lui-même. La capacité à maintenir une interaction stable avec un objet dont les propriétés évoluent en continu, ce qu'AGILINK désigne par "contact intelligence", reste hors de portée de la plupart des systèmes commerciaux actuels. Pour les intégrateurs industriels et les équipes R&D en manipulation, ce démo signale que les progrès en sensing visuotactile et en politiques d'apprentissage par imitation commencent à produire des résultats reproductibles sur des tâches à la limite du geste humain. La prudence s'impose toutefois : ICRA 2026 est un cadre contrôlé, et les vidéos présentées sélectionnent les exécutions réussies sans données publiées sur le taux de succès systématique ni sur les conditions de répétabilité en dehors du laboratoire. AGILINK, spécialisée dans la manipulation dextre, développe depuis plusieurs années la plateforme OmniHand en combinant sensing visuotactile, contrôle en force et politique bimanuelle. Son positionnement la place en concurrence directe avec Shadow Robot au Royaume-Uni, Dexterous Robotics, et les divisions R&D en main robotique d'ABB et FANUC, ainsi qu'avec des groupes académiques de Stanford et du MIT travaillant sur des architectures similaires. À noter que l'article source est un contenu sponsorisé par AGILINK publié dans le cadre de la couverture ICRA 2026, ce qui en limite l'indépendance éditoriale. Les prochaines étapes annoncées portent sur des extensions vers des tâches industrielles à contact riche, sans qu'un calendrier de déploiement commercial ni des volumes de production aient été précisés.

UELes équipes R&D européennes en manipulation dextre peuvent utiliser cette démonstration présentée à l'ICRA 2026 de Vienne comme signal de convergence entre sensing visuotactile et apprentissage par imitation, notamment pour se positionner face à Shadow Robot (UK) et aux divisions robotique d'ABB.

IA physiquePaper
1 source
vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)
150arXiv cs.RO 

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Des chercheurs de FAI ModelOpt Tech ont publié en juin 2026 vla.cpp (arXiv 2606.08094), un moteur d'inférence C++ portable construit sur llama.cpp pour exécuter des politiques VLA (Vision-Language-Action) directement sur le matériel embarqué des robots. L'engine prend en charge sept architectures couvrant cinq familles de backbones et quatre têtes d'action via un protocole requête/réponse unifié, incluant les schémas d'inférence par flow-matching et par diffusion propres aux VLA récents. Sur le benchmark LIBERO-Object, il reproduit le meilleur checkpoint SOTA à un épisode près sur 200 ; BitVLA y atteint 100 % de succès dans 1,3 Gio de mémoire. Le même bundle s'exécute sans modification sur trois niveaux matériels, d'un GPU grand public jusqu'à un module embarqué de 8 Go de RAM. Un noyau GEMM IMMA en escalier, dérivé d'une analyse roofline multi-hardware, réduit la latence par étape de BitVLA d'un facteur 4,5. Les auteurs ont également conduit un test de stress sur un bras ALOHA pour mesurer la contrainte de latence de replanification face à une cible mobile. Le problème structurel que vla.cpp attaque est la dépendance des stacks Python/PyTorch actuels à un GPU de station de travail, hypothèse incompatible avec l'électronique embarquée des robots commerciaux ou des cobots industriels. Démontrer une exécution à succès complet dans 1,3 Gio ouvre concrètement la voie au déploiement edge sans serveur distant ni dépendance cloud pour des tâches de manipulation. L'analyse roofline publiée dans le papier établit un résultat contre-intuitif pour les intégrateurs : l'inférence VLA en batch-1 est compute-bound, non bandwidth-bound, ce qui déplace le levier d'optimisation vers le taux d'utilisation du calcul. L'unification de sept architectures sous un seul protocole réduit également la fragmentation de l'écosystème VLA, frein réel à l'adoption en production. vla.cpp hérite de l'approche de quantification ggml et de la portabilité de llama.cpp de Georgi Gerganov. Les modèles ciblés incluent des architectures issues de Physical Intelligence (pi0) et des projets ouverts comme OpenVLA. La concurrence directe sur ce segment est limitée : la plupart des équipes robotiques maintiennent des pipelines Python maison dépendants de GPU Nvidia RTX 3090/4090 ; ROS 2 et Isaac ROS de Nvidia offrent des primitives d'intégration mais pas de runtime VLA unifié. Aucun acteur français ou européen n'est directement cité dans le papier. Le code, les vidéos de démonstration et le scaffold de benchmark reproductible sont disponibles sur le site du projet.

UEAucun acteur européen impliqué dans le développement, mais le runtime portable est directement exploitable par les équipes R&D françaises et européennes cherchant à déployer des politiques VLA sur matériel embarqué sans dépendance cloud.

💬 Faire tourner une politique VLA dans 1,3 Gio sans GPU de workstation, c'est le vrai débloqueur que les équipes robotique attendaient. Le reste, les sept architectures unifiées, le protocole commun, c'est utile, mais ce qui compte c'est que le déploiement edge devient une option sérieuse sans serveur distant. Reste à voir si ça tient sur des tâches moins sages que LIBERO-Object.

IA physiqueOpinion
1 source