Aller au contenu principal

IA physique — page 2

438 articles · page 2 sur 9

Modèles vision-langage-action (VLA) et IA physique : NVIDIA GR00T, Figure Helix, Physical Intelligence π0, Gemini Robotics, OpenVLA, world models Cosmos/Genie.

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique
51IEEE Spectrum Robotics IA physiquePaper

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique

Lors de l'IEEE International Conference on Robotics and Automation (ICRA 2026) à Vienne, la démonstration ayant le plus mobilisé les visiteurs n'était pas un bras industriel ni un humanoïde en équilibre : c'était une paire de mains robotiques en train de fabriquer un animal en ballon. La société AGILINK y a présenté son système bimain OmniHand 3 Ultra-M réalisant une torsion séquentielle de ballon long format, sans le faire éclater, en gérant en temps réel la déformation de l'objet, la pression interne et la friction de contact. Ce type de tâche, qualifié de "long-horizon contact-rich manipulation", constitue un benchmark reconnu dans la communauté : la légèreté et la déformabilité d'un ballon rendent toute régulation de force particulièrement délicate, et chaque torsion modifie la géométrie et les propriétés mécaniques de l'objet, imposant une adaptation continue du contrôle. Pour entraîner le système, AGILINK a capturé des démonstrations d'artistes professionnels en sculpture sur ballon, les a transposées en politiques de manipulation sur ses mains robotiques, puis a enrichi l'apprentissage par renforcement non seulement avec les séquences réussies, mais aussi avec les interventions correctrices d'opérateurs humains enregistrées chaque fois que l'exécution dérivait vers l'échec. Ce résultat illustre un glissement de paradigme dans la manipulation robotique : après des années centrées sur la dextérité au sens cinématique (nombre de degrés de liberté, précision de positionnement), le vrai verrou se situerait désormais dans la gestion du contact lui-même. La capacité à maintenir une interaction stable avec un objet dont les propriétés évoluent en continu, ce qu'AGILINK désigne par "contact intelligence", reste hors de portée de la plupart des systèmes commerciaux actuels. Pour les intégrateurs industriels et les équipes R&D en manipulation, ce démo signale que les progrès en sensing visuotactile et en politiques d'apprentissage par imitation commencent à produire des résultats reproductibles sur des tâches à la limite du geste humain. La prudence s'impose toutefois : ICRA 2026 est un cadre contrôlé, et les vidéos présentées sélectionnent les exécutions réussies sans données publiées sur le taux de succès systématique ni sur les conditions de répétabilité en dehors du laboratoire. AGILINK, spécialisée dans la manipulation dextre, développe depuis plusieurs années la plateforme OmniHand en combinant sensing visuotactile, contrôle en force et politique bimanuelle. Son positionnement la place en concurrence directe avec Shadow Robot au Royaume-Uni, Dexterous Robotics, et les divisions R&D en main robotique d'ABB et FANUC, ainsi qu'avec des groupes académiques de Stanford et du MIT travaillant sur des architectures similaires. À noter que l'article source est un contenu sponsorisé par AGILINK publié dans le cadre de la couverture ICRA 2026, ce qui en limite l'indépendance éditoriale. Les prochaines étapes annoncées portent sur des extensions vers des tâches industrielles à contact riche, sans qu'un calendrier de déploiement commercial ni des volumes de production aient été précisés.

UELes équipes R&D européennes en manipulation dextre peuvent utiliser cette démonstration présentée à l'ICRA 2026 de Vienne comme signal de convergence entre sensing visuotactile et apprentissage par imitation, notamment pour se positionner face à Shadow Robot (UK) et aux divisions robotique d'ABB.

1 source
vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)
52arXiv cs.RO 

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Des chercheurs de FAI ModelOpt Tech ont publié en juin 2026 vla.cpp (arXiv 2606.08094), un moteur d'inférence C++ portable construit sur llama.cpp pour exécuter des politiques VLA (Vision-Language-Action) directement sur le matériel embarqué des robots. L'engine prend en charge sept architectures couvrant cinq familles de backbones et quatre têtes d'action via un protocole requête/réponse unifié, incluant les schémas d'inférence par flow-matching et par diffusion propres aux VLA récents. Sur le benchmark LIBERO-Object, il reproduit le meilleur checkpoint SOTA à un épisode près sur 200 ; BitVLA y atteint 100 % de succès dans 1,3 Gio de mémoire. Le même bundle s'exécute sans modification sur trois niveaux matériels, d'un GPU grand public jusqu'à un module embarqué de 8 Go de RAM. Un noyau GEMM IMMA en escalier, dérivé d'une analyse roofline multi-hardware, réduit la latence par étape de BitVLA d'un facteur 4,5. Les auteurs ont également conduit un test de stress sur un bras ALOHA pour mesurer la contrainte de latence de replanification face à une cible mobile. Le problème structurel que vla.cpp attaque est la dépendance des stacks Python/PyTorch actuels à un GPU de station de travail, hypothèse incompatible avec l'électronique embarquée des robots commerciaux ou des cobots industriels. Démontrer une exécution à succès complet dans 1,3 Gio ouvre concrètement la voie au déploiement edge sans serveur distant ni dépendance cloud pour des tâches de manipulation. L'analyse roofline publiée dans le papier établit un résultat contre-intuitif pour les intégrateurs : l'inférence VLA en batch-1 est compute-bound, non bandwidth-bound, ce qui déplace le levier d'optimisation vers le taux d'utilisation du calcul. L'unification de sept architectures sous un seul protocole réduit également la fragmentation de l'écosystème VLA, frein réel à l'adoption en production. vla.cpp hérite de l'approche de quantification ggml et de la portabilité de llama.cpp de Georgi Gerganov. Les modèles ciblés incluent des architectures issues de Physical Intelligence (pi0) et des projets ouverts comme OpenVLA. La concurrence directe sur ce segment est limitée : la plupart des équipes robotiques maintiennent des pipelines Python maison dépendants de GPU Nvidia RTX 3090/4090 ; ROS 2 et Isaac ROS de Nvidia offrent des primitives d'intégration mais pas de runtime VLA unifié. Aucun acteur français ou européen n'est directement cité dans le papier. Le code, les vidéos de démonstration et le scaffold de benchmark reproductible sont disponibles sur le site du projet.

UEAucun acteur européen impliqué dans le développement, mais le runtime portable est directement exploitable par les équipes R&D françaises et européennes cherchant à déployer des politiques VLA sur matériel embarqué sans dépendance cloud.

💬 Faire tourner une politique VLA dans 1,3 Gio sans GPU de workstation, c'est le vrai débloqueur que les équipes robotique attendaient. Le reste, les sept architectures unifiées, le protocole commun, c'est utile, mais ce qui compte c'est que le déploiement edge devient une option sérieuse sans serveur distant. Reste à voir si ça tient sur des tâches moins sages que LIBERO-Object.

IA physiqueOpinion
1 source
KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques
53arXiv cs.RO 

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

KPGrasp est un framework de génération de préhension dextère présenté dans un preprint arXiv (juin 2026), combinant flow matching et modèle Transformer pour apprendre des priors de saisie à grande échelle, sans recourir aux fonctions de coût contact-based ni au raffinement coûteux à l'inférence. L'approche repose sur une paramétrisation des mains par points-clés 3D en coordonnées euclidiennes pures, exprimés dans le même référentiel que le nuage de points de l'objet cible, évitant l'espace mixte SE(3)/angles articulaires conventionnel. Sur le benchmark Dexonomy, le modèle atteint 76,3% de taux de succès de préhension, soit +47,4% sur la meilleure baseline directement comparable, avec une profondeur de pénétration réduite à 2,4 mm. Sans fine-tuning spécifique, il obtient également les meilleures performances moyennes sur DexGrasp Anything. En inférence batch, chaque préhension est générée en 0,032 seconde. Des expériences réelles sur 20 objets variés confirment le passage au monde physique. La préhension dextère multi-doigts reste l'un des verrous techniques persistants de la manipulation robotique: saisir de façon stable des objets de formes variées exige une coordination articulaire complexe que les méthodes actuelles peinent à généraliser sans supervision dense ou raffinement coûteux. KPGrasp rompt avec ce paradigme en traitant le problème comme un apprentissage de distribution pure, entraîné uniquement avec la loss standard du flow matching. La scalabilité démontrée avec la taille du modèle, le volume de données et la taille des batchs suit la logique des grands modèles génératifs, signal fort pour les intégrateurs: davantage de données synthétiques de préhension pourrait suffire à améliorer les performances sans engineering de loss ad hoc. Le temps de 32 ms par grasp en inférence batch ouvre un déploiement temps-réel réaliste sur cellules robotiques industrielles équipées de mains dextères. La préhension dextère générative a émergé progressivement via les diffusion models (DexDiffuser, GraspDiffusion) et les réseaux de contacts avant que le flow matching ne s'impose. KPGrasp se positionne dans cette vague avec une prétention explicite de scalabilité data-driven que ses prédécesseurs n'affichaient pas. Les benchmarks Dexonomy et DexGrasp Anything sont devenus des références communautaires pour évaluer la généralisation inter-objets. Côté effecteurs, Shadow Robot, Schunk SVH et Inspire Hands sont les acteurs matériels naturellement concernés. Les suites logiques incluent le couplage avec des VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, qui assureraient la planification de haut niveau tandis que KPGrasp générerait les préhensions à bas niveau, comblant ainsi le gap entre policy de manipulation et génération de grasp.

UESchunk (Allemagne) figure parmi les fabricants d'effecteurs directement concernés, offrant aux intégrateurs robotiques européens une voie concrète vers la manipulation dextère temps-réel sans engineering de loss ad hoc.

💬 +47% de taux de succès sur le benchmark, c'est pas anodin. Ce qui me frappe, c'est la décision de virer complètement les fonctions de coût contact-based et de traiter ça comme un pur problème de distribution, avec le flow matching comme loss standard, ça simplifie vraiment le pipeline là où tout le monde s'obstinait à rajouter des couches. 32 ms par préhension en batch, ça commence à ressembler à quelque chose d'exploitable en industrie, bon, faut encore voir ce que ça donne hors benchmarks sur des objets vraiment sales ou déformés.

IA physiquePaper
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
54arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

IA physiquePaper
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
55arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)
56arXiv cs.RO 

Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié début juin 2026 (arXiv:2606.09749) une méthode de filtrage de sécurité sans entraînement pour les modèles VLA (Vision-Language-Action) en manipulation robotique. La technique repose sur une découverte clé : un petit nombre de têtes d'attention internes au modèle localise de manière fiable l'objet que la politique de contrôle cherche à atteindre. Ces têtes sont exploitées à chaque pas de contrôle pour identifier la cible active, traiter le reste de la scène comme obstacles, et alimenter un filtre CBF (Control Barrier Function) garantissant l'évitement de collisions. Couplée à un tracker léger en temps réel, l'approche gère également les obstacles mobiles. Sur le benchmark SafeLIBERO étendu aux scénarios dynamiques, la méthode surpasse de 43 % en moyenne une baseline oracle disposant de l'état complet du simulateur. L'enjeu est concret pour les intégrateurs de systèmes robotiques déployant des VLA en environnement non contrôlé. Les filtres de sécurité existants interrogent un VLM pour identifier les obstacles, un processus trop lent pour la boucle de contrôle, limité à une initialisation en début d'épisode et incapable de traquer des obstacles en mouvement. L'approche proposée contourne ce goulot en réutilisant les signaux perceptuels déjà présents dans le modèle, sans latence supplémentaire significative. Concrètement, un VLA déjà déployé comme Pi-0, OpenVLA ou RoboFlamingo pourrait être doté d'un filtre de sécurité dynamique sans re-fine-tuning ni surcoût matériel, réduisant le demo-to-reality gap sur les lignes de production avec opérateurs humains à proximité. Ce travail s'inscrit dans la dynamique des VLA depuis 2023, portée par RT-2 (Google DeepMind), OpenVLA, Pi-0 (Physical Intelligence) et d'autres architectures fondées sur des modèles de langage. La sécurité et la garantie de comportement sont restées en retrait face à la course aux performances end-to-end, mais deviennent critiques pour les déploiements industriels réels, notamment en Europe où la réglementation sur les systèmes autonomes se renforce. La méthode CBF est mathématiquement établie en théorie du contrôle ; son intégration sans entraînement dans des pipelines VLA existants constitue un résultat notable. Limite à signaler : les évaluations restent pour l'instant en environnement simulé, et l'extension à des scènes avec occlusions partielles ou robots multiples reste à démontrer.

UELa méthode pourrait accélérer la certification de VLA en environnements industriels européens soumis à la réglementation sur les systèmes autonomes (AI Act), en fournissant un mécanisme de sécurité formellement vérifiable sans surcoût matériel.

IA physiqueOpinion
1 source
Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données
57arXiv cs.RO 

Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données

Des chercheurs ont publié sur arXiv (2510.01661, version 3) SymSkill, un framework d'apprentissage robotique pour la manipulation séquentielle en environnements dynamiques. Le système apprend conjointement trois composantes à partir de démonstrations brutes, non étiquetées et non segmentées : des prédicats symboliques (conditions logiques décrivant l'état du monde), des opérateurs (représentations abstraites des actions), et des compétences motrices orientées vers des objectifs. En simulation RoboCasa, SymSkill réussit 12 tâches à étape unique avec un taux de 85 %, puis les compose en plans multi-étapes sans données supplémentaires. Sur un robot réel Franka, le système apprend à partir de cinq minutes de données de jeu libre et exécute des tâches à 12 étapes à partir de spécifications symboliques d'objectifs. La récupération en cas d'échec opère en temps réel, tant au niveau moteur que symbolique, via un contrôleur conforme permettant l'exécution sécurisée sous perturbations humaines ou environnementales. L'intérêt de SymSkill tient à sa résolution d'une tension fondamentale en robotique industrielle : l'apprentissage par imitation (IL) est réactif mais ne généralise pas à des scènes inédites, tandis que la planification tâche-et-mouvement (TAMP) est compositionnelle mais trop lente pour la récupération en temps réel. SymSkill combine les deux en un seul cadre unifié : le planificateur symbolique réordonne dynamiquement les compétences selon l'état courant, sans nécessiter de réentraînement. Pour un intégrateur, cinq minutes de données suffire à couvrir une séquence de 12 étapes représente un gain de coût de labellisation considérable par rapport aux pipelines d'imitation classiques. Les résultats questionnent aussi l'hypothèse selon laquelle les modèles VLA (vision-langage-action) monolithiques suffisent pour la manipulation longue-horizon : la décomposition symbolique explicite offre ici une robustesse mesurable. L'approche s'inscrit dans un débat de fond entre architectures neuronales end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, et les approches hybrides neuro-symboliques. SymSkill représente ce second camp, qui revendique meilleure interprétabilité et récupération d'échec structurée. Aucun déploiement industriel ni partenariat commercial n'est annoncé ; il s'agit d'un résultat de recherche académique avec code disponible sur symskill.github.io, et les performances en simulation restent à valider sur des tâches industrielles à plus haute variabilité. La prochaine étape naturelle serait de tester la scalabilité sur des horizons supérieurs à 12 étapes et des environnements moins contrôlés.

IA physiquePaper
1 source
C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences
58arXiv cs.RO 

C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences

Des chercheurs ont publié sur arXiv en juin 2026 (référence 2606.08962) une méthode d'accélération appelée C³ache (Cross Inference Chunk Cache), ciblant les World Action Models (WAM), une classe de modèles robotiques qui génèrent des politiques d'action en modélisant la vidéo plutôt qu'en s'appuyant uniquement sur des démonstrations étiquetées. Contrairement aux politiques VLA (Vision-Language-Action) classiques, les WAM s'entraînent sur de la vidéo non labellisée abondante, ce qui améliore leur généralisation à de nouveaux mouvements et environnements, mais au prix d'un coût d'inférence élevé. Pour exécuter une tâche, un WAM enchaîne plusieurs blocs d'inférence successifs (chunks), chacun nécessitant un processus de débruitage coûteux. Les méthodes existantes réduisent ce coût en mettant en cache les calculs au sein d'un même chunk, mais ignorent une source de redondance plus large : la forte corrélation entre les résidus calculés à un même step de débruitage, d'un chunk au suivant, lorsque le robot exécute un comportement fluide. C³ache exploite cette corrélation en réutilisant ces résidus entre chunks consécutifs, sans aucun réentraînement du modèle. Les expériences sur benchmarks avec un backbone Fast-WAM montrent un gain allant jusqu'à 2,5× sur le temps d'inférence total mesuré en wall-clock, avec une dégradation négligeable du taux de succès aux tâches. Ce résultat a une portée concrète pour les équipes cherchant à déployer des robots autonomes à coût raisonnable. Le principal frein à l'adoption industrielle des WAM n'est pas la qualité des politiques générées, mais leur latence d'inférence : réduire ce coût par 2,5× sans modifier les poids du modèle constitue un levier de déploiement immédiat, sans pipeline de réentraînement ni risque de régression. La méthode valide aussi une hypothèse structurelle utile : les trajectoires robotiques lisses produisent des représentations internes stables d'un pas à l'autre, ce qui ouvre la voie à des stratégies de cache plus agressives au niveau système. Pour les intégrateurs et les équipes MLOps, C³ache se présente comme un composant directement intégrable à tout modèle WAM existant. Les WAM s'inscrivent dans une tendance initiée par des modèles comme pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, qui exploitent tous deux un objectif de génération vidéo pour apprendre à partir de données non étiquetées. La course à la réduction des coûts d'inférence pour ces architectures est intense : Google, Physical Intelligence et plusieurs laboratoires académiques explorent en parallèle la distillation, la quantification et le cache intra-chunk. C³ache se positionne comme une solution orthogonale et combinable avec ces approches. Les auteurs soulignent toutefois une limite importante : la corrélation inter-chunks supposée ne tient que pour des comportements robotiques fluides, et des mouvements brusques ou des transitions rapides pourraient dégrader les performances. Il s'agit pour l'instant d'un preprint non relu par les pairs, et les évaluations restent confinées à des benchmarks simulés ; les prochaines étapes naturelles incluent la validation sur robots physiques et l'intégration dans des pipelines embarqués à contraintes de latence strictes.

IA physiqueActu
1 source
CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur
59arXiv cs.RO 

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Une équipe de recherche a publié sur arXiv (arXiv:2606.09572, juin 2026) une architecture légère pour le contrôle visuomoteur de robots manipulateurs, baptisée CT-VAM (Cerebello-Thalamic-Inspired Vision-Action Model). Avec seulement 68 millions de paramètres, le modèle prédit des séquences d'actions (action chunks) à partir de deux flux visuels simultanés, de données proprioceptives et d'un vecteur de tâche compact, sans retraiter le langage naturel à chaque pas de contrôle. La pièce centrale est TARS (Thalamic Action Routing Stream), un décodeur à attention conditionnelle qui route séparément les flux d'actions, de vision et de tâche, empêchant les tokens visuels denses de noyer les signaux de commande utiles. Sur le benchmark LIBERO, les auteurs rapportent des taux de réussite comparables à ceux de VLA nettement plus volumineux, avec une latence d'inférence réduite. Un mécanisme de flow-consistent inpainting permet en outre l'exécution asynchrone des chunks, autorisant un contrôle haute fréquence sur du matériel embarqué à ressources limitées. L'enjeu pratique est direct pour les intégrateurs et les équipes robotiques : les VLA actuels comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA exigent une puissance de calcul élevée et souffrent d'une latence incompatible avec le contrôle temps réel en manipulation fine. CT-VAM propose une séparation architecturale explicite, dite cloud-edge : le raisonnement sémantique de haut niveau reste dans le cloud ou sur un serveur dédié, tandis qu'une politique locale compacte assure la boucle fermée rapide. Si ce paradigme se confirme en conditions réelles, il permettrait de déployer des robots manipulateurs sur du matériel embarqué moins coûteux, réduisant le BOM (bill of materials) sans sacrifier la généralisation. Il faut noter que le preprint ne précise ni la plateforme matérielle exacte ni les scénarios industriels testés au-delà de LIBERO, un écart classique entre validation académique et terrain. L'inspiration neuroanatomique est explicite : le cervelet gère les boucles de contrôle moteur rapide pendant que le thalamus filtre et route l'information sensorielle, une séparation fonctionnelle que les auteurs transposent directement en architecture réseau. Dans l'écosystème VLA, la tendance depuis 2023 va vers des modèles de plus en plus lourds (RT-2, OpenVLA à 7B, Pi-0 de Physical Intelligence), et CT-VAM représente un contre-argument en faveur de la compacité, un axe également exploré par LeRobot de Hugging Face et certaines architectures de diffusion légère. À 68M paramètres, il se positionne dans la famille des politiques efficientes plutôt que des foundation models généralistes. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade ; les étapes logiques seraient une validation sur des benchmarks plus larges comme DROID ou RLBench, ainsi qu'une ouverture des poids du modèle à la communauté.

UELa validation du paradigme cloud-edge et des politiques compactes converge avec la direction de LeRobot de Hugging Face (France), offrant un signal indirect aux équipes R&D européennes sur la viabilité des architectures légères face aux VLA massifs.

IA physiqueOpinion
1 source
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
60arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source
X-OP : téléopération corps entier entre morphologies différentes via MPC
61arXiv cs.RO 

X-OP : téléopération corps entier entre morphologies différentes via MPC

X-OP est un système de téléopération whole-body présenté en pré-publication arXiv (2606.07934) qui permet à un opérateur humain de contrôler un robot corps entier via un unique casque de réalité étendue (XR), sans exosquelette ni setup multi-caméras. Le coeur technique est un retargeter basé sur le MPC (Model Predictive Control) qui optimise simultanément l'alignement avec les intentions de l'opérateur et la faisabilité dynamique du robot en temps réel. Pour stabiliser l'exécution, la méthode réinitialise l'état du simulateur à chaque pas MPC afin de gérer les mesures bruitées et la sensibilité aux contacts, et intègre une estimation de pose globale par SLAM pour limiter la dérive long terme. En simulation, le système obtient un temps de complétion réduit de plus de 30 % et une consommation énergétique réduite de 20 % pour un humanoïde, et zéro collision pour un manipulateur mobile, par rapport aux baselines. Des expériences réelles valident la méthode sur les deux plateformes. L'apport central est l'absence de réentraînement lors du changement de morphologie robot : là où les méthodes XR existantes basées sur du RL end-to-end nécessitent une politique par plateforme, X-OP s'insère comme couche d'abstraction au-dessus des contrôleurs bas niveau existants. C'est un signal potentiellement structurant pour les intégrateurs industriels cherchant à constituer des datasets loco-manipulation à moindre coût. La distinction entre retargeting cinématique classique (qui ignore la dynamique) et retargeting MPC (qui garantit la faisabilité) résout partiellement le problème de distribution shift qui fragilise les politiques VLA au déploiement réel, un point que le secteur peine à adresser. La téléopération pour la collecte de données est au coeur des stratégies de Physical Intelligence (Pi-0), d'Agility Robotics et de Figure AI, qui s'appuient sur des exosquelettes ou setups dédiés coûteux. X-OP se positionne comme alternative généraliste et bas coût. Il convient de noter que le papier est une pré-publication non peer-reviewed, et que les expériences réelles restent limitées en scope : les métriques de simulation sans contexte de tâche industrielle invitent à la prudence. Aucun partenaire commercial ni déploiement terrain n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine
62arXiv cs.RO 

Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine

Des chercheurs ont publié début juin 2026 Video2Sim2Real (arXiv:2606.08828), un pipeline complet permettant à un robot d'acquérir des compétences de manipulation dextre à partir d'une seule vidéo de démonstration humaine. Le système fonctionne en trois étapes : des modèles de fondation reconstruisent un jumeau numérique prêt pour la simulation, extraient les trajectoires main-objet, puis identifient des keyframes orientés objet pour optimiser les configurations articulaires du robot. Ces configurations servent d'ancres pour recalibrer le mouvement brut, comblant l'écart entre la cinématique humaine et les contraintes d'un end-effector mécanique. Pour le transfert sim-to-real, le framework dissocie deux problèmes distincts : la robustesse aux nuages de points bruités du monde réel, traitée par apprentissage par imitation (IL), et les variations de dynamique doigt-objet, gérées par du RL résiduel local au niveau des phalanges. Un module de planification collision-aware permet enfin la généralisation spatiale à des configurations d'objets inédites. L'intérêt principal pour les intégrateurs et équipes R&D est l'absence de démonstrations téléopérées coûteuses : une seule vidéo d'un humain effectuant une tâche suffit à bootstrapper la politique. C'est une réponse directe au "demonstration bottleneck" qui freine le déploiement des robots manipulateurs en environnements non structurés. La décomposition explicite du gap sim-to-real en deux sous-problèmes indépendants est méthodologiquement solide et contraste avec les approches end-to-end qui peinent à diagnostiquer leurs propres échecs. Sur plusieurs tâches de manipulation quotidienne, le système améliore le taux de succès en simulation, la sécurité et la cohérence des trajectoires face à de nombreuses baselines existantes. Il faut noter cependant que le papier ne publie pas de métriques de succès absolues consolidées en conditions réelles ; les évaluations demeurent comparatives, ce qui limite l'interprétation des gains annoncés. Cette direction s'inscrit dans un mouvement plus large exploitant les vidéos comme supervision faible pour la robotique, à l'instar de π0 (Physical Intelligence), GR00T N2 (NVIDIA) ou UniSim. Video2Sim2Real se distingue en visant la pipeline complète, de la vidéo brute au déploiement réel, sans intervention intermédiaire. Les approches concurrentes comme DexMV ou AnyTeleop requièrent généralement des données supplémentaires (MoCap, téléopération) ou restent limitées à des scènes très contraintes. Aucun déploiement industriel n'est annoncé à ce stade ; les prochaines étapes naturelles seraient une validation sur des end-effectors commerciaux (Allegro Hand, Shadow Dexterous Hand) et une mise à l'épreuve sur des objets articulés ou déformables, là où la dynamique de contact reste un problème ouvert.

UELes équipes R&D françaises et européennes spécialisées en manipulation dextre peuvent intégrer cette approche pour s'affranchir de la téléopération coûteuse, sans partenariat ou initiative EU spécifique annoncé.

IA physiqueOpinion
1 source
MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel
63arXiv cs.RO 

MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel

Des chercheurs présentent MotionWAM (arXiv:2606.09215), un World Action Model (WAM) temps réel pour la loco-manipulation humanoïde, validé sur neuf tâches physiques avec un Unitree G1 piloté par une unique caméra égocentrique. Contrairement aux architectures dominantes qui séparent une politique pour les bras et un contrôleur pour la locomotion, le système prédit des tokens de mouvement corps-entier dans un espace d'action unifié couvrant locomotion, déplacements du torse, régulation de hauteur, interaction plantaire et manipulation des mains. Pour atteindre le temps réel, MotionWAM conditionne la politique sur les features intermédiaires de débruitage d'un modèle monde vidéo, évitant le débruitage itératif complet sur des latents haute dimension, goulot d'étranglement des WAMs antérieurs. Sur le hardware réel, le système dépasse de plus de 30 points les baselines Vision-Language-Action (VLA) entraînées sur les mêmes démonstrations et réalise des tâches d'interaction plantaire inatteignables par les politiques haut/bas-corps découplées. Le paradigme hiérarchique haut/bas-corps, présent dans des systèmes comme GR00T N2 (NVIDIA) et de nombreuses architectures humanoïdes commerciales, contraint les jambes à un simple rôle d'équilibre déconnecté de la manipulation. MotionWAM démontre sur matériel réel que cette contrainte n'est pas une fatalité et valide que des modèles monde pré-entraînés sur vidéo peuvent réduire la dépendance aux démonstrations robotiques coûteuses. Les métriques restent à contextualiser: neuf tâches sur un seul embodiment, sans publication de temps de cycle ni de robustesse aux variations de scène, restent loin d'une validation industrielle. Les WAMs appliqués à la robotique s'appuient sur des travaux antérieurs en manipulation tabletop (UniSim, Genie de Google DeepMind); MotionWAM étend ces techniques à la commande humanoïde corps-entier. Face aux approches VLA dominantes dans les publications de référence, notamment pi-0 (Physical Intelligence) et GR00T N2, cette architecture propose une alternative centrée sur la dynamique vidéo pré-entraînée. Les prochaines étapes naturelles concernent la validation multi-embodiment et des déploiements industriels semi-structurés, où la variabilité des environnements constituera le vrai test de maturité.

IA physiqueOpinion
1 source
Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques
64arXiv cs.RO 

Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques

Une équipe de recherche publie sur arXiv (2606.08107) les résultats d'Ego-Pi, une méthode de fine-tuning de modèle VLA (Vision-Language-Action) conçue pour exploiter des données égocentristes humaines dans l'entraînement de robots manipulateurs. L'étude prend comme fondation le modèle π₀.₅ de Physical Intelligence et cible des robots humanoïdes équipés de mains à cinq doigts dextres. Le résultat central : des données de manipulation filmées du point de vue humain permettent au robot d'apprendre de nouvelles sémantiques de tâches et de composer des compétences existantes en comportements inédits, sans nécessiter de données robot équivalentes pour ces mêmes tâches. Ce résultat adresse directement l'un des verrous les plus cités en robotique : la rareté des données d'entraînement à grande échelle. Contrairement au NLP ou à la vision, il n'existe pas de corpus internet pour la manipulation robotique. La démonstration qu'une capture égocentrique humaine, collectée plus facilement, à moindre coût et à plus grande échelle, peut servir de substitut partiel représente un changement de paradigme potentiel pour les pipelines de données. Cela valide aussi l'hypothèse du transfert inter-embodiment : un VLA peut généraliser entre morphologies humaine et robotique si le point de vue reste cohérent. Physical Intelligence, startup californienne fondée en 2023 et à l'origine des modèles π₀ et π₀.₅, positionne ainsi sa fondation comme un socle cross-embodiment viable. Ses concurrents directs, notamment NVIDIA avec GR00T N2 et Google DeepMind avec RT-2, explorent également l'apprentissage multi-source. Il faut souligner qu'Ego-Pi est un preprint non encore évalué par les pairs, sans benchmark industriel ni déploiement réel annoncé à ce stade.

UERésultats potentiellement utiles aux équipes européennes (CEA-List, INRIA) travaillant sur des VLA, mais aucun acteur ni déploiement européen directement impliqué.

IA physiqueOpinion
1 source
TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs
65arXiv cs.RO 

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

Des chercheurs ont publié le 10 juin 2026 sur arXiv (arXiv:2606.09337) un framework baptisé TORL-VLA (Tactile-guided Online Reinforcement Learning for Vision-Language-Action), conçu pour résoudre un point de blocage précis des VLA en robotique de manipulation : l'inadaptation en temps réel aux conditions de contact. TORL-VLA couple un module VLA enrichi de retour tactile, capable de prédire à la fois une action de référence et une séquence de forces futures (wrench sequences), avec un module d'apprentissage par renforcement en ligne, léger, qui raffine ces actions au fil des tentatives. Le système a été validé sur des tâches longues et en contact soutenu avec l'environnement : manipulation d'une serrure (latch manipulation), placement précis d'une tasse à café, et manipulation d'un œuf cru. Sur l'ensemble de ces scénarios, TORL-VLA améliore les taux de succès à l'échelle des sous-tâches et des tâches complètes, ainsi que l'efficacité temporelle d'exécution par rapport aux baselines comparées. L'enjeu technique est bien réel : les VLA actuels sont déployés comme des politiques hors ligne (offline policies), c'est-à-dire figées après entraînement. Dès que les conditions de contact s'écartent de la distribution d'entraînement, friction différente, compliance d'objet inattendue, positionnement imprécis, la politique échoue sans mécanisme de correction. Le résultat concret est une accumulation de forces de contact inappropriées et des boucles de retry inefficaces, problème critique pour tout déploiement industriel où la reproductibilité du geste est exigée. TORL-VLA introduit également un "intervention-censored critic", un mécanisme qui évite d'attribuer à tort un succès post-intervention humaine aux actions de la politique générées avant cette intervention, ce qui stabilise l'apprentissage sur des données mixtes (exploration autonome + corrections opérateur). Cette approche est méthodologiquement significative : elle rend l'apprentissage en ligne viable dans un contexte d'apprentissage par démonstration avec supervision humaine intermittente, ce qui correspond précisément aux conditions réelles de mise en service. Les VLA comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de RT-2 (Google DeepMind) ont démontré une généralisation impressionnante en manipulation, mais leur rigidité post-entraînement constitue un frein reconnu au déploiement en production. Des travaux comme DexVLA ou des approches avec force feedback (ForceSight, TacVLA) ont commencé à intégrer la modalité tactile, mais sans adaptation en ligne. TORL-VLA se positionne à l'intersection de ces deux axes : adaptation dynamique et perception haptique. Aucun chiffre de performance absolu (taux de succès brut, temps de cycle) n'est communiqué dans l'abstract, ce qui limite la comparaison directe avec d'autres systèmes, les résultats complets sont dans le papier complet. Du côté européen, des acteurs comme Enchanted Tools (France, robot Mirokaï) ou Wandercraft travaillent sur la compliance et l'interaction physique, mais sur des architectures différentes. Les prochaines étapes naturelles pour TORL-VLA concernent la généralisation à d'autres objets déformables, la réduction de la latence du module RL en ligne, et une validation à plus grande échelle avant tout positionnement comme solution industrielle.

UELes équipes françaises comme Enchanted Tools ou Wandercraft, actives sur la compliance et l'interaction physique, pourraient s'appuyer sur cette méthodologie d'adaptation tactile en ligne pour améliorer la robustesse au contact de leurs robots, bien qu'aucun transfert direct ne soit documenté.

IA physiqueOpinion
1 source
Retour vers le futur familier : récupération après défaillance des politiques VLA par sélection d'étapes pré-imaginées
66arXiv cs.RO 

Retour vers le futur familier : récupération après défaillance des politiques VLA par sélection d'étapes pré-imaginées

Des chercheurs présentent B2FF (Back to the Familiar Future), un framework de récupération conçu pour les politiques Vision-Language-Action (VLA) appliquées à la manipulation robotique. Le problème central : lorsqu'un bras manipulateur dévie de sa trajectoire nominale, par exemple à cause d'un glissement d'objet ou d'une perturbation externe, la politique VLA se retrouve dans des états visuels non familiers. Les tentatives classiques de re-planification dans ces zones inconnues tendent à déstabiliser les séquences d'actions plutôt qu'à les corriger. L'approche B2FF s'appuie sur le conditionnement visuel futur : avant l'exécution de la tâche, le VLA génère une banque de jalons (milestone bank) composée d'états visuels futurs probables, calculés à partir de l'observation initiale propre. En cas de déviation détectée, un module sélecteur dit "recoverability-aware" identifie le jalon le plus approprié et l'impose comme objectif visuel fixe, forçant la politique à se recaler sur un futur familier. Sur le benchmark LIBERO avec injections d'échecs contrôlées, B2FF porte le taux de succès moyen d'une politique VLA de base de 56,3 % à 74,0 %, sans nécessiter de fine-tuning du générateur d'actions de bas niveau. Ce résultat présente un intérêt concret pour les intégrateurs déployant des bras robotiques en environnement semi-structuré : B2FF s'applique comme une surcouche sans modifier le modèle fondamental, ce qui réduit les coûts d'adaptation et de maintenance. La méthode valide l'hypothèse que le conditionnement visuel prospectif peut remplacer avantageusement un re-planning complet lors des phases de récupération, et contredit l'idée selon laquelle la robustesse aux perturbations exige systématiquement du fine-tuning ou des données supplémentaires. Un point de vigilance : les expériences utilisent un timing de récupération contrôlé, aligné précisément sur les injections d'échecs, condition nettement plus favorable que ce que l'on rencontre en opérations réelles. B2FF s'inscrit dans un champ en pleine ébullition autour des VLA généralistes : pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA explorent la manipulation polyvalente pilotée par instructions en langage naturel, mais la récupération post-échec reste un angle sous-exploré dans la littérature. Les approches concurrentes incluent les politiques de récupération dédiées entraînées séparément, et les architectures à états de monde explicites, plus interprétables mais moins généralisables. La prochaine étape logique pour B2FF serait une validation sur hardware réel avec un timing de récupération non contrôlé, seul test permettant de quantifier l'écart entre benchmark et déploiement industriel.

IA physiqueOpinion
1 source
FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples
67arXiv cs.RO 

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

Une équipe de chercheurs a publié sur arXiv (référence 2606.08555) FAWAM, un modèle d'action robotique intégrant les signaux de force à trois niveaux distincts du pipeline de manipulation : la perception, la prédiction et l'exécution en boucle fermée. Concrètement, le système encode des signaux force/couple sur six axes (6-DoF wrench) pour moduler la génération d'actions, prédit conjointement les actions futures et les efforts en bout d'effecteur afin de modéliser explicitement l'évolution du contact, puis utilise cette trajectoire de wrench prédite comme référence d'exécution pour corriger les actions en temps réel via un module de correction résiduelle. Sur plusieurs tâches de manipulation nécessitant des contacts riches -- vissage, insertion, assemblage par contrainte -- FAWAM affiche un taux de succès moyen supérieur de 36,25 % aux baselines purement visuelles et de 21,25 % aux baselines force-aware existantes. Il s'agit d'un preprint, sans déploiement industriel annoncé à ce stade. L'apport technique est notable pour les intégrateurs et les équipes R&D en manipulation apprise : la plupart des politiques modernes type Diffusion Policy, ACT ou des VLA (Vision-Language-Action models) traitent la force comme une modalité d'observation annexe, sans lui donner de rôle prédictif dans la dynamique future du contact. FAWAM repositionne le signal force comme variable de première classe dans l'architecture du modèle, ce qui permet une correction online des actions sans nécessiter de replanification complète. C'est précisément ce découplage entre prédiction de wrench et correction résiduelle qui explique le gain de performance : le robot anticipe l'effort attendu avant de l'observer, et ajuste en conséquence dès qu'un écart apparaît. Pour un COO ou un directeur technique envisageant des cellules d'assemblage automatisées, cela représente une réduction significative du gap simulation-réalité sur les tâches à contact fort. La manipulation en contact riche reste l'un des derniers verrous majeurs de la robotique industrielle polyvalente, là où les approches vision-seule échouent dès que les tolérances sont serrées ou les surfaces glissantes. Des travaux récents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques de manipulation de Google DeepMind intègrent parfois la proprioception mais rarement le couple d'axe complet en boucle de prédiction. FAWAM s'inscrit dans un courant émergent de world action models orientés contact, aux côtés de travaux comme RoboDex ou des approches de manipulation tactile de Berkeley et Carnegie Mellon. La prochaine étape logique serait une validation sur robot humanoïde ou sur bras industriel en environnement semi-structuré, ce que le preprint ne couvre pas encore.

IA physiqueOpinion
1 source
TBD-VLA : modèle vision-langage-action à diffusion par blocs temporels
68arXiv cs.RO 

TBD-VLA : modèle vision-langage-action à diffusion par blocs temporels

Une équipe de chercheurs propose TBD-VLA (Temporal Block Diffusion Vision Language Action Model), un nouveau cadre de génération d'actions pour les modèles Vision-Language-Action (VLA) robotiques, publié le 9 juin 2026 sur arXiv (identifiant 2606.07895). L'approche repose sur la diffusion discrète par blocs temporels : les séquences d'actions sont partitionnées en blocs, à l'intérieur desquels un processus de diffusion masquée génère les tokens d'action en parallèle, tandis que la génération reste autoregressive d'un bloc à l'autre. Le modèle intègre également une fonctionnalité baptisée "Real-Time Chunking", qui permet l'exécution asynchrone des blocs d'action via un mécanisme d'interpolation temporelle (temporal in-painting). Les auteurs rapportent des gains de performance significatifs sur benchmarks en simulation et sur des tâches de manipulation en environnement réel par rapport aux approches VLA antérieures, sans préciser de métriques chiffrées dans l'abstract. L'enjeu central que TBD-VLA cherche à résoudre est double : la latence d'inférence élevée des VLA discrets classiques, et l'absence de modélisation explicite des dépendances temporelles dans les architectures de décodage parallèle récentes. Les VLA discrets standard génèrent les actions token par token de manière autoregressive, une approche précise mais trop lente pour les contraintes temps-réel d'un bras manipulateur industriel. Les tentatives précédentes de décodage parallèle accélèrent l'inférence mais sacrifient la cohérence temporelle entre tokens. TBD-VLA propose un compromis structuré : parallélisme intra-bloc pour la vitesse, autoregressivité inter-blocs pour la cohérence. Si les gains annoncés se confirment à l'échelle, cette architecture offre une voie vers des VLA déployables en milieu industriel avec des contraintes de cycle time réalistes. Le développement des VLA robotiques s'est accéléré depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence (basé sur la diffusion continue), OpenVLA de l'Université de Californie Berkeley, et les approches RoboVLMs. TBD-VLA se distingue en restant dans l'espace des tokens discrets, aligné avec les architectures LLM standards, tout en empruntant à la diffusion pour la génération intra-bloc. Le papier publie un site de projet (tbd-vla.github.io) et présente des résultats sur simulation et manipulation réelle, mais reste à ce stade une contribution académique sans déploiement industriel annoncé. La prochaine étape logique serait une intégration dans des pipelines de fine-tuning sur données propriétaires, terrain sur lequel Physical Intelligence et Figure AI conservent une avance significative.

IA physiqueOpinion
1 source
VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long
69arXiv cs.RO 

VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long

Une équipe de chercheurs publie sur arXiv (référence 2606.07723, juin 2026) un système appelé VoLoAgent, conçu pour piloter des robots sur des séquences d'actions longues à partir d'instructions en langage naturel ouvert. Le principe : un modèle vision-langage (VLM) joue le rôle d'orchestrateur et coordonne des capacités hétérogènes, notamment un modèle vision-langage-action (VLA) couplé à un module de manipulation bras entier (WAM), des primitives d'action et des modèles de vision, traités comme des outils interruptibles que le VLM peut reprendre en main en cours d'exécution. Pour évaluer ces capacités, les auteurs introduisent RoboVoLo, un benchmark haute fidélité qui couvre quatre dimensions : sens commun, suivi d'état et mémoire, références complexes dans la scène, et connaissance du monde, avec des métriques de succès par tâche et un diagnostic par type de défaillance. Des validations sur robot réel complètent les expériences en simulation, bien que les chiffres de performance précis ne figurent pas dans l'abstract publié. L'apport conceptuel central est ce que les auteurs nomment la "Physical Orchestration" : contrairement aux agents IA virtuels, un robot ne peut pas mettre le monde en pause pendant qu'il raisonne, ce qui fait du timing des décisions et des appels d'outils une contrainte de premier ordre. VoLoAgent y répond par une boucle fermée dans laquelle le VLM surveille en continu l'exécution et déclenche corrections ou récupérations en cas d'échec, sans attendre la fin de l'action en cours. Cette approche adresse directement l'un des angles morts des VLA actuels : leur rigidité face aux défaillances intermédiaires dans des séquences longues. Les résultats indiquent que VoLoAgent surpasse significativement les systèmes à VLA unique, à VLM unique, et les architectures purement basées sur des outils, une affirmation qui reste à vérifier sur des scénarios industriels hors laboratoire. Ce travail s'inscrit dans un courant très actif autour des VLA, porté par Google DeepMind (RT-2, RT-X), Physical Intelligence (pi0) et Stanford (Mobile ALOHA). L'architecture "orchestrateur sur boucle fermée" partage des bases avec les agents à outils de type ReAct ou Voyager, mais les transpose à la contrainte temps-réel de la manipulation physique. Le projet est hébergé sur GitHub via une page académique (chicychen.github.io/VoLo), sans affiliation industrielle explicite mentionnée dans l'abstract. La prochaine étape naturelle serait la validation sur des manipulateurs commerciaux (UR, Franka, ou équipements semi-structurés en entrepôt) pour mesurer le transfert hors conditions de laboratoire contrôlées.

IA physiqueOpinion
1 source
ω-EVA : anticiper, vérifier et agir avec des modèles du monde interactifs latents
70arXiv cs.RO 

ω-EVA : anticiper, vérifier et agir avec des modèles du monde interactifs latents

Une équipe de recherche a présenté ω-EVA (omega-EVA) en juin 2026 sur arXiv, un système de contrôle robotique qui introduit une boucle "Envision-Verify-Act" pour la génération d'actions en manipulation. Le coeur du système est un modèle de monde latent interactif structuré en trois étapes: apprentissage de dynamiques latentes conditionnées par l'action, entraînement d'une politique de flux conditionnée par le langage sur des représentations visuelles "dynamiques-aware", puis rétroalimentation de la proposition d'action à travers ce même modèle. Un raffineur tri-branche raisonne simultanément sur l'état courant, le futur conditionné par la proposition, et l'action candidate pour produire le chunk d'action final. Le modèle compte environ 1,2 milliard de paramètres et n'a pas nécessité de préentraînement sur des données robotiques supplémentaires. Les évaluations couvrent des tâches de manipulation à bras unique, bimanuelle, à horizon long et en environnements perturbés, toutes menées en simulation. La plupart des politiques robotiques actuelles, y compris les VLA (Vision-Language-Action models) comme π0 de Physical Intelligence ou GR00T N2 de NVIDIA, mappent directement les observations vers les actions sans inspecter les conséquences des actions candidates avant exécution. ω-EVA propose un changement de paradigme: le modèle de monde devient un module de rétroaction actif à l'inférence, permettant à la politique de "vérifier" dans l'espace latent l'effet probable de son action avant de la valider. Point clé du design: cette vérification se fait entièrement dans l'espace des features latentes, sans génération de vidéo future, ce qui maintient une charge computationnelle raisonnable à l'inférence. Pour un intégrateur industriel ou un roboticien, l'enjeu est concret: filtrer les actions à risque avant qu'elles atteignent l'effecteur, un problème structurel des VLA déployés en milieu non contrôlé où le "demo-to-reality gap" reste critique. L'utilisation des world models comme module de rétroaction à l'inférence reste rare dans la littérature; la majorité des travaux existants, dont la série Dreamer de Hafner (2019-2023), les exploite pour l'entraînement ou la planification hors ligne. Dans la course aux VLA, les acteurs dominants, Physical Intelligence (π0, π0.5), NVIDIA (GR00T N2), Figure (Helix) et 1X Technologies, misent sur des architectures plus larges et des datasets propriétaires massifs. ω-EVA propose une alternative compacte à 1,2 milliard de paramètres sans ce prérequis en données, ce qui peut intéresser des laboratoires académiques ou des startups à ressources limitées. L'article étant un preprint arXiv non encore soumis à peer review, et les benchmarks étant exclusivement en simulation, la validation sur robot physique en environnement réel reste l'étape déterminante à franchir.

UEL'approche compacte (1,2 Md paramètres, sans données robotiques supplémentaires) pourrait intéresser les laboratoires académiques européens et les startups FR/EU à ressources limitées travaillant sur les VLA, mais aucun acteur européen n'est directement impliqué.

IA physiqueOpinion
1 source
Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée
71arXiv cs.RO 

Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée

Un article soumis en juin 2026 sur arXiv (2606.08520) propose une méthode graduée pour convertir des modèles de vision-langage généralistes (VLMs) en politiques de contrôle robotique (VLAs). Les auteurs identifient un double fossé qui explique les échecs du fine-tuning direct : un fossé visuel (les VLMs sont entraînés sur des images internet, pas sur des scènes de manipulation robot) et un fossé d'objectif (passer de la compréhension de texte à la prédiction de commandes motrices). Pour combler ces deux ruptures progressivement, ils introduisent les "embodied trajectory-coupled data" (ETC), des paires vision-langage extraites des mêmes trajectoires et environnements visuels que ceux utilisés pour l'entraînement à l'action, mais conservant un objectif de supervision en langage naturel. La recette d'entraînement se déroule en trois étapes séquentielles : Distribution Bridging (adaptation sémantique au domaine incarné), Objective Bridging (transition progressive vers la prédiction d'action), puis Retentive Adaptation (spécialisation au domaine de déploiement cible). Les expériences sont validées en simulation et sur robot réel, sans que l'abstract ne précise le matériel ni les benchmarks utilisés. La contribution centrale n'est pas un nouveau modèle mais une stratégie de curriculum d'entraînement qui conteste une hypothèse répandue dans la communauté : que le fine-tuning direct sur données d'action suffit, comme cela fonctionne pour d'autres domaines (vision médicale, OCR). Le papier montre expérimentalement que ce raccourci provoque une dégradation des généralisations acquises en préentraînement, phénomène particulièrement prononcé dans les architectures multimodales. Pour les intégrateurs, l'enjeu est concret : les ETC data peuvent être générées depuis des trajectoires déjà enregistrées sans coût de collecte supplémentaire, et les mélanger avec une faible quantité de données d'action permettrait de généraliser à de nouvelles conditions visuelles et linguistiques sans démonstrations supplémentaires, ce qui adresse directement le problème du long-tail en déploiement industriel. Ce travail s'inscrit dans la dynamique ouverte par RT-2 (Google DeepMind, 2023) qui a lancé la course aux VLAs, avec des modèles comme pi-zéro (Physical Intelligence), OpenVLA, ou RoboFlamingo comme repères concurrents. Le coût des données d'action robotique reste le noeud central pour des acteurs comme Figure AI, 1X Technologies ou Agility Robotics, qui financent massivement la collecte en déploiement réel. L'approche ETC propose une voie complémentaire en valorisant les trajectoires déjà existantes, sans nécessairement passer par de nouvelles sessions de télé-opération. Au stade de la soumission, les auteurs n'ont annoncé ni code public ni implémentation open-source.

IA physiqueOpinion
1 source
MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)
72arXiv cs.RO 

MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.09827, juin 2026) MemoryVLA++, un framework de modélisation temporelle pour modèles VLA (Vision-Language-Action). L'architecture combine trois composants : une mémoire de travail construite à partir des tokens perceptifs et cognitifs générés par un VLM pré-entraîné sur l'observation courante ; une banque mémoire Perceptual-Cognitive qui indexe contexte sémantique et détails bas niveau des interactions passées via un mécanisme de consolidation sans redondance ; et un modèle du monde simulant des états futurs dans un espace latent de débruitage. Ces latents imaginés, guidés par la mémoire, alimentent un expert d'action à diffusion qui produit des séquences d'actions temporellement cohérentes. Évalué sur cinq benchmarks de simulation (Libero, SimplerEnv, Mikasa-Robo, Calvin, Libero-Plus) et trois catégories de tâches réelles sur trois robots distincts, le système affiche des gains de +9 % sur les tâches générales, +26 % sur les tâches mémoire-dépendantes, et +28 % sur les tâches d'anticipation. Ces résultats adressent une faiblesse structurelle des VLAs actuels (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA), tous limités à l'observation instantanée et incapables de maintenir un contexte opérationnel sur plusieurs étapes. Pour des tâches longue-portée (reprendre une manipulation interrompue, enchaîner des gestes interdépendants), cette limitation est rédhibitoire en environnement industriel réel. Le gain de +26 % sur les tâches mémoire-dépendantes, mesuré hors simulation, est le point le plus solide de la publication : il suggère que l'architecture surmonte partiellement le sim-to-real gap qui affaiblit beaucoup de travaux académiques récents. Pour un intégrateur ou un COO industriel, c'est la différence entre un robot qui réinitialise sa compréhension à chaque step et un qui maintient un contexte cohérent sur l'ensemble de la séquence de manipulation. MemoryVLA++ s'inscrit dans une vague de travaux cherchant à injecter du raisonnement temporel dans les fondations robotiques, face aux architectures VLA portées par Physical Intelligence, NVIDIA et Google DeepMind. L'inspiration est explicitement cognitive : mémoire de travail (buffer court terme), système hippocampique (mémoire épisodique des interactions passées) et simulation mentale d'états futurs, trois mécanismes documentés en neurosciences. L'article reste un preprint non relu par les pairs, et les vidéos de démonstration sur la page projet méritent une lecture critique avant toute conclusion définitive. Les suites naturelles seraient une validation sur bras industriels à 6-7 DOF en environnement non contrôlé et une comparaison rigoureuse avec des approches à mémoire externe de type RAG robotique. Aucun acteur européen n'est impliqué dans ces travaux.

IA physiqueOpinion
1 source
Dévoilement des premières cellules robotiques souples au monde capables de se reconfigurer à la demande
73Interesting Engineering 

Dévoilement des premières cellules robotiques souples au monde capables de se reconfigurer à la demande

La startup londonienne morph a dévoilé en juin 2026 une plateforme de robotique souple qu'elle décrit comme "la première au monde" dans cette catégorie, fondée sur des "cellules robotiques souples", des unités modulaires fabriquées à partir de matériaux synthétiques déformables capables de modifier leur forme et leur rigidité en temps réel. Fondée par le Dr Jean Nehme, ancien chirurgien reconstructeur et créateur de Digital Surgery (société d'IA chirurgicale rachetée par Medtronic en 2021), morph intègre capteurs, contrôle adaptatif et inférence directement dans la matière, sans structures rigides. La plateforme combine apprentissage par renforcement et simulation physique haute-fidélité pour accélérer le prototypage. Les premières applications annoncées couvrent la performance athlétique, la prévention des blessures et le support à la mobilité, avec une extension prévue vers la santé, l'automobile et la sécurité industrielle. Aucun produit fini n'est commercialisé à ce stade : il s'agit d'une annonce de plateforme avec des partenaires industriels en phase de co-développement non nommés. L'intérêt de cette approche pour les intégrateurs et décideurs industriels tient moins à la robotique souple en elle-même, un domaine académiquement actif depuis une décennie, qu'au modèle d'encapsulation proposé : fournir des cellules configurables directement intégrables dans des produits existants, sans que le fabricant partenaire ait à maîtriser la chaîne complète matériaux/simulation/contrôle. Si la plateforme tient ses promesses, elle déplace le curseur de l'intégration robotique vers un modèle comparable aux modules IMU ou aux SoC embarqués : une brique d'intelligence physique que l'on insère, pas un robot que l'on programme. La revendication "world's first" mérite toutefois d'être relativisée : des acteurs comme Soft Robotics Inc. (racheté par Applied Robotics), Festo Bionic, ou les équipes de la Harvard Wyss School ont développé des systèmes modulaires à matériaux souples depuis plusieurs années. La différence revendiquée par morph porte sur l'intégration de l'IA embarquée dans la cellule elle-même, ce qui reste à valider par des benchmarks indépendants. Le profil du fondateur ancre morph dans un créneau précis : l'interface corps-machine à usage médical et de performance, plutôt que la manipulation industrielle. Digital Surgery avait développé des outils d'assistance per-opératoire avant son acquisition par Medtronic ; Nehme applique ici la même logique d'intelligence embarquée, mais à des exosquelettes souples et équipements actifs. Le modèle B2B de morph, software, design et fabrication en partenariat, rappelle celui de Wandercraft côté exosquelettes rigides en France, ou d'Aescape dans le massage robotisé. Les prochaines étapes annoncées incluent des pilotes avec des partenaires industriels non divulgués et le lancement de premiers produits centrés sur la performance humaine, sans calendrier précis communiqué.

UEStartup britannique (hors UE post-Brexit) positionnée sur un créneau adjacent aux acteurs européens comme Wandercraft ; aucune opération ni partenariat européen confirmé à ce stade.

IA physiquePaper
1 source
Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif
74arXiv cs.RO 

Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif

Des chercheurs ont publié en juin 2026 MiTaS (Multi-Resolution Tactile Sensing), un cadre de représentation sensorielle pour la manipulation robotique à contact riche (arXiv:2606.06281). L'architecture fusionne trois modalités : un flux caméra RGB, un capteur tactile visuel GelSight Mini (basse fréquence) et un capteur événementiel haute fréquence Evetac. Des réseaux convolutifs dédiés traitent chaque flux avant une fusion par transformeur, produisant une représentation multi-résolution temporelle qui conditionne une politique apprise par flow-matching. Sur cinq tâches de manipulation à contact, MiTaS atteint un taux de réussite moyen de 80 %, contre 31 % pour la vision seule et 54 % pour une fusion vision-tactile à capteur unique. L'entraînement conjoint multi-tactile permet en outre un gain de plus de 10 % sur certaines tâches, même lorsque le capteur Evetac est absent à l'inférence. Ces résultats isolent empiriquement la contribution de la résolution temporelle hétérogène entre capteurs tactiles : les 26 points d'écart entre vision seule et MiTaS quantifient l'apport du toucher, et les points supplémentaires gagnés sur une fusion mono-capteur montrent que la complémentarité temporelle est effectivement exploitée par le transformeur. Pour les intégrateurs robotiques travaillant sur l'assemblage de précision ou l'insertion de connecteurs, cela suggère qu'associer un capteur événementiel rapide à un capteur optique classique apporte un gain mesurable sans nécessairement disposer du capteur haute fréquence au déploiement. L'analyse d'attention incluse dans l'article identifie quels capteurs dominent à chaque phase de tâche, ce qui aide à dimensionner un setup expérimental. Ces chiffres restent toutefois issus d'un laboratoire : leur robustesse face à l'usure des capteurs ou à la variabilité des surfaces industrielles n'est pas encore documentée. La manipulation à contact riche constitue l'un des verrous persistants de la robotique, où des politiques généralisées comme Pi-0 (Physical Intelligence) progressent vite sur les tâches visuelles mais peinent sur les contacts fins. GelSight, développé au MIT, est depuis plusieurs années le capteur de référence en recherche tactile, tandis qu'Evetac représente une génération plus récente de capteurs événementiels appliqués au toucher. MiTaS se positionne à l'intersection de ces deux domaines, avec une page projet et du code disponibles sur mitas-touch.github.io. Les suites naturelles incluraient des évaluations en transfert sim-to-real et une extension à des politiques sans démonstration humaine directe.

IA physiquePaper
1 source
Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA
75arXiv cs.RO 

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA

Une équipe de chercheurs propose RL-Co (RL-based sim-real Co-training), un framework d'entraînement combinant simulation et données réelles via l'apprentissage par renforcement pour les modèles VLA (Vision-Language-Action). Publié sur arXiv (ref. 2602.12628, version 4), le travail s'articule en deux étapes : une phase de préchauffage par fine-tuning supervisé (SFT) sur un mélange de démonstrations réelles et simulées, suivie d'un fine-tuning par RL en simulation avec une perte supervisée auxiliaire sur données réelles pour ancrer la politique et prévenir l'oubli catastrophique. Évalué sur quatre tâches de manipulation sur table en conditions réelles, RL-Co affiche une progression de +24% du taux de succès sur l'architecture OpenVLA et de +20% sur π0.5, développé par Physical Intelligence, par rapport à un entraînement supervisé classique sur données réelles uniquement. L'intérêt de cette approche dépasse les chiffres de performance bruts. La quasi-totalité des méthodes actuelles de co-entraînement sim-réel traite la simulation comme une source statique de démonstrations, sans exploiter les interactions en boucle fermée que ces environnements rendent possibles à grande échelle. RL-Co brise cette limite en tirant parti de l'exploration dynamique en simulation, ce qui se traduit par une meilleure généralisation aux variations de tâches non vues à l'entraînement et une efficacité accrue sur les données réelles, réduisant concrètement le besoin en démonstrations coûteuses sur robot physique. Pour les intégrateurs et les équipes R&D, c'est une voie d'entraînement plus économique sans compromis sur les performances terrain. Le défi du transfert simulation-réel reste l'un des obstacles structurants au déploiement de robots généralistes. Les modèles VLA ont connu une accélération notable depuis 2024, portée par OpenVLA (Stanford/UC Berkeley, open-source), la série π0/π0.5 de Physical Intelligence, fondée par d'anciens chercheurs de Google DeepMind et Stanford, et les travaux de Google DeepMind autour de RT-2 et ses successeurs. RL-Co s'inscrit dans une tendance de fond visant à remplacer la supervision pure par des boucles d'interaction actives dans des simulateurs de plus en plus fidèles. La prochaine étape naturelle sera l'extension à des tâches plus complexes et à des environnements moins structurés que la table de laboratoire, condition nécessaire pour valider l'approche à l'échelle industrielle.

💬 La vraie limite du sim-réel jusqu'ici, c'est qu'on traitait la simulation comme une banque de démonstrations statiques. RL-Co casse ça : le modèle explore en boucle fermée dans le simulateur, et ça se voit avec +24% sur OpenVLA et +20% sur π0.5 en conditions réelles. La table de labo c'est pas une chaîne de prod, mais c'est clairement la bonne direction pour réduire le besoin en données robotiques coûteuses.

IA physiqueOpinion
1 source
HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
76arXiv cs.RO 

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur. L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract. Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

UEDes équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

IA physiquePaper
1 source
EVE : un système générateur-vérificateur pour les politiques génératives
77arXiv cs.RO 

EVE : un système générateur-vérificateur pour les politiques génératives

Des chercheurs ont publié en décembre 2024 sur arXiv (2512.21430) EVE, un framework modulaire de type générateur-vérificateur visant à améliorer les politiques visuomotrices génératives en robotique, au moment de l'inférence et sans aucun réentraînement. Le système enveloppe une politique de base figée, reposant sur la diffusion ou le flow-matching, avec plusieurs agents vérificateurs VLM (Vision-Language Model) opérant en mode zéro-shot. Chaque vérificateur propose des raffinements d'actions candidates générées par la politique de base ; un module d'incorporation fusionne ensuite les retours agrégés via un guidage par classifieur intégré dans le processus de débruitage de l'action. Les évaluations couvrent des tâches de manipulation simulées et réelles sur différents embodiments robotiques, avec des gains de taux de succès mesurés dans chaque configuration testée, sans modifier ni la politique ni les vérificateurs. L'intérêt principal réside dans le transfert d'une technique émergente des LLMs, le scaling du compute au test-time, vers la commande robotique incarnée. Des systèmes comme OpenAI o1 ou DeepSeek-R1 ont montré qu'allouer davantage de calcul à l'inférence améliore significativement les performances, sans toucher aux poids du modèle. EVE applique cette logique aux politiques génératives : là où une politique de diffusion dégrade sous distribution shift (scènes inédites, objets non vus à l'entraînement, perturbations), les vérificateurs VLM guident la correction sans fine-tuning coûteux. Pour les intégrateurs et décideurs B2B, le signal est concret : améliorer les performances d'un modèle déployé pourrait devenir une question de ressources de calcul à l'inférence, non de nouveaux cycles d'entraînement sur des données supplémentaires. Les politiques visuomotrices par diffusion ont émergé à partir de 2023 avec Diffusion Policy (Columbia University) et ACT, suivies d'architectures flow-matching comme pi0 de Physical Intelligence. Ces modèles performent correctement sur leur distribution d'entraînement mais peinent hors distribution, un frein central au déploiement industriel. EVE s'inscrit dans une tendance plus large qui consiste à coupler des VLMs généralistes avec des politiques spécialisées sans réentraînement. Les approches concurrentes incluent le Best-of-N sampling appliqué à la robotique et les méthodes de récompense dense au test-time (SuSIE, GROOT). La suite logique serait de valider EVE sur des plateformes physiques à plus grande échelle et de quantifier le trade-off latence/qualité en fonction du nombre de vérificateurs actifs simultanément.

💬 Le test-time compute en robotique, c'était la suite évidente après o1, et j'attendais que quelqu'un le fasse proprement. Améliorer une politique déployée sans relancer un cycle d'entraînement, c'est le genre d'approche qui va vraiment intéresser les intégrateurs si ça tient en prod. Tu gardes un oeil sur le trade-off latence/nombre de vérificateurs, parce que là ça peut vite coûter cher.

IA physiqueOpinion
1 source
La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)
78arXiv cs.RO 

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.05737, juin 2026) une méthode simplifiée pour accélérer la génération d'actions dans les modèles VLA (vision-language-action) à base de diffusion. L'observation centrale: là où les pipelines diffusion classiques requièrent dix étapes de débruitage itératif pour produire un chunk d'actions, un simple biais de la distribution d'entraînement vers les états à bruit élevé suffit à obtenir des politiques efficaces en une seule étape, sans modèle enseignant, sans distillation et sans objectif auxiliaire. Sur les benchmarks LIBERO, LIBERO-Plus et LIBERO-Pro devenus quasi-standards pour la manipulation dextre simulée, les politiques one-step entraînées avec ce calendrier biaisé égalent ou dépassent des politiques à décodage dix-étapes entraînées avec une distribution uniforme. Sur LIBERO-Long spécifiquement, un modèle combinant un LVM de 1,4 milliard de paramètres et une tête d'action de 30 millions de paramètres atteint 95,6 % de taux de succès en une seule étape. Une validation croisée sur robot bimanual réel (plateforme YAM, dans le cadre d'une évaluation RSS) confirme la tendance, sur un échantillon limité. L'enjeu opérationnel est direct: réduire le décodage d'un facteur dix libère de la latence critique pour les applications temps-réel. Mais l'argument de fond est plus structurel. Les auteurs identifient une asymétrie fondamentale entre génération d'images et génération d'actions robotiques: un espace d'action (quelques degrés de liberté, un chunk de positions articulaires) est incomparablement plus compact qu'une image de millions de pixels. Cette différence implique que les méthodes one-step avancées développées pour la synthèse d'images (distillation de consistency models, score distillation, flow matching accéléré) ne sont pas nécessairement requises ici. Pour un intégrateur ou un décideur industriel, cela simplifie significativement le pipeline d'entraînement: pas de phase de distillation en deux étapes, pas de teacher freezing, et donc moins de complexité opérationnelle pour déployer un VLA performant. Les VLA à base de diffusion ont connu une montée en puissance rapide depuis mi-2024, portée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, tous construits autour d'architectures à flux diffusion ou flow-matching pour la génération d'actions. Ce travail s'inscrit dans un mouvement de simplification qui cherche à réduire la friction entre recherche et déploiement industriel. Les benchmarks LIBERO restent cantonnés à la manipulation de petits objets en environnement simulé, et la validation sur robot réel présentée ici reste préliminaire. Les prochaines étapes naturelles seront de tester cette approche à plus grande échelle sur des architectures de référence comme pi0 ou GR00T, dans des contextes d'assemblage ou de logistique où la latence d'inférence est un critère de déploiement direct.

IA physiqueOpinion
1 source
FlowPRO : affinage renforcé sans récompense des VLA flow-matching par optimisation proximale des préférences
79arXiv cs.RO 

FlowPRO : affinage renforcé sans récompense des VLA flow-matching par optimisation proximale des préférences

Une équipe de chercheurs publie FlowPRO sur arXiv (2606.05468, 5 juin 2026), un cadre d'affinage par renforcement sans récompense explicite ciblant les modèles VLA (Vision-Language-Action) à architecture flow-matching. La contribution centrale est RPRO (Robotic Flow-matching Proximalized Preference Optimization), un objectif d'optimisation par préférence conçu spécifiquement pour la tête d'action flow-matching des VLAs. RPRO couple un optimiseur contrastif à un régulariseur proximal explicite qui ancre l'amplitude absolue de la récompense implicite, éliminant ainsi le reward hacking documenté avec Flow-DPO, l'approche antérieure la plus proche. Côté données, les auteurs proposent un paradigme de téléopération avec intervention et rollback : un opérateur unique corrige les trajectoires du robot en temps réel, produisant naturellement des paires de trajectoires positives (τ^w) et négatives (τ^l) à partir d'une seule action. Une procédure d'interpolation lisse convertit ces corrections sporadiques en supervision dense par état. Sur quatre tâches bimanuelles à horizon long, FlowPRO obtient les taux de succès les plus élevés face à quatre baselines représentatives, dont SFT et DAgger. Le principal goulet d'étranglement du déploiement robotique ne réside plus dans le pré-entraînement généraliste mais dans le post-training pour des tâches spécifiques. SFT et DAgger n'exploitent les signaux d'échec qu'indirectement ; le RL avec récompenses explicites exige de concevoir une fonction de récompense fiable en environnement physique, ce qui reste notoire pour sa difficulté. FlowPRO contourne les deux obstacles : sans reward design, offline (pas de rollouts supplémentaires en boucle fermée), et nativement compatible avec les architectures flow-matching qui dominent la nouvelle génération de VLAs généralistes. La nuance est importante : quatre tâches bimanuelles constituent un banc d'essai restreint pour prétendre à la généralité. Si les résultats tiennent sur un spectre plus large de manipulations, RPRO pourrait devenir un outil standard pour spécialiser un VLA généraliste sur une cellule industrielle sans expertise en apprentissage par renforcement. L'architecture flow-matching pour les VLAs a été popularisée par Pi-0 de Physical Intelligence fin 2024, avant d'être reprise dans GR00T N2 de NVIDIA et plusieurs dérivés open-source (OpenVLA, Octo). L'optimisation par préférence appliquée aux actions robotiques est une piste active depuis 2025 pour éviter la lourdeur du RL classique, mais le reward hacking de Flow-DPO restait un obstacle documenté que FlowPRO prétend résoudre via la régularisation proximale. Il s'agit à ce stade d'une contribution académique preprint, non peer-reviewed, sans annonce de déploiement ni de partenariat industriel. Les prochaines étapes naturelles du domaine incluent la validation sur des plateformes bimanuelles standardisées (Aloha, Fourier GR-1) et l'intégration dans des pipelines d'affinage ouverts, avec en toile de fond la course entre Physical Intelligence, NVIDIA et les laboratoires académiques pour établir la méthode de référence du post-training robotique.

IA physiqueOpinion
1 source
TempoVLA : apprentissage de politiques VLA à vitesse contrôlable
80arXiv cs.RO 

TempoVLA : apprentissage de politiques VLA à vitesse contrôlable

Les modèles Vision-Language-Action (VLA), architectures qui combinent perception visuelle, compréhension du langage et génération de commandes motrices, souffrent d'une limitation structurelle : leur vitesse d'exécution est figée à celle des démonstrations d'entraînement. Des chercheurs proposent TempoVLA (arXiv:2606.06491, juin 2026), un VLA dont la cadence est pilotable via une condition explicite. Le système repose sur deux composants couplés : Variable-Speed Trajectory Augmentation (VSTA), un module qui ré-temporise les trajectoires en fusionnant ou divisant les actions pour atteindre n'importe quelle vitesse cible tout en préservant la sémantique du mouvement, et un mécanisme de conditionnement qui injecte la vitesse désirée dans la politique. Des expériences en simulation et sur robot réel montrent que VSTA atteint la vitesse requise avec une erreur de mouvement négligeable, et que l'augmentation améliore aussi les performances à vitesse nominale (facteur 1x) via une meilleure exploitation des données d'entraînement. La manipulation robotique alterne naturellement entre phases de transit à faible risque, où la cadence prime, et phases de contact à risque élevé (saisie fine, insertion, assemblage) qui exigent lenteur et précision. Les VLA actuels héritent d'une vitesse unique issue des démonstrations, et les tentatives d'adaptation par compression de modèle, réutilisation du cache KV ou fine-tuning par renforcement ne font que déplacer ce point fixe, sans jamais explorer la décélération dynamique. L'insight central de TempoVLA est que la magnitude des actions prédites gouverne déjà la vitesse d'exécution du robot, ouvrant une voie vers un contrôle adaptatif sans modifier l'architecture de base. En couplant TempoVLA à un grand modèle multimodal (LMM) pour évaluer le niveau de risque en temps réel, les auteurs obtiennent un contrôle dynamique effectif : accélération en transit, décélération au contact. Pour les intégrateurs industriels, c'est un levier direct sur le compromis cadence/fiabilité sans réentraîner entièrement le modèle. Les VLA se sont imposés en 2024-2025 comme architecture dominante pour la commande robotique généraliste, portés notamment par pi0 de Physical Intelligence, OpenVLA et les travaux de Google DeepMind, mais leur déploiement industriel bute précisément sur la tension entre cadence de production et sécurité des phases de contact. TempoVLA reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni partenaire mentionné, ce qui impose la prudence : les résultats en simulation et sur tâches réelles contrôlées ne garantissent pas un franchissement du reality gap en cellule de production. Les prochaines étapes naturelles incluent une intégration avec des capteurs de force-couple pour rendre l'estimation du risque moins dépendante d'un LMM externe, coûteux en latence d'inférence.

IA physiqueOpinion
1 source
HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires
81arXiv cs.RO 

HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires

Des chercheurs présentent dans un preprint arXiv soumis en juin 2026 (2606.06493) HANDOFF, un contrôleur de corps entier pour robots humanoïdes qui vise à réduire le fossé entre planification sémantique et exécution motrice bas niveau. Le problème ciblé est structurel : les contrôleurs existants nécessitent des références cinématiques denses que les planificateurs à base de modèles de langage ou de vision peinent à produire directement depuis une instruction sémantique. HANDOFF introduit un espace de commande compact et explicite, distillé depuis trois enseignants spécialisés via KL distillation avec un mécanisme de gating conditionné au contexte : suivi de mouvement corps entier (avec données filtrées pour la sécurité), locomotion, et récupération de chute. L'architecture produit un modèle étudiant de type mixture-of-experts évalué sur le Unitree G1, avec des démonstrations pilotées en langage naturel via un planificateur agentique à base de VLM (vision-language model), sans fine-tuning spécifique aux tâches. Les résultats revendiqués incluent un suivi de vitesse comparable à l'état de l'art et l'un des plus larges espaces de travail de manipulation robuste parmi les contrôleurs publiés sur cette plateforme. L'enjeu est concret pour les intégrateurs industriels : la multiplication des humanoïdes commerciaux (Figure 03, Agility Digit, Apptronik Apollo, Unitree H1) crée une pression croissante pour des contrôleurs capables de s'interfacer directement avec des planificateurs généralistes sans recourir à du fine-tuning par tâche, coûteux en données et en temps d'ingénierie. Si l'interface proposée tient en dehors des scénarios de démonstration, un planificateur LLM ou VLM pourrait enchaîner des séquences complexes sans modifier la couche bas niveau, ce qui réduit significativement la friction à l'intégration. La récupération de chute embarquée est un atout non-trivial pour les environnements industriels réels. Toutefois, les vidéos sélectionnées et l'absence de métriques quantitatives sur la diversité des scénarios testés invitent à une lecture prudente avant de conclure sur le passage à l'échelle hors laboratoire. Ce travail s'inscrit directement dans la course aux VLA (vision-language-action models) post-2024, avec des concurrents explicites comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, et les architectures de OpenVLA ou Octo côté académique. HANDOFF se distingue par une distillation multi-enseignants plutôt qu'un entraînement end-to-end unifié, une stratégie proche des travaux de l'ETH Zurich sur ANYmal en quadrupède. Le choix du Unitree G1 (commercialisé autour de 16 000 dollars) est cohérent avec une visée de reproductibilité académique large. Les prochaines étapes probables incluent des évaluations sur des tâches de manipulation plus diversifiées, des tests en environnements non structurés, et potentiellement un transfert vers des plateformes humanoïdes commerciales plus musclées.

IA physiqueOpinion
1 source
MPCoT : raisonnement latent multi-chemin guidé par la récompense pour VLA avec mise à l'échelle à l'inférence
82arXiv cs.RO 

MPCoT : raisonnement latent multi-chemin guidé par la récompense pour VLA avec mise à l'échelle à l'inférence

MPCoT (Multi-Path Chain-of-Thought), un preprint arXiv publié le 5 juin 2026 (identifiant 2606.06245), propose un cadre de raisonnement latent multi-trajectoires guidé par récompense pour les politiques Vision-Language-Action (VLA). Le système initialise M hypothèses parallèles, les raffine sur K étapes à poids partagés, puis les agrège par pondération de confiance avant le décodage final de l'action. Un objectif d'entraînement spécifique, la "path-preference objective", évalue chaque branche candidate selon trois critères : cohérence avec des actions expertes, progression estimée par un modèle de monde ou un VLM, et feedback de succès d'exécution. Le système préserve l'interface d'action originale en 8 étapes et ne génère aucun token de raisonnement, éliminant la latence associée aux chaînes de réflexion textuelles classiques. Sur les benchmarks LIBERO et CALVIN, MPCoT améliore les performances sur les tâches à horizon long, avec des ablations confirmant les effets distincts de la profondeur K et de la largeur M. Le résultat central est que le "test-time scaling", qui a produit des gains majeurs dans les LLM via des modèles comme o1 d'OpenAI ou DeepSeek-R1, peut être transposé aux politiques robotiques sans surcoût de latence mesurable. Les approches chain-of-thought textuelles créent une interface indirecte entre raisonnement et commande motrice, problématique pour le contrôle en temps réel. MPCoT opère entièrement dans l'espace latent, rendant la délibération supplémentaire invisible pour l'interface d'exécution. Pour un intégrateur ou un décideur industriel, cela ouvre la possibilité d'améliorer les capacités d'un VLA existant en ajustant simplement K et M à l'inférence, sans réentraînement du modèle. Les politiques VLA constituent actuellement le terrain de concurrence central entre Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, Figure avec Helix, et Stanford avec OpenVLA. Tous font face au même défi : la fragilité sur les tâches longues et les situations à forte incertitude, qui représente le principal écart entre démonstration et déploiement réel. MPCoT attaque directement ce "long-horizon gap" via une approche algorithmique, sans modifier l'architecture sous-jacente du modèle. La publication n'est pas adossée à un acteur industriel identifié et n'annonce aucun déploiement concret ; la validation sur hardware réel reste à faire, les benchmarks LIBERO et CALVIN utilisés dans cette étude étant entièrement simulés.

IA physiqueOpinion
1 source
Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions
83arXiv cs.RO 

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

Des chercheurs présentent WLA (World-Language-Action), une nouvelle classe de modèles de fondation incarnés pour la robotique, dans un preprint arXiv publié début juin 2026. Le modèle prototype WLA-0, fort de 2 milliards de paramètres actifs, prend en entrée des instructions textuelles, des images et l'état du robot pour générer simultanément des sous-tâches textuelles, des images de sous-objectifs et des commandes motrices. Sur l'NVIDIA RTX 5090, le temps d'inférence est de 40 ms par cycle, ce qui reste dans les plages acceptables pour le contrôle temps réel. Les évaluations atteignent 92,94 % de taux de succès sur le benchmark RoboTwin2.0 Clean et 56,5 % sur RMBench, deux protocoles de référence pour les tâches multi-objets et longue portée. L'intérêt architectural réside dans la fusion de deux paradigmes jusqu'ici distincts : le world modeling, qui consiste à apprendre une représentation prédictive du monde à partir de vidéos égocentrées, et le language reasoning propre aux modèles VLA (Vision-Language-Action) tels que Pi-0 ou OpenVLA. WLA opte pour un backbone Transformer autorégressif plutôt que le Transformer de diffusion bidirectionnel utilisé dans les WAM (World-Action Models), ce qui permet de prédire l'état suivant en deux niveaux complémentaires : intention sémantique textuelle d'un côté, dynamiques physiques fines de l'autre. Un mécanisme de meta-queries rend l'influence du world modeling implicite à l'inférence, mais peut être activé pour du test-time scaling, technique qui améliore le contrôle en allouant davantage de calcul à l'exécution. La capacité annoncée d'apprendre de nouvelles tâches à partir de vidéos cross-embodiment sans annotations d'actions est notable, mais reste à valider sur des robots hétérogènes en dehors d'environnements simulés. WLA s'inscrit dans une course dense à l'unification des modèles robotiques. Face à Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui misent chacun sur des architectures diffusion ou VLA, WLA propose une troisième voie autoregressive combinant génération de sous-objectifs visuels et raisonnement linguistique. L'article reste un preprint non validé par les pairs, sans déploiement industriel annoncé. Les prochaines étapes naturelles seraient une évaluation sur des plateformes physiques variées et des benchmarks réels, les performances simulées étant connues pour surestimer les capacités en conditions d'exploitation. Aucun acteur européen n'est impliqué dans ces travaux.

IA physiqueOpinion
1 source
AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances
84arXiv cs.RO 

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

IA physiqueOpinion
1 source
L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte
85Pandaily 

L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte

Des chercheurs de l'université du Zhejiang, en collaboration avec Cornell University, la National University of Singapore et Xidian University, ont publié sur arXiv (2605.30011) un système de raisonnement visuel pour robots baptisé VisualThink-VLA. L'approche remplace le raisonnement en chaîne de pensée textuelle, où le robot génère un monologue interne en tokens de langage avant chaque action, par des tokens visuels directs. Résultat mesuré : le temps de traitement par étape passe de 8,377 secondes (approche texte ECoT) à 0,367 secondes, soit un gain de 22,8x. Sur huit benchmarks standardisés, VisualThink-VLA atteint un taux de succès moyen de 92,63 %, contre 85,09 % pour ECoT. Les expériences physiques ont été conduites sur un bras robotique PIPER NERO à 7 degrés de liberté, sur des tâches de préhension multi-objets, de placement sensible aux relations spatiales, de réorientation sous contrainte de contact, et de séquences composées à deux étapes. Le jeu d'entraînement "VisualEvidence-Set" couvre 754 700 instructions de manipulation. L'intérêt industriel de ce résultat tient à la rareté de la combinaison : gain de vitesse ET gain de précision simultanés, alors que les systèmes d'IA échangent habituellement l'un contre l'autre. Pour les intégrateurs et les équipes de déploiement robotique, un temps de cycle sous 400 ms par étape ouvre la voie à des manipulations en environnement dynamique sans supervision humaine rapprochée. L'architecture à quatre canaux visuels, Bounding Box, Edge, Motion, Relation, utilise un mécanisme de routage adaptatif qui sélectionne en moyenne seulement 2,22 canaux par étape, évitant le surcoût computationnel d'une fusion systématique. Le caractère plug-and-play revendiqué par les auteurs est un argument commercial non négligeable : les systèmes VLA existants pourraient être mis à niveau sans refonte de l'architecture sous-jacente, ce qui réduit le coût d'adoption. Cette affirmation reste à vérifier sur des robots de production tiers, les expériences publiées se limitant au PIPER NERO. Le contexte de ce travail s'inscrit dans une compétition intense autour des VLA (Vision-Language-Action models), dominée jusqu'ici par des approches comme OpenVLA, pi0 (Physical Intelligence) ou RoboVLMs, qui traitent toutes la vision et le langage comme co-entrées mais conservent un raisonnement textuel latent. L'université du Zhejiang est l'un des laboratoires les plus productifs en robotique incarnée en Chine, avec plusieurs publications majeures ces deux dernières années sur le sim-to-real et la manipulation dextère. Sur le fond, VisualThink-VLA teste l'hypothèse que le langage est un détour inutile pour la perception motrice, hypothèse que partagent des équipes comme Wayve ou Enchanted Tools côté européen dans leurs architectures world-model. Les prochaines étapes non précisées dans le papier concernent l'extension à des manipulateurs bimanaux et à des environnements non structurés hors laboratoire, deux conditions nécessaires avant tout pilote industriel crédible.

UELes équipes VLA européennes, notamment Enchanted Tools (France) dont l'architecture world-model partage des hypothèses similaires, pourraient s'inspirer de cette approche pour réduire les latences de manipulation sans sacrifier la précision.

IA physiqueOpinion
1 source
Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes
86The Robot Report 

Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes

Generalist AI Inc. a annoncé une levée de fonds de 400 millions de dollars, portant son financement total à plus de 500 millions depuis sa création en 2024. Le tour a été mené par Radical Ventures, avec de nouveaux entrants incluant 8VC, Union Square Ventures, Hanabi Capital et Norwest, auxquels s'ajoutent les investisseurs historiques NVentures (NVIDIA), Boldstart Ventures, Spark Capital et Bezos Expeditions. Parmi les investisseurs individuels figurent Fei-Fei Li, Eric Yuan (PDG de Zoom), Bin Lin et Naval Ravikant. Basée à San Mateo, en Californie, la startup développe des modèles fondamentaux destinés à des robots généralistes, capables d'opérer sur différentes architectures matérielles. En novembre 2025, elle avait lancé GEN-0, présenté comme le premier modèle à appliquer les lois de mise à l'échelle (scaling laws) à la robotique physique. En avril 2026, elle a publié GEN-1, avec des métriques communiquées par la société elle-même: taux de succès moyen de 99 % sur des tâches où les modèles précédents atteignaient 64 %, vitesse d'exécution environ trois fois supérieure sur des manipulations dextères, et seulement une heure de données robotiques nécessaires par compétence apprise. Ces chiffres, s'ils se confirment en conditions industrielles réelles, représenteraient un changement structurel pour la commercialisation de la robotique généraliste. Le principal verrou du secteur reste logiciel: la plupart des intégrateurs investissent encore des semaines de collecte de données pour chaque nouvelle tâche. Un modèle nécessitant une heure de données par compétence transformerait radicalement l'économie du déploiement. Cela dit, les métriques publiées proviennent exclusivement des communications internes de Generalist AI, sans validation indépendante ni précision sur les conditions de benchmark ou la nature des tâches testées. Le concept de "data flywheel", selon lequel les déploiements chez des clients industriels génèrent les données qui alimentent le modèle suivant, est éprouvé dans le logiciel; sa transposition à la robotique physique, avec ses contraintes de sécurité et de variabilité du monde réel, reste à démontrer à l'échelle. Generalist AI a été fondée en 2024 par Pete Florence (CEO), Andy Zeng (Chief Scientist) et Andrew Barry (CTO), trois chercheurs issus des milieux académiques et industriels de la robotique. La startup s'inscrit dans un marché en forte compétition: Physical Intelligence avec son modèle Pi-0, Figure AI avec le Figure 03, Boston Dynamics, Apptronik et 1X Technologies ciblent tous le même segment des modèles d'IA généralistes pour robots physiques. En Europe, Enchanted Tools et Wandercraft progressent sur des verticales plus ciblées. Avec cette levée, Generalist AI prévoit d'accélérer le développement de modèles de nouvelle génération, d'étendre son infrastructure d'entraînement et de renforcer son moteur de collecte de données physiques. La prochaine étape observable sera la documentation de déploiements industriels concrets chez des clients identifiés, seul critère qui permettra de distinguer les performances en laboratoire de la viabilité commerciale annoncée.

UELa montée en puissance de Generalist AI accentue la pression concurrentielle sur les acteurs européens comme Enchanted Tools et Wandercraft, dont les verticales ciblées et les capacités de financement ne sont pas comparables aux 500 M$ levés par cette startup américaine en moins de deux ans.

💬 500 millions en deux ans, c'est du sérieux. Ce qui m'intéresse vraiment, c'est pas le chèque, c'est cette histoire d'une heure de données par compétence apprise (contre des semaines pour les intégrateurs actuels). Si ça tient en conditions industrielles, tu changes complètement l'économie du déploiement robotique, mais tous les chiffres sortent de chez eux sans validation externe, donc faut voir les premiers clients réels avant de s'emballer.

IA physiqueOpinion
1 source
Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix
87The Verge 

Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix

Amazon a présenté une nouvelle version de Proteus, son robot de manutention autonome déployé dans ses entrepôts, capable désormais de recevoir des instructions en langage naturel. Là où les opérateurs devaient auparavant passer par un logiciel spécialisé pour programmer les déplacements de l'engin, ils peuvent désormais lui communiquer des tâches verbalement, comme à un collègue. Le robot, au format bas et trapézoïdal conçu pour déplacer de lourds chariots à travers les allées logistiques, conserve le même châssis que le modèle original annoncé en 2022, la nouveauté est exclusivement logicielle, portée par une surcouche IA. L'enjeu est significatif pour les opérations à grande échelle : éliminer la friction de programmation réduit le temps de formation des opérateurs et permet une réaffectation dynamique des robots sans intervention IT. C'est aussi un signal clair sur la direction qu'Amazon prend dans la course à l'automatisation de ses 1 000+ centres de distribution aux États-Unis, où la pression syndicale et les coûts de main-d'oeuvre accélèrent les déploiements robotiques. Cela dit, l'annonce reste pour l'instant au stade de démonstration capacitaire : Amazon ne communique pas de chiffres de déploiement, de taux d'erreur ni de benchmarks de cycle time dans des conditions réelles. Proteus fait partie d'un portefeuille robotique Amazon qui inclut Sequoia (tri de petits colis), Sparrow (picking d'articles) et Cardinal (manutention de caisses). Sur le volet langage naturel appliqué aux robots industriels, Amazon rejoint une tendance portée par Boston Dynamics (Spot) et Intrinsic (filiale Alphabet), qui intègrent des interfaces LLM pour réduire la barrière à la programmation en atelier. Les prochaines étapes annoncées par Amazon restent vagues, sans timeline précise ni volume de déploiement confirmé.

UEAmazon opère des entrepôts en France et en Europe ; l'adoption à grande échelle d'interfaces LLM sur robots industriels pourrait accélérer la pression à l'automatisation dans la logistique EU et influencer les standards d'intégration des opérateurs locaux.

IA physiqueOpinion
1 source
IA physique et fabrication vestimentaire : entretien avec le PDG de CreateMe sur la révolution du sans-couture
88Robotics & Automation News 

IA physique et fabrication vestimentaire : entretien avec le PDG de CreateMe sur la révolution du sans-couture

CreateMe, startup spécialisée dans l'automatisation du prêt-à-porter et dirigée par Campbell Myers, développe des systèmes de fabrication textile basés sur l'IA physique, des modèles capables de percevoir et de manipuler des matériaux souples en temps réel. L'approche centrale de l'entreprise repose sur le bonding (collage structurel) plutôt que sur la couture traditionnelle, une décision technique qui vise à simplifier radicalement la chaîne d'assemblage. L'industrie de l'habillement emploie plusieurs dizaines de millions de travailleurs à l'échelle mondiale, concentrés principalement en Asie du Sud-Est, et reste l'un des secteurs les moins automatisés de la fabrication industrielle. La manipulation de tissus constitue l'un des derniers grands verrous non résolus de la robotique. Contrairement aux pièces rigides traitées en automobile ou en électronique, les textiles se déforment, se plissent et changent de géométrie entre chaque opération, rendant inutilisables les approches classiques à trajectoire fixe. Passer du stitching au bonding n'est pas qu'un choix de process : c'est une façon de réduire le nombre d'états intermédiaires que le robot doit gérer, ce qui rend le problème de manipulation conditionnellement plus tractable pour les VLA (Vision-Language-Action models) actuels. SoftWear Automation avait tenté une première vague d'automatisation textile avec ses robots Sewbot dès les années 2010, sans atteindre la scalabilité industrielle. Sewts (Munich) travaille sur des segments adjacents liés au tri et au dépliage. CreateMe se positionne en aval, sur l'assemblage final, là où la valeur ajoutée est la plus dense. Le sim-to-real gap sur les déformables reste le principal obstacle technique non résolu ; les prochaines annonces de l'entreprise seront à lire en distinguant soigneusement démos contrôlées et déploiements en conditions réelles.

UESewts (Munich) est mentionné comme acteur européen sur des segments adjacents (tri et dépliage textile), mais CreateMe n'a annoncé aucun déploiement ni partenariat en Europe.

IA physiqueOpinion
1 source
HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche
89arXiv cs.RO 

HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche

Une équipe de recherche a publié sur arXiv (2606.04825) HapTile, un jeu de données visuotactile destiné à l'apprentissage par imitation sur des tâches de manipulation à fort contact. Le dataset capture les interactions physiques à deux niveaux simultanément : des capteurs tactiles installés en bout d'effecteur sur les doigts du robot, et un retour haptique transmis en temps réel à l'opérateur humain lors de la télé-opération. Les tâches couvertes incluent le saisissement, le pliage de tissu, l'appui sur des boutons, l'empilement d'objets et d'autres activités courantes. Chaque séquence est associée à une instruction en langage naturel qui conditionne la politique de contrôle sur l'objectif de manipulation, avec des observations visuotactiles synchronisées et les trajectoires d'action correspondantes. Les chercheurs publient également un benchmarking avec deux modèles de base pour évaluer l'apport concret du signal tactile sur la qualité des politiques apprises. Ce travail s'attaque à un verrou bien identifié du domaine : la quasi-totalité des datasets VLA (Vision-Language-Action) existants sont purement visuels, ce qui limite les performances des politiques sur des tâches nécessitant un contrôle fin de la force ou du contact. Introduire le retour haptique côté opérateur lors de la collecte de données est particulièrement notable, les études antérieures ont montré que la qualité des démonstrations se dégrade sans ce retour, générant des trajectoires moins stables et moins reproductibles. HapTile tente de combler cette lacune en combinant dans un seul dataset la diversité des tâches, le conditionnement par le langage, les trajectoires d'action et la perception tactile, une combinaison jusqu'ici absente dans la littérature selon les auteurs. Reste à vérifier si l'amélioration mesurée sur les deux baselines se généralise à des architectures plus récentes comme Pi-0 ou OpenVLA. Ce preprint s'inscrit dans un courant de recherche actif autour de la perception multimoale pour la manipulation dextère, portée notamment par des labos comme le CMU Robotics Institute, MIT CSAIL et des groupes européens comme le LASA à l'EPFL. Du côté industriel, Apptronik, Figure et 1X investissent dans des mains instrumentées, mais les datasets publics à retour haptique restent rares. Le projet est reproductible sur un système robotique standard avec des capteurs tactiles de conception custom, ce qui peut faciliter l'adoption par d'autres équipes. Le dataset et les détails techniques sont accessibles sur haptile-dataset.github.io ; aucune timeline de publication formelle ni partenariat industriel n'est annoncé à ce stade.

UEDes groupes européens dont le LASA à l'EPFL sont cités comme acteurs du courant de recherche, mais aucune institution française ou de l'UE n'est impliquée directement dans la publication ; l'impact reste indirect via un dataset public librement réutilisable par les équipes européennes.

💬 Le truc vraiment malin ici, c'est pas le capteur tactile sur le robot, c'est le retour haptique côté opérateur pendant la collecte de démos. Ça change la qualité des trajectoires à la source, et c'est exactement ce que les autres datasets VLA n'ont jamais pris la peine de faire. Deux baselines pour le benchmark, bon, c'est un début, reste à voir si le gain tient face à Pi-0 ou OpenVLA.

IA physiqueOpinion
1 source
VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA
90arXiv cs.RO 

VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA

Une équipe de chercheurs publie VISTA (Vision-grounded and Physics-Validated Adaptation), un framework visant à entraîner des modèles Vision-Language-Action (VLA) à partir de données collectées via l'Universal Manipulation Interface (UMI). L'UMI permet une collecte robotique à grande échelle sans téléopération hardware-spécifique, mais son exploitation pour les VLA bute sur deux incompatibilités identifiées par les auteurs : les caméras fisheye montées au poignet génèrent une distorsion radiale sévère, hors distribution pour les modèles de vision pré-entraînés ; et les trajectoires humaines enregistrées violent fréquemment les limites cinématiques du robot ou dépassent la bande passante du contrôleur, enseignant ainsi des actions physiquement irréalisables. VISTA répond avec trois composants : UMI-VQA, un premier dataset VQA à grande échelle conçu spécifiquement pour les vues fisheye au poignet ; un pipeline de validation physique scorant chaque trajectoire sur la continuité, le risque d'auto-collision et la fidélité d'exécution ; et une recette d'entraînement en deux étapes combinant ancrage vision-langage et prédiction d'actions. Le modèle, les données et le pipeline sont publiés en open source sous forme de preprint arXiv. L'enjeu est directement opérationnel : les VLA actuels souffrent d'un écart persistant entre démonstration et déploiement réel. VISTA apporte une réponse méthodologique en filtrant les trajectoires défectueuses avant l'entraînement, plutôt qu'en espérant que le modèle les absorbe. Les auteurs montrent que les scores de validation physique sont fortement prédictifs du succès en déploiement, ce qui plaide pour une approche data-quality-first plutôt que data-volume-first, un argument qui contredit la logique dominante du secteur. En simulation et sur des tâches réelles de manipulation, VISTA surpasse des baselines solides incluant π0.5 (Physical Intelligence), LingBot-VLA et Wall-X. Pour un intégrateur ou un décideur industriel, cela valide une voie vers des pipelines de collecte scalables via UMI, compatibles avec les VLA modernes, sans recourir à un hardware propriétaire coûteux. L'UMI avait été conçu initialement pour découpler la collecte de données du hardware robotique spécifique, mais son intégration aux VLA restait largement non documentée à grande échelle. Physical Intelligence a popularisé l'approche VLA avec π0 et π0.5 ; Figure AI, 1X et Apptronik misent sur des architectures concurrentes. VISTA s'attaque à un goulot d'étranglement rarement traité en publication : la qualité intrinsèque des données d'entraînement avant qu'elles n'entrent dans le pipeline. En libérant pipeline de validation, dataset UMI-VQA et modèle pré-entraîné, les auteurs positionnent VISTA comme un outil d'infrastructure pour la communauté robotique cherchant à industrialiser la collecte et le filtrage de données manipulation, en amont des choix d'architecture VLA.

IA physiqueOpinion
1 source
M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements
91arXiv cs.RO 

M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements

Des chercheurs de Renforce Dynamics ont publié le 5 juin 2026 sur arXiv un article présentant M3imic (Multi-Modal Mimic), un contrôleur corps entier destiné aux robots humanoïdes. L'objectif : unifier dans une seule politique d'apprentissage par renforcement trois types de références de mouvement jusqu'ici traités séparément, les trajectoires articulaires du robot (angles de joints), les trajectoires de pose humaine capturées par motion capture, et les poses d'effecteurs terminaux (end-effector poses). Le système exploite des encodeurs spécialisés par modalité pour projeter ces données hétérogènes dans un espace latent commun, puis entraîne une politique unique à grande échelle en simulation. Les expériences sont conduites sur le robot humanoïde Unitree G1 : en simulation, la politique atteint un taux de succès maximal de 98,42 % sur un jeu de test non vu, et un transfert sim-to-réel est démontré sans réentraînement spécifique à chaque modalité. Le code source est disponible publiquement sur GitHub. Le problème que M3imic cherche à résoudre est structurel : les contrôleurs corps entier existants traitent la locomotion et la manipulation comme deux domaines distincts, avec des formats de données incompatibles, des vecteurs denses d'angles articulaires d'un côté, des poses 6-DOF d'effecteurs creuses de l'autre. Forcer une seule politique à ingérer ces deux représentations sans architecture dédiée dégrade les performances. M3imic propose une solution architecturale rather than une solution de données : un espace latent partagé avec encodeurs par modalité, ce qui permet à une même politique de piloter aussi bien la marche que la manipulation sans compromis de performance. Pour les intégrateurs et équipes robotiques, cela réduit potentiellement le coût de développement en éliminant le besoin de pipelines parallèles par type de tâche. Le robot cible, le Unitree G1, est un humanoïde commercialisé depuis 2024 à environ 16 000 dollars, devenu une plateforme de référence pour la recherche en locomotion et loco-manipulation grâce à son accessibilité. Renforce Dynamics est un laboratoire ou startup dont M3imic constitue l'une des premières publications publiques. Dans le paysage concurrent, les approches comparables incluent les travaux de Berkeley Humanoid (Pi-0 de Physical Intelligence), les contrôleurs corps entier de CMU et ETH Zurich, et les politiques VLA de Figure AI, tous confrontés au même défi du sim-to-real gap sur tâches mixtes locomotion-manipulation. M3imic se positionne explicitement sur l'unification multimodale plutôt que sur la performance brute d'une seule tâche. Les prochaines étapes naturelles seraient des déploiements en environnement non structuré et une évaluation sur des humanoïdes à plus haute cinématique (plus de DOF, payload supérieur).

IA physiqueOpinion
1 source
3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D
92arXiv cs.RO 

3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D

Des chercheurs ont publié le 4 juin 2026 sur arXiv (2506.04436) un framework dénommé 3DThinkVLA, conçu pour doter les modèles vision-language-action (VLA) d'un raisonnement spatial 3D implicite lors de la prédiction d'actions robotiques, sans recours à des capteurs de profondeur ni à la génération de texte à l'inférence. Le système articule trois composants opérant dans l'espace latent : un module de perception géométrique 3D qui aligne les features visuelles intermédiaires avec un modèle fondationnel 3D, un module de distillation de raisonnement en ligne utilisant un "reasoning anchor token" partagé, et un mécanisme d'intégration d'actions spatialement augmenté. À l'entraînement, le modèle apprend à raisonner spatialement depuis des prompts enseignants explicites ; au déploiement, seuls des adaptateurs légers sont conservés, le modèle fondationnel 3D et la branche enseignante étant élagués. Les auteurs déclarent des performances état-de-l'art sur les benchmarks LIBERO, LIBERO-PLUS et SimplerEnv, ainsi que sur des tâches de manipulation réelles. L'apport principal est de découpler la perception géométrique 3D du raisonnement spatial de haut niveau pour les injecter à différents niveaux hiérarchiques, sans modifier l'architecture du backbone VLM. Ce découplage répond à un problème central des VLA actuels : leur tendance aux raccourcis d'action (action shortcuts) face aux relations spatiales complexes, ce qui dégrade les performances hors simulation. Le mécanisme d'anchor token transfère le raisonnement spatial implicitement, sans chain-of-thought au déploiement, réduisant la latence d'inférence. Pour les intégrateurs robotiques, cela ouvre la voie à des VLA plus robustes en manipulation de précision sans surcoût matériel. La méthode prévient également le catastrophic forgetting du VLM pré-entraîné, point critique lors du fine-tuning sur données robotiques spécialisées. Les VLA ont connu une accélération depuis Pi-0 de Physical Intelligence fin 2024 et GR00T N2 de NVIDIA en 2025, mais la gestion du raisonnement 3D à partir d'images 2D reste un obstacle au déploiement industriel fiable, notamment pour l'assemblage et la manipulation fine. 3DThinkVLA s'inscrit dans une lignée de travaux concurrents, dont SpatialVLA et RoboVLMs, cherchant à injecter des priors géométriques sans alourdir l'inférence. Il convient de noter qu'il s'agit d'un preprint arXiv non encore évalué par les pairs, et que les benchmarks LIBERO et SimplerEnv sont des environnements de simulation standardisés dont les résultats ne garantissent pas les performances en conditions industrielles réelles. Aucun déploiement terrain ni partenariat commercial n'est annoncé à ce stade.

IA physiqueActu
1 source
PerceptTwin : reconstruction sémantique de scène pour la planification et vérification itératives par LLM
93arXiv cs.RO 

PerceptTwin : reconstruction sémantique de scène pour la planification et vérification itératives par LLM

Des chercheurs ont publié le 4 juin 2026 sur arXiv (2606.04226) les travaux sur PerceptTwin, un pipeline automatisé qui génère des environnements de simulation interactifs directement depuis les représentations sémantiques produites par la pile de perception d'un robot. Le système combine quatre composants : des cartes d'objets à vocabulaire ouvert (open-vocabulary object maps), la génération d'assets 3D, la prédiction d'affordances et une vérification des préconditions par bon sens. Un juge LLM, concept emprunté à la littérature sur l'alignement de l'IA, évalue ensuite la conformité des plans générés avec les préférences humaines avant toute exécution physique. Dans les expériences conduites avec GPT-5, GPT-5 Mini et GPT-5 Nano comme planificateurs, PerceptTwin améliore le taux de succès des plans d'environ 39 % en moyenne, et améliore la vérification humaine jusqu'à 18 % pour les plans échouant à cause de préconditions non satisfaites. La chaîne LLM-planification-exécution est aujourd'hui l'architecture dominante en robotique cognitive, mais son point faible reste la vérification : un modèle de langage peut produire des plans syntaxiquement valides mais physiquement impossibles ou dangereux. PerceptTwin introduit une boucle de rétroaction pré-exécution où le robot construit son propre jumeau numérique à la volée, y simule le plan, puis itère. Cette approche inverse la logique du sim-to-real classique : la simulation émerge ici du monde réel via la perception, non l'inverse. Le système démontre aussi une résistance documentée aux attaques par "black-box prompting" visant à injecter des instructions nuisibles dans le planificateur, une propriété de sécurité rarement quantifiée dans des travaux similaires. Pour un intégrateur industriel, cela représente une couche de validation automatisée applicable à des environnements non structurés sans reconfiguration manuelle de la simulation. La construction de simulations contextualisées était jusqu'ici un processus manuel et coûteux, rendant la validation à grande échelle impraticable. PerceptTwin s'inscrit dans un courant de recherche incluant les approches NeRF sémantiques et les jumeaux numériques procéduraux, avec la particularité d'être entièrement piloté par la stack perceptive du robot. En termes de positionnement, les travaux récents sur les Visual Language Action models comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA abordent la fiabilité par l'apprentissage massivement supervisé, là où PerceptTwin mise sur la vérification symbolique en boucle fermée. Les expériences restent confinées à une suite de tâches de manipulation en laboratoire, sans déploiement terrain annoncé. Les auteurs ne précisent pas le temps de génération du jumeau numérique ni les exigences matérielles, deux paramètres déterminants pour envisager une intégration hors conditions contrôlées.

IA physiqueOpinion
1 source
CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale
94arXiv cs.RO 

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

Des chercheurs ont publié sur arXiv (2606.04130) un cadre d'apprentissage auto-supervisé baptisé CLAW (Continuous Latent Action World Models via Adversarial Latent Regularization), conçu pour apprendre simultanément un modèle du monde et des représentations d'actions latentes continues à partir de vidéos non annotées. La méthode ne nécessite aucun label d'action : elle s'appuie sur une régularisation adversariale des représentations latentes et sur la génération vidéo par diffusion pour inférer une structure sémantique des actions directement depuis les transitions visuelles observées. Le modèle d'action latente (LAM) et le modèle du monde sont entraînés conjointement en bout en bout, permettant au système de raisonner sur la façon dont les actions inférées induisent des transitions dans l'environnement. CLAW supporte deux modes d'utilisation : le clonage comportemental par imitation depuis l'observation, où les actions latentes extraites de vidéos brutes suffisent à reproduire un comportement, et la planification dirigée par objectif, où le système génère des séquences d'actions latentes puis les mappe vers des actions exécutables. L'enjeu central ici est l'accès aux données. La robotique souffre d'un déficit chronique de données d'entraînement annotées avec des paires (observation, action), car les capteurs proprioceptifs et la capture de mouvement sont coûteux. CLAW ouvre la voie à l'exploitation de vidéos tierces non instrumentées, comme des démonstrations humaines filmées ou des contenus web, pour entraîner des politiques et des planificateurs. Si les résultats se confirment hors laboratoire, cela réduit drastiquement le coût de collecte de données pour les intégrateurs robotiques et les équipes d'ingénierie travaillant sur le transfer sim-to-real. Les auteurs rapportent des performances supérieures aux méthodes existantes sur des tâches variées et plusieurs morphologies robotiques, bien que les benchmarks spécifiques et les métriques quantitatives détaillées ne soient pas accessibles dans l'abstract seul. CLAW s'inscrit dans un courant de recherche actif sur les modèles d'actions latentes (LAM), dont les travaux fondateurs incluent LAPO et des approches basées sur des modèles de dynamique inversale (IDM). Il se distingue en combinant génération par diffusion et régularisation adversariale là où ses prédécesseurs utilisaient souvent des encodeurs déterministes ou des VQ-VAE. Les concurrents directs dans l'espace des world models pour la robotique comprennent UniSim (Google DeepMind), GAIA-1 (Wayve) côté génération vidéo, et des approches VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) côté politique. CLAW se positionne en amont de ces pipelines, comme brique d'apprentissage de représentation plutôt que comme politique complète. Les prochaines étapes naturelles seront une validation sur des environnements physiques réels et l'intégration dans des boucles de fine-tuning pour des robots humanoïdes ou manipulateurs.

IA physiqueOpinion
1 source
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
95arXiv cs.RO 

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes. L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle. Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.

IA physiqueOpinion
1 source
Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle
96NVIDIA AI Blog 

Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle

NVIDIA Research présente cette semaine au CVPR 2026 trois nouveaux papiers de recherche qui partagent une ambition commune : entraîner des systèmes à grande échelle pour qu'ils généralisent au-delà de leurs cas d'usage initiaux. Le premier, GraspGen-X, est décrit comme le premier modèle fondamental pour la saisie robotique zéro-shot : entraîné sur deux milliards de saisies simulées couvrant des milliers de formes d'objets et de configurations de pinces, il est capable de générer des propositions de prise fiables pour n'importe quelle pince robotique, y compris des modèles qu'il n'a jamais rencontrés. Le deuxième papier, LCDrive, introduit une approche pour la conduite autonome qui remplace le raisonnement textuel par des représentations latentes compactes, permettant aux véhicules de raisonner plus vite sur le matériel embarqué réel. Enfin, NitroGen est un modèle fondamental d'IA de gameplay, construit sur l'architecture NVIDIA Isaac GR00T, qui aide à entraîner des agents incarnés dans des environnements virtuels sur des dizaines de milliers d'heures d'interaction. Ces trois travaux répondent à des verrous concrets qui freinent le déploiement de l'IA physique aujourd'hui. Pour la robotique, le problème était simple mais paralysant : chaque nouveau type de pince nécessitait un cycle complet de collecte de données, fine-tuning et validation. GraspGen-X élimine ce goulot d'étranglement en fonctionnant comme un grand modèle de langage appliqué à la géométrie, utilisable directement avec les pinces courantes sans réentraînement. En parallèle, LCDrive adresse une contrainte matérielle réelle des véhicules autonomes : le raisonnement par chaîne de pensée basé sur du texte génère des tokens qui coûtent du temps de calcul, un luxe que les processeurs embarqués dans les voitures ne peuvent pas se permettre en situation réelle. En remplaçant les mots par des représentations latentes, le système peut raisonner plus vite sur le même hardware. Ces annonces s'inscrivent dans une dynamique plus large chez NVIDIA, qui positionne l'IA physique comme le prochain grand chantier après les LLM. La conférence CVPR, l'une des plus importantes en vision par ordinateur, est un terrain de choix pour valider ces approches auprès de la communauté académique avant leur adoption industrielle. GraspGen-X s'intègre d'ailleurs avec curoboV2, une nouvelle bibliothèque de planification de mouvement accélérée par CUDA, et s'appuie sur des travaux antérieurs comme Grasp-MPC présenté à l'ICRA 2026. Pour les développeurs de robots et de véhicules autonomes, l'enjeu est de taille : réduire les cycles de développement grâce à des modèles fondamentaux capables de s'adapter à de nouveaux contextes sans repartir de zéro, une approche qui commence à prouver sa valeur dans le monde du langage et que NVIDIA ambitionne désormais d'imposer dans le monde physique.

UELes avancées en préhension robotique zéro-shot et en inférence embarquée pour véhicules autonomes pourraient bénéficier aux industriels européens de la robotique et de l'automobile cherchant à réduire les cycles de développement.

IA physiquePaper
1 source
NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision
97NVIDIA AI Blog 

NVIDIA lance des compétences agents pour l'IA physique : véhicules autonomes, robotique et vision

NVIDIA a profité de la conférence CVPR 2026 pour dévoiler une série de nouveaux outils d'IA physique destinés aux chercheurs travaillant sur les véhicules autonomes, la robotique et les systèmes de vision artificielle. Ces annonces s'appuient sur le lancement, quelques jours plus tôt, de NVIDIA Cosmos 3, présenté comme le premier modèle fondamental unifié de l'industrie combinant raisonnement visuel, génération de mondes et génération d'actions. Parmi les outils dévoilés figurent InstantNuRec, qui reconstruit des scènes routières en 3D à partir d'images sans optimisation par scène ; AlpaGym, un framework open source d'apprentissage par renforcement en boucle fermée capable de s'exécuter sur des milliers de GPU ; OmniDreams, un modèle génératif qui produit des rendus photoréalistes en temps réel en réponse aux actions d'une politique de conduite ; et Alpamayo 2 Super, un modèle VLA (vision-langage-action) de 32 milliards de paramètres conçu pour le développement de véhicules autonomes de niveau 4. Le problème central que cherche à résoudre NVIDIA est la fragmentation des workflows en IA physique. Aujourd'hui, reconstruire une scène réelle, générer des scénarios rares, entraîner une politique, évaluer son comportement et itérer rapidement implique de jongler entre des outils disparates, ce qui ralentit considérablement la recherche. Pour les véhicules autonomes en particulier, le défi est la « longue traîne » des situations de conduite : les interactions rares, les géométries routières inhabituelles, les variations d'éclairage qui sont difficiles à collecter en conditions réelles mais critiques pour la validation. Les nouveaux outils de NVIDIA permettent aux agents IA d'automatiser ces étapes, de la reconstruction de scènes à partir de données de flotte jusqu'à la génération de conditions synthétiques variées. Pour la vision industrielle, des compétences Metropolis permettent de générer des défauts visuels rares sur différentes surfaces, résolvant le problème chronique du manque de données pour la détection d'anomalies. Ces annonces s'inscrivent dans une stratégie cohérente de NVIDIA pour s'imposer comme infrastructure de référence de l'IA physique, un marché qu'elle considère comme la prochaine vague majeure après les grands modèles de langage. Cosmos 3, socle de l'ensemble de l'écosystème présenté, est positionné comme modèle ouvert dominant sur les benchmarks publics de l'IA physique. En combinant simulation haute fidélité, modèles fondateurs ouverts et frameworks d'entraînement scalables, NVIDIA tente de reproduire avec l'IA embarquée et robotique ce qu'elle a réussi dans le calcul haute performance : rendre son infrastructure si centrale que les chercheurs n'envisagent pas d'alternatives. Les prochaines étapes passeront par l'adoption de ces outils par les grands constructeurs automobiles et les laboratoires de robotique, qui testent actuellement leurs capacités sur des flottes réelles.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW) et les laboratoires de recherche en robotique pourront utiliser ces outils open-source pour accélérer le développement de véhicules autonomes de niveau 4 et réduire leur dépendance à la collecte de données réelles.

IA physiqueOpinion
1 source
Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique
98arXiv cs.RO 

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace. L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours. Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

UELes laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

💬 La comparaison avec CUDA n'est pas anodine. NVIDIA ne publie pas Cosmos 3 par générosité open-source, ils font exactement ce qu'ils ont fait en 2007 : poser le layer d'infrastructure que tout le monde finira par utiliser, et vendre les GPU par-dessus. Vu les benchmarks sur RoboArena, les labos robotiques ont peu de raisons de résister.

IA physiqueOpinion
1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
99arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

IA physiqueOpinion
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
100arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper
1 source