Aller au contenu principal

Dossier IA physique & VLA — page 4

633 articles · page 4 sur 13

L'IA physique : modèles vision-langage-action qui contrôlent des corps robotisés. État de l'art académique (CoRL, RSS) et premières productions industrielles.

Une société américaine dévoile des humanoïdes et robots avec un nouvel écosystème pour l'intelligence incarnée
151Interesting Engineering HumanoïdesOpinion

Une société américaine dévoile des humanoïdes et robots avec un nouvel écosystème pour l'intelligence incarnée

Faraday Future (FF), entreprise californienne principalement connue comme constructeur de véhicules électriques en difficulté, a présenté le 18 juin 2026 à son nouveau siège d'El Segundo (Californie) une gamme robotique baptisée "EAI Robot World", articulée autour de six séries de produits. La pièce maîtresse est le robot humanoïde Futurist, redessiné : 54 kg (14 % plus léger que son prédécesseur), 31 degrés de liberté (DOF), un couple au niveau du genou de 320 Nm et une vitesse de pointe annoncée à 17,7 km/h, alimenté par un double pack batterie promettant 6 heures d'autonomie. L'architecture logicielle repose sur un modèle Vision-Language-Action (VLA) couplé à un "World Model" pour la perception et la prise de décision autonome. Aucun tarif ni client n'ont été dévoilés pour le Futurist : FF a renvoyé au salon Automate 2026 à Chicago, le 22 juin. En revanche, le quadrupède FX Navi, 8 kg, 12 articulations motorisées, utilisant un smartphone (iOS ou Android) glissé dans un module tête comme unité de calcul, est disponible immédiatement à 1 990 dollars, ciblant la salle de classe et l'usage domestique. Deux formats supplémentaires ont été esquissés : Master Mini (~1 m, compétitions de robotique éducative) et Nova (~50 cm, robot compagnon enfant), sans date ni prix communiqués. La stratégie "one brain, multiple forms" de FF, qui consiste à partager une même couche d'intelligence VLA+World Model sur plusieurs facteurs de forme, est cohérente avec ce que font NVIDIA (GR00T N2) ou Physical Intelligence (pi-0) côté logiciel, et mérite d'être distinguée des approches produit unique. Toutefois, la prudence s'impose : les performances du Futurist (320 Nm, 17,7 km/h) sont comparables aux annonces récentes d'Unitree ou Figure AI, mais sans démonstration publique indépendante ni données de cycle réel, elles restent des chiffres de fiche technique. L'usage d'un smartphone comme cerveau du FX Navi réduit les coûts mais impose des contraintes de puissance de calcul qui limiteront les cas d'usage autonomes avancés. À ce stade, le Futurist est une annonce de produit, pas un déploiement ; le FX Navi, lui, est un produit livrable. Faraday Future porte un passif lourd : introduction en bourse via SPAC en 2021, multiples alertes de continuité d'exploitation, enquête de la SEC, et départ de son fondateur Jia Yueting dans le chaos. Ce pivot vers la robotique s'inscrit dans un mouvement plus large d'entreprises tech/EV cherchant un second souffle dans l'IA incarnée. Sur le segment humanoïde commercial, FF affronte Figure AI (Figure 03, déployé chez BMW), Tesla (Optimus Gen 3, production interne), Agility Robotics (Digit, partenariat Amazon), et en Europe Wandercraft ou Enchanted Tools, acteurs qui cumulent davantage de déploiements terrain. La prochaine échéance concrète est Automate 2026 le 22 juin, où FF devra fournir prix, volumes et clients réels pour le Futurist, faute de quoi l'annonce restera dans la catégorie teaser.

1 source
SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente
152arXiv cs.RO 

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente

Une équipe de chercheurs a publié fin juin 2026 SC3-Eval (arXiv:2606.18610), un cadre d'évaluation des politiques de manipulation robotique basé sur la génération vidéo cohérente. Le principe : plutôt que de rouler une politique en conditions réelles, un modèle fondamental vidéo pré-entraîné simule les trajectoires du robot et prédit si la tâche aboutit. SC3-Eval repose sur trois mécanismes de cohérence complémentaires. La cohérence dynamique avant-inverse entraîne simultanément le modèle à prédire les images à partir des actions et à récupérer les actions à partir des images, ancrant les rollouts à un espace d'action physiquement plausible. La cohérence multi-vue oblige le modèle à reconstruire chaque caméra depuis les autres, maintenant la cohérence spatiale sur de longs épisodes. Enfin, à l'inférence, un signal d'incertitude par chunk d'actions interrompt les rollouts dont les images générées divergent des actions demandées. Évalué sur sept politiques vision-langage-action (VLA) réelles, SC3-Eval atteint une corrélation de Pearson de 0,929 avec les résultats terrain et un MMRV de 0,119, surpassant trois baselines vidéo existantes. Ce résultat a une portée pratique immédiate : évaluer une politique de manipulation en conditions réelles est coûteux, lent et difficile à paralléliser. Un corrélat simulé à 0,929 constitue un substitut crédible pour filtrer les candidats politiques avant déploiement physique, réduisant potentiellement les cycles d'itération de plusieurs semaines à quelques heures. Fait notable, SC3-Eval reproduit fidèlement les modes d'échec observés en réel, permettant un diagnostic fin au niveau tâche plutôt qu'un classement agrégé, ce qui est plus actionnable pour un intégrateur. Le cadre se généralise par ailleurs à des tâches hors distribution d'entraînement, un point critique pour les équipes qui développent des politiques généralistes. Ce travail s'inscrit dans la vague d'adoption des modèles VLA commerciaux et de recherche, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix, OpenVLA, dont l'évaluation standardisée reste un goulot d'étranglement reconnu. Les approches alternatives passent par des simulateurs physiques classiques (MuJoCo, Isaac Sim) ou des rollouts réels coûteux ; les world models vidéo comme UniSim ou IRASim avaient amorcé cette direction mais se heurtaient à la dérive autorégressiveet à l'incohérence multi-caméras que SC3-Eval adresse directement. Le code et les données ne sont pas encore publiés au moment de la préprint, ce qui limite l'adoption immédiate. La prochaine étape logique sera de valider la méthode sur des plateformes humanoïdes à plus haute dimensionnalité, où le coût d'évaluation réelle est encore plus prohibitif.

RechercheOpinion
1 source
Autonomique déploie des robots semi-humanoïdes et de l'IA chez un équipementier automobile canadien de rang 1
153Robotics Business Review 

Autonomique déploie des robots semi-humanoïdes et de l'IA chez un équipementier automobile canadien de rang 1

Autonomique Inc., startup californienne fondée en 2024 et issue des laboratoires de SRI International (Menlo Park), annonce le passage en déploiement industriel de sa plateforme d'IA physique chez F&P Manufacturing, équipementier automobile Tier 1 canadien basé à Tottenham, Ontario, spécialisé dans les systèmes de chassis et de suspension. La société ne commercialise pas de robot propre mais une couche logicielle hardware-agnostique conçue pour ajouter dextérité et raisonnement à des bras industriels existants, issus notamment de Denso, Staubli et RealMan Robotics. Son PDG, Vikrant Tomar, docteur en IA et ancien fondateur de Fluent.ai, insiste sur la distinction entre démonstration et production : les métriques annoncées (temps de cycle, précision, réduction de rebuts) restent à ce stade déclaratifs, sans données publiques indépendantes pour les valider. Le déploiement chez F&P est présenté comme un pilote progressant vers une industrialisation, non comme un rollout à l'échelle déjà opérationnel. L'intérêt technique réside dans l'architecture dite "généraliste-spécialiste" : plutôt qu'un unique modèle vision-langage-action (VLA) monolithique, la plateforme orchestre dynamiquement des compétences déterministes (apprentissage par renforcement en ligne pour les insertions de précision, par exemple) et des modèles VLA plus flexibles pour gérer les anomalies ou les tâches non prévues. Cette approche répond à une critique structurelle du secteur : les VLA génériques peinent à tenir les cadences et la répétabilité exigées en production réelle. Si Autonomique tient ses promesses chez F&P, ce serait un signal concret que le sim-to-real gap peut être comblé sur des workflows multi-étapes en environnement industriel contraint, sans recours à des end-effectors coûteux comme les mains robotiques polyarticulées. Autonomique s'appuie sur des licences de technologies SRI, dont le système de télé-opération déjà utilisé par l'armée américaine pour le déminage et par des laboratoires pharmaceutiques en salles blanches, ce qui donne à sa base de données d'entraînement une provenance inhabituelle pour une startup robotique. Ses concurrents directs dans le segment "software layer for industrial arms" incluent Covariant (racheté par Amazon), Machina Labs ou Physical Intelligence (Pi-0), tandis que des acteurs comme 1X Technologies ou Figure AI ciblent l'humanoïde complet, segment qu'Autonomique juge prématuré pour la production. Les prochaines étapes annoncées : extensions de partenariats avec Holiday Robotics et Rainbow Robotics, discussions en cours avec des développeurs d'humanoïdes, et réplication du blueprint F&P sur d'autres lignes et sites. Aucun acteur européen ou français n'est impliqué à ce stade.

💬 La couche logicielle sur bras existants, c'est le seul modèle qui colle vraiment avec la réalité des usines : pas besoin de remplacer le hardware. L'architecture généraliste-spécialiste d'Autonomique (déterminisme pour les tâches de précision, VLA pour gérer les exceptions) s'attaque enfin au problème que personne n'avait résolu proprement en prod réelle. Reste à valider les chiffres sur la durée, parce que pour l'instant c'est Autonomique qui parle d'Autonomique.

IA physiqueOpinion
1 source
Advanced Humanoid Forum 2027 en Allemagne
154Robot Magazine FR 

Advanced Humanoid Forum 2027 en Allemagne

Le forum Advanced Humanoid Forum 2027 se tiendra les 20 et 21 janvier 2027 à Munich, en Allemagne. Fondé par Ulrich Moeller, expert de l'industrie robotique, l'événement vise à réunir fabricants de robots humanoïdes, développeurs d'intelligence artificielle, industriels utilisateurs, centres de recherche, investisseurs et intégrateurs en un même lieu. L'objectif déclaré est d'accélérer le passage de la simulation à des déploiements industriels réels. Parmi les acteurs du secteur cités figurent Tesla, Figure AI, Agility Robotics, Apptronik, Sanctuary AI et Unitree, dont les démonstrations publiques restent pour l'instant peu converties en exploitations intensives. Les marchés prioritaires identifiés sont l'industrie manufacturière, la logistique, la santé et la construction, secteurs confrontés à une pénurie croissante de main-d'œuvre. À noter : l'article source est incomplet et ne fournit pas de données précises sur les conférenciers confirmés, le nombre d'exposants attendus ni les tarifs d'inscription. Ce forum pointe un verrou réel : le secteur a accumulé des capacités en laboratoire (marche bipède, préhension, navigation) sans les convertir massivement en valeur industrielle. Le défi n'est plus uniquement moteur, il est systémique, fiabilité en environnement dégradé, certification sécurité, temps de cycle garantis, retour sur investissement démontrable. L'intégration de plusieurs briques technologiques est en jeu : modèles vision-langage-action (VLA) pour l'interprétation d'instructions complexes, jumeaux numériques pour l'apprentissage en simulation avant déploiement terrain, architectures cloud et edge pour la gestion de flottes à grande échelle. Munich est un choix cohérent : l'Allemagne est la première puissance industrielle européenne, avec un tissu dense d'OEM automobiles, d'équipementiers et d'intégrateurs capables d'absorber des pilotes à l'échelle. Plusieurs années de progrès conjoints en IA, vision par ordinateur, actionneurs et capteurs ont permis l'émergence de cette nouvelle génération d'humanoïdes, sans qu'aucun acteur n'ait encore atteint de déploiement de masse documenté avec métriques vérifiables. Tesla Optimus, Figure AI, Agility Robotics (racheté par Amazon), Apptronik, Sanctuary AI et Unitree multiplient les annonces et les vidéos soigneusement choisies, mais les données de production restent rares. Aucun acteur français ou européen n'est mentionné dans l'article source, ce qui constitue un angle manquant : des entreprises comme Enchanted Tools ou Wandercraft sont pourtant actives sur le segment humanoïde en Europe. Le forum reste à ce stade une annonce, pas un événement tenu. Ses prochaines étapes naturelles, publication du programme détaillé et liste des conférenciers industriels confirmés, seront les indicateurs les plus solides de sa capacité réelle à fédérer l'écosystème.

UELe forum à Munich cible directement l'industrie manufacturière et logistique européenne comme premier marché d'adoption des humanoïdes, mais l'absence de constructeurs ou laboratoires européens parmi les participants annoncés en réduit l'impact concret pour l'écosystème FR/EU.

FR/EU ecosystemeOpinion
1 source
ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA
155arXiv cs.RO 

ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA

Pré-publiée sur arXiv en juin 2026 (identifiant 2606.17200), ACE-EGO-0 est un cadre de pretraining pour modèles Vision-Langage-Action (VLA) qui exploite conjointement 4 530 heures de données robotiques et de simulation, et 1 480 heures de vidéos égocentrées humaines converties en pseudo-trajectoires robot. Le pipeline automatise la transformation de vidéos à la première personne en séquences d'actions au format démonstration téléopérée, en représentant les mouvements dans l'espace caméra plutôt que dans un référentiel corporel. Pour atténuer le bruit inhérent à ces pseudo-labels, un objectif d'entraînement reliability-aware concentre la supervision sur les segments les plus fiables via une perte auxiliaire dédiée. Évalué sur RoboCasa GR1 TableTop (robot humanoïde GR1 de Fourier Intelligence) et RoboTwin 2.0, ACE-EGO-0 atteint les meilleures performances publiées sur les deux benchmarks et démontre, selon les auteurs, un transfert vers la manipulation bimanuelle en conditions réelles. L'apport central est la résolution d'un problème structurel : les divergences d'espaces d'action, de morphologie et de dynamiques temporelles entre humains et robots rendaient jusqu'ici l'entraînement conjoint instable ou contre-productif. En unifiant la représentation via des actions caméra-space et un time-aligned action chunking avec morphology conditioning, les auteurs montrent que des jeux de données égocentrés existants comme Ego4D ou EPIC-Kitchens peuvent fournir un signal complémentaire valide à grande échelle. Pour les équipes R&D en robotique, l'implication pratique est directe : réduire significativement le coût de collecte de trajectoires robot, l'un des principaux goulots d'étranglement du déploiement VLA à l'échelle industrielle. La course aux politiques robotiques généralisables s'est accélérée depuis Pi-0 de Physical Intelligence (novembre 2024), OpenVLA et RT-2 de Google DeepMind. Des travaux antérieurs comme Dobb-E ou Human2Robot avaient déjà exploré les données humaines égocentrées comme supervision complémentaire, mais sans framework unifié à cette échelle ni évaluation systématique. ACE-EGO-0 propose une recette reproductible évaluée sur deux benchmarks de référence, dont RoboTwin 2.0, particulièrement pertinent car la manipulation bimanuelle reste un défi ouvert pour les humanoïdes commerciaux tels que Figure 03, Optimus Gen 3 ou Unitree H1. La prépublication ne mentionne ni partenaire industriel ni déploiement annoncé : ACE-EGO-0 est pour l'instant une contribution de recherche, pas un produit livrable.

IA physiqueOpinion
1 source
OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique
156arXiv cs.RO 

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

Une équipe de chercheurs publie sur arXiv (référence 2508.08706, troisième révision) OmniVTLA, une architecture VLA (vision-langage-action) augmentée de perception tactile. Le modèle repose sur un encodeur tactile dual-path : un ViT préentraîné classique traite les capteurs tactiles basés sur la vision, tandis qu'un SA-ViT (semantically-aligned Vision Transformer) prend en charge les capteurs basés sur la force. Les auteurs publient parallèlement ObjTac, un dataset tri-modal de 135 000 échantillons couvrant 56 objets en 10 catégories, associant données textuelles, visuelles et tactiles. En environnement de laboratoire sur des tâches pick-and-place, OmniVTLA atteint 96,9 % de taux de réussite avec des pinces robotiques, soit +21,9 points sur la baseline VLA de référence, et 100 % avec des mains dextres (+6,2 points), tout en réduisant le temps d'exécution et en générant des trajectoires plus lisses. Ce résultat pointe une lacune structurelle des VLA de génération actuelle : pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) reposent sur des fondations visuelles et langagières, mais restent aveugles au toucher, ce qui les met en échec sur toute tâche impliquant une manipulation fine, une surface glissante ou un objet déformable. OmniVTLA démontre qu'un encodeur tactile sémantiquement aligné peut compenser l'hétérogénéité des capteurs physiques, frein historique à l'intégration du toucher dans les architectures fondatrices. La mise à disposition publique d'ObjTac répond également à une pénurie documentée de données tactiles labellisées, qui limitait jusqu'ici la recherche dans ce domaine. Depuis pi-0 en octobre 2024 et GR00T N2 présenté en mars 2025, les architectures VLA multimodales s'imposent comme la direction principale pour généraliser la manipulation robotique, mais la perception tactile y reste systématiquement absente, faute de données standardisées et d'harmonisation entre capteurs optiques (GelSight, DIGIT) et piézo-résistifs. OmniVTLA tente de combler ce vide via SA-ViT, entraîné sur ObjTac pour apprendre une représentation tactile unifiée transférable. Il s'agit toutefois d'un preprint arXiv en environnement contrôlé : les performances hors-labo, la robustesse à la variabilité des objets réels et la généralisation à des tâches d'assemblage complexe n'ont pas encore été démontrées. ObjTac est disponible en open access, ce qui ouvre la voie à une réplication indépendante et à de futurs benchmarks communautaires sur la perception tactile.

UEL'open access d'ObjTac offre aux équipes de recherche européennes en manipulation robotique un dataset tri-modal rare, mais aucune institution ou entreprise FR/EU n'est impliquée directement.

IA physiqueOpinion
1 source
LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques
157arXiv cs.RO 

LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques

Des chercheurs ont proposé LaST₀ (Latent Spatio-Temporal Chain-of-Thought), un framework pour modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique, publié en janvier 2026 sur arXiv (2601.05248, v4). Évalué sur 10 tâches réelles couvrant la manipulation sur table, la manipulation sur base mobile et la manipulation dextre, le système améliore le taux de succès moyen de respectivement 13 %, 14 % et 14 % par rapport aux meilleures méthodes VLA actuelles. L'architecture repose sur un design Mixture-of-Transformers dual : un "expert raisonnement" opérant à basse fréquence pour l'inférence latente, et un "expert action" générant des commandes motrices à haute fréquence, les deux modules fonctionnant à des cadences hétérogènes pour permettre un basculement adaptatif. Le raisonnement intermédiaire s'effectue dans un espace latent compact encodant la dynamique visuelle future, la structure 3D de la scène et les états proprioceptifs du robot, sans passer par du texte en langage naturel. L'enjeu central est le compromis latence/raisonnement qui freine le déploiement industriel des VLA. Les approches qui génèrent des traces de raisonnement en langage naturel avant d'agir, comme certaines variantes de Pi-0 (Physical Intelligence) ou OpenVLA, introduisent une latence d'inférence incompatible avec les cycles rapides de la manipulation robotique. LaST₀ court-circuite ce goulot en déplaçant le raisonnement dans un espace latent plus dense informationnellement, plus rapide à générer, et capable de capturer des attributs physiques difficiles à verbaliser comme la friction ou la compliance des objets. Les gains mesurés sur des environnements réels, et non en simulation, constituent un signal notable : le sim-to-real gap n'est pas le seul obstacle, et la représentation interne du raisonnement importe autant que la qualité des données d'entraînement. Les VLA ont émergé comme architecture dominante pour la généralisation en robotique depuis les travaux de Google sur RT-2 (2023), puis se sont accélérés avec Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI en 2025. Le débat structurant du secteur oppose raisonnement explicite de type LLM et politiques réactives de type diffusion. LaST₀ propose une troisième voie, un système dual à fréquences hétérogènes combinant les deux sans les latences du premier ni les limites de généralisation du second. La publication reste pour l'instant purement académique, sans pilote industriel annoncé, mais l'architecture est directement transposable aux manipulateurs commerciaux et aux plateformes humanoïdes existantes.

IA physiqueOpinion
1 source
Penser moins, agir tôt : raisonnement latent renforcé avec sortie anticipée dans les modèles VLA
158arXiv cs.RO 

Penser moins, agir tôt : raisonnement latent renforcé avec sortie anticipée dans les modèles VLA

Une équipe de recherche publie sur arXiv (identifiant 2606.15099, juin 2026) AVA-VLA (Adaptive Variable Alignment VLA), un cadre d'inférence pour modèles vision-langage-action qui abandonne le raisonnement explicite par chaîne de pensée (Chain-of-Thought, CoT) au profit de variables latentes non observables. Le modèle combine un mécanisme de débruitage par apprentissage par renforcement, qui traite la génération d'états latents comme un processus de décision séquentiel optimisé par des récompenses au niveau de la tâche, et une stratégie de sortie anticipée (Early Exit) qui interrompt le raisonnement dès que la confiance dans l'état courant dépasse un seuil adaptatif. Sur le benchmark LIBERO, référence standard pour les tâches de décision en environnement incarné, AVA-VLA atteint un taux de succès moyen de 98,3 % tout en réduisant le temps d'inférence d'un facteur 6 par rapport aux méthodes CoT explicites. Cette publication s'attaque à l'un des principaux goulots d'étranglement des VLA : la latence introduite par la génération de texte intermédiaire avant chaque action. Pour un intégrateur ou un constructeur de robot humanoïde, une réduction 6x de la latence d'inférence change concrètement l'équation matérielle - elle ouvre la voie à des contrôleurs embarqués moins puissants ou à des boucles de contrôle plus rapides sans GPU de serveur. Le score de 98,3 % sur LIBERO est élevé, mais il convient de noter que ce benchmark reste en simulation ; les auteurs ne rapportent aucun résultat sur robot physique, et l'écart sim-to-real n'est pas discuté. Il s'agit donc d'une contribution de recherche, pas d'un déploiement validé en production. Les modèles VLA à raisonnement explicite ont été popularisés notamment par pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, qui s'appuient tous deux sur des étapes de planification en langage naturel avant l'exécution motrice. AVA-VLA s'inscrit dans une tendance concurrente cherchant à internaliser ce raisonnement, approche voisine des travaux sur les "thinking tokens" latents dans les LLM (Meta COCONUT, DeepMind). La prochaine étape naturelle sera de valider ces gains sur des plateformes robotiques physiques dans des configurations de tâches longues - précisément le régime où la propagation d'erreurs des méthodes CoT est la plus problématique et où les benchmarks simulés montrent leurs limites.

RechercheOpinion
1 source
Modélisation unifiée mouvement-action pour l'apprentissage sur robots hétérogènes
159arXiv cs.RO 

Modélisation unifiée mouvement-action pour l'apprentissage sur robots hétérogènes

Des chercheurs ont déposé sur arXiv (arXiv:2606.16917, juin 2026) le modèle UMA (Unified Motion-Action), une architecture d'apprentissage robotique qui place les trajectoires 3D de mouvement d'objets comme interface commune entre contrôle visuomoteur et modélisation de dynamiques. Plutôt que de traiter séparément les actions du robot et l'évolution de l'environnement, UMA les co-modélise sous un objectif génératif masqué, inspiré des architectures MAE (Masked Autoencoders): le motif de masquage détermine à la fois le régime de supervision pendant le pré-entraînement et le mode d'inférence au déploiement. Le modèle est pré-entraîné sur un mélange de démonstrations robotiques, de vidéos humaines et de données simulées, sans annotations manuelles d'instructions de tâches. Un objectif contrastif dissocie l'intention de tâche de la géométrie de scène. Au déploiement, les mêmes paramètres pré-entraînés supportent trois modes distincts: contrôle visuomoteur conditionné par le mouvement, modélisation dynamique, et adaptation few-shot à de nouvelles tâches. Les auteurs rapportent des performances supérieures aux baselines spécialisées sur chacun de ces modes. L'apport principal est de résoudre le problème structurel de l'hétérogénéité des données robotiques. Combiner démonstrations d'un bras industriel, vidéos de mains humaines et scènes simulées dans un entraînement multi-tâche exige habituellement des annotations coûteuses ou des têtes de sortie spécialisées par domaine. UMA contourne cela: les trajectoires 3D d'objets fonctionnent comme un "lingua franca" représentationnel, indépendant de la morphologie du robot ou de la source des données. La technique de "hindsight relabeling" permet d'annoter rétrospectivement des contextes de mouvement depuis les données brutes, sans intervention humaine. Pour un intégrateur ou un COO industriel, c'est concret: adapter un modèle généraliste à une nouvelle ligne en quelques démonstrations réduit sensiblement les coûts de déploiement. Nuance à souligner: il s'agit d'un preprint sans revue par les pairs, et les benchmarks présentés mériteraient une validation indépendante sur plateformes physiques réelles. Cette publication s'inscrit dans la compétition autour des modèles Vision-Langage-Action (VLA) généralisables. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure AI (Helix, déployé sur le Figure 03) cherchent tous à entraîner des politiques robotiques sur des données hétérogènes à grande échelle, avec le même défi partagé: comment exploiter des vidéos humaines non labellisées ou des données simulées sans annotation prohibitive. UMA propose une réponse architecturale via le mouvement 3D d'objets comme superviseur implicite universel, un angle distinct des approches VLA qui s'appuient sur le langage comme pivot sémantique. La validation sur benchmarks ouverts tels que LIBERO ou Open-X Embodiment, absente du preprint, sera déterminante pour évaluer la généralisation réelle de l'approche.

RechercheOpinion
1 source
Politique de diffusion spatialement conditionnée : manipulation précise et robuste avec une seule caméra RGB
160arXiv cs.RO 

Politique de diffusion spatialement conditionnée : manipulation précise et robuste avec une seule caméra RGB

Des chercheurs ont publié le 14 juin 2026 sur arXiv (arXiv:2606.14535) une méthode d'apprentissage par imitation appelée SCDP (Spatially Conditioned Diffusion Policy), conçue pour permettre à un bras manipulateur d'exécuter des tâches de précision à partir d'une seule caméra RGB fixe, sans caméra embarquée sur le poignet. L'architecture repose sur deux composants : un encodeur visuel multi-échelle qui extrait à la fois le contexte global de la scène et les détails fins, et un module de conditionnement spatial qui, à chaque étape de la boucle de diffusion, vient échantillonner des features ponctuelles le long des trajectoires intermédiaires prédites pour l'effecteur. L'idée centrale est d'utiliser ces trajectoires d'effecteur comme ancres d'attention visuelle, orientant automatiquement le réseau vers les zones de la scène pertinentes pour la tâche en cours. En simulation, SCDP surpasse les baselines monoculaires de référence et atteint des performances comparables aux configurations multi-caméras. En conditions réelles, le système démontre à la fois une manipulation précise et une robustesse aux distracteurs visuels. L'enjeu industriel est concret : la caméra de poignet est aujourd'hui le standard de facto dans les systèmes d'imitation learning déployés (ACT, Diffusion Policy, Pi-0 de Physical Intelligence), précisément parce qu'elle fournit la vue locale nécessaire à la manipulation fine. Supprimer cette contrainte réduit le coût matériel, simplifie la calibration et facilite le retrofit sur des cellules industrielles existantes. Si les performances annoncées se confirment hors laboratoire, cela lève un frein concret à la commercialisation de bras manipulateurs en environnement non contrôlé. Il convient toutefois de noter que les expériences réelles restent qualitatives dans le papier : pas de métriques de taux de succès sur un benchmark standardisé, ni de volume de déploiement cité. SCDP s'inscrit dans la vague des politiques de diffusion visuomotrices initiée par Diffusion Policy (Chi et al., 2023) et prolongée par des travaux comme 3D Diffusion Policy ou Pi-0. La question de la vue unique est un problème ouvert : d'autres approches comme UniMa ou SpatialVLA tentent de compenser l'absence de vue locale par des représentations 3D implicites ou des modèles vision-langage-action (VLA). Face à Physical Intelligence (Pi-0, financement de 400 M$), Figure AI ou 1X Technologies qui misent sur des stacks multi-capteurs, l'angle "single camera" de SCDP pourrait séduire les intégrateurs contraints en budget ou en volume de données. La prochaine étape logique serait une évaluation sur des benchmarks partagés comme RoboMimic ou LIBERO pour permettre une comparaison directe.

IA physiqueActu
1 source
GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable
161arXiv cs.RO 

GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable

Des chercheurs ont publié GAE (Generalizable Action Expert), un modèle généraliste conçu pour découpler la planification cognitive des modèles de vision-langage (VLM) de la génération d'actions robotiques précises. L'architecture repose sur une interface géométrique parcimonieuse : le VLM prédit des waypoints 3D discrets codant l'intention de haut niveau, tandis que GAE traduit ces repères en trajectoires d'action continues en s'appuyant sur des observations en nuage de points en temps réel. Le module est pré-entraîné sur un corpus de 150 000 trajectoires issues à la fois de simulations et de robots réels, via un schéma baptisé APPF (Action Pre-training, Pointcloud Fine-tuning), qui sépare explicitement l'apprentissage de la dynamique d'action du grounding géométrique. Une fois pré-entraîné, GAE est gelé et réutilisé tel quel sur de nouvelles tâches, seul le VLM amont nécessitant un fine-tuning léger. L'enjeu architectural est le découplage raisonnement-action, un point de friction documenté dans les approches VLA bout-en-bout comme Pi-0 de Physical Intelligence ou OpenVLA, où raisonner et agir partagent les mêmes poids et contraignent mutuellement la généralisation. En faisant de GAE un expert réutilisable et figé, les auteurs réduisent le coût d'adaptation à de nouveaux domaines visuels, angles de caméra et instructions en langage naturel. Les résultats rapportés vont dans ce sens, bien que le protocole d'évaluation comparatif reste à préciser dans la version finale, et que les expériences soient menées en laboratoire sans déploiement industriel annoncé. Cet article s'inscrit dans une vague de recherche post-RT-2 qui cherche à dépasser les limites des architectures monolithiques vision-langage-action. Les approches concurrentes incluent Pi-0 et Pi-0.5 (Physical Intelligence), Octo (UC Berkeley), RoboFlamingo, OpenVLA et RoboVLMs. La représentation intermédiaire par waypoints 3D rappelle des travaux sur les keyposes ou UniPi, mais étendue aux nuages de points pour une robustesse accrue aux variations de point de vue. La préprint arXiv:2510.03896, déposé en octobre 2024 et mis à jour en v2, n'est associé ni à un partenariat industriel ni à un produit commercialisé : il s'agit d'une contribution de recherche académique, pas d'un système shipé.

RechercheOpinion
1 source
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
162arXiv cs.RO 

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments
163arXiv cs.RO 

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.11408) une méthode baptisée DEHP, Dynamic Execution Horizon Prediction, conçue pour résoudre un goulot d'étranglement structurel des politiques robotiques modernes : l'horizon d'exécution fixe. Dans les architectures à "action chunking" aujourd'hui omniprésentes, politiques de diffusion, politiques de flux, modèles vision-langage-action (VLA) comme pi-0 ou OpenVLA, le robot prédit un bloc de N actions et les exécute en boucle ouverte, sans percevoir l'environnement à chaque pas. Cet horizon N est actuellement choisi par tuning empirique, tâche par tâche. DEHP entraîne une branche légère de prédiction d'horizon via du reinforcement learning en ligne, tout en gardant la politique chunk sous-jacente entièrement gelée, ce qui la rend compatible avec n'importe quelle politique existante traitée comme boîte noire. Sur des tâches de manipulation haute précision et longue durée, les auteurs rapportent une amélioration "significative" du taux de succès, sans chiffres absolus précis dans l'abstract, un point à vérifier dans les résultats complets. L'enjeu est concret pour quiconque déploie des bras manipulateurs en production : la boucle ouverte est efficace sur les mouvements de transit (déplacements dans l'espace libre), mais devient un frein sur les phases fines, insertion, saisie d'objet délicat, assemblage à tolérance serrée. DEHP adapte dynamiquement l'horizon : court pendant les phases critiques (comportement proche d'un contrôle pas-à-pas), long pendant les phases de déplacement libre. Cela revient à réconcilier l'efficacité computationnelle du chunking avec la réactivité du contrôle fermé, sans réentraîner le modèle de base. Pour les intégrateurs industriels, cela signifie potentiellement récupérer de la robustesse sur des cellules existantes sans toucher au pipeline d'entraînement. L'action chunking a été popularisée par ACT (Action Chunked Transformer, Stanford 2023), puis repris dans les diffusion policies de Chi et al. et intégré dans des VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La tension entre horizon long (efficacité) et horizon court (réactivité) est un problème ouvert bien identifié dans la communauté. Plusieurs travaux concurrents explorent le receding horizon ou le replanning conditionnel, mais DEHP se distingue par sa compatibilité boîte noire et son entraînement RL en ligne. La page projet est accessible sur dehp-chunking.github.io ; aucune timeline de déploiement industriel n'est annoncée à ce stade.

RecherchePaper
1 source
TacCoRL : intégration du retour tactile dans les modèles VLA par simulation
164arXiv cs.RO 

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Des chercheurs ont publié sur arXiv (2606.11743) TacCoRL, un framework destiné à intégrer le retour tactile dans les modèles vision-langage-action (VLA) pour la manipulation robotique. L'approche combine un co-entraînement simulation-réel et de l'apprentissage par renforcement (RL) en simulation, sans nécessiter de pré-entraînement tactile à grande échelle ni d'exploration extensive sur hardware réel. Évalué sur quatre tâches bimanuelles à riche contact (insertion, assemblage, manipulation d'objets déformables), le système atteint un taux de succès moyen de 72,5 % contre 50,0 % pour la baseline VLA visuelle seule, soit un gain relatif de 45 % sur ces benchmarks spécifiques. L'apport technique central n'est pas simplement d'ajouter la touche comme entrée supplémentaire, mais d'apprendre comment les lectures de contact doivent moduler la réponse motrice dans les états de quasi-échec, états rares dans les démonstrations humaines et risqués à collecter sur robot physique. TacCoRL utilise un simulateur aligné sur le réel comme environnement fermé pour les interactions de contact : des trajectoires mixtes (simulées et réelles) initialisent d'abord les actions conditionnées au tactile dans la politique pré-entraînée, puis le RL avec récompenses vérifiables optimise la politique sur des rollouts simulés, tandis qu'un objectif supervisé sur trajectoires réelles ancre la distribution visuelle, tactile et d'action au domaine de déploiement. Le résultat se transfère directement sur robot réel, sans état simulé privilégié ni RL en ligne. C'est une réponse directe au "demo gap" des VLA actuels : les politiques vision-seule échouent précisément sur les phases de contact que la caméra ne résout pas. Le contexte est celui d'une compétition intense autour des VLA polyvalents : Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses dérivés, ainsi que les efforts de génération suivante (GR00T N2 de NVIDIA, OpenVLA). Tous partagent la même limitation structurelle : l'observation visuelle reste insuffisante pour les tâches à fort contact. La piste tactile est explorée depuis plusieurs années (capteurs GelSight, SynTouch, Digit de Meta), mais son intégration dans des architectures VLA de grande taille restait un verrou de scalabilité. TacCoRL propose une voie pragmatique sans dataset tactile massif, ce qui abaisse la barrière d'adoption pour les laboratoires et intégrateurs. Les prochaines étapes logiques seraient l'extension à des capteurs tactiles commerciaux standardisés et des évaluations sur des tâches industrielles réelles, hors conditions de laboratoire contrôlées.

RechercheOpinion
1 source
L'équipe Tsinghua-Harvard développe Acorn, un robot « zéro-données » qui apprend par instinct, sans entraînement
165Pandaily 

L'équipe Tsinghua-Harvard développe Acorn, un robot « zéro-données » qui apprend par instinct, sans entraînement

La startup Acorn Robot, cofondée par le Dr. Jiang Yao (doctorat en génie mécanique à Tsinghua, postdoctorat en neurosciences à Harvard), a présenté un robot de manipulation capable d'apprendre des tâches physiques sans aucune donnée d'entraînement préalable, sans trajectoires de démonstration et sans modèle visuel. Le système repose sur un modèle de décision embarqué baptisé "Natus" (pour "instinct-driven behavioral emergence"), qui fonctionne par essais et erreurs en temps réel sur le matériel physique. Le hardware est délibérément minimaliste : une pince industrielle parallèle à 1 degré de liberté, équipée de capteurs tactiles sur ses deux mâchoires en V, sans caméra externe ni connexion cloud. La démonstration présentée montre le robot parvenir à saisir une carte bancaire posée à plat sur une table, un défi reconnu pour les préhenseurs industriels conventionnels, en utilisant une mâchoire comme levier contre le bord de la carte et la surface de la table comme point d'appui. Le système requiert typiquement huit à neuf tentatives pour converger vers cette stratégie. Selon la société, une preuve de concept a été validée chez l'un des principaux fabricants de cosmétiques en Chine, avec un déploiement à l'échelle annoncé. La cible commerciale visée est la fabrication flexible B2B, où l'adaptabilité prime sur le volume de données. L'approche représente une rupture philosophique avec le paradigme dominant de la robotique contemporaine, qui s'appuie massivement sur des données de démonstration, des modèles vision-langage-action (VLA) et de l'apprentissage par simulation. Le Dr. Jiang soutient que les forces de contact imprévisibles et les variations mécaniques entre robots individuels rendent les approches data-driven structurellement fragiles, décrivant la dépendance aux données comme un "puits sans fond impossible à combler" et affirmant qu'il n'existe pas de modèle universel, seulement un modèle optimal pour un robot donné. Pour les intégrateurs industriels et les décideurs en fabrication flexible, le claim est potentiellement significatif : un système capable de s'adapter à une nouvelle tâche physique sans pipeline de collecte de données ni infrastructure cloud réduit le coût de déploiement et le délai de mise en service. Il convient toutefois de nuancer : les huit à neuf tentatives annoncées proviennent d'une vidéo de démonstration sélectionnée, les conditions exactes du déploiement cosmétique ne sont pas détaillées, et la distinction entre preuve de concept validée et déploiement industriel à grande échelle reste à préciser. Acorn Robot s'inscrit dans un paysage robotique mondial où l'essentiel des investissements se concentre sur les humanoïdes dotés de VLA à grande échelle : Figure 03 de Figure AI, Optimus Gen 3 de Tesla, pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'approche d'Acorn, centrée sur un préhenseur industriel à faible complexité matérielle plutôt que sur une plateforme humanoïde généraliste, repositionne la question de la généralisation robotique au niveau du comportement émergent plutôt que de la capacité de représentation. La startup appartient à une génération de chercheurs sino-américains explorant des alternatives à l'apprentissage supervisé massif, un espace également investigué par des équipes européennes en robotique cognitive, notamment en France et en Suisse. Les prochaines étapes annoncées portent sur l'extension à d'autres scénarios de fabrication flexible, sans calendrier précis communiqué à ce stade.

Chine/AsiePaper
1 source
Modèles de tiges pour le contrôle des robots continus et souples : une revue
166arXiv cs.RO 

Modèles de tiges pour le contrôle des robots continus et souples : une revue

Une équipe de chercheurs a publié sur arXiv (référence 2407.05886, troisième révision) une revue exhaustive des modèles de tiges (rod models) appliqués à la modélisation et au contrôle des robots continus et souples. Le travail couvre les fondements mathématiques des théories de tiges, leur application à la modélisation de structures déformables, et les stratégies de contrôle dérivées, tant model-based que learning-based. Les auteurs proposent une classification des modèles selon le type de déformation pris en compte, contribution qui fait défaut dans la littérature existante. Les domaines applicatifs ciblés incluent la santé, l'agriculture, le milieu marin et l'espace, où les robots rigides conventionnels montrent leurs limites face à des environnements non structurés et à des interactions mécaniques en contact permanent. L'intérêt principal de ce survey est de structurer un sous-champ marqué par une forte fragmentation de la littérature. Les modèles de type Cosserat ou Kirchhoff proposent une approximation dimensionnellement réduite du comportement de corps élancés et déformables, offrant un meilleur équilibre que les méthodes éléments finis (FEM) entre précision et coût computationnel temps-réel. Pour les équipes R&D travaillant sur des bras flexibles endoscopiques, des cathéters guidés ou des manipulateurs agricoles, ce panorama unifié permet d'arbitrer entre approche physique et apprentissage, et de cibler les lacunes identifiées : robustesse au contact incertain, calibration en conditions réelles, et fermeture du fossé sim-to-real. Les modèles de tiges appliqués à la robotique souple se sont imposés comme cadre de référence depuis le milieu des années 2010, portés par l'essor des actionneurs à câbles, pneumatiques et à base d'élastomères. Plusieurs groupes académiques restent moteurs sur le sujet : INRIA, MIT CSAIL, IIT Gênes, Universität Stuttgart. Dans l'écosystème industriel, les applications en chirurgie mini-invasive et en manipulation agricole sont directement confrontées à ces problèmes de modélisation. Le papier identifie trois directions ouvertes : gestion du contact multi-points, intégration avec les architectures VLA (vision-langage-action), et généralisation à des morphologies hybrides rigides-souples. Ces fronts devraient alimenter le champ dans les deux à trois prochaines années.

UEINRIA figure parmi les groupes académiques moteurs du domaine ; les applications ciblées (chirurgie mini-invasive, manipulation agricole) concernent directement des acteurs industriels et projets de recherche européens.

RecherchePaper
1 source
SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante
167arXiv cs.RO 

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

Des chercheurs publient sur arXiv (2606.10305) SARM2, un modèle de récompense dense multi-tâches pour l'affinement de politiques vision-langage-action (VLA) en manipulation robotique, accompagné du framework SPIRAL (Self-Policy Improvement via Reward-Aligned Learning). L'approche combine un estimateur de stade fondé sur des primitives d'action et une tête de valeur Mixture-of-Experts multi-portes (MMoE) pour produire des récompenses denses à chaque étape sur dix tâches de manipulation distinctes. Sur ce benchmark, SARM2 réduit l'erreur quadratique moyenne d'estimation de valeur de 80 % par rapport aux meilleures méthodes existantes. Via SPIRAL, qui génère des rollouts autonomes et les recycle sans démonstrations humaines supplémentaires, le taux de succès progresse de 58 % à 100 % sur "Folding Shorts" et de 50 % à 90 % sur "Cleaning Whiteboard". Ces résultats pointent un levier concret pour réduire la dépendance au clonage comportemental (behavior cloning), approche encore dominante mais coûteuse : elle exige des démonstrations de haute qualité et bloque les politiques près de la distribution d'entraînement. Un reward model suffisamment dense et précis permet d'alimenter un data flywheel autonome, de réduire les cycles de supervision humaine, et d'adapter les politiques à de nouvelles tâches sans re-collecte de données. Le papier adresse aussi un écueil bien connu du secteur : les reward models VLM généralistes sont trop grossiers pour les tâches longue-horizon, tandis que les modèles spécialisés nécessitent des annotations par tâche. L'architecture MMoE multi-tâches vise précisément cet entre-deux, ce qui intéresse directement les intégrateurs devant déployer un même robot sur des variantes de tâches. Ce travail s'inscrit dans la course intense autour des politiques VLA -- Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), OpenVLA (UC Berkeley) -- où la phase de fine-tuning et d'amélioration continue reste un goulot d'étranglement non résolu. SARM2 et SPIRAL se positionnent en briques complémentaires au pré-entraînement, ciblant l'adaptation terrain. À ce stade, il s'agit d'un préprint académique sans déploiement industriel annoncé ni code public disponible, et les benchmarks sélectionnés (pliage de vêtements, nettoyage de tableau blanc) restent des tâches de laboratoire contrôlées. La combinaison reward model dense et self-improvement loop sans démonstrations humaines est néanmoins exactement le type de composant que les acteurs commerciaux comme Agility Robotics, Figure AI ou 1X Technologies cherchent à consolider pour abaisser les coûts d'adaptation en production.

IA physiqueOpinion
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
168arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données
169arXiv cs.RO 

Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données

Des chercheurs ont publié sur arXiv (2510.01661, version 3) SymSkill, un framework d'apprentissage robotique pour la manipulation séquentielle en environnements dynamiques. Le système apprend conjointement trois composantes à partir de démonstrations brutes, non étiquetées et non segmentées : des prédicats symboliques (conditions logiques décrivant l'état du monde), des opérateurs (représentations abstraites des actions), et des compétences motrices orientées vers des objectifs. En simulation RoboCasa, SymSkill réussit 12 tâches à étape unique avec un taux de 85 %, puis les compose en plans multi-étapes sans données supplémentaires. Sur un robot réel Franka, le système apprend à partir de cinq minutes de données de jeu libre et exécute des tâches à 12 étapes à partir de spécifications symboliques d'objectifs. La récupération en cas d'échec opère en temps réel, tant au niveau moteur que symbolique, via un contrôleur conforme permettant l'exécution sécurisée sous perturbations humaines ou environnementales. L'intérêt de SymSkill tient à sa résolution d'une tension fondamentale en robotique industrielle : l'apprentissage par imitation (IL) est réactif mais ne généralise pas à des scènes inédites, tandis que la planification tâche-et-mouvement (TAMP) est compositionnelle mais trop lente pour la récupération en temps réel. SymSkill combine les deux en un seul cadre unifié : le planificateur symbolique réordonne dynamiquement les compétences selon l'état courant, sans nécessiter de réentraînement. Pour un intégrateur, cinq minutes de données suffire à couvrir une séquence de 12 étapes représente un gain de coût de labellisation considérable par rapport aux pipelines d'imitation classiques. Les résultats questionnent aussi l'hypothèse selon laquelle les modèles VLA (vision-langage-action) monolithiques suffisent pour la manipulation longue-horizon : la décomposition symbolique explicite offre ici une robustesse mesurable. L'approche s'inscrit dans un débat de fond entre architectures neuronales end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, et les approches hybrides neuro-symboliques. SymSkill représente ce second camp, qui revendique meilleure interprétabilité et récupération d'échec structurée. Aucun déploiement industriel ni partenariat commercial n'est annoncé ; il s'agit d'un résultat de recherche académique avec code disponible sur symskill.github.io, et les performances en simulation restent à valider sur des tâches industrielles à plus haute variabilité. La prochaine étape naturelle serait de tester la scalabilité sur des horizons supérieurs à 12 étapes et des environnements moins contrôlés.

IA physiquePaper
1 source
VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long
170arXiv cs.RO 

VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long

Une équipe de chercheurs publie sur arXiv (référence 2606.07723, juin 2026) un système appelé VoLoAgent, conçu pour piloter des robots sur des séquences d'actions longues à partir d'instructions en langage naturel ouvert. Le principe : un modèle vision-langage (VLM) joue le rôle d'orchestrateur et coordonne des capacités hétérogènes, notamment un modèle vision-langage-action (VLA) couplé à un module de manipulation bras entier (WAM), des primitives d'action et des modèles de vision, traités comme des outils interruptibles que le VLM peut reprendre en main en cours d'exécution. Pour évaluer ces capacités, les auteurs introduisent RoboVoLo, un benchmark haute fidélité qui couvre quatre dimensions : sens commun, suivi d'état et mémoire, références complexes dans la scène, et connaissance du monde, avec des métriques de succès par tâche et un diagnostic par type de défaillance. Des validations sur robot réel complètent les expériences en simulation, bien que les chiffres de performance précis ne figurent pas dans l'abstract publié. L'apport conceptuel central est ce que les auteurs nomment la "Physical Orchestration" : contrairement aux agents IA virtuels, un robot ne peut pas mettre le monde en pause pendant qu'il raisonne, ce qui fait du timing des décisions et des appels d'outils une contrainte de premier ordre. VoLoAgent y répond par une boucle fermée dans laquelle le VLM surveille en continu l'exécution et déclenche corrections ou récupérations en cas d'échec, sans attendre la fin de l'action en cours. Cette approche adresse directement l'un des angles morts des VLA actuels : leur rigidité face aux défaillances intermédiaires dans des séquences longues. Les résultats indiquent que VoLoAgent surpasse significativement les systèmes à VLA unique, à VLM unique, et les architectures purement basées sur des outils, une affirmation qui reste à vérifier sur des scénarios industriels hors laboratoire. Ce travail s'inscrit dans un courant très actif autour des VLA, porté par Google DeepMind (RT-2, RT-X), Physical Intelligence (pi0) et Stanford (Mobile ALOHA). L'architecture "orchestrateur sur boucle fermée" partage des bases avec les agents à outils de type ReAct ou Voyager, mais les transpose à la contrainte temps-réel de la manipulation physique. Le projet est hébergé sur GitHub via une page académique (chicychen.github.io/VoLo), sans affiliation industrielle explicite mentionnée dans l'abstract. La prochaine étape naturelle serait la validation sur des manipulateurs commerciaux (UR, Franka, ou équipements semi-structurés en entrepôt) pour mesurer le transfert hors conditions de laboratoire contrôlées.

IA physiqueOpinion
1 source
HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
171arXiv cs.RO 

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur. L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract. Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

UEDes équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

IA physiquePaper
1 source
Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage
172arXiv cs.RO 

Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage

Une équipe de chercheurs a publié début juin 2026 (arXiv:2606.02735) un framework baptisé S2, pour "See Less, Specify More", destiné à améliorer la généralisation des modèles vision-langage-action (VLA). S2 repose sur deux mécanismes complémentaires : "Specify More" reformule chaque trajectoire d'entraînement avec des instructions affinées au niveau de la sous-tâche, tout en préservant l'objectif global original, tandis que "See Less" impose un budget explicite de preuves visuelles, forçant le modèle à agir à partir d'un contexte visuel suffisant pour la tâche plutôt que d'un champ de vision non contraint. Le système a été évalué sur huit tâches réelles de manipulation sur deux plateformes robotiques : le TX-G2, une variante compatible AgiBot G2, et le Toyota HSR. Le résultat principal : le taux de succès moyen par sous-tâche passe de 54,2 % à 79,0 % par rapport au modèle de référence pi0.5 de Physical Intelligence. Ces résultats s'attaquent à l'un des verrous les plus documentés du domaine VLA : la dégradation des performances sous distracteurs visuels, changements d'apparence ou tâches sémantiquement similaires. Le problème identifié est ce que les auteurs nomment "supervision aliasing" : des instructions trop grossières créent une ambiguïté que le modèle doit résoudre seul, dégradant l'apprentissage. S2 contourne ce problème sans annotation de régions ou de masques, ce qui est notable en termes de coût de labellisation. La compatibilité avec des planificateurs VLM standards via le mécanisme d'in-context learning facilite également l'intégration dans des pipelines existants, sans refonte architecturale. S2 s'inscrit dans une course serrée autour des VLA généralisables. pi0.5, développé par Physical Intelligence (ex-startup fondée par des chercheurs de Google DeepMind et Stanford), constitue ici la baseline battue. La plateforme AgiBot G2, produite par la startup chinoise éponyme, gagne en visibilité comme banc d'essai de référence pour la manipulation humanoïde. Les concurrents directs incluent les approches OpenVLA (Stanford), Octo (Berkeley), et les travaux VLA de Google DeepMind autour de RT-2 et ses successeurs. L'absence de déploiement industriel annoncé maintient S2 dans la catégorie "résultat de recherche prometteur" plutôt que "produit embarqué", mais le gain de 25 points de succès sur des tâches réelles justifie une attention soutenue de la part des intégrateurs robotiques.

RechercheOpinion
1 source
IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable
173arXiv cs.RO 

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

Une équipe de chercheurs publie en juin 2026 (arXiv:2606.03784) une réévaluation du chain-of-thought incarné (CoT) appliqué aux modèles vision-langage-action (VLA) pour la manipulation robotique généraliste. Pour mener cette étude à grande échelle, les auteurs ont constitué le plus grand corpus de ce type jamais assemblé : 978 743 trajectoires, 226,3 millions d'échantillons et 2 592,5 heures de données robot. Leur modèle ERVLA atteint 86,9 % de succès sur LIBERO-Plus et 53,2 % sur VLABench, surpassant les baselines de référence, notamment sur les tâches de désambiguïsation sémantique et d'exécution à longue portée en environnement réel. Le code, les données et les checkpoints seront prochainement disponibles en accès ouvert. Le principal apport théorique porte sur la manière d'intégrer le raisonnement linguistique dans une politique robotique. Les auteurs établissent que le CoT explicite, utilisé comme préfixe autorégressif avant chaque action, accumule des erreurs au fil des étapes et génère un couplage instable entre raisonnement et commande motrice. De même, le raisonnement de haut niveau seul, sans ancrage dans des descriptions concrètes comme les trajectoires d'effecteur terminal ou les positions dans l'espace image, n'apporte que des gains marginaux. ERVLA résout cette tension via une stratégie de "reasoning-dropout" : le modèle assimile des traces de raisonnement riches pendant l'entraînement, mais prédit les actions directement à l'inférence, sans décodage CoT. Ce découplage améliore la montée en échelle avec le volume de préentraînement et stabilise l'exécution. C'est un signal clair pour les équipes travaillant sur des politiques généralisables : la valeur du langage réside dans ce qu'il apprend au modèle, pas dans ce qu'il verbalise au moment du déploiement. Ces travaux s'inscrivent dans une compétition intense autour des fondations VLA capables de généraliser hors de leur distribution d'entraînement, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. La mise à disposition de 2 592 heures de données robotiques en accès ouvert constitue en elle-même une contribution notable dans un secteur où la pénurie de données reste un verrou majeur. Aucun déploiement industriel n'est mentionné : ERVLA est à ce stade un résultat de recherche académique, avec des validations sur robot réel mais sans pipeline de production annoncé.

UELa publication en accès ouvert de 2 592 heures de données robotiques et des checkpoints ERVLA offre une ressource directement exploitable par les équipes de recherche françaises et européennes travaillant sur les politiques VLA généralisables.

RechercheOpinion
1 source
GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA
174arXiv cs.RO 

GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA

GeoAlign, une architecture présentée le 3 juin 2026 sur arXiv (référence 2606.03240), aborde un angle mort persistant des modèles Vision-Langage-Action (VLA) : leur incapacité à raisonner avec précision sur la géométrie locale d'une scène. Les VLA actuels sont principalement entraînés pour le grounding sémantique, ce qui suffit pour identifier des objets ou interpréter des instructions, mais pas pour exécuter des mouvements de manipulation précis. GeoAlign introduit une branche RGB post-entraînée avec supervision RGB-D dans le domaine robotique, qui génère des features appelées GEP (Geometry-Enhanced Post-Trained) sans nécessiter de caméra de profondeur au déploiement. L'état proprioceptif du robot, c'est-à-dire la position de ses articulations à chaque instant, interroge dynamiquement cette grille de features pour produire des tokens géométriques adaptés à la phase courante du mouvement. Les résultats annoncés sont 99,0 % sur le benchmark LIBERO, 85,3 % sur trois tâches SimplerEnv-Fractal, et 78,8 % sur huit tâches réelles "geometry-critical" sur plateforme bi-manuelle ALOHA. Ce travail cible un problème bien identifié par les intégrateurs industriels : les VLA produisent des trajectoires sémantiquement cohérentes mais qui échouent lors du contact ou de la saisie fine, faute de modélisation géométrique locale. L'approche de GeoAlign est pragmatique, elle exploite la supervision RGB-D à l'entraînement sans alourdir le pipeline de déploiement qui reste en RGB pur. Le score de 78,8 % sur des tâches réelles est notable, mais le périmètre demeure étroit avec seulement huit tâches sur une seule plateforme, et la généralisation à d'autres morphologies ou environnements industriels n'est pas encore démontrée. Les ablations confirment l'apport des deux composantes, post-formation géométrique et requêtage guidé par l'état proprioceptif, ce qui renforce la crédibilité de l'architecture au-delà du simple ajustement de paramètres. Les VLA se sont imposés comme paradigme dominant depuis RT-2 de Google DeepMind en 2023, et se retrouvent au cœur de systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. La tendance de fond depuis 2024 est à l'augmentation des capacités spatiales de ces modèles, avec SpatialVLA et d'autres architectures 3D-aware qui s'attaquent au même problème. La plateforme ALOHA, développée à Stanford et UC Berkeley, est aujourd'hui commercialisée par Trossen Robotics et AgileX, ce qui donne une certaine représentativité aux évaluations en conditions réelles. GeoAlign reste pour l'instant un preprint non relu par les pairs : sa reproductibilité sur d'autres plateformes et dans des contextes industriels variés déterminera si elle s'intègre effectivement dans les pipelines VLA de production.

IA physiqueOpinion
1 source
Les modèles VLA aériens peuvent-ils coopérer ? Évaluation de la coordination air-sol en boucle fermée avec CARLA-Air
175arXiv cs.RO 

Les modèles VLA aériens peuvent-ils coopérer ? Évaluation de la coordination air-sol en boucle fermée avec CARLA-Air

Des chercheurs ont publié sur arXiv (arXiv:2605.31066) une évaluation systématique des modèles vision-langage-action (VLA) aériens dans des scénarios de coopération air-sol. L'étude introduit CARLA-Air, un environnement de simulation mono-processus qui fusionne CARLA et AirSim au sein d'un même runtime Unreal Engine. Cette architecture unifiée permet de partager un état physique commun, un tick de physique synchronisé et un pipeline de capteurs cohérent entre un drone (UAV) et un robot terrestre (UGV), garantissant ainsi une mesure précise de la latence de coordination effective et de l'alignement temporel entre les agents. Deux tâches de diagnostic complémentaires ont été retenues : l'atterrissage sur plateforme mobile et l'escorte avec récupération d'occlusion, deux scénarios qui exigent une action jointe continue en boucle fermée. Les résultats révèlent un écart notable entre compétence individuelle et comportement coopératif stable. Les modèles VLA aériens testés parviennent souvent à suivre ou à pister un partenaire sol, mais échouent à convertir cette aptitude mono-agent en coordination fiable. L'ajout de prompts d'état explicites (state prompting) n'apporte qu'un bénéfice limité, et l'interaction bidirectionnelle naïve ne stabilise pas les performances, elle amplifie même les erreurs pour la majorité des baselines évaluées. Ce constat soulève une question structurelle pour les intégrateurs et décideurs industriels qui envisagent des flottes hétérogènes : les VLA actuels, conçus pour des missions autonomes mono-agent, ne sont pas directement transposables à la coopération multi-robot sans ingénierie supplémentaire sur l'interface de communication et la gestion d'objectifs partagés. L'étude s'inscrit dans un momentum fort autour des VLA embarqués (modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA), majoritairement optimisés pour des robots manipulateurs ou des plateformes terrestres. La robotique aérienne coopérative reste un angle peu couvert. Les auteurs identifient trois prérequis manquants pour le zero-shot air-sol : un ancrage explicite de l'état du partenaire, une coordination d'action à faible latence, et un alignement sur un objectif d'équipe partagé. Le code de CARLA-Air est disponible publiquement sur GitHub, ce qui ouvre la voie à des benchmarks reproductibles dans un domaine encore dépourvu de standards d'évaluation communs.

RechercheActu
1 source
Bibliothèque d'experts à mélange dynamique progressif pour l'apprentissage robotique continu
176arXiv cs.RO 

Bibliothèque d'experts à mélange dynamique progressif pour l'apprentissage robotique continu

Des chercheurs proposent DMPEL (Dynamic Mixture of Progressive Parameter-Efficient Expert Library), une architecture publiée sur arXiv (2506.05985) pour l'apprentissage continu en robotique. L'objectif est de permettre à un agent généraliste d'acquérir séquentiellement de nouvelles compétences sans effacer les précédentes, phénomène dit d'oubli catastrophique. DMPEL construit progressivement une bibliothèque d'experts à rang réduit (low-rank, dans la famille PEFT), et utilise un routeur léger pour les combiner dynamiquement en une politique end-to-end. La technique centrale, l'« expert coefficient replay », guide ce routeur vers les experts gelés correspondant aux tâches passées sans rejouer l'intégralité de l'historique d'expériences. Évalué sur LIBERO, benchmark standard de l'apprentissage continu en robotique simulée, DMPEL surpasse l'état de l'art en taux de succès lors d'adaptations séquentielles, avec un nombre minimal de paramètres entraînables. Le verrou levé est pratiquement significatif : les méthodes PEFT existantes supposent un identifiant de tâche disponible à l'inférence, hypothèse irréaliste en déploiement réel où le robot doit lui-même inférer à quelle tâche il est confronté. En s'en affranchissant, DMPEL ouvre la voie à une adaptation incrémentale sans supervision externe. Le remplacement de l'experience replay classique par l'expert coefficient replay réduit aussi sensiblement les besoins en stockage et en calcul, un argument concret pour l'embarqué industriel. Pour un intégrateur ou un décideur B2B, c'est le signal que spécialiser un robot à de nouveaux postes de travail en séquence devient techniquement plus accessible. L'apprentissage continu connaît un regain d'intérêt direct avec l'essor des politiques vision-langage-action (VLA) comme OpenVLA, RT-2 ou pi-zero, qui nécessitent une spécialisation post-entraînement par tâche. DMPEL s'inscrit dans la lignée des travaux sur les Mixture of Experts et les adaptateurs LoRA, appliqués ici à un cadre multi-tâches séquentiel. Ses concurrents directs sur LIBERO incluent EWC (Elastic Weight Consolidation), PackNet et L2P. La limite principale reste l'absence d'expériences sur robot physique : les gains mesurés en simulation ne garantissent pas le passage au déploiement terrain, un sim-to-real gap que les publications de ce type peinent encore à combler systématiquement.

RecherchePaper
1 source
XPeng présente sa gamme complète d'IA physique au salon automobile GBA 2026
177Pandaily 

XPeng présente sa gamme complète d'IA physique au salon automobile GBA 2026

XPeng a présenté l'intégralité de sa gamme "physical AI" au salon automobile 2026 de la Grande Baie (Guangdong-Hong Kong-Macao Greater Bay Area Auto Show), organisé fin mai à Guangzhou. La démonstration centrale porte sur le système de conduite autonome end-to-end basé sur un réseau de neurones, que XPeng déploie en navigation assistée à l'échelle urbaine depuis plusieurs trimestres. L'entreprise expose également ses travaux en robotique humanoïde et en IA incarnée, articulés autour de trois briques techniques : perception, prise de décision et actuation. L'article source ne précise aucun nom de modèle robot, aucune métrique de charge utile ou de degré de liberté, ni aucun chiffre de déploiement, ce qui signale davantage un teaser de positionnement qu'un lancement produit documenté. Ce salon illustre une tendance structurelle dans l'industrie automobile chinoise : les constructeurs EV se requalifient en sociétés d'IA, avec des piles technologiques qui couvrent désormais la mobilité autonome, la robotique industrielle et l'IA embarquée. Pour les intégrateurs et décideurs B2B, ce mouvement signifie que les acteurs automobiles deviennent des concurrents directs des fournisseurs de robotique traditionnels. La convergence entre châssis, capteurs, compute embarqué et modèles de fondation réduit les barrières à l'entrée pour les déploiements humanoïdes en environnement industriel. Cela dit, l'absence de métriques concrètes dans la communication de XPeng interdit toute comparaison rigoureuse avec Figure (Figure 03), Boston Dynamics (Atlas), ou les plateformes chinoises comme Unitree ou Agibot. XPeng a été l'un des premiers constructeurs chinois à déployer la navigation assistée en ville à grande échelle, ce qui lui confère une base de données réelle conséquente pour entraîner ses modèles. La Baie de Canton concentre une part significative de l'écosystème EV-AI mondial, avec Shenzhen et Guangzhou comme noyaux de R&D et de chaîne d'approvisionnement. La concurrence directe inclut BYD, NIO, Li Auto et Xiaomi, tous engagés dans des investissements massifs en conduite autonome et en IA. La prochaine étape observable pour XPeng sera la publication de benchmarks concrets sur ses robots ou l'annonce de pilotes industriels chiffrés, seuls jalons permettant d'évaluer la portée réelle de cette stratégie "physical AI".

Chine/AsieOpinion
1 source
Tabero : manipulation douce par retour de force en boucle fermée (vision, toucher, langage)
178arXiv cs.RO 

Tabero : manipulation douce par retour de force en boucle fermée (vision, toucher, langage)

Une équipe de recherche a publié sur arXiv (preprint 2605.27886, mai 2026) Tabero, un benchmark et une suite de modèles destinés à doter les robots d'une manipulation douce et contrôlée par retour de force en temps réel. Le système repose sur deux composantes : d'abord un benchmark qui recycle des trajectoires de manipulation robotique open-source pour générer automatiquement des tâches combinant vision, toucher et instructions en langage naturel, sans nécessiter de collecte de données tactiles from scratch ; ensuite Tabero-VTLA, une architecture Vision-Langage-Action (VLA) dotée d'une interface de commande découplée force/position, exécutée par un contrôleur hybride fixe. Résultat clé annoncé : sous instructions de manipulation douce, le modèle réduit la force de préhension moyenne de plus de 70 % tout en maintenant un taux de succès élevé sur les tâches testées. Le code est publié sur GitHub. Il s'agit d'un preprint de recherche, pas d'un produit déployé. Ce résultat s'attaque à une limite connue des VLA actuels : ces modèles, entraînés principalement sur des données visuelles et textuelles, ne disposent pas de mécanismes de rétroaction de force en boucle fermée, ce qui les rend inadaptés à la manipulation d'objets fragiles ou aux interactions physiques avec des humains. La réduction de 70 % de la force de préhension est un chiffre notable, mais il faut le contextualiser : les détails sur la diversité des tâches, les matériaux et les conditions de test restent limités dans ce résumé, et les vidéos de démonstration associées aux preprints de ce type sont souvent sélectionnées pour maximiser l'effet. Le pipeline de génération de données tactiles par revalorisation de trajectoires existantes est en revanche une contribution méthodologique potentiellement réutilisable par d'autres équipes. Les VLA à toucher intégré constituent un chantier ouvert dans la course aux robots polyvalents. Les modèles pi-zero de Physical Intelligence et GR00T N2 de NVIDIA ont popularisé les architectures VLA pour la manipulation généraliste, mais s'appuient quasi exclusivement sur la vision. Du côté du toucher, des capteurs comme GelSight ou DIGIT existent en laboratoire mais restent rarement intégrés dans les pipelines d'entraînement à grande échelle. Tabero tente de combler ce fossé par une approche data-efficient. Les prochaines étapes naturelles seraient une validation sur robot physique dans des conditions industrielles réelles, notamment pour des cas d'usage comme l'assemblage de composants délicats ou la collaboration humain-robot en contexte manufacturier.

IA physiqueOpinion
1 source
ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression
179arXiv cs.RO 

ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression

Des chercheurs ont publié le 28 mai 2026 sur arXiv (réf. 2605.28231) ProgVLA, un modèle vision-langage-action (VLA) compact de 0,1 milliard de paramètres conçu pour la manipulation robotique sous contraintes strictes de calcul et de mémoire. L'architecture repose sur deux mécanismes principaux : un encodeur multimodal à double étage de rééchantillonnage Perceiver, qui compresse des flux variables d'entrées visuelles, linguistiques et proprioceptives en un ensemble fixe de tokens de contexte prêts au contrôle, et un ensemble de "têtes de progression" auxiliaires entraînées par apprentissage par renforcement hors-ligne sur des cibles normalisées d'horizon restant. Ces têtes fournissent à la politique une estimation interne de l'avancement de la tâche, ce qui permet un apprentissage par imitation via flow-matching pondéré par l'avantage et le succès. Sur deux benchmarks standards de manipulation multi-tâche, ProgVLA atteint des taux de réussite compétitifs avec des modèles pré-entraînés nettement plus grands, et les dépasse sur les niveaux de difficulté élevés et les tâches à horizon long. Le modèle a également été validé dans des environnements réels de type "toy kitchen", une validation limitée mais concrète. L'intérêt principal pour les intégrateurs et les équipes de recherche appliquée réside dans le profil de compromis : 0,1 milliard de paramètres seulement, contre les 7B à 70B typiques des VLA récents comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ce ratio ouvre la voie à un déploiement sur des plateformes embarquées à budget GPU limité, un obstacle central à la commercialisation des robots manipulateurs au-delà des démonstrateurs de laboratoire. Les ablations publiées sont précises : le rééchantillonneur de contexte appris et le fine-tuning visuel adaptatif à la tâche constituent les deux plus grandes sources de gain, tandis que l'entraînement conscient de la progression apporte un bénéfice supplémentaire ciblé sur les tâches multi-objets et à horizon long. Ce résultat contredit partiellement l'hypothèse selon laquelle seule la taille du modèle détermine la performance sur les tâches complexes. ProgVLA s'inscrit dans une vague de travaux visant à comprimer les VLA sans sacrifier leur capacité de généralisation, une direction prise également par des équipes comme celles qui travaillent sur la distillation de politiques pour des plateformes à faible puissance. Face aux modèles de référence que sont RT-2 (Google DeepMind), OpenVLA (UC Berkeley) et Pi-0, ProgVLA occupe le segment "edge-deployable" encore peu disputé par des solutions validées hors laboratoire. Deux limites sont à noter : le code et les données de benchmark n'étaient pas encore publiés au moment de l'annonce, et la validation réelle se restreint à un environnement toy-kitchen, ce qui rend prématurée toute extrapolation vers des contextes industriels ou des robots commerciaux de type Franka ou UR.

UELes équipes de R&D robotique européennes travaillant sur des plateformes embarquées pourraient surveiller ProgVLA comme alternative légère aux VLA dominants, mais aucun acteur ou programme européen n'est directement impliqué.

IA physiqueOpinion
1 source
IntBot et Certis Group s'associent pour déployer l'IA physique en entreprise à Singapour
180Robotics Business Review 

IntBot et Certis Group s'associent pour déployer l'IA physique en entreprise à Singapour

IntBot, startup californienne fondée à San Jose, et Certis, opérateur de sécurité et de services aux entreprises coté à la Bourse de Singapour, ont annoncé en mai 2026 un partenariat stratégique visant à développer des applications robotiques dites "socialement intelligentes" pour des environnements à forte affluence publique à Singapour. L'accord prévoit d'intégrer la technologie General Social Intelligence d'IntBot, un système de perception multimodale en temps réel couplé à une boucle d'interaction fermée, aux capacités opérationnelles de Certis dans la gestion de missions critiques. Les cas d'usage ciblés sont les robots concierges et assistants dans des environnements comme les hôtels, les centres de conférence et les campus. IntBot avait présenté son humanoïde de service Nylo au CES 2026, et affirme être déjà déployé dans le secteur de l'hôtellerie, sans fournir de chiffres précis sur l'échelle de ces déploiements ni de spécifications techniques (charge utile, degrés de liberté, temps de cycle). L'annonce reste à ce stade un accord d'exploration : aucun calendrier de déploiement ni volume contractuel n'est communiqué. Ce partenariat illustre un glissement progressif dans la robotique humanoïde commerciale : la manipulation physique des tâches cède progressivement sa place à l'interaction humaine comme principal verrou technologique. Lei Yang, cofondateur et PDG d'IntBot, l'articule explicitement : selon lui, avec la maturité des modèles multimodaux, le bottleneck décisif pour l'IA incarnée se déplace de la manipulation vers l'interaction sociale. Pour les intégrateurs et les décideurs B2B, l'enjeu est concret : un robot humanoïde en espace public doit interpréter les intentions des usagers, gérer un contexte social dynamique et maintenir une fiabilité opérationnelle compatible avec des environnements en exploitation réelle, sans cage de sécurité. L'approche de Certis, qui conçoit la sécurité, la gestion des installations et des effectifs comme un modèle opérationnel unifié, vise à fournir ce que la plupart des startups robotiques peinent à livrer seules : des workflows structurés et une intégration dans des opérations existantes à contraintes élevées. IntBot s'inscrit dans un champ concurrentiel dense, dominé par des acteurs disposant de ressources bien supérieures : Figure AI avec le Figure 03, Tesla avec l'Optimus Gen 3, Boston Dynamics avec l'Atlas, Physical Intelligence avec Pi-0, et Agility Robotics avec Digit, ainsi que Sanctuary AI et 1X pour le volet interaction sociale. Le choix de Singapour comme marché d'entrée est stratégique : la cité-État dispose d'une infrastructure smart-city avancée et d'un cadre réglementaire favorable à l'expérimentation robotique en milieu public. Certis, ancré institutionnellement en Asie-Pacifique, apporte une crédibilité opérationnelle que les startups ne peuvent pas construire seules. La prochaine étape attendue sera la définition concrète des cas d'usage par Certis avant tout déploiement à l'échelle, une phase qui, dans le secteur, prend historiquement bien plus longtemps que les communiqués de presse ne le laissent entendre.

HumanoïdesOpinion
1 source
InvariantCloud : un framework de nuage de points globalement invariant et indexé de manière unique pour le suivi robuste de pose tactile à 6 DOF
181arXiv cs.RO 

InvariantCloud : un framework de nuage de points globalement invariant et indexé de manière unique pour le suivi robuste de pose tactile à 6 DOF

Une équipe de chercheurs a publié le 26 mai 2026 sur arXiv (arXiv:2605.25216) un framework de suivi de pose tactile 6-DoF baptisé InvariantCloud, conçu pour les capteurs tactiles visuels, ces dispositifs équipés d'une caméra interne qui observe une surface gel texturée en contact avec un objet. L'approche repose sur l'exploitation de la constellation globale des marqueurs de surface du capteur comme référentiel invariant : plutôt que de suivre localement les déplacements relatifs des marqueurs, InvariantCloud effectue un recalage de nuage de points globalement invariant en une seule passe (one-shot), ce qui supprime l'accumulation de dérive caractéristique des méthodes séquentielles. Les expérimentations montrent des performances supérieures aux benchmarks existants sur la précision du suivi en lacet (rotation autour de l'axe Z) et sur la répétabilité de la relocalisation dans des tâches longues durée. Le problème de la dérive cumulative dans l'estimation du lacet est notoire dans la littérature sur la perception tactile : les approches incrémentales perdent leur référence absolue sur les longues séquences, rendant les manipulations fines peu fiables. InvariantCloud adresse directement ce point aveugle en ancrant chaque estimation à une référence globale plutôt qu'à l'état précédent, ce qui le rend particulièrement pertinent pour les tâches de manipulation précise en robotique industrielle ou dans les bras téléopérés. La convergence actuelle entre l'apprentissage par imitation (imitation learning) et les modèles vision-langage-action (VLA) crée une demande accrue pour une perception tactile haute fidélité fiable sur des horizons longs, domaine où ce travail apporte une contribution mesurable. Les capteurs tactiles visuels de référence -- GelSight, DIGIT, Soft-Bubble -- souffrent tous de limitations similaires sur l'estimation du lacet, un problème ouvert depuis plusieurs années. InvariantCloud s'insère dans un écosystème de recherche actif incluant des travaux récents comme TactiFind ou DenseTact, avec lesquels il se compare expérimentalement. Il s'agit à ce stade d'un preprint non encore soumis à peer review, ce qui invite à la prudence sur la généralisation des résultats : les conditions expérimentales précises, la diversité des objets testés et les capteurs supportés ne sont pas détaillés dans le résumé disponible. Des travaux d'intégration dans des pipelines de manipulation open-source constitueraient une prochaine étape naturelle pour valider l'applicabilité industrielle.

RecherchePaper
1 source
Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable
182arXiv cs.RO 

Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable

Une équipe de chercheurs a publié sur arXiv (référence 2510.16435) un jeu de données de 1 893 questions posées par des utilisateurs à des robots domestiques, issu d'une collecte auprès de 100 participants recrutés via la plateforme Prolific. Les données ont été structurées en 12 catégories et 70 sous-catégories, à partir de 22 stimuli au total : 15 vidéos et 7 scénarios textuels dépeignant des robots effectuant des tâches ménagères variées. Dans le jeu de données final, les questions les plus fréquentes portent sur les détails d'exécution des tâches (21,4 %), les capacités du robot (12,6 %) et l'évaluation de ses performances (10,7 %). À noter que les questions relatives aux scénarios difficiles ou à la fiabilité du comportement sont moins nombreuses, mais que les participants les jugent comme les plus importantes auxquelles un robot devrait pouvoir répondre. Ce travail comble un angle mort structurel dans la recherche en robotique explicable : la quasi-totalité des travaux existants se concentre sur les questions de type "pourquoi" (justification d'une décision), alors que ce dataset couvre un spectre bien plus large, des détails opérationnels aux hypothèses contrefactuelles. Pour les intégrateurs et concepteurs de systèmes d'interaction humain-robot, cela signifie que les modules de question-réponse embarqués doivent gérer des requêtes que les architectures conversationnelles actuelles ne priorisent pas. Le constat que les utilisateurs novices posent des questions plus factuelles et immédiates, tandis que les utilisateurs expérimentés interrogent davantage les capacités généralisées du robot, a des implications directes pour la conception des interfaces et la gestion du niveau de détail dans les réponses. Ce dataset s'inscrit dans un contexte où les grands modèles de langage (LLMs) sont de plus en plus intégrés comme couche conversationnelle dans des systèmes robotiques, des plateformes comme Boston Dynamics Spot aux robots de service de PAL Robotics ou Enchanted Tools. Il constitue une ressource de référence pour trois usages : identifier quelles données les robots doivent logger et exposer via une interface conversationnelle, benchmarker les modules de QA en HRI, et aligner les stratégies d'explication avec les attentes réelles des utilisateurs. Les prochaines étapes naturelles incluent l'extension du dataset à d'autres contextes (industriel, médical) et son utilisation pour entraîner ou évaluer des modèles vision-langage-action (VLA) dans des scénarios d'interaction explicite.

UELe dataset pourrait servir de référence pour les équipes européennes (dont Enchanted Tools et PAL Robotics) qui intègrent des LLMs comme couche conversationnelle dans leurs robots de service, en orientant la conception de leurs modules QA vers des questions que les architectures actuelles ne priorisent pas.

RecherchePaper
1 source
LimX Intelligence lance LimX Luna : un robot humanoïde pleine taille à 298 000 RMB
183Pandaily 

LimX Intelligence lance LimX Luna : un robot humanoïde pleine taille à 298 000 RMB

LimX Intelligence, une licorne spécialisée dans l'IA incarnée basée à Shenzhen, a commercialisé le 26 mai 2026 son robot humanoïde LimX Luna à destination du marché domestique chinois, au prix de 298 000 RMB (environ 41 000 dollars). La machine mesure 160 cm, dispose de 27 degrés de liberté corporels (hors effecteurs terminaux) et intègre des capacités de perception environnementale en temps réel couplées à un système de planification de mouvement dynamique. LimX positionne Luna non pas comme un démonstrateur de laboratoire, mais comme un candidat au déploiement opérationnel dans la logistique, la fabrication et les services. La différenciation technique repose sur des modèles vision-langage-action (VLA) propriétaires permettant au robot d'interpréter des commandes en langage naturel, de reconnaître objets et environnements, et d'adapter sa stratégie de mouvement sans chorégraphie préprogrammée. L'accès au marché international est annoncé pour 2027, après obtention des certifications et mise en place de partenariats de distribution. Le lancement de Luna illustre un glissement structurel dans la compétition humanoïde : l'avantage concurrentiel ne se joue plus sur la mécanique, mais sur la couche d'intelligence embarquée. Un robot capable de généraliser ses comportements à travers des tâches variées, sans reprogrammation manuelle, représente un saut qualitatif pour les intégrateurs industriels qui peinent à justifier le coût de déploiement face à des bras robotisés fixes bien plus matures. Le tarif de 298 000 RMB place Luna dans le segment intermédiaire du marché chinois, ce qui signale une ambition commerciale sérieuse, mais le manque de données indépendantes sur les performances réelles en environnement non structuré invite à la prudence : les vidéos de lancement restent sélectionnées, et le gap entre démonstration et déploiement à l'échelle demeure le principal angle mort du secteur. LimX Intelligence évolue dans un écosystème chinois saturé depuis 18 mois : Fourier Intelligence, Unitree et Xiaomi (avec le successeur annoncé du CyberOne) occupent des segments proches, tandis qu'au niveau mondial, Figure (Figure 03), Boston Dynamics, Physical Intelligence (Pi-0) et 1X Technologies maintiennent une pression technologique constante. LimX se distingue par son accent sur les VLA propriétaires plutôt que sur le partenariat avec des fondations de modèles tierces, un pari risqué mais cohérent avec la stratégie de verticalisation observée chez d'autres acteurs chinois. La prochaine étape critique sera la validation en conditions réelles chez des clients pilotes, dont LimX n'a pas encore communiqué les noms ni les calendriers, et l'obtention des certifications CE et UL nécessaires pour l'expansion internationale prévue en 2027.

HumanoïdesOpinion
1 source
SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes
184arXiv cs.RO 

SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes

Des chercheurs présentent SONIC (arXiv:2511.07820), un modèle fondateur pour le contrôle corporel complet de robots humanoïdes, construit autour d'une mise à l'échelle agressive le long de trois axes : la capacité réseau (de 1,2 million à 42 millions de paramètres), le volume de données (plus de 100 millions de frames issues de 700 heures de capture de mouvement) et le calcul (21 000 heures GPU). La tâche centrale est le suivi de mouvement (motion tracking), utilisé comme proxy d'entraînement pour inculquer des priors sur le mouvement humain sans ingénierie manuelle de récompenses. Deux applications aval sont démontrées : un planificateur cinématique temps réel reliant le suivi de mouvement à des tâches de navigation, et un espace de tokens unifié permettant à une seule politique de gérer à la fois la téléopération VR et des modèles vision-langage-action (VLA). Dans ce second mode, le système réalise de la loco-manipulation autonome en coordonnant simultanément position des mains et des pieds. L'apport principal est d'étendre les lois de scaling, jusqu'ici réservées aux grands modèles de langage, au contrôle humanoïde à corps complet. Les auteurs montrent que les performances progressent de manière régulière avec la quantité de données et le calcul, et que les politiques apprises généralisent à des mouvements non vus à l'entraînement, sans nécessiter de reward shaping manuel. Pour les intégrateurs, l'interface unifiée VR-VLA dans un seul modèle réduit le coût d'adaptation entre téléopération humaine et autonomie. Il convient néanmoins de noter qu'il s'agit d'une publication académique, non d'un produit déployé, et que les démonstrations vidéo sélectionnées ne permettent pas encore d'évaluer la robustesse en conditions industrielles réelles. SONIC s'inscrit dans une course au scaling qui agite l'ensemble de la filière humanoïde. Physical Intelligence a publié Pi-0, un modèle VLA polyvalent ; NVIDIA a lancé GR00T N2 en s'appuyant sur des données synthétiques massives ; Figure et Tesla visent des architectures propriétaires à grande échelle avec Optimus Gen 3. Les 42 millions de paramètres de SONIC restent modestes comparés aux VLA les plus ambitieux, et le travail ne mentionne pas d'affiliation à un fabricant de robot ni de calendrier de déploiement physique. La prochaine étape logique serait une validation sur hardware réel avec des évaluations quantitatives standardisées, un exercice que les benchmarks émergents du secteur commencent tout juste à formaliser.

IA physiqueOpinion
1 source
Apprentissage d'une manipulation dextérique robuste en main à partir de capteurs articulaires avec un transformeur proprioceptif
185arXiv cs.RO 

Apprentissage d'une manipulation dextérique robuste en main à partir de capteurs articulaires avec un transformeur proprioceptif

Des chercheurs publient sur arXiv (2605.21330, mai 2026) le Proprioceptive Transformer (PT), une architecture de contrôle pour la manipulation dextre en main fondée exclusivement sur les capteurs articulaires, sans vision ni retour tactile. Testée sur la main ténosynoviale ORCA, l'approche réalise une rotation continue de cube à une vitesse 3,1 fois supérieure aux méthodes de référence, et estime la position de l'objet avec une erreur quadratique moyenne (RMSE) inférieure de 23,4 % à celle d'un perceptron multicouche (MLP). La politique de contrôle est obtenue par distillation enseignant-élève : une politique enseignante est d'abord entraînée par apprentissage par renforcement avec accès privilégié à l'état de l'objet, puis ses connaissances sont distillées vers le PT, qui opère uniquement sur l'historique de positions et de vitesses articulaires. Ce résultat questionne une hypothèse largement répandue dans le domaine : la nécessité d'une perception externe pour fermer la boucle d'estimation d'état lors de manipulations en main. Les encodeurs articulaires sont présents sur toutes les mains robotiques, y compris les architectures ténosynoviales où la transmission élastique complique l'estimation de la posture réelle des doigts. Que le Transformer extraie implicitement des informations extrinsèques à partir de patterns temporels proprioceptifs constitue une validation partielle du sim-to-real appliqué à la manipulation dextre, un problème longtemps considéré non résolu à l'échelle réelle. La robustesse sur des objets de géométrie variable ou sous charge perturbée reste à démontrer : le preprint ne rapporte de résultats que sur le cube, et les métriques de vitesse de rotation manquent de contexte sur les conditions expérimentales exactes. La manipulation dextre en main est un problème ouvert depuis les années 1990, relancé par OpenAI Dactyl (2019) qui combinait vision externe et simulation massivement distribuée. Les approches concurrentes recourent aujourd'hui à des capteurs tactiles haute résolution (Shadow Hand avec BioTac, Leap Hand, GelSight sur Allegro) ou à des pipelines vision-langage-action de type Pi-0 ou GR00T N2. L'ORCA hand, plateforme académique à actionnement par tendons, reste moins présente dans les benchmarks publiés que l'Allegro ou la Shadow Hand, ce qui limite la comparaison directe avec l'état de l'art. Le preprint ne mentionne ni partenaires industriels ni calendrier de transfert : il s'agit d'une contribution de recherche fondamentale, sans déploiement annoncé.

RecherchePaper
1 source
SEDualVLN : un système dual à représentation spatiale enrichie pour la navigation vision-langage
186arXiv cs.RO 

SEDualVLN : un système dual à représentation spatiale enrichie pour la navigation vision-langage

Une équipe a publié sur arXiv (2605.17249) SEDualVLN, un cadre de navigation visuo-langagière (VLN) à double système pour guider un agent autonome à partir d'instructions en langage naturel. Le Système 1 est un modèle VLM affiné sur des trajectoires de navigation, enrichi d'une conscience spatiale globale et locale, chargé de générer les actions immédiates. Le Système 2 intègre un MLLM généraliste et un module de cartographie 3D temps réel : il planifie des points de passage à partir de vues aériennes de la carte construite à la volée et d'un flux d'images de chemin rendues. Ce schéma rapide-lent coordonné atteint des performances état-de-l'art sur les benchmarks VLN-CE (VLN in Continuous Environments). L'intérêt de SEDualVLN est de réconcilier deux paradigmes aux défauts complémentaires. Les approches end-to-end peinent sur les trajectoires longues et manquent de raisonnement dynamique : fine-tunées sur des données de navigation, elles mémorisent des comportements sans réellement planifier. Les pipelines zero-shot exploitent des MLLM pré-entraînés sans ré-entraînement, ce qui offre une meilleure généralisation, mais souffre d'un ancrage spatial insuffisant et d'un temps d'inférence élevé. SEDualVLN hybride les deux : le Système 1 conserve la réactivité end-to-end, le Système 2 apporte la planification raisonnée du modulaire. Pour des robots mobiles de service ou des assistants de livraison intérieure, ce type d'architecture ouvre une voie vers des agents capables de suivre des instructions complexes dans des espaces jamais vus à l'entraînement. Le VLN est un sous-domaine actif de l'IA incarnée, avec des benchmarks comme R2R (Room-to-Room) et VLN-CE sur des environnements Matterport3D et Habitat. SEDualVLN s'inscrit dans une tendance à combiner LLM généralistes et modules de cartographie explicites, direction déjà explorée par NavGPT ou MapGPT. Le papier reste un preprint non évalué par les pairs, sans code ni démo publique, ce qui rend la reproduction indépendante difficile à ce stade. La prochaine étape naturelle est une validation sur robot physique : toutes les expériences rapportées restent pour l'instant confinées à la simulation.

RechercheOpinion
1 source
OpenFrontier : navigation générale guidée par des frontières vision-langage
187arXiv cs.RO 

OpenFrontier : navigation générale guidée par des frontières vision-langage

Des chercheurs ont publié sur arXiv (identifiant 2503.05377) OpenFrontier, un cadre de navigation robotique en monde ouvert conçu pour fonctionner sans entraînement ni fine-tuning spécifique à la tâche. Le principe central : reformuler la navigation comme une succession d'identifications et d'atteintes de sous-objectifs éparses, en sélectionnant des "frontières visuelles" comme ancres sémantiques. Ces frontières, zones situées à la limite du champ perceptif du robot, servent de relais entre les instructions en langage naturel et les décisions de déplacement. OpenFrontier s'intègre à des modèles vision-langage (VLN) et vision-langage-action (VLA) existants sans reconstruction 3D dense de l'environnement ni collecte de données à grande échelle. Les auteurs rapportent des performances zero-shot sur plusieurs benchmarks de navigation standardisés et un déploiement expérimental sur un robot mobile réel. Ce résultat est notable parce que les approches end-to-end conditionnées sur le langage naturel exigent habituellement soit un entraînement interactif, soit des milliers de trajectoires annotées, soit une adaptation au robot cible. OpenFrontier contourne ces verrous en exploitant les frontières visuelles comme points d'ancrage pour les priors sémantiques du modèle, réduisant la charge computationnelle (pas de carte 3D sémantique dense) et le besoin en données d'entraînement. Pour un intégrateur de robots mobiles autonomes (AMR) ou un décideur industriel, cela ouvre la perspective de déploiements en environnement non structuré sans cycle de fine-tuning propre à chaque site. La performance zero-shot annoncée reste cependant à confronter à des conditions opérationnelles réelles : les benchmarks utilisés sont des environnements de laboratoire contrôlés, non des entrepôts ou espaces publics. OpenFrontier s'inscrit dans une dynamique de recherche qui cherche à transférer les capacités des grands modèles vision-langage vers la navigation mobile sans les contraintes classiques de l'apprentissage par renforcement. Des approches concurrentes comme SayNav, VLMaps ou les politiques VLA de Physical Intelligence (pi0) requièrent soit des environnements annotés, soit des datasets de démonstrations humaines, soit les deux. La méthode des frontières visuelles comme ancres sémantiques est plus légère, mais reste contrainte aux scénarios où la limite perceptive du robot capture les objectifs sémantiques pertinents. En l'état, OpenFrontier est un preprint académique et non un produit commercialisé : les validations en monde réel décrites correspondent à des tests expérimentaux contrôlés, pas à un déploiement industriel à l'échelle.

💬 L'idée de traiter les bords du champ de vision comme des ancres sémantiques au lieu de construire une carte 3D complète, c'est simple et ça coupe court à des années de galère en intégration terrain. Zéro fine-tuning par site, zéro dataset de trajectoires annotées, pour un déployeur d'AMR c'est exactement ce qu'on attendait. Reste que c'est un preprint testé en labo, et qu'un entrepôt avec des chariots élévateurs c'est une autre planète.

IA physiqueOpinion
1 source
XR-1 : vers des modèles VLA polyvalents par apprentissage de représentations vision-mouvement unifiées
188arXiv cs.RO 

XR-1 : vers des modèles VLA polyvalents par apprentissage de représentations vision-mouvement unifiées

Une équipe de recherche a publié XR-1 (X Robotic Model 1), un cadre d'apprentissage pour modèles vision-langage-action (VLA) conçu pour opérer sur des robots hétérogènes, disponible en preprint arXiv sous la référence 2511.02776v2. La contribution centrale est l'introduction des UVMC (Unified Vision-Motion Codes), une représentation latente discrète apprise via un VQ-VAE à double branche qui encode conjointement la dynamique visuelle et le mouvement robotique. L'entraînement suit trois étapes : apprentissage auto-supervisé des UVMC, pré-entraînement guidé par UVMC sur de grands ensembles de données cross-embodiment, puis fine-tuning spécifique à chaque tâche. XR-1 a été validé sur plus de 14 000 rollouts couvrant six morphologies robotiques différentes et plus de 120 tâches de manipulation. Les benchmarks affichent des performances supérieures à celles de π0.5, π0 (Physical Intelligence), RDT, UniVLA et GR00T-N1.5 (NVIDIA), avec une robustesse avérée face aux objets inconnus, variations d'arrière-plan, distracteurs et changements d'éclairage. L'enjeu que XR-1 cherche à résoudre est structurant pour le secteur : la généralisation cross-embodiment, soit la capacité d'un seul modèle à piloter des robots aux morphologies radicalement différentes à partir de données hétérogènes incluant des démonstrations humaines. Les approches précédentes encodaient soit la dynamique visuelle, soit les actions robotiques, rarement les deux conjointement. Le UVMC agit comme représentation intermédiaire unifiée entre observations et actions, réduisant le fossé entre sources de données disparates. Dépasser π0.5 et GR00T-N1.5 sur des évaluations en monde réel plutôt qu'en simulation constitue un signal sérieux, même si les benchmarks VLA restent notoires pour leur sensibilité aux conditions exactes d'évaluation et au choix des tâches de test. XR-1 s'inscrit dans la dynamique de recherche autour des fondations VLA généralisables, accélérée par l'essor des VLM et des grands ensembles de données robotiques publics comme Open X-Embodiment et BridgeData V2. Ses concurrents directs sont Physical Intelligence avec la famille π0/π0.5, NVIDIA Robotics avec GR00T N1.5, et les projets académiques RDT et UniVLA. Il s'agit à ce stade d'un preprint (version 2), pas d'un produit commercialisé : aucun partenariat industriel ni calendrier de déploiement n'est annoncé. La page projet est accessible sur xr-1-vla.github.io.

IA physiqueOpinion
1 source
HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage
189arXiv cs.RO 

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage

Des chercheurs ont publié en mai 2026 HCSG (Human-Centric Semantic-Geometric Reasoning), un cadre de navigation en langage naturel (VLN) conçu pour les environnements intérieurs dynamiques peuplés de piétons, déposé sur arXiv sous la référence 2605.13321. Contrairement aux approches existantes qui traitent les humains comme de simples obstacles mobiles détectés par indices visuels, HCSG introduit un module unifié de compréhension humaine combinant deux capacités complémentaires : la prévision géométrique, qui anticipe poses et trajectoires futures des personnes, et l'interprétation sémantique, qui exploite un modèle vision-langage (VLM) pour générer des descriptions textuelles des actions et intentions perçues. Ces représentations sont fusionnées dans une carte topologique sur laquelle l'agent planifie ses déplacements en fonction des instructions reçues. Une fonction de perte de distance sociale (social distance loss) contraint le robot à maintenir des distances d'interaction socialement acceptables. Sur le benchmark HA-VLNCE, le framework affiche un gain de 14 % sur le taux de succès et une réduction de 34 % du taux de collision face à l'état de l'art, des chiffres à interpréter avec la prudence habituelle réservée aux préprints non encore évalués en pair-à-pair. Ces résultats pointent un changement de paradigme pertinent pour la robotique de service en espace ouvert. La distinction clé de HCSG est de passer d'un évitement passif (détecter puis contourner) à une compréhension active des comportements : le robot infère si un piéton s'apprête à changer de direction, à s'arrêter ou à interagir, ce qui permet une planification plus fluide. L'intégration d'un VLM est cohérente avec la montée en puissance des architectures vision-langage-action (VLA), mais l'article valide ici leur utilité spécifique pour la navigation sociale, pas seulement la manipulation. Pour les intégrateurs de robots de livraison intérieure ou de guidage hospitalier, c'est un signal que les approches purement géométriques atteignent leurs limites dans des environnements non contrôlés. La navigation VLN a progressé rapidement depuis les benchmarks R2R et REVERIE, portée par les transformers de vision et des modèles comme CLIP. HA-VLNCE, sur lequel HCSG est évalué, est une extension de VLN-CE intégrant des agents humains dynamiques, le rapprochant davantage des conditions de déploiement réelles. Les approches concurrentes en navigation sociale incluent des travaux issus de Stanford, CMU ou MIT, et des frameworks comme NaviSTAR. Côté industriel, les robots de Keenon, Aethon ou Savioke opèrent encore largement dans des couloirs semi-contrôlés précisément pour éviter ces problèmes de cohabitation. HCSG reste une contribution académique sans validation industrielle annoncée, mais une page de projet dédiée laisse entrevoir des travaux futurs sur robot physique.

RechercheOpinion
1 source
Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation
190Pandaily 

Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation

Moore Threads et Guangyun Intelligence ont annoncé un partenariat stratégique, selon le média financier chinois IPO Zaozhidao. L'accord associe les GPU polyvalents de Moore Threads et son cluster de calcul intelligent Kua'e à la plateforme de simulation propriétaire de Guangyun Intelligence, articulée autour d'une approche intégrée "solve-measure-generate" (résolution, mesure, génération). L'objectif commun est de produire à grande échelle des données synthétiques haute-confiance pour le développement de l'IA incarnée (embodied AI). Aucun chiffre de volume de données, de puissance de calcul déployée ni de tarification n'a été communiqué dans l'annonce. Ce partenariat cible un verrou structurel de la robotique humanoïde : la rareté des données physiques réelles, leur coût de collecte, la couverture insuffisante des scénarios, et la difficulté à reproduire de façon stable des processus physiques complexes lors des campagnes de collecte sur robot réel. La synthèse de données de haute qualité s'impose comme voie de contournement, mais elle se heurte à des besoins en calcul en croissance exponentielle liés à l'explosion combinatoire du rendu. Le pipeline proposé, de la trajectoire réelle à la modélisation en simulation puis à l'augmentation de données, ambitionne notamment de résoudre la simulation physique de la préhension de corps souples (flexible body grasping), un défi technique clé pour les applications de manipulation industrielle. L'annonce s'inscrit dans la course chinoise à la souveraineté en IA physique. Moore Threads, fondé en 2020, positionne ses GPU comme alternative domestique aux puces Nvidia dans un contexte de restrictions américaines à l'exportation. Guangyun Intelligence se spécialise dans la simulation pour la robotique incarnée. Ce type de boucle fermée entre calcul souverain et production de données synthétiques robotiques trouve des équivalents directs dans l'écosystème occidental, notamment NVIDIA Isaac Sim, la plateforme open-source Genesis, ou les pipelines internes de Figure AI et Physical Intelligence. La portée réelle de ce partenariat reste à démontrer : l'annonce relève du cadre stratégique, sans déploiement documenté ni résultat public à ce stade.

Chine/AsieOpinion
1 source
Modèle JODA : dynamique articulaire composable pour objets articulés
191arXiv cs.RO 

Modèle JODA : dynamique articulaire composable pour objets articulés

Une équipe de chercheurs a déposé en mai 2026 sur arXiv (arXiv:2605.09954) JODA, un cadre de modélisation des dynamiques d'articulation pour objets articulés (composable Joint Dynamics for Articulated Objects), destiné à combler l'absence de comportements mécaniques fins dans les simulateurs robotiques et les environnements d'IA incarnée. La méthode encode la dynamique d'un joint sous la forme d'un champ à trois canaux couvrant son degré de liberté : forces conservatives (ressorts, butées de fin de course), frottement sec (holding friction, detents, snap-latching) et amortissement (soft-close). Ces composantes sont instanciées par interpolation cubique par morceaux avec contraintes de forme (PCHIP), produisant une représentation compacte, interprétable et compatible avec la simulation différentiable. Pour inférer ces paramètres depuis des observations visuelles, JODA utilise un modèle vision-langage (VLM) qui propose des primitives dynamiques structurées, composées en un champ unifié, éditable manuellement ou affiné par descente de gradient. Le problème que JODA adresse est central en robotique de manipulation : le fossé simulation-réalité (sim-to-real gap). Les environnements comme MuJoCo, Isaac Sim ou Habitat modélisent la géométrie et la cinématique des objets articulés, mais ignorent les effets mécaniques de second ordre qui conditionnent le comportement tactile réel : résistance variable selon la position, crans d'arrêt, fermeture amortie, encliquetage. Pour un robot manipulant un tiroir de cuisine ou une vanne industrielle, ces dynamiques sont déterminantes. Une simulation plus fidèle devrait améliorer le transfert de politiques entraînées sur données synthétiques vers l'environnement physique, un enjeu clé pour les architectures VLA (Vision-Language-Action) en cours de déploiement à grande échelle. Les approches existantes ignorent généralement ces dynamiques ou s'appuient sur des paramètres scalaires fixes (raideur constante, amortissement linéaire), sans capturer ni la non-linéarité du frottement ni les comportements multi-stables. JODA se distingue par sa représentation paramétrique interprétable couplée à un pipeline d'inférence fondé sur un VLM, ouvrant la voie à une annotation semi-automatique d'actifs 3D à grande échelle. Le code et les assets d'exemple seront publiés uniquement à la parution de l'article, ce qui place JODA au stade de preprint sans validation externe à ce jour. La méthode s'inscrit dans une dynamique plus large d'enrichissement des simulateurs robotiques par des propriétés physiques extraites de données multimodales, un axe de recherche actif chez Google DeepMind, Meta FAIR et dans le domaine des jumeaux numériques industriels.

RecherchePaper
1 source
SeedPolicy : passage à l'échelle par politique de diffusion auto-évolutive pour la manipulation robotique
192arXiv cs.RO 

SeedPolicy : passage à l'échelle par politique de diffusion auto-évolutive pour la manipulation robotique

Une équipe de chercheurs publie SeedPolicy, une nouvelle méthode d'apprentissage par imitation (IL) pour la manipulation robotique, dans un preprint arXiv (2503.05117). L'innovation centrale est SEGA (Self-Evolving Gated Attention), un module temporel qui maintient un état latent évolutif via de l'attention à porte (gated attention), permettant des mises à jour récurrentes qui accumulent le contexte à long terme tout en filtrant les informations temporelles non pertinentes. Intégré à la Diffusion Policy (DP), le modèle résultant, SeedPolicy, est évalué sur le benchmark RoboTwin 2.0 avec 50 tâches de manipulation distinctes. Les résultats, moyennés sur des backbones CNN et Transformer : +36,8 % d'amélioration relative par rapport à la DP standard en conditions propres, et +169 % en conditions aléatoires et perturbées. Face à RDT, un modèle vision-langage-action (VLA) de 1,2 milliard de paramètres, SeedPolicy obtient de meilleures performances en conditions propres avec un à deux ordres de grandeur de moins en taille de modèle. Le problème de la manipulation à long horizon, enchaîner des séquences d'actions sur des périodes étendues, constitue un goulot d'étranglement persistant en IL. La Diffusion Policy standard se dégrade lorsqu'on empile davantage d'horizons d'observation, perdant la capacité à maintenir le contexte temporel. SEGA règle ce problème sans le coût computationnel des grands VLAs. Le +169 % en conditions perturbées (contre +36,8 % en conditions propres) est le chiffre le plus significatif : il indique une meilleure généralisation sous perturbation, critique pour tout déploiement réel. L'argument d'efficacité paramétrique conteste directement l'hypothèse selon laquelle la mise à l'échelle serait nécessaire pour la manipulation complexe. La Diffusion Policy est issue des travaux de Columbia University (Chi et al., 2023) et constitue aujourd'hui une baseline de référence en robot learning. Le domaine s'est depuis bifurqué : un camp mise sur les modèles de fondation et les VLAs (RDT, Pi-0 de Physical Intelligence, OpenVLA, Octo), l'autre sur la modélisation temporelle efficiente à moindre coût. SeedPolicy s'inscrit résolument dans le second. À noter : l'ensemble des résultats est obtenu en simulation sur RoboTwin 2.0, sans démonstration de transfert sim-to-réel, ce qui reste l'épreuve déterminante pour les intégrateurs industriels. Le code est disponible sous dépôt anonyme, ce qui suggère un article en cours de révision par les pairs. Aucun déploiement industriel ni calendrier commercial n'est annoncé.

RechercheOpinion
1 source
VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés
193arXiv cs.RO 

VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés

Une équipe de chercheurs publie VLA-GSE (Generalized and Specialized Experts) sur arXiv en mai 2026 (arXiv:2605.06175), une méthode d'affinage efficace en paramètres (PEFT) pour les modèles vision-langage-action (VLA). Ces modèles, construits sur des dorsales visuelles et linguistiques pré-entraînées comme celles d'OpenVLA ou pi-0, souffrent d'oubli catastrophique lorsqu'on les affine entièrement sur des données de contrôle robotique. VLA-GSE répond à ce problème via une décomposition spectrale de la dorsale gelée : les composantes singulières dominantes alimentent des experts généralisés partagés entre toutes les tâches, tandis que les composantes résiduelles disjointes alimentent des experts spécialisés routés selon la tâche. Seuls 2,51 % des paramètres totaux sont entraînables. Sur le benchmark LIBERO-Plus, la méthode atteint 81,2 % de taux de succès moyen en zéro-shot, surpassant à la fois l'affinage complet (FFT) et LoRA, tout en préservant des performances comparables à LoRA sur les benchmarks de compréhension multimodale. Ce résultat remet en question une hypothèse implicite du secteur : préserver les connaissances pré-entraînées et adapter efficacement au contrôle robotique seraient deux objectifs incompatibles. La décomposition spectrale permet d'allouer la capacité d'adaptation là où elle est nécessaire sans écraser les représentations visuelles-sémantiques acquises. Pour les équipes R&D et les intégrateurs travaillant sur des robots manipulateurs, cela signifie qu'un modèle de fondation peut être spécialisé sur un domaine restreint avec un budget computationnel réduit sans sacrifier la généralisation. La robustesse observée face à plusieurs changements de distribution (environnement, objets, éclairage) renforce la crédibilité de l'approche, même si les expériences sur plateformes physiques restent limitées dans les résultats publiés. Les modèles VLA constituent depuis 2023-2024 un axe de recherche majeur, portés notamment par OpenVLA (UC Berkeley), pi-0 (Physical Intelligence) et GR00T N1/N2 (NVIDIA). La stratégie dominante jusqu'ici reposait sur un affinage complet coûteux ou sur LoRA standard, qui peine à capturer la complexité des politiques de contrôle. VLA-GSE se positionne entre ces deux extrêmes avec un ratio paramètres/performance favorable. Le code source est disponible sur GitHub (YuhuaJiang2002/VLA-GSE), facilitant la reproduction. Les prochaines étapes logiques incluent des validations sur des plateformes physiques variées, notamment des bras à 6-7 DOF et des robots mobiles manipulateurs, ainsi qu'une comparaison directe avec des approches concurrentes comme SpatialVLA en conditions de déploiement réel.

RechercheOpinion
1 source
OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste
194arXiv cs.RO 

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

OA-WAM (Object-Addressable World Action Model), soumis sur arXiv en mai 2025 (arXiv:2605.06481), propose une politique vision-langage-action (VLA) qui décompose chaque frame en N+1 "slots" d'état : un slot robot et N slots objets. Chaque slot combine un vecteur d'adresse persistant (identifiant stable de l'objet) et un vecteur de contenu variable décrivant son état courant. Ces représentations sont fusionnées avec des tokens textuels, visuels, proprioceptifs et d'actions dans une séquence causale par blocs, alimentant une tête "monde" (prédiction du frame suivant) et une tête d'action par flow-matching (chunk de 16 actions continues). Le modèle atteint 97,8 % de succès sur le benchmark LIBERO et 79,3 % sur SimplerEnv. Un test de "causal slot-intervention" mesure un cosinus de binding de 0,87 contre un maximum de 0,09 pour les baselines holistes, un écart difficile à ignorer. Le problème central est le "scene entanglement" : quand une politique représente l'évolution du monde comme une image globale ou des tokens vidéo, le décodeur d'action peine à cibler un objet précis dès que la scène varie (distracteurs, occlusions, changements d'éclairage). En séparant explicitement "quel objet" (l'adresse) de "comment il est" (le contenu), et en routant l'attention cross-slot via des clés d'adresse uniquement, l'architecture maintient l'identité des objets sous perturbations contextuelles sans surcoût en tokens. Pour un intégrateur B2B ou un COO industriel, c'est un argument concret vers des politiques robotiques stables face aux variations de ligne de production, sans retraining systématique à chaque changement de contexte. Les WAMs (World Action Models) sont une extension récente des VLA classiques (π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind) qui ajoutent une prédiction de scène en boucle fermée pour contraindre les décisions d'action. OA-WAM s'inscrit dans la lignée des modèles à slots (SAVi, IODINE) transposés au contrôle robot. Il s'agit d'un preprint académique : toutes les évaluations sont conduites en simulation (LIBERO, SimplerEnv), sans validation sur robot physique mentionnée. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade. La prochaine étape logique sera la validation sim-to-real sur manipulateurs réels et l'extension à des tâches de manipulation longue durée.

IA physiqueOpinion
1 source
RLDX-1 : rapport technique
195arXiv cs.RO 

RLDX-1 : rapport technique

Un rapport technique déposé sur arXiv le 6 mai 2026 présente RLDX-1, une politique robotique généraliste conçue pour la manipulation dextre complexe. L'architecture centrale, baptisée Multi-Stream Action Transformer (MSAT), intègre des modalités hétérogènes via des flux spécialisés par modalité couplés à une attention croisée inter-modale (cross-modal joint self-attention). Cette conception cible trois lacunes persistantes des modèles Vision-Langage-Action (VLA) actuels : la conscience du mouvement (motion awareness), la prise de décision avec mémoire contextuelle, et l'intégration de retours sensoriels physiques. Le système combine cette architecture avec des choix de conception système : génération synthétique de données d'entraînement pour les scénarios de manipulation rares, procédures d'apprentissage spécialisées pour un geste proche du mouvement humain, et optimisations d'inférence pour le déploiement temps réel. Sur le benchmark ALLEX, conçu pour évaluer le contrôle de robots humanoïdes à haut degré de liberté (DoF) sous des exigences fonctionnelles variées, RLDX-1 atteint un taux de succès de 86,8 % contre environ 40 % pour π0.5 (Physical Intelligence) et GR00T N1.6 (NVIDIA), soit un écart de plus de 45 points. Ces résultats, obtenus à la fois en simulation et sur des tâches en environnement réel, indiquent que l'architecture MSAT surpasse les VLA de référence sur des tâches impliquant des contacts riches, des dynamiques rapides et des contraintes sensorimotrices multiples. C'est précisément sur ce segment -- la manipulation dextre en conditions réelles, pas en démonstration contrôlée -- que le fossé entre recherche et déploiement industriel reste le plus large, et que ces chiffres méritent une validation indépendante avant d'être pris au pied de la lettre. Les VLA ont connu une accélération marquée depuis 2024, portés par RT-2 (Google DeepMind), OpenVLA, puis la série π0/π0.5 de Physical Intelligence et la famille GR00T de NVIDIA. RLDX-1 s'inscrit dans cette dynamique en cherchant à dépasser le paradigme "versatilité générale" pour cibler des capacités fonctionnelles élargies sur des robots humanoïdes haute-DoF. Aucune affiliation institutionnelle ou entreprise n'est clairement identifiée dans l'abstract publié -- le rapport reste à ce stade un preprint non revu par les pairs, sans annonce de déploiement ni calendrier de commercialisation. Les étapes naturelles suivantes incluront une validation indépendante des benchmarks et une évaluation sur des plateformes humanoïdes commerciales comme celles de Figure, Unitree ou Agility Robotics.

IA physiqueOpinion
1 source
Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue
196arXiv cs.RO 

Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue

Une équipe de chercheurs a publié MVP-LAM (Multi-ViewPoint Latent Action Model), une méthode visant à améliorer le pré-entraînement des modèles vision-langage-action (VLA) à partir de vidéos humaines non étiquetées. Le problème ciblé : les actions latentes apprises depuis des vidéos mono-vue encodent des indices visuels propres à l'angle de caméra, plutôt que la sémantique réelle du mouvement. MVP-LAM impose un objectif de reconstruction inter-vues (cross-viewpoint reconstruction) : une action latente extraite depuis une caméra doit prédire l'évolution de la scène telle que vue depuis une autre caméra. Évalué sur le jeu de données Bridge V2, le modèle produit des actions latentes dont l'information mutuelle avec les vraies actions de référence dépasse celle des baselines, y compris en conditions hors-distribution. Ces représentations améliorées se traduisent par de meilleures performances de manipulation en aval sur plusieurs benchmarks standards. Le code et les checkpoints entraînés sont disponibles publiquement. La contrainte géométrique multi-vues a un impact direct pour les intégrateurs : un modèle pré-entraîné sur des actions latentes robustes au changement de point de vue devrait mieux résister au gap entre démonstration et déploiement réel, notamment dans des cellules robotiques où la position des caméras diffère entre collecte de données et production. MVP-LAM valide aussi l'usage de larges corpus vidéo non supervisés (vidéos internet, archives industrielles) sans démonstrations téléopérées : la cohérence inter-vues remplace partiellement le signal proprioceptif, réduisant le coût de collecte des données d'entraînement. Le pré-entraînement VLA depuis des vidéos non annotées s'inscrit dans la continuité de travaux comme RT-2 (Google DeepMind), UniPi, et plus récemment pi-0 (Physical Intelligence) ou OpenVLA. Ces approches partagent l'ambition d'exploiter des données vidéo à grande échelle pour doter les robots d'une compréhension généraliste du mouvement avant fine-tuning sur tâches spécifiques. MVP-LAM apporte une contribution méthodologique en renforçant la qualité des pseudo-labels d'action, une étape souvent négligée au profit de l'architecture des modèles aval. Il s'agit d'un travail académique sans déploiement industriel annoncé, mais dont la disponibilité du code facilite la reproduction et l'adaptation sur d'autres plateformes robotiques.

IA physiqueOpinion
1 source
Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative
197arXiv cs.RO 

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative

Une équipe de chercheurs a déposé début mai 2026 sur arXiv (référence 2605.00412v1) un article de position proposant un nouveau cadre théorique pour les modèles du monde en IA incarnée : les Hamiltonian World Models. L'idée centrale est d'encoder les observations d'un robot ou d'un agent autonome dans un espace de phase latent structuré, de faire évoluer cet état via une dynamique inspirée du formalisme hamiltonien de la mécanique classique (avec des termes de contrôle, de dissipation et des résidus appris), puis de décoder la trajectoire prédite en observations futures exploitables pour la planification. Il s'agit d'un preprint théorique sans résultats expérimentaux publiés à ce stade. L'argument principal avancé est que le véritable goulot d'étranglement des modèles du monde n'est plus leur capacité à générer des futurs visuellement réalistes, mais à produire des prédictions physiquement cohérentes et exploitables pour la décision sur un horizon long. Les trois courants dominants actuels peinent chacun à garantir cette stabilité physique : les modèles vidéo génératifs 2D (à la Sora ou Genie), les modèles 3D centrés sur la reconstruction de scènes, et les modèles latents prédictifs de type JEPA (portés notamment par Yann LeCun chez Meta) progressent en silo sans répondre aux exigences du contrôle robotique réel. Pour les équipes de reinforcement learning basé sur modèles (MBRL) et les intégrateurs robotiques, cela se traduit concrètement par des politiques qui dérivent lors des rollouts simulés, fragilisant le transfert sim-to-real. Ancrer la dynamique latente dans le formalisme hamiltonien promettrait une meilleure interprétabilité des représentations internes, une moindre consommation de données d'entraînement et une stabilité accrue en inférence longue. Les auteurs reconnaissent eux-mêmes les obstacles pratiques majeurs : friction, contacts discontinus, forces non-conservatives et objets déformables rendent l'application directe du hamiltonien aux scènes robotiques réelles particulièrement complexe. Ce travail s'inscrit dans un renouveau plus large des world models, porté par Dreamer (Google DeepMind), JEPA (Meta), Genie 2 (Google DeepMind) et les travaux de Physical Intelligence sur les Visual-Language-Action models, mais il se distingue par un ancrage explicite en physique analytique plutôt qu'en apprentissage purement statistique. Aucun déploiement ni partenariat industriel n'est annoncé : l'article reste pour l'instant une contribution théorique ouvrant une direction de recherche.

RecherchePaper
1 source
IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA
198arXiv cs.RO 

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

Une équipe de chercheurs a publié le 1er mai 2026 (arXiv:2605.00321) un travail introduisant deux outils de diagnostic pour les politiques de type Vision-Langage-Action (VLA) : l'Interventional Significance Score (ISS) et le Nuisance Mass Ratio (NMR). L'ISS est une procédure de masquage interventionnel qui estime l'influence causale de régions visuelles spécifiques sur les prédictions d'action d'un agent robotique. Le NMR est une métrique scalaire qui quantifie dans quelle mesure un modèle s'appuie sur des caractéristiques visuelles non pertinentes pour la tâche plutôt que sur des causes réelles. La méthode reformule l'attribution visuelle comme un problème d'estimation interventionnelle, au sens de la causalité de Pearl, et non comme une simple corrélation statistique. Des expériences sur des tâches de manipulation variées confirment que le NMR prédit le comportement de généralisation, et que l'ISS produit des attributions plus fidèles que les méthodes d'interprétabilité existantes. À noter : le preprint ne publie ni code ni benchmark public, et les métriques de performance sur tâches spécifiques restent peu détaillées dans l'abstract. L'enjeu est direct pour les intégrateurs et les décideurs industriels : les modèles VLA actuellement déployés, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Sanctuary AI, échouent régulièrement hors de leur distribution d'entraînement. Jusqu'ici, identifier pourquoi restait largement empirique. ISS et NMR offrent un test diagnostique pré-déploiement : un NMR élevé signale que le modèle prend ses décisions sur la base de corrélations visuelles parasites (couleur de fond, éclairage, texture du sol) plutôt que sur la structure causale de la tâche. C'est une avancée concrète vers l'analyse formelle du sim-to-real gap, l'un des verrous les plus cités par les équipes d'intégration robotique industrielle, et cela ouvre la voie à des critères de certification hors-distribution avant mise en production. Le problème de l'interprétabilité des politiques robotiques apprises restait largement ouvert. Les méthodes existantes, cartes de saillance par gradient ou rollout d'attention, reposent sur des observations corrélationnelles et ont tendance à surestimer l'importance de features visuelles non causales. Ce travail se positionne explicitement contre ces approches en adoptant un cadre interventionnel rigoureux. Aucune affiliation institutionnelle n'est mentionnée dans le preprint. Les suites naturelles incluent l'application systématique de ces métriques sur des architectures établies comme OpenVLA, Octo ou RoboVLMs, et potentiellement leur intégration comme signal de régularisation pendant l'entraînement. Le papier arrive au moment où Figure AI, 1X Technologies et Agility Robotics intensifient leurs déploiements en environnements industriels réels, rendant la robustesse hors-distribution critique pour la crédibilité commerciale du secteur.

UECes outils de diagnostic pourraient aider les intégrateurs industriels européens à évaluer la robustesse hors-distribution des modèles VLA avant déploiement, et à terme nourrir des critères de certification conformes à l'AI Act.

IA physiquePaper
1 source
LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA
199arXiv cs.RO 

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

Des chercheurs ont publié le 29 avril 2026 sur arXiv (2604.28192) un nouveau cadre pour les modèles Vision-Langage-Action (VLA) baptisé LaST-R1, accompagné d'un algorithme d'apprentissage par renforcement inédit appelé LAPO (Latent-to-Action Policy Optimization). Le système atteint un taux de succès moyen de 99,8 % sur le benchmark de manipulation robotique LIBERO, après un unique épisode d'imitation supervisée en guise d'amorçage. En déploiement réel sur quatre tâches complexes, dont des configurations monobranche et bras-double, LAPO améliore les performances de 44 % par rapport à la politique issue de cet amorçage initial. L'apport central de LaST-R1 est de relier explicitement le raisonnement sur la physique à la génération d'actions, là où les approches existantes traitaient ces deux étapes séparément. Les VLA actuels raisonnent soit en langage naturel (coûteux en latence et discret), soit dans un espace latent continu, mais dans les deux cas par imitation statique, sans capacité d'adaptation par essais-erreurs. LAPO co-optimise simultanément le processus de raisonnement latent et la production d'actions via du renforcement en ligne, ce qui améliore la modélisation du monde physique et la robustesse en environnement interactif. Un mécanisme de "latent Chain-of-Thought adaptatif" permet en outre au modèle d'ajuster dynamiquement son horizon de raisonnement selon la complexité de la situation, sans coût fixe à chaque pas. Il s'agit d'une annonce académique sous forme de preprint, pas encore d'un produit embarqué sur robot commercial. Ce travail s'inscrit dans la course à la généralisation des VLA, portée ces derniers mois par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. L'un des verrous récurrents du secteur est l'écart simulation-réalité (sim-to-real gap) et la difficulté à faire converger rapidement un modèle en conditions réelles sans millions d'épisodes supervisés. LaST-R1 revendique une convergence significativement accélérée grâce à l'optimisation jointe du raisonnement latent, une piste que suivent aussi des équipes européennes travaillant sur l'apprentissage par renforcement pour la manipulation, notamment dans l'orbite des laboratoires universitaires français. Les prochaines étapes naturelles seront la validation sur des benchmarks plus diversifiés (AgiBot World, RLBench) et l'intégration dans des plateformes matérielles commerciales.

UELes laboratoires français et européens travaillant sur la manipulation robotique par apprentissage par renforcement peuvent s'appuyer sur l'approche LAPO pour réduire leur dépendance aux grandes quantités de données supervisées, accélérant potentiellement leurs cycles de recherche.

IA physiqueOpinion
1 source
PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives
200arXiv cs.RO 

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

PRTS (Primitive Reasoning and Tasking System) est un modèle fondation Vision-Langage-Action (VLA) présenté dans un preprint arXiv (réf. 2604.27472, avril 2026). Il reformule le préentraînement des VLA en substituant le clonage comportemental supervisé classique par de l'apprentissage par renforcement conditionné sur des objectifs (Goal-Conditioned Reinforcement Learning, GCRL). Chaque instruction en langage naturel est traitée comme un but à atteindre : PRTS apprend un espace d'embedding unifié où le produit scalaire entre vecteurs état-action et vecteur objectif approxime la log-probabilité actualisée d'atteindre cet objectif depuis l'état courant, une quantité appelée log-discounted goal occupancy. Ce signal de supervision dense est extrait directement de trajectoires offline sans annotation de récompense, puis injecté dans le backbone multimodal via un masque causal adaptatif (role-aware causal mask), avec un surcoût computationnel marginal. Le modèle est préentraîné sur 167 milliards de tokens couvrant des données de manipulation et de raisonnement embodied. Il atteint l'état de l'art sur les benchmarks LIBERO, LIBERO-Pro, LIBERO-Plus et SimplerEnv, ainsi que sur une suite de 14 tâches physiques réelles, avec des gains particulièrement nets sur les tâches longue-horizon, riches en contacts, et sur les instructions zero-shot inédites. L'enjeu est structurant pour le domaine des politiques robotiques générales. Les VLA actuels les plus avancés, notamment Pi-0 et Pi-0.5 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, reposent tous sur une logique de clonage comportemental : le modèle imite des démonstrations sans représentation explicite du progrès vers un objectif. PRTS introduit une conscience intrinsèque de l'atteignabilité des buts (goal reachability awareness), ce qui se traduit par des améliorations précisément là où les VLA peinent le plus en déploiement réel : planification longue-horizon, robustesse aux contacts et généralisation zéro-shot. Si ces résultats se confirment indépendamment, l'approche contrastive GCRL pourrait redéfinir le paradigme de préentraînement dominant dans le domaine. Le contexte compétitif est celui d'une convergence accélérée vers des fondations VLA à grande échelle capables de généralisation zéro-shot. Physical Intelligence, NVIDIA Robotics, Google DeepMind (RT-2, Octo) et de nombreuses équipes académiques travaillent simultanément sur ce segment. La contribution de PRTS est avant tout méthodologique : en n'exigeant aucune annotation de récompense et en tirant sa supervision de trajectoires offline déjà disponibles, l'approche est potentiellement reproductible avec des ressources plus modestes. Il s'agit toutefois d'un résultat de recherche à ce stade, non d'un déploiement commercial : les évaluations physiques portent sur 14 tâches dont les conditions expérimentales restent à vérifier indépendamment, et aucune timeline de productisation n'est mentionnée.

IA physiqueOpinion
1 source