Aller au contenu principal

Dossier arXiv cs.RO — page 11

2027 articles · page 11 sur 41

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

HEART : coordination d'agents experts hétérogènes pour la planification de tâches robotiques ancrée dans le réel
501arXiv cs.RO RecherchePaper

HEART : coordination d'agents experts hétérogènes pour la planification de tâches robotiques ancrée dans le réel

Une équipe de chercheurs publie sur arXiv (réf. 2606.25404) HEART, un framework de planification robotique qui distribue le raisonnement entre plusieurs LLM spécialisés plutôt que de confier l'ensemble de la tâche à un seul modèle. Le principe : décomposer une instruction complexe en sous-tâches atomiques (vérification des capacités du robot, analyse de l'atteignabilité des objets, respect des contraintes logiques et temporelles), puis allouer chacune à un agent LLM dédié, le tout sous une contrainte de budget en tokens pour rester viable sur du matériel embarqué ou en communication limitée. La synthèse finale produit un plan d'actions physiquement exécutable, validé avant transmission au robot. Les expériences sur plusieurs benchmarks de scénarios domestiques montrent une amélioration consistante du taux de succès face aux planificateurs mono-LLM et aux approches à base de règles, sans que l'abstract disponible détaille de chiffres absolus. La contribution centrale de HEART est d'intégrer une couche de validation physique avant la génération du plan, un angle mort chronique des approches LLM-only. Les modèles de langage généralisent bien le raisonnement symbolique mais peinent avec les contraintes géométriques réelles : objet hors de portée, séquence d'actions physiquement impossible, outil absent. En déléguant ces vérifications à des agents rôle-spécialisés, le framework réduit le taux de plans invalides ou incomplets. Pour les intégrateurs travaillant sur l'automatisation de tâches non-structurées en environnement domestique ou industriel léger, c'est un signal pertinent : la spécialisation des agents LLM par type de contrainte commence à produire des gains mesurables sur les benchmarks standard. Ce travail s'inscrit dans un courant de recherche actif qui cherche à dépasser les limites du "single LLM as planner", avec des approches comme SayPlan, LLM+P ou Code as Policies comme antécédents directs. Aucun acteur industriel ni déploiement terrain n'est mentionné, et le papier reste un preprint non relu par les pairs. L'absence de métriques chiffrées précises dans l'abstract (taux de succès, nombre de benchmarks, configurations matérielles testées) rend l'évaluation externe difficile. Les prochaines étapes naturelles seraient une validation sur robot physique réel et une comparaison contre des frameworks VLA (Vision-Language-Action) comme pi-0 ou GR00T N2, qui intègrent déjà un raisonnement ancré dans la perception sensorielle.

1 source
GRAFT : transfert d'affordances à base de graphes par correspondance de parties
502arXiv cs.RO 

GRAFT : transfert d'affordances à base de graphes par correspondance de parties

Des chercheurs ont publié sur arXiv (identifiant 2606.25241) GRAFT, un cadre de transfert d'affordance par correspondance de parties pour la manipulation robotique d'objets inconnus. Le principe : à partir d'un seul exemple par objet stocké dans un buffer de démonstrations, GRAFT permet à un robot de manipuler des instances qu'il n'a jamais vues, sans réentraînement. Chaque objet est représenté sous forme de graphe structuré par parties fonctionnelles, avec deux niveaux de descripteurs : des descripteurs au niveau des parties pour retrouver l'instance la plus proche fonctionnellement et géométriquement dans le buffer, puis des descripteurs au niveau des sommets pour localiser les points de contact précis à propager sur le nouvel objet. Ce que GRAFT apporte de concret, c'est la prise en compte explicite de la géométrie, là où les approches précédentes de transfert d'affordance s'appuyaient uniquement sur la similarité sémantique. Retrouver qu'une cafetière et une théière appartiennent à la même catégorie ne suffit pas si leurs anses diffèrent morphologiquement : le point de préhension optimal change, et un robot guidé uniquement par sémantique rate la saisie. En combinant alignement fonctionnel et correspondance géométrique fine des parties, GRAFT vise à réduire les échecs sur les variantes d'un même objet. Pour des intégrateurs en cellule flexible ou des équipes de bin-picking, cela signifie théoriquement moins de démonstrations à collecter pour couvrir la diversité d'un flux de pièces réel. La généralisation à de nouveaux objets avec peu d'exemples est un frein majeur en manipulation depuis des années : les méthodes d'imitation classiques requièrent typiquement des dizaines à des centaines de démonstrations par objet. Des approches récentes comme AnyGrasp, GraspNet ou les méthodes par affordance visuelle fondées sur CLIP (F3RM, CLIP-Fields) cherchent à réduire ce coût via des fondations vision-langage. GRAFT prend le pari inverse, en misant sur la correspondance structurelle de parties plutôt que sur le langage. Il s'agit d'une pré-publication arXiv sans institution mentionnée dans l'abstract et sans résultats quantitatifs accessibles sans lire le papier complet : les benchmarks de référence (YCB, OCID, RLBench) et les comparaisons avec les baselines restent à consulter dans le corps du travail avant toute conclusion sur les performances réelles.

RecherchePaper
1 source
AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine
503arXiv cs.RO 

AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine

Une équipe de chercheurs a publié sur arXiv (identifiant 2606.25503) un système de complétion de profondeur baptisé AISPO, destiné à améliorer la fiabilité de la perception 3D lors de la manipulation robotique d'objets à surfaces non-lambertiennes, c'est-à-dire transparents (verres, flacons, plastiques) ou fortement spéculaires (pièces métalliques polies). Ces matériaux posent un problème structurel aux capteurs RGB-D : les mesures de profondeur y sont systématiquement corrompues ou absentes, car ces surfaces ne diffusent pas la lumière infrarouge de façon prévisible. AISPO combine une fusion multi-échelle de caractéristiques RGB-D avec un prior de forme affine-invariant, qui impose une cohérence géométrique locale et corrige les défaillances de profondeur avant qu'elles ne se propagent au planificateur de mouvement et ne génèrent des poses de préhension invalides. L'intérêt industriel est direct : les objets non-lambertiens sont omniprésents en logistique pharmaceutique, en agroalimentaire et en assemblage électronique. La plupart des méthodes de complétion de profondeur existantes sont optimisées pour la précision moyenne sur des benchmarks standardisés, sans garantir la plausibilité physique des cartes de profondeur produites, ce qui suffit pour la reconstruction 3D mais pas pour générer des trajectoires de grasping exécutables. AISPO se distingue en priorisant l'intégrité structurelle des prédictions plutôt que la métrique globale. Les expériences de préhension réelle montrent une amélioration des taux de succès sur objets transparents, bien que l'article ne quantifie pas précisément cet écart, un manque de rigueur notable pour un travail qui se positionne sur la fiabilité. AISPO s'inscrit dans un champ de recherche actif autour de la perception d'objets difficiles à mesurer, aux côtés de travaux comme ClearGrasp (Google Research, 2019) et des jeux de données TransCG et DREDS. La contribution clé est le prior de forme affine-invariant, qui permet une généralisation à des objets et scènes non vus à l'entraînement, un enjeu central du sim-to-real gap. Aucune entreprise industrielle ni laboratoire européen n'est associé à ce travail, qui reste un préprint arXiv sans évaluation par les pairs. Les prochaines étapes naturelles seraient une intégration dans des pipelines de manipulation existants comme OpenVLA ou Pi-0 de Physical Intelligence, et une comparaison quantitative plus rigoureuse sur des benchmarks comme GraspNet-1B.

RecherchePaper
1 source
Apprentissage par renforcement résiduel incrémental pour la navigation sociale en conditions réelles
504arXiv cs.RO 

Apprentissage par renforcement résiduel incrémental pour la navigation sociale en conditions réelles

Des chercheurs ont publié sur arXiv (réf. 2604.07945, version 2) une méthode baptisée IRRL, Incremental Residual Reinforcement Learning, conçue pour permettre aux robots mobiles d'apprendre à naviguer parmi les piétons directement dans des environnements physiques réels, sans passer par une étape de simulation exhaustive. L'approche combine deux mécanismes distincts : l'apprentissage incrémental, un processus léger qui ne nécessite ni replay buffer ni mise à jour par batch, et le RL résiduel, qui restreint l'apprentissage aux corrections à apporter par rapport à une politique de base préexistante. Les expériences couvrent à la fois des environnements simulés et des déploiements réels sur robot physique, avec pour cible explicite les dispositifs edge à ressources computationnelles contraintes. L'enjeu industriel est concret : la navigation sociale, faire circuler un robot autonome parmi des piétons en respectant les conventions implicites de déplacement, est un verrou majeur pour les AMR déployés dans des espaces publics, des entrepôts partagés ou des établissements de santé. Le problème du sim-to-real gap est ici particulièrement prononcé, car les dynamiques piétonnes varient fortement selon les régions, les cultures et les configurations d'espace, rendant toute couverture exhaustive par simulation illusoire. IRRL propose une réponse directe : laisser le robot continuer à apprendre une fois déployé, en se limitant aux résidus par rapport à une politique de base, ce qui réduit drastiquement la charge computationnelle. Les résultats publiés montrent des performances comparables aux méthodes classiques avec replay buffer en simulation, et une supériorité sur les approches d'apprentissage incrémental existantes. Les expériences en environnement réel confirment une adaptation effective à des situations inédites. Ces résultats restent toutefois à interpréter avec prudence : il s'agit d'un preprint académique, sans benchmark standardisé ni déploiement à l'échelle annoncé. Le domaine de la navigation sociale par deep RL est actif depuis plusieurs années, porté par des travaux comme CrowdNav (ICRA 2019) ou des méthodes basées sur ORCA et ses extensions apprenantes. L'approche résiduelle n'est pas nouvelle en soi, elle est notamment utilisée dans le contrôle de robots manipulateurs pour corriger une politique classique, mais son application à la navigation sociale en conditions réelles avec contrainte edge reste peu explorée. Aucune institution ni entreprise n'est identifiée dans l'abstract disponible, et aucun partenariat industriel ni pilote terrain n'est mentionné. Les prochaines étapes naturelles seraient une validation sur des plateformes AMR commerciales (type Clearpath ou unitree) et une confrontation aux benchmarks publics de navigation sociale tels que BARN ou SocNavBench.

RecherchePaper
1 source
ProteusVPR : reconnaissance visuelle de lieux multi-scènes pour la perception maritime et l'inspection de cabines
505arXiv cs.RO 

ProteusVPR : reconnaissance visuelle de lieux multi-scènes pour la perception maritime et l'inspection de cabines

Des chercheurs ont déposé le 24 juin 2026 sur arXiv (2606.24234) ProteusVPR, un système de reconnaissance visuelle de lieu (VPR, Visual Place Recognition) conçu pour les robots d'inspection en milieu maritime. Le problème de fond : à bord d'un navire, un robot doit naviguer entre deux environnements visuellement antagonistes, les ponts extérieurs aux textures rares et aux variations d'éclairage sévères, et les cabines intérieures aux structures répétitives générant de fortes ambiguïtés. ProteusVPR répond avec une architecture à deux étapes : une première phase de récupération d'images via n'importe quel backbone VPR standard, suivie d'un réseau d'estimation géométrico-visuelle qui fusionne l'image récupérée avec deux trames temporellement précédentes, intégrant des descripteurs géométriques, un système de coordonnées affines locales et un encodage de l'azimut caméra. Les auteurs introduisent également le dataset XHZ, jeu de données panoramiques 8K collecté sur un navire en opération, couvrant des structures multi-niveaux de cabines, des zones de transition pont-intérieur et une séparation stricte requête-base de données. Sur ce benchmark, ProteusVPR réduit l'erreur de localisation moyenne de plus de 60 % par rapport aux backbones classiques testés. Ce résultat pèse parce que les méthodes VPR actuelles, conçues pour l'urbain ou l'indoor, échouent systématiquement à généraliser sur des scènes aussi hétérogènes au sein d'un même parcours. En inspection navale autonome, une localisation dégradée invalide un cycle d'audit entier ou génère de fausses alertes sur l'état de la coque ou des espaces confinés. La modularité de ProteusVPR est son argument commercial le plus fort : son deuxième étage s'intègre au-dessus de tout pipeline VPR existant, ce qui réduit le coût d'adoption pour les équipes qui disposent déjà d'une infrastructure de localisation visuelle. La VPR est un problème actif depuis vingt ans, de NetVLAD aux approches transformers récentes, mais son application maritime reste marginale, la plupart des systèmes embarqués s'appuyant sur LiDAR ou GNSS, peu fiables sous pont. Des acteurs comme SeaRobotics, Voyis ou Greensea Systems couvrent l'inspection de coque et sous-marine, mais le créneau ponts-cabines demeure peu industrialisé. L'équipe ne mentionne ni partenaire industriel ni calendrier de déploiement : ProteusVPR reste pour l'heure une contribution académique (preprint arXiv), sans produit embarqué démontré en conditions réelles.

RecherchePaper
1 source
SWAP : modèle du monde symétrique équivariant pour le parkour robotique agile
506arXiv cs.RO 

SWAP : modèle du monde symétrique équivariant pour le parkour robotique agile

Des chercheurs ont publié sur arXiv le 19 juin 2026 un preprint décrivant SWAP (Symmetric World-model for Agile Parkour), un cadre d'apprentissage par renforcement pour la locomotion agile de robots quadrupèdes. L'approche couple un modèle du monde latent, qui permet des prédictions proactives sur le terrain à venir, avec un principe d'équivariance par symétrie gauche-droite intégré simultanément dans le modèle du monde et dans les réseaux acteur-critique. En tests réels, le robot associé au framework franchit un fossé de 2,13 mètres d'un saut et escalade une plateforme de 1,63 mètre. Les auteurs présentent ces résultats comme des records pour le parkour quadrupède, affirmation non encore validée de façon indépendante. Le système démontre également une généralisation robuste à des environnements extérieurs et à des terrains miroirs non vus lors de l'entraînement, sans ré-entraînement (zero-shot transfer). L'enjeu central est l'efficacité d'apprentissage. Les modèles du monde purement pilotés par les données encodent les interactions symétriques gauche-droite comme des patterns indépendants, gonflant inutilement la complexité d'apprentissage et empêchant la capture des régularités géométriques du terrain. En intégrant l'équivariance comme prior structurel, SWAP réduit cette redondance et rend l'espace latent plus compact pour la politique en aval. Pour les équipes de recherche appliquée, le résultat le plus notable reste le transfert zero-shot vers des terrains inédits : si confirmé sur d'autres plateformes matérielles, cela réduirait le besoin de données de fine-tuning spécifiques à chaque déploiement, un verrou important dans le sim-to-real actuel pour la locomotion agile. Le parkour quadrupède est devenu un benchmark de facto depuis les travaux d'ETH Zurich sur ANYmal et le papier Parkour Learning de 2023, suivis par Carnegie Mellon University, qui ont progressivement montré que des politiques entraînées en simulation pouvaient généraliser à des obstacles physiques complexes. L'usage de modèles du monde latents pour la locomotion reste une piste plus récente par rapport aux pipelines classiques de RL bout-en-bout, et SWAP se positionne à l'intersection de ces deux axes. Le preprint ne mentionne ni le nom précis du robot utilisé ni l'institution d'origine des auteurs, deux détails qui limiteront la reproductibilité jusqu'à la publication complète en conférence. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

RecherchePaper
1 source
COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés
507arXiv cs.RO 

COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés

Des chercheurs ont publié sur arXiv (arXiv:2605.17144) une méthode d'inférence baptisée COAST, Contrastive Conceptor Activation Steering, conçue pour améliorer les performances des modèles Vision-Language-Action (VLA) sans nécessiter aucun réentraînement. Le constat de départ est documenté mais rarement quantifié aussi clairement : malgré un pré-entraînement massif sur des corpus web (images, texte, vidéo), les VLA échouent fréquemment sur des tâches robotiques élémentaires. COAST construit ce qu'on appelle des "conceptors", des opérateurs linéaires qui projettent les données vers les composantes principales d'une distribution cible. En pratique, on fournit au système quelques trajectoires de succès et d'échecs pour une tâche donnée ; COAST en extrait des sous-espaces d'activation critiques pour le succès, puis oriente les états latents du modèle vers ces sous-espaces au moment de l'inférence. Testée sur trois architectures distinctes, VLA à flow-matching, VLA autorégressif et Diffusion Policy, la méthode améliore le taux de succès absolu de plus de 20 points en simulation et de plus de 40 points sur robot réel. Ces chiffres sont significatifs parce qu'ils suggèrent que les VLA actuels encodent déjà une connaissance pertinente pour la tâche dans leurs représentations internes, mais qu'un goulot d'étranglement dans le décodage de l'action empêche cette connaissance de se traduire en comportement fiable. COAST contourne ce problème sans toucher aux poids du modèle, ce qui le rend compatible avec n'importe quel VLA déployé. Autre observation structurelle importante : les modes d'échec partagent une géométrie commune entre tâches différentes, alors que les représentations de succès restent largement spécifiques à chaque tâche. Cette asymétrie permet de réutiliser des conceptors calibrés sur une tâche pour améliorer les performances sur une tâche nouvelle, sans recalibration. Le travail s'inscrit dans un courant plus large de recherche sur le pilotage des représentations internes (activation steering), initialement développé dans le domaine de l'interprétabilité mécanistique des LLM. Côté robotique, les VLA de référence incluent Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, tous confrontés à ce même écart entre performance en démo et robustesse en déploiement réel. COAST ne rivalise pas avec ces modèles mais s'y greffe en post-traitement. Les auteurs n'annoncent pas de déploiement industriel ; il s'agit pour l'instant d'une contribution de recherche, dont la prochaine étape naturelle serait une validation sur des tâches longue-horizon et sur des plateformes humanoïdes à haute dimensionnalité.

💬 +40 points sur robot réel sans retraining, c'est le genre de résultat qui me fait relire le papier deux fois. L'idée centrale est solide : les VLA encodent déjà ce qu'il faut savoir, c'est le passage vers l'action motrice qui bloque, et COAST règle ça en orientant les activations internes au bon endroit. Bon, on est encore loin du déploiement industriel, mais si tu bosses avec Pi-0 ou GR00T en ce moment, cette méthode se greffe directement sur ce que t'as.

IA physiqueOpinion
1 source
Autonomie robotique à seuil de confiance : quand l'incertitude est-elle vraiment utile ?
508arXiv cs.RO 

Autonomie robotique à seuil de confiance : quand l'incertitude est-elle vraiment utile ?

Des chercheurs ont déposé sur arXiv (2605.18045) une étude systématique sur l'autonomie à seuil de confiance, mécanisme par lequel un robot décide d'agir de façon autonome ou de déléguer à une politique de repli selon son niveau d'incertitude prédictive. L'équipe a comparé trois familles de méthodes d'estimation de l'incertitude (heuristiques softmax, MC Dropout, ensembles de modèles) sur trois benchmarks de reconnaissance d'activité temporelle, avant de valider les résultats dans une simulation embarquée multi-seed mesurant taux de collision et coût opérationnel. Les auteurs critiquent les métriques standard comme l'ECE (erreur de calibration attendue) et l'AUROC : ces indicateurs ne testent pas directement si l'incertitude modifie la décision agir/déléguer. Ils proposent en remplacement une évaluation par corrélation de rang de Spearman, tests d'équivalence par bootstrap, et accord act/defer. Le résultat central contredit une hypothèse fréquente dans la robotique de déploiement : une fois un seuil de compétence minimal atteint par le modèle de base, les trois méthodes produisent des comportements de gating quasi-identiques. C'est le choix du seuil de décision qui pèse le plus sur les résultats d'exécution, bien davantage que la sophistication de la méthode d'incertitude choisie. En pratique, un proxy simple (softmax) suffit pour le gating sélectif dès lors que le modèle est compétent. Revers de la médaille : la détection sémantique hors-distribution fine-grained reste proche du hasard même avec des ensembles de modèles. Les systèmes actuels ne savent pas identifier une situation véritablement inédite, ce qui représente un angle mort critique pour les robots opérant en environnements non contrôlés. Ce travail s'inscrit dans le champ de l'autonomie partagée (shared autonomy), question centrale pour les robots collaboratifs et les AMR industriels. Les méthodes comparées (MC Dropout, Gal et Ghahramani 2016 ; ensembles, Lakshminarayanan 2017) font figure de références établies dans le domaine. Les résultats relativisent les arguments commerciaux en faveur des estimateurs bayésiens avancés pour le déploiement terrain, un sujet directement pertinent pour des acteurs comme Boston Dynamics, Figure AI, Apptronik ou Intrinsic (Alphabet), dont les systèmes doivent décider en temps réel quand solliciter un opérateur humain. Les auteurs annoncent comme prochaines étapes l'extension à des modalités sensorielles plus riches et à des scénarios de décalage de covariable plus agressifs, pour tester la robustesse des conclusions hors du cadre benchmarké.

RecherchePaper
1 source
PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes
509arXiv cs.RO 

PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes

Une équipe de chercheurs a présenté PRIME (Physically-consistent Robotic Inertial and Motion Estimation), une méthode d'estimation de mouvement pour robots à pattes et humanoïdes publiée sur arXiv en mai 2026 (arXiv:2605.17681). Là où les pipelines conventionnels basés sur des filtres de Kalman étendus (EKF) ou la capture de mouvement externe ne reconstruisent que la cinématique, PRIME formule le problème comme une estimation MAP (Maximum A Posteriori) qui raffine simultanément les données proprioceptives brutes et les commandes des actionneurs pour produire une trajectoire dynamiquement cohérente. L'algorithme estime conjointement les forces de contact frictionnelles et les paramètres inertiels du robot (masses, centres de masse, moments d'inertie), via une modélisation différentiable de la dynamique de contact avec contraintes de complémentarité lissées et un modèle de friction d'Anitescu. Les validations ont été conduites sur des robots quadrupèdes et sur l'humanoïde Unitree G1, lors de séquences de locomotion à contacts multiples en déploiement réel. Le problème abordé est structurel : les pipelines de perception robotique actuels ignorent les forces de contact et les paramètres inertiels effectifs du système, ce qui entraîne des reconstructions qui violent régulièrement la dynamique des corps rigides, en particulier lors des phases de contact. Cette incohérence dégrade la qualité des données d'entraînement et limite la robustesse des contrôleurs en boucle fermée. PRIME produit des reconstructions de mouvement annotées en forces et contacts directement depuis des robots en déploiement terrain, sans infrastructure de laboratoire. Pour les équipes qui développent des modèles de fondation robotiques ou des architectures Visual-Language-Action (VLA), cette capacité représente une source de données haute qualité exploitable à grande échelle, là où la rareté d'annotations dynamiques fiables reste un goulot d'étranglement reconnu. L'estimation d'état pour robots à pattes est un problème ancien, historiquement traité par EKF couplés à la proprioception, la capture de mouvement restant cantonnée aux laboratoires. PRIME se distingue en proposant une solution embarquée et déployable en conditions réelles, sans dépendance à une infrastructure externe. L'humanoïde Unitree G1, commercialisé autour de 16 000 dollars et très présent dans la recherche académique mondiale, sert de banc de validation représentatif. Dans un contexte où Boston Dynamics, Figure AI, Agility Robotics, 1X et Unitree accumulent des données de déploiement pour alimenter leurs pipelines d'apprentissage, PRIME propose une brique méthodologique transversale pour enrichir ces corpus avec des annotations dynamiques fiables. Les applications naturelles incluent l'imitation learning, le transfert sim-to-real et l'entraînement de modèles de fondation à partir de données terrain.

UELes équipes de recherche européennes en locomotion robotique (INRIA, LAAS-CNRS) pourraient exploiter PRIME pour enrichir leurs pipelines d'entraînement sans infrastructure de laboratoire, mais aucun acteur ou institution européen n'est directement impliqué.

RecherchePaper
1 source
Apprentissage par renforcement efficace pour les VLA par masquage probabiliste de séquences
510arXiv cs.RO 

Apprentissage par renforcement efficace pour les VLA par masquage probabiliste de séquences

Une équipe de chercheurs propose dans un preprint arXiv (2605.16154, mai 2026) une modification algorithmique baptisée Probabilistic Chunk Masking (PCM), conçue pour réduire le coût computationnel de l'entraînement par renforcement (RL) des politiques vision-langage-action (VLA). Testée sur trois benchmarks LIBERO, PCM atteint les mêmes taux de réussite finale que l'algorithme GRPO standard tout en réduisant le temps d'entraînement d'un facteur 2,38x en temps réel, les mises à jour de gradient de 4,8x, et la mémoire d'activation de pointe de 60 %. Elle y parvient en ne rétropropageant que moins de 20 % des chunks de trajectoire, sans recourir à un modèle de récompense ni à un critic appris. Le résultat le plus structurant de ce travail n'est pas le speedup lui-même, mais la remise en cause d'une hypothèse dominante dans la communauté : l'idée que le goulot d'étranglement du RL pour VLA se situe dans la collecte de rollouts (via simulateurs ou world models). Les mesures des auteurs montrent que le calcul de gradient représente 78 % du temps CPU par étape, contre seulement 21 % pour la collecte. GRPO distribue uniformément le signal d'apprentissage sur toute la trajectoire, y compris les phases que le modèle maîtrise déjà après pré-entraînement et fine-tuning supervisé. PCM corrige cela en concentrant le budget de gradient sur les phases où les rollouts réussis et échoués divergent réellement, proxy mesurable de la variance de gradient par phase. Pour les équipes qui entraînent des VLA sur robot physique avec des budgets GPU contraints, ce type d'optimisation change concrètement ce qui est faisable en interne. Le contexte immédiat est l'essor du post-training RL pour VLA, une tendance portée notamment par Physical Intelligence avec π0, par les travaux OpenVLA, et par l'adaptation de GRPO (initialement développé par DeepSeek pour les LLM) à la manipulation robotique. PCM s'insère comme brique orthogonale à ces approches : elle ne modifie ni l'architecture ni le schéma de récompense, ce qui facilite son intégration dans des pipelines existants. Le papier reste un preprint académique sans déploiement annoncé, mais sa reproductibilité sur LIBERO et l'absence de composants supplémentaires en font un candidat sérieux pour être adopté rapidement par les laboratoires qui expérimentent le RL sur VLA.

UELes laboratoires européens travaillant sur l'entraînement RL de politiques VLA (INRIA, CEA-List) pourraient bénéficier de cette optimisation pour réduire leurs coûts GPU, mais aucun acteur européen n'est directement impliqué dans ce preprint.

RechercheOpinion
1 source
Des quadrillages aux entrepôts : adapter la planification multi-agents légère en un coup pour les robots à guidage automatique
511arXiv cs.RO 

Des quadrillages aux entrepôts : adapter la planification multi-agents légère en un coup pour les robots à guidage automatique

Une équipe de chercheurs a publié le 21 mai 2026 (arXiv:2605.15799) un nouveau cadre algorithmique baptisé MAWPF (Multi-Agent Warehouse Pathfinding), conçu pour adapter les méthodes classiques de planification multi-agents (MAPF) aux véhicules guidés automatisés (AGV) à transmission différentielle réellement déployés en entrepôt. Contrairement aux formulations MAPF standards qui supposent une grille 2D à quatre connexions avec des déplacements unitaires, MAWPF intègre quatre contraintes physiques réalistes : les agents ne peuvent effectuer que des mouvements rectilignes ou des rotations sur place, les rotations ont un coût multi-étapes (non unitaire), les phases d'accélération et de décélération sont modélisées explicitement, et les collisions par l'arrière entre robots suiveurs sont interdites. Les auteurs ont adapté et comparé quatre algorithmes sous-optimaux représentatifs issus de la littérature MAPF : PP (Prioritized Planning), LNS2 (Large Neighborhood Search 2), PIBT (Priority Inheritance with Backtracking) et LaCAM. Les benchmarks montrent que PP et LNS2 peinent à résoudre des instances à grand nombre d'agents, tandis que les approches basées sur PIBT offrent une meilleure scalabilité, au prix d'un coût de solution plus élevé. Ce travail comble un écart concret entre la recherche en planification combinatoire et les contraintes opérationnelles des entrepôts automatisés, où les AGV à transmission différentielle dominent le marché (flottes Locus Robotics, 6 River Systems, Exotec Skypod). Le fait que les rotations et la cinématique soient désormais intégrées dans le modèle de collision élimine une source fréquente d'échec au déploiement, le "sim-to-real gap" cinématique, sans abandonner la tractabilité de la recherche combinatoire discrète. Pour un intégrateur ou un COO, cela signifie que les algorithmes de planification peuvent être qualifiés sur des métriques proches du comportement réel des véhicules, réduisant les ajustements coûteux en production. Le MAPF classique, formalisé depuis les années 2010 avec des algorithmes comme CBS (Conflict-Based Search) et ses variantes, a longtemps été critiqué pour son manque de réalisme physique. Des travaux récents comme MAPF avec agents de taille variable ou avec contraintes temporelles ont ouvert cette direction, mais la cinématique différentielle restait peu traitée. Sur le plan concurrentiel, Amazon Robotics et Waymo Via investissent dans des approches d'optimisation de flotte propriétaires, tandis que des startups comme Exotec (France) ou Autostore misent sur des architectures matérielles contraintes qui simplifient le problème de planification. La prochaine étape naturelle serait l'extension à la planification lifecycle (avec objectifs de livraison dynamiques) et des tests sur des entrepôts physiques instrumentés, non encore annoncés par les auteurs.

UELes intégrateurs de flottes AGV en Europe, et notamment Exotec (France, Skypod), peuvent s'appuyer sur ce cadre MAWPF pour qualifier leurs planificateurs sur des métriques cinématiques réalistes, réduisant les coûteux ajustements de production liés au sim-to-real gap différentiel.

IndustrielPaper
1 source
frax : cinématique et dynamique robotique rapide en JAX
512arXiv cs.RO 

frax : cinématique et dynamique robotique rapide en JAX

Une équipe de chercheurs a publié frax, une bibliothèque open-source de cinématique et dynamique de corps rigides pour la robotique, construite sur JAX, le framework d'autodifférenciation de Google. Documentée dans l'article arXiv:2604.04310, la librairie cible une lacune précise : la plupart des bibliothèques existantes excellent soit en exécution CPU à faible latence, soit en débit GPU massif, mais rarement les deux à la fois. frax propose une interface unifiée en Python pur, opérationnelle sur CPU, GPU et TPU sans modification de code. Sur CPU, les temps de calcul descendent à quelques microsecondes, compatibles avec des boucles de contrôle à l'échelle du kilohertz, à parité avec des implémentations C++ optimisées. Sur GPU, la même implémentation vectorisée atteint plus de 100 millions d'évaluations de dynamique par seconde en parallélisant des milliers d'instances simultanément. Les performances ont été validées sur deux plateformes de référence : le bras manipulateur Franka Panda et l'humanoïde Unitree G1. L'impact pour les équipes de robotique est double. Le support natif de l'autodifférenciation via JAX ouvre la voie à des méthodes d'optimisation basées sur les gradients directement dans la boucle de simulation, ce qui accélère le model-based reinforcement learning et le trajectory optimization sans nécessiter d'implémentations séparées. Le fait d'atteindre des temps de cycle CPU comparables au C++ depuis un code Python pur représente également un gain de friction considérable pour les intégrateurs, entre le stade prototype et le déploiement. La scalabilité GPU à 100 millions d'évaluations par seconde est particulièrement pertinente pour le sim-to-real, où l'entraînement massif en simulation parallèle est devenu la norme dans les pipelines de robot learning modernes. frax s'inscrit dans un écosystème JAX en expansion pour la robotique, aux côtés de Brax (Google DeepMind) et MuJoCo XLA (mjx). Les auteurs ne prétendent pas remplacer ces outils, mais proposer une alternative axée sur la polyvalence multi-matériel et la simplicité d'usage. La bibliothèque C++ Pinocchio, développée par le Gepetto team du LAAS-CNRS à Toulouse en partenariat avec l'INRIA, reste une référence pour les systèmes embarqués temps réel, mais frax vise explicitement le segment recherche et apprentissage. La bibliothèque est disponible en open-source, et les prochaines étapes attendues incluent l'intégration avec des pipelines RL existants et l'extension à la dynamique de contact.

UEfrax s'inscrit dans l'écosystème des outils de simulation robotique aux côtés de Pinocchio (LAAS-CNRS/INRIA, Toulouse), et pourrait accélérer les pipelines de robot learning dans les laboratoires français et européens travaillant sur le sim-to-real.

RecherchePaper
1 source
VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique
513arXiv cs.RO 

VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique

Une équipe de chercheurs propose VER (Vision Expert Transformer), une architecture visuelle publiée sur arXiv sous l'identifiant 2510.05213 (version révisée), dédiée à l'apprentissage de politiques robotiques. Le principe central repose sur une phase de préentraînement durant laquelle plusieurs modèles fondamentaux de vision (VFMs) sont distillés dans une bibliothèque d'experts visuels unifiée. Une fois cette bibliothèque constituée, seul un réseau de routage léger, représentant moins de 0,4 % des paramètres totaux, est ajusté pour chaque tâche aval, sélectionnant dynamiquement les experts pertinents selon la nature de la manipulation à effectuer. L'architecture introduit également une méthode de routage par patch baptisée "Patchwise Expert Routing with Curriculum Top-K Annealing", qui affine progressivement la granularité de la sélection d'experts au fil de l'entraînement. Évalué sur 17 tâches robotiques variées combinées à plusieurs têtes de politique, VER atteint des performances état de l'art sur l'ensemble des benchmarks testés. L'intérêt de cette approche pour les intégrateurs et les chercheurs en robotique tient à deux apports distincts. Les VFMs individuels sont par nature spécialisés : chacun excelle dans un domaine précis (sémantique visuelle, géométrie, correspondance de textures) mais échoue à généraliser sur la diversité des tâches de manipulation. La distillation multi-modèles avec routage dynamique permet d'exploiter des représentations complémentaires sans repartir d'un entraînement complet, réduisant considérablement les coûts de calcul lors de l'adaptation à un nouveau domaine. Par ailleurs, les visualisations produites montrent que VER concentre ses activations sur les régions critiques de la scène, comme l'objet manipulé ou le point de saisie, tout en supprimant les activations parasites en arrière-plan, un problème connu qui dégrade la robustesse des politiques visuelles dans des environnements industriels encombrés. Ce travail s'inscrit dans la dynamique récente d'intégration des modèles fondamentaux dans les pipelines de contrôle robotique, aux côtés d'architectures comme Octo, OpenVLA ou pi-0 de Physical Intelligence, toutes confrontées au gap entre préentraînement généraliste et déploiement sur robot physique. Les approches concurrentes de type VLA (Vision-Language-Action) partagent cet objectif de réduction du coût d'adaptation domaine-vers-robot, mais impliquent généralement un réentraînement bien plus lourd. VER se distingue par la fraction infime de paramètres ajustés lors du fine-tuning, ce qui le rend potentiellement compatible avec des contraintes matérielles embarquées. Les codes et visualisations sont accessibles sur la page projet des auteurs. À ce stade, il s'agit d'un résultat académique pur : aucun partenariat industriel ni calendrier de déploiement commercial n'est mentionné.

💬 0,4 % des paramètres à ajuster pour adapter le modèle à une nouvelle tâche robotique, c'est le chiffre qui change tout dans cette approche. Là où les VLA classiques comme OpenVLA ou pi-0 demandent un réentraînement costaud, VER distille plusieurs modèles de vision en amont et laisse un routage minuscule faire le tri à l'inférence, ce qui rend l'adaptation embarquée enfin envisageable sans cluster de GPUs. Résultat académique pur pour l'instant, mais ce type de travail finit généralement en prod 18 mois plus tard.

IA physiqueActu
1 source
Exploration des goulots d'étranglement dans la navigation VLM-LLM : l'impact de la compréhension de scènes 3D sur la navigation sans apprentissage préalable
514arXiv cs.RO 

Exploration des goulots d'étranglement dans la navigation VLM-LLM : l'impact de la compréhension de scènes 3D sur la navigation sans apprentissage préalable

Des chercheurs ont publié le 20 mai 2026 sur arXiv (arXiv:2605.14801) une étude quantifiant un goulet d'étranglement structurel dans les systèmes de navigation zéro-shot pilotés par VLM-LLM (Vision-Language Model couplé à un Large Language Model). Le paradigme analysé repose sur une architecture à deux étages : un VLM construit des graphes de scène 3D en extrayant objets, relations spatiales et sémantique de l'environnement, tandis qu'un LLM prend les décisions de haut niveau (planification topologique) et pilote un navigateur réactif rapide via coordonnées spatiales et boîtes englobantes. Les auteurs ont modélisé des bornes supérieures statistiques du taux de succès pour ces deux sous-systèmes, les ont validées sur les modèles 3D de l'état de l'art, et ont identifié un phénomène de saturation perceptive : au-delà d'un certain seuil de précision 3D, les gains de navigation deviennent marginaux, voire nuls. Ce résultat remet en cause une hypothèse implicite du secteur : que progresser en perception 3D se traduit mécaniquement en meilleure navigation incarnée. L'étude montre que les modèles de perception actuels optimisent la précision au niveau pixel, ce qui entre directement en conflit avec les contraintes temps-réel d'un robot naviguant dans un environnement dynamique. Pour les intégrateurs et les équipes de R&D robotique, cela signifie que sur-investir en qualité de segmentation ou de reconstruction 3D fine ne se justifie pas pour la navigation autonome : la ressource limitante n'est pas la résolution perceptive, mais la pertinence sémantique des objets détectés et la fiabilité des boîtes englobantes pour l'exécution motrice. C'est un signal fort pour réorienter les efforts vers des vocabulaires visuels navigation-centrés plutôt que vers la précision géométrique exhaustive. La navigation zéro-shot par VLM-LLM est un axe de recherche actif depuis 2022, porté notamment par des travaux sur les agents incarnés dans des simulateurs comme Habitat ou R2R (Room-to-Room). Cette approche vise à s'affranchir des coûts massifs de collecte de données supervisées qui pèsent sur les architectures imitation-learning classiques. Dans le paysage concurrent, des équipes chez Google DeepMind, Meta AI et des laboratoires universitaires (Stanford, CMU) explorent des variantes similaires, certaines intégrant des modèles VLA (Vision-Language-Action) de bout en bout comme Pi-0 ou GR00T N2. Cette étude ne présente pas de déploiement terrain, mais ses bornes analytiques pourraient guider la conception de benchmarks plus pertinents et orienter l'entraînement des prochaines générations de modèles de perception 3D spécialisés navigation.

RechercheOpinion
1 source
Vers l'intelligence des mains dextériques en robotique : un état de l'art
515arXiv cs.RO 

Vers l'intelligence des mains dextériques en robotique : un état de l'art

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.13925) une revue systématique de l'état de l'art des mains robotiques dextres, couvrant l'ensemble de la chaîne de recherche : mécanique et actionnement, perception tactile, méthodes de contrôle et d'apprentissage, jeux de données et protocoles d'évaluation. Le papier structuré en quatre axes examine les compromis fondamentaux entre capacité de force, compliance mécanique, bande passante de contrôle et complexité d'intégration. Il recense les principales architectures de transmission (câbles, tendons, engrenages), les modalités sensorielles embarquées (capteurs de force, peau artificielle, vision tactile type GelSight), et retrace l'évolution chronologique des paradigmes de contrôle : du contrôle impédanciel classique vers les approches par apprentissage par renforcement, imitation, et plus récemment les Visual-Language-Action models (VLA) appliqués à la manipulation en contact riche. L'intérêt principal de cette synthèse pour les équipes R&D et les intégrateurs industriels est qu'elle tente de résoudre un problème structurel du domaine : l'hétérogénéité des hypothèses expérimentales rend les comparaisons entre travaux quasi impossibles. Les auteurs pointent explicitement que les résultats publiés varient selon l'embodiment de la main, la configuration sensorielle, le type de tâche et le protocole d'évaluation retenu, ce qui obscurcit la trajectoire réelle du secteur. En consolidant datasets, pratiques de benchmarking et métriques d'évaluation dans un cadre commun, le survey fournit une grille de lecture pour juger si les progrès annoncés relèvent d'avancées méthodologiques réelles ou d'artefacts de setup. C'est particulièrement utile dans un contexte où les démos vidéo soigneusement sélectionnées et les claims "sim-to-real solved" se multiplient sans validation robuste sur des tâches industrielles répétables. Ce travail s'inscrit dans une vague de consolidation académique portée par l'essor des mains humanoïdes commerciales : Figure (main intégrée sur Figure 02 et 03), Tesla Optimus, Agility Robotics ou encore les systèmes de Sanctuary AI ont tous relancé l'intérêt pour la manipulation dextre après deux décennies de progrès limités post-DLR Hand et Shadow Hand. Côté recherche, les laboratoires Carnegie Mellon, Stanford, ETH Zurich et, en Europe, des acteurs comme Enchanted Tools (France) et des spin-offs universitaires allemands poussent des approches hybrides hardware-learning. Le survey identifie comme chantiers ouverts prioritaires : la généralisation hors distribution (objets inconnus, matériaux déformables), la robustesse sensorielle en conditions industrielles dégradées, et la co-optimisation hardware-software encore trop rare. Aucun calendrier de publication étendue n'est annoncé ; le preprint est disponible en accès libre sur arXiv.

UELe survey cite explicitement Enchanted Tools (France) et des spin-offs universitaires allemands comme acteurs actifs sur la manipulation dextre hybride hardware-learning, en faisant une ressource de référence directement pertinente pour les équipes R&D françaises du secteur.

RecherchePaper
1 source
Any3D-VLA : améliorer la robustesse des modèles VLA grâce à des nuages de points diversifiés
516arXiv cs.RO 

Any3D-VLA : améliorer la robustesse des modèles VLA grâce à des nuages de points diversifiés

Les modèles VLA (Vision-Language-Action) qui pilotent aujourd'hui les robots manipulateurs reposent quasi-exclusivement sur des images 2D comme entrée visuelle. Une équipe de chercheurs publie sur arXiv (arXiv:2506.00807v2) Any3D-VLA, une architecture d'entraînement qui intègre explicitement des nuages de points 3D pour améliorer la robustesse spatiale de ces modèles. L'approche fusionne trois sources de nuages de points hétérogènes, données de simulation, capteurs de profondeur réels (LiDAR, RGB-D), et estimation par modèle monoculaire, avec les représentations 2D existantes, dans un pipeline d'entraînement unifié. Les expériences couvrent à la fois des environnements simulés et des déploiements réels, et montrent des gains de performance mesurables sur des tâches de manipulation. L'intérêt technique est double. D'abord, le papier démontre empiriquement que "lever" l'entrée visuelle en nuage de points produit des représentations complémentaires aux features 2D, plutôt que redondantes, ce qui valide une hypothèse souvent discutée dans la communauté VLA. Ensuite, Any3D-VLA s'attaque directement aux deux verrous pratiques qui ont jusqu'ici freiné l'adoption du 3D dans ce domaine : la rareté des données 3D annotées et le domain gap lié aux différences de calibration entre environnements et aux biais d'échelle de profondeur. En traitant ces deux obstacles dans un seul framework, le travail suggère une voie vers des VLA plus robustes au sim-to-real transfer, un problème central pour le déploiement en conditions industrielles réelles. Les VLA sont au cœur d'une course intense depuis la publication de RT-2 (Google DeepMind, 2023) et l'essor de modèles comme Pi-0 (Physical Intelligence), OpenVLA, ou RoboVLMs. La plupart restent limités par leur dépendance aux caméras RGB standard, ce qui crée des angles morts en cas d'occlusion ou de scènes encombrées. Any3D-VLA ne propose pas encore un produit déployé : il s'agit d'une contribution de recherche avec code et page projet publics. La prochaine étape logique serait une intégration dans des pipelines de fine-tuning utilisés par des acteurs comme Physical Intelligence ou les équipes robotique de Figure AI, qui cherchent précisément à réduire le nombre de démonstrations réelles nécessaires grâce à un meilleur transfert depuis la simulation.

RechercheOpinion
1 source
Quels sont les facteurs limitants de la navigation vision-langage ?
517arXiv cs.RO 

Quels sont les facteurs limitants de la navigation vision-langage ?

Une équipe de chercheurs publie StereoNav (arXiv:2605.13328, mai 2026), un framework Vision-Language-Action (VLA) conçu pour la navigation robotique guidée par instructions en langage naturel, domaine désigné sous le terme Vision-and-Language Navigation (VLN). Sur les benchmarks standards R2R-CE et RxR-CE, le système atteint des taux de succès (SR) de 81,1 % et 67,5 %, avec des scores SPL (Success weighted by Path Length) de 68,3 % et 52,0 % respectivement, positionnant StereoNav en état-de-l'art sur RGB égocentrique. Ces performances sont obtenues avec nettement moins de paramètres et de données d'entraînement que les approches concurrentes fondées sur la mise à l'échelle. Des déploiements physiques sur robot dans des environnements non structurés réels confirment une amélioration substantielle de la fiabilité de navigation. La contribution centrale de StereoNav est de remettre en cause le paradigme dominant du scaling: les auteurs soutiennent que le vrai goulot d'étranglement pour combler le sim-to-real gap ne réside pas dans la taille des modèles ou le volume de données d'entraînement, mais dans l'absence d'un ancrage spatial robuste (spatial grounding) et de représentations cross-domaines stables. Ils introduisent en réponse des Target-Location Priors, représentations visuelles persistantes invariantes entre simulation et déploiement réel, qui stabilisent la navigation même lorsque les instructions verbales sont vagues ou incomplètes. La vision stéréo complète le dispositif en construisant une représentation unifiée sémantique et géométrique, résistante aux perturbations visuelles fréquentes en environnement industriel: flou de mouvement, variations d'éclairage, changements de perspective. Pour un intégrateur ou un COO industriel, le signal est clair: atteindre ces performances sans modèles XXL réduit significativement les coûts de déploiement et d'inférence. La VLN s'appuie historiquement sur le benchmark Room-to-Room (R2R) introduit en 2018, mais le passage du simulateur Matterport3D au monde physique restait un défi largement ouvert. StereoNav entre en compétition directe avec des VLA généralistes misent sur l'échelle paramétrique: pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI. L'architecture proposée choisit une voie opposée, fondée sur l'efficience et les priors géométriques explicites plutôt que la capacité brute. Il s'agit à ce stade d'un résultat académique sans déploiement commercial annoncé, mais les expériences physiques documentées dépassent le registre de la démonstration en laboratoire et constituent une base sérieuse pour des pilotes industriels à venir.

UEL'approche architecture légère de StereoNav pourrait réduire les coûts de déploiement VLA pour les intégrateurs industriels européens, sans nécessiter d'infrastructure de calcul massive.

💬 Le vrai goulot d'étranglement de la navigation robot, c'est pas la taille du modèle. StereoNav le démontre proprement : meilleures perfs sur les benchmarks standards, moins de paramètres, et des déploiements physiques qui tiennent en dehors du labo. Reste à voir si ça tient à l'échelle industrielle, mais l'argument contre le scaling aveugle a enfin des chiffres derrière.

IA physiqueOpinion
1 source
QuickLAP : apprentissage rapide des préférences langage-action pour systèmes semi-autonomes
518arXiv cs.RO 

QuickLAP : apprentissage rapide des préférences langage-action pour systèmes semi-autonomes

Des chercheurs du MIT CLEAR Lab ont publié QuickLAP (Quick Language-Action Preference Learning), un cadre bayésien conçu pour apprendre les préférences d'un utilisateur en combinant deux types de retours : les corrections physiques (gestes, ajustements de trajectoire) et les instructions en langage naturel. L'article, déposé sur arXiv (2511.17855v2), présente des résultats obtenus dans un simulateur de conduite semi-autonome. L'approche utilise un LLM pour extraire, à partir d'énoncés libres, deux signaux distincts : un masque d'attention sur les caractéristiques de la fonction de récompense (quels critères comptent) et un vecteur de déplacement de préférence (dans quelle direction). Ces signaux sont intégrés avec les corrections physiques via une règle de mise à jour en forme fermée, sans nécessiter d'optimisation itérative à chaque cycle. Les résultats quantitatifs sont notables : QuickLAP réduit l'erreur d'apprentissage de la récompense de plus de 70 % par rapport à des baselines utilisant uniquement le retour physique ou des fusions multimodales heuristiques. Une étude utilisateur menée avec 15 participants confirme que le système est perçu comme plus compréhensible et collaboratif, et que le comportement appris est préféré à celui des baselines. Pour les intégrateurs de systèmes semi-autonomes (robotique d'assistance, véhicules autonomes, cobots industriels), cela pointe vers une voie concrète pour réduire la charge de supervision humaine : au lieu d'imposer des interfaces de correction rigides, le système réconcilie des feedbacks ambigus en temps réel. La combinaison LLM + inférence bayésienne contourne l'ambiguïté classique des corrections gestuelles seules. Le problème adressé est bien identifié dans la littérature sur l'apprentissage par renforcement interactif (IRL, RLHF, preference learning). Les approches précédentes traitaient soit le langage (via RLHF ou instruction following), soit le retour physique (DAgger, kinesthetic teaching), rarement les deux de façon cohérente. QuickLAP se positionne dans la lignée des travaux sur les VLAs et les reward models multimodaux, avec un angle applicatif sur les systèmes à supervision humaine partielle. Le code est disponible sur GitHub (MIT-CLEAR-Lab/QuickLAP). Les prochaines étapes naturelles seraient une validation sur robot physique et des expériences dans des domaines au-delà de la conduite, comme la manipulation ou la navigation en entrepôt.

RechercheOpinion
1 source
Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion
519arXiv cs.RO 

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

Une équipe de chercheurs a publié le 19 mai 2025 sur arXiv (ref. 2605.13778) un cadre d'inférence baptisé Realtime-VLA FLASH, conçu pour réduire drastiquement la latence des modèles de type dVLA (diffusion-based vision-language-action). Le problème de départ est précis : chaque cycle d'inférence complète d'un dVLA prend typiquement 58,0 ms, ce qui est incompatible avec un replanning haute fréquence en conditions réelles. FLASH introduit un modèle "brouillon" léger qui génère des propositions d'actions, vérifiées en parallèle par l'Action Expert du modèle principal, composant dédié à la validation des séquences motrices. Un mécanisme de fallback "phase-aware" bascule automatiquement sur l'inférence complète lorsque la proposition brouillon est jugée insuffisamment fiable. Sur le benchmark LIBERO, la latence moyenne par tâche descend à 19,1 ms, soit une accélération de 3,04x, avec des cycles spéculatifs aussi rapides que 7,8 ms. Les auteurs valident également l'approche sur une tâche réelle de tri sur tapis convoyeur, environnement latency-critical par nature. L'intérêt industriel est direct : le goulot d'étranglement des VLA diffusion n'était pas leur capacité à généraliser, mais leur incapacité à répondre à la fréquence de contrôle des robots physiques (typiquement 10-50 Hz). Descendre sous les 20 ms de latence moyenne ouvre la voie à un déploiement sur des manipulateurs industriels ou des robots mobiles opérant en environnement dynamique. Ce que FLASH prouve concrètement, c'est que le "reality gap" des dVLA est au moins partiellement un problème d'architecture d'inférence, pas uniquement de données ou de sim-to-real. La méthode préserve les performances sur LIBERO sans compromis visible sur la fiabilité, ce qui est l'argument le plus solide de la publication, à condition que les auteurs rendent publics leurs taux de succès détaillés par tâche, absents du résumé. Les dVLA sont devenus un axe central de la robotique généraliste depuis les travaux de Physical Intelligence sur pi0 (2024) et de NVIDIA sur GR00T N2, qui reposent tous deux sur des architectures diffusion pour la génération d'actions. OpenVLA et d'autres approches autorégressives contournent ce problème différemment, au prix d'une expressivité moindre sur les tâches de manipulation fine. FLASH se positionne comme une surcouche d'optimisation compatible avec les dVLA existants, sans nécessiter de réentraînement complet du modèle principal, ce qui en fait un candidat naturel pour les équipes travaillant sur pi0 ou des architectures dérivées. Les prochaines étapes attendues sont une validation sur des systèmes à plus haute dynamique (robots bimanes, manipulation dextre) et une mesure de la dégradation sur des distributions out-of-distribution, point encore non traité dans cette version préprint.

UELes équipes de R&D européennes travaillant sur des architectures dVLA (dérivées de pi0 ou GR00T N2) pourraient intégrer FLASH comme couche d'optimisation sans réentraînement, mais aucun acteur ou institution français ou européen n'est impliqué dans la publication.

💬 Le vrai blocage des VLA diffusion, c'était pas leur capacité à généraliser, c'était les 58 ms par cycle d'inférence, trop lents pour du contrôle robot en temps réel. FLASH colle un modèle brouillon en avant-poste pour proposer l'action, le modèle principal vérifie en parallèle, et tu descends à 19 ms sans retoucher les poids. Ce que j'y lis surtout, c'est qu'une bonne partie du reality gap était un problème d'ingénierie d'inférence, pas de données ou de sim-to-real.

IA physiqueOpinion
1 source
Mise en cache adaptative par blocs pour accélérer les politiques de diffusion
520arXiv cs.RO 

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (2506.13456) BAC, pour Block-wise Adaptive Caching, une méthode d'accélération de l'inférence pour Diffusion Policy. Le principe : mettre en cache les features d'action intermédiaires générées lors des étapes répétitives de débruitage (denoising), puis les réutiliser sélectivement selon un schéma adaptatif au niveau de chaque bloc du transformeur. Résultat annoncé : jusqu'à 3x de speedup à l'inférence, sans dégradation des performances en génération d'action. BAC est training-free et compatible avec les architectures Diffusion Policy à base de transformeur ainsi qu'avec les modèles vision-language-action (VLA). Les expériences couvrent plusieurs benchmarks robotiques standards, sans déploiement matériel réel annoncé dans ce papier. L'enjeu est direct pour le déploiement industriel : Diffusion Policy est l'une des approches les plus solides pour le contrôle visuomoteur de robots manipulateurs, mais son coût computationnel élevé la rend impraticable en contrôle temps-réel embarqué. Un facteur 3x sans re-training représente un gain opérationnel concret, il suffit d'intégrer BAC sur un modèle existant déjà entraîné. Deux mécanismes y contribuent : un Adaptive Caching Scheduler qui identifie les pas de temps optimaux pour rafraîchir le cache en maximisant la similarité globale des features, et un Bubbling Union Algorithm qui corrige la propagation d'erreurs entre blocs FFN (Feed-Forward Network), principale limite des approches naïves de caching. Diffusion Policy, introduite par Chi et al. en 2023, s'est imposée comme référence pour la manipulation précise, mais son inférence multi-step la pénalise face aux politiques autorégressives ou MLP sur les contraintes de latence. Les techniques d'accélération des modèles de diffusion conçues pour la génération d'images (DDIM, DeepCache) ne se transfèrent pas directement à la robotique en raison de divergences architecturales et de la nature séquentielle des données d'action, c'est précisément le gap que BAC prétend combler. La méthode est compatible avec les VLA récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui lui confère un périmètre d'application large sur l'écosystème actuel. La validation reste cependant limitée aux benchmarks simulés ; une confirmation sur hardware réel en conditions d'inférence embarquée sera nécessaire pour évaluer l'impact opérationnel réel.

RecherchePaper
1 source
Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique
521arXiv cs.RO 

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (preprint 2605.11832, mai 2026) une méthode adressant deux limites structurelles des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique : l'ambiguïté de profondeur issue des capteurs monoculaires, et l'inefficacité de l'apprentissage d'actions par régression classique. La première contribution, le G3T (Geometry-Guided Gated Transformer), exploite un modèle de diffusion multi-vues pré-entraîné pour synthétiser des représentations latentes de nouvelles perspectives, alignées sous contrainte géométrique 3D, avec filtrage adaptatif du bruit d'occlusion. La seconde, l'Action Manifold Learning (AML), remplace la régression sur des cibles non structurées, bruit ou champ de vitesse, approches dominantes depuis Diffusion Policy (2023), par une prédiction directe sur la variété des actions valides. Testée sur les benchmarks LIBERO et RoboTwin 2.0, ainsi que sur des tâches en robot réel, la méthode affiche des taux de succès supérieurs aux baselines état de l'art actuelles. L'enjeu est précis : la quasi-totalité des déploiements industriels de manipulateurs n'embarquent qu'une caméra RGB, sans LiDAR ni stéréovision. Sans profondeur fiable, les VLA peinent à estimer distances et tailles relatives, ce qui dégrade directement la précision de préhension en conditions réelles. Le G3T propose de contourner ce manque sans ajout matériel, maintenant les contraintes hardware à un niveau réaliste pour l'intégration. L'AML, de son côté, questionne un paradigme issu des travaux sur la diffusion en robotique : prédire directement sur la variété d'actions valides pourrait réduire la variance d'entraînement et accélérer la convergence. Les résultats semblent valider l'hypothèse, bien qu'un preprint reste à soumettre à peer-review pour être pleinement crédité, les métriques annoncées sont issues des propres expériences des auteurs, sans reproductions indépendantes publiées à ce stade. Ce travail s'inscrit dans la course aux VLA généralistes ouverte par RT-2 (Google DeepMind, 2023), avec pour concurrents directs OpenVLA (UC Berkeley), π0 de Physical Intelligence et GR00T N2 de NVIDIA. RoboTwin 2.0, l'un des benchmarks retenus, cible spécifiquement la manipulation bi-manuelle de précision, parmi les scénarios les plus exigeants du domaine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; l'impact concret dépendra des reproductions indépendantes et d'une éventuelle intégration dans des frameworks ouverts comme LeRobot (Hugging Face). Le code et la page projet sont annoncés disponibles publiquement.

RechercheOpinion
1 source
Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée
522arXiv cs.RO 

Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée

Des chercheurs ont publié en mai 2026 (arXiv:2605.11479) un cadre pour l'évaluation hors-ligne de politiques robotiques de manipulation. Le problème : estimer la performance d'une politique sans la déployer en environnement réel à chaque itération. Les systèmes de manipulation modernes cumulent trois obstacles majeurs : récompenses rares (sparse rewards), progression non monotone vers l'objectif (le robot recule avant de réussir), et rollouts d'évaluation de longueur finie. Cette dernière contrainte génère un biais de troncature qui invalide les méthodes classiques fondées sur l'équation de Bellman, conçues pour un horizon infini. Les auteurs proposent un opérateur de Bellman basé sur la liveness (vivacité, issue de la vérification formelle), reformulant l'évaluation comme un problème de complétion de tâche et produisant une fonction de valeur conservative à point fixe garanti par contraction. Les expériences portent sur deux tâches simulées (une politique VLA - Vision-Language-Action - et une diffusion policy), ainsi qu'un pliage de tissu à partir de démonstrations humaines. La méthode surpasse TD(0) et Monte Carlo sur tous les benchmarks, à la fois en fidélité à la progression réelle et en réduction du biais. L'enjeu est concret pour les équipes de déploiement : les rollouts physiques sont lents et coûteux, et une évaluation hors-ligne biaisée contamine les décisions de sélection de modèle. Le biais de troncature est particulièrement insidieux dans les tâches longues : un bras robotique qui récupère après un glissement peut scorer négativement même s'il complète la tâche. La formulation liveness encode la progression vers l'objectif y compris lors de comportements non monotones, sans horizon infini artificiel. Ce type de métrique calibrée est directement utile pour valider des politiques VLA comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA), souvent évaluées sur des rollouts courts et sélectifs avant déploiement en atelier. Ce travail s'inscrit dans une problématique active du robot learning : évaluer des politiques sans simulation parfaite ni horizon infini. TD(0), Monte Carlo et importance sampling peinent sur les tâches longues à récompenses éparses, régime typique de la manipulation dextre. Plusieurs équipes adressent l'évaluation hors-ligne, notamment autour du dataset DROID (Berkeley/Stanford) et chez Physical Intelligence, mais sans traitement explicite du biais de troncature. La preuve de contraction de l'opérateur liveness ouvre des pistes vers des pipelines de sélection automatique de politiques et vers la validation à grande échelle avant passage en production.

IA physiquePaper
1 source
RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme
523arXiv cs.RO 

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Une équipe de chercheurs présente RIO (Robot I/O), un framework Python open source publié en mai 2026 (arXiv:2605.11564), conçu pour standardiser les flux de travail en apprentissage robotique multi-plateformes. RIO propose des composants modulaires couvrant le contrôle robot, la téleopération, la mise en forme des données, la configuration des capteurs et le déploiement de politiques d'action (policies). Le framework a été validé sur trois morphologies distinctes, bras unique, bimanuel et humanoïde, sur quatre plateformes matérielles combinant divers préhenseurs et caméras. À partir de données collectées par téleopération via RIO, l'équipe a affiné des VLA (Vision-Language-Action models) de pointe, dont π0.5 (Physical Intelligence) et GR00T N2 (NVIDIA), sur des tâches domestiques : saisir-et-déposer, plier du linge et récurer un bol. Le problème central que RIO adresse est structurel et bien documenté dans la communauté : le code robotique est massivement spécifique à chaque configuration matérielle, ce qui rend le partage de données, de modèles et de pipelines entre équipes extrêmement coûteux en temps de reconfiguration. Ce verrou ralentit concrètement la progression vers des capacités cross-embodiment, c'est-à-dire des robots généralistes capables de s'adapter à différentes morphologies sans recodage complet. En proposant des abstractions qui découplent la logique de contrôle du matériel sous-jacent, RIO réduit ce surcoût et ouvre la possibilité de mutualiser des datasets entre utilisateurs disposant de plateformes hétérogènes. Pour les équipes de R&D, cela signifie que des données collectées sur un bras Franka pourraient alimenter l'entraînement d'un humanoïde, sous réserve que les abstractions tiennent à l'échelle réelle. La course aux VLA généralistes s'est accélérée depuis 2024 avec π0 de Physical Intelligence, GR00T de NVIDIA, Helix de Figure AI et OpenVLA de la communauté open source, chacun souffrant du même écueil d'intégration matérielle. RIO s'inscrit dans un courant de standardisation analogue à ce que ROS a accompli pour le middleware, mais centré sur la couche données et déploiement de policies. Des projets concurrents comme RLDS (Google DeepMind), LeRobot (Hugging Face) ou le protocole DROID tentent également de résoudre cette fragmentation. RIO se distingue par sa légèreté et son focus explicite sur le déploiement VLA multi-morphologie. Aucun partenariat industriel ni déploiement commercial n'est annoncé : il s'agit d'une publication académique avec mise en open source intégrale, site de référence à robot-i-o.github.io.

UELes laboratoires européens de robotique travaillant sur le cross-embodiment ou le fine-tuning de VLA pourraient adopter RIO pour mutualiser données et pipelines entre plateformes hétérogènes, réduisant le coût de reconfiguration.

IA physiqueActu
1 source
DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA
524arXiv cs.RO 

DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA

Une équipe de chercheurs a publié DreamAvoid (arXiv:2605.11750), un framework d'inférence conçu pour réduire les échecs dans les modèles Vision-Language-Action (VLA) lors de tâches de manipulation fine. Le problème est bien documenté : les VLA, entraînés quasi exclusivement sur des démonstrations réussies, accumulent des erreurs mineures pendant les phases critiques d'une tâche (saisie, insertion, positionnement précis) qui s'amplifient jusqu'à rendre toute récupération impossible. DreamAvoid introduit trois composants exécutés à l'inférence : un Dream Trigger qui détecte l'entrée en phase critique, un Action Proposer qui échantillonne plusieurs candidats d'action auprès du VLA, et un Dream Evaluator qui simule à court horizon les futurs correspondants, les évalue, et sélectionne l'action optimale. Ce dernier est entraîné sur un mélange succès/échecs/cas limites via un paradigme dit "autonomous boundary learning". Les évaluations portent sur des tâches de manipulation réelles et des benchmarks de simulation avec une amélioration du taux de succès global, sans que les auteurs ne publient de chiffres précis dans le résumé, ce qui rend la comparaison quantitative impossible en l'état. L'apport clé est architectural : DreamAvoid agit uniquement à l'inférence, ce qui permet de le greffer sur n'importe quel VLA existant sans réentraînement complet. Pour les intégrateurs industriels, c'est un point non trivial : la fragilité en manipulation fine (assemblage, vissage, conditionnement) reste l'un des principaux freins au déploiement réel des bras manipulateurs génériques. Cibler spécifiquement les phases critiques, plutôt que l'ensemble de la trajectoire, limite par ailleurs le surcoût computationnel à l'inférence. Ce travail contredit partiellement l'hypothèse dominante selon laquelle augmenter massivement les données de succès suffit à rendre les VLA robustes : une conscience explicite de l'échec, même injectée post-entraînement, apporte un gain tangible. Le contexte est celui d'une compétition intense entre VLA généralistes incluant Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA de l'UC Berkeley, tous partageant cette fragilité structurelle documentée dans des travaux comme RT-2 et ALOHA. DreamAvoid s'inscrit dans une lignée de méthodes de planification augmentée à l'inférence, proche des approches world model comme SWIM ou de MCTS appliqué à la robotique. Le code est disponible publiquement sur GitHub (github.com/XianzheFan/DreamAvoid). Les suites probables incluent une évaluation sur des benchmarks standardisés tels que RLBench ou LIBERO, et potentiellement une intégration dans des pipelines d'entraînement continu où les échecs détectés par le Dream Evaluator alimentent automatiquement les données négatives futures.

IA physiqueOpinion
1 source
StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique
525arXiv cs.RO 

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

Une équipe de chercheurs a présenté StereoPolicy, un cadre d'apprentissage de politiques visuomotrices déposé sur arXiv (2605.09989) qui exploite des paires d'images stéréoscopiques synchronisées pour améliorer la précision des robots manipulateurs. Contrairement aux approches dominantes basées sur la vision monoculaire, StereoPolicy traite chaque image indépendamment via des encodeurs visuels 2D pré-entraînés, puis fusionne les représentations au sein d'un module baptisé Stereo Transformer. Cette architecture extrait implicitement des indices de disparité et de correspondance spatiale, sans nécessiter de reconstruction 3D explicite ni de calibration de caméra. Évalué sur trois benchmarks de simulation, RoboMimic, RoboCasa et OmniGibson, le système surpasse systématiquement les baselines RGB, RGB-D, nuage de points et multi-vues. Les auteurs ont également validé l'approche sur des robots réels, dans des configurations de manipulation tabulaire et de manipulation bimane mobile. L'intérêt principal de StereoPolicy réside dans sa modularité: le framework s'intègre directement avec des politiques à base de diffusion et des politiques VLA (vision-language-action) pré-entraînées, ce qui en fait un composant additionnel plutôt qu'une refonte architecturale. Pour les intégrateurs et les équipes robotique, cela signifie que des systèmes existants basés sur des modèles comme Pi-0 ou GR00T pourraient bénéficier de la perception stéréo sans repartir de zéro. La vision monoculaire, omniprésente dans les déploiements actuels, souffre d'une absence d'indices de profondeur fiables dans les scènes encombrées ou géométriquement complexes, un problème que la stéréo adresse naturellement à faible surcoût matériel. Ce résultat renforce l'hypothèse que les représentations 2D pré-entraînées, aussi puissantes soient-elles, restent limitées sans ancrage géométrique explicite. StereoPolicy s'inscrit dans la dynamique actuelle de l'imitation learning robotique, portée par des travaux comme ACT, Diffusion Policy et les VLA multimodaux. La plupart des systèmes en production s'appuient encore sur des caméras monoculaires ou des capteurs RGB-D de type RealSense ou ZED, qui ajoutent complexité et coût. Les caméras stéréo passives, technologie mature présente depuis des décennies en vision par ordinateur, avaient été quelque peu éclipsées par la montée en puissance des encodeurs 2D profonds. Ce papier, une préprint arXiv, pas encore un produit déployé, rouvre la question de leur rôle dans les pipelines modernes d'apprentissage par imitation. Les prochaines étapes naturelles seront d'évaluer StereoPolicy dans des environnements industriels réels et de tester sa robustesse aux variations d'éclairage et de texture, deux limites classiques de la vision stéréo passive.

RechercheOpinion
1 source
VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale
526arXiv cs.RO 

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Des chercheurs proposent VEGA (Visual Encoder Grounding Alignment), publié sur arXiv (2605.10485) en mai 2026, un cadre d'alignement destiné à corriger un défaut structurel des modèles vision-langage-action (VLA) : leurs encodeurs visuels, préentraînés sur des images 2D, manquent de perception géométrique 3D. VEGA aligne la sortie de l'encodeur visuel du VLA directement avec les features spatiales de DINOv2-FiT3D, une variante de DINOv2 (Meta) affinée via supervision par 3D Gaussian Splatting multi-vues. L'alignement repose sur un projecteur léger entraîné par perte cosinus en parallèle de la prédiction d'action standard, puis éliminé à l'inférence pour ne pas alourdir le runtime. Sur benchmarks de simulation et tâches réelles de manipulation, VEGA établit un nouvel état de l'art parmi les méthodes d'ancrage spatial implicite. L'enjeu opérationnel est direct : la manipulation fine exige une compréhension géométrique de la scène, pas uniquement sémantique. Les approches existantes alignaient déjà les VLA avec des modèles 3D-aware, mais au niveau des tokens LLM, là où spatial et linguistique sont déjà mélangés, limitant la généralisation. En remontant l'alignement à l'encodeur visuel, VEGA évite cette contamination sémantique et produit un ancrage plus interprétable. Pour un intégrateur ou un fabricant de bras manipulateurs, le ratio est favorable : gain de précision spatiale sans surcoût à l'inférence, et compatibilité avec des architectures VLA existantes sans refonte. Cette contribution s'inscrit dans la course aux VLA comme couche de contrôle universelle : Physical Intelligence (π0, π0.5), Google DeepMind et NVIDIA (GR00T N2), Figure AI (Helix) ou Unitree reposent tous sur des architectures de ce type. La faiblesse du raisonnement 3D dans les VLA reste un frein documenté au passage démo-vers-déploiement, et plusieurs équipes y travaillent via sim-to-real et foundation models 3D. VEGA choisit une voie minimaliste : pas de pipeline 3D à l'inférence, juste un alignement ciblé à l'entraînement. Aucun déploiement industriel ni partenariat commercial n'est mentionné, c'est une contribution académique, mais sa légèreté architecturale la rend directement intégrable dans des projets en cours.

IA physiqueOpinion
1 source
IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste
527arXiv cs.RO 

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement. L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers. Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

UELa traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

RecherchePaper
1 source
SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel
528arXiv cs.RO 

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Une équipe de recherche associée à DreamVu a publié début mai 2026 SABER (Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation), un corpus de données d'action robotique centré sur les environnements de grande distribution, présenté dans l'arXiv 2605.09613. Le jeu de données a été constitué à partir de plus de 100 heures de captures naturelles dans plusieurs supermarchés réels, sans mise en scène, sans script et sans télé-opération de robot. Deux flux de capteurs ont été utilisés simultanément : une caméra égocentrique montée sur la tête enregistre les manipulations fines des mains à hauteur d'interaction, tandis que la caméra 360° ALIA de DreamVu observe l'ensemble de la scène sous angle exocentrique. Le corpus final comprend 44 800 échantillons d'entraînement répartis en trois représentations d'action : 25 000 séquences d'actions latentes encodées selon le schéma LAPA, 18 600 trajectoires de postures de main dextre recalées dans l'espace articulaire robot, et 1 200 séquences de mouvement corps entier synchronisées retargétées vers une morphologie humanoïde. Appliqué au modèle de fondation robotique GR00T N1.6 de NVIDIA via une recette de post-entraînement multi-tâche à backbone partagé, SABER atteint un taux de succès moyen de 29,3 % sur dix tâches de manipulation en grande distribution, soit 2,19 fois la performance de la baseline de fine-tuning (13,4 %). Ces résultats, bien que modestes en valeur absolue (moins d'un tiers de succès), apportent un argument concret au débat sur le "data gap" qui freine la généralisation des VLA (Vision-Language-Action models) hors de leurs distributions d'entraînement. Les modèles de fondation robotique généralistes comme GR00T ou Pi-0 de Physical Intelligence peinent à performer sur des tâches de manipulation en contexte retail, non par défaut d'architecture, mais parce que ces environnements sont structurellement absents de leurs corpus de préentraînement. La télé-opération pour combler ce vide est onéreuse, logistiquement contrainte et difficile à passer à l'échelle. SABER propose une alternative : capturer des comportements humains naturels en magasin, puis retargéter les trajectoires vers l'espace articulaire du robot, sans jamais déployer ce dernier pendant la phase de collecte. Le gain 2x sur la baseline valide l'hypothèse que la qualité et la spécificité domaine des données comptent autant que l'architecture du modèle, une position qui nuance la course aux paramètres observée depuis 2024. DreamVu, startup spécialisée dans les caméras omnidirectionnelles de précision, s'appuie sur sa caméra ALIA pour se positionner comme fournisseur d'infrastructure de collecte de données pour la robotique incarnée, un segment en pleine structuration. Sur le plan concurrentiel, SABER entre en tension directe avec des initiatives comme Open-X Embodiment (Google DeepMind), DROID, ou les datasets propriétaires de Figure AI et Apptronik, mais se distingue par son ancrage sectoriel retail et l'absence de robot pendant la collecte. GR00T N1.6, le modèle testé, est la version publiée par NVIDIA en 2025 dans le cadre de son projet Isaac GR00T, qui vise à fournir une fondation pré-entraînée pour humanoïdes. Le dataset et le code sont disponibles publiquement sur dreamvu.ai/saber, ce qui ouvre la voie à des réplications et extensions vers d'autres verticales (logistique, pharmacie, restauration rapide) où la manipulation fine en environnement non contrôlé reste un verrou non résolu.

IA physiqueOpinion
1 source
Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental
529arXiv cs.RO 

Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental

Une équipe de chercheurs a publié sur arXiv (référence 2604.14484) une analyse théorique des politiques de clonage comportemental (behavior cloning, BC) sur robots à commande en position. L'étude démontre que les erreurs d'action, modélisées comme variables sous-gaussiennes indépendantes, se propagent via la dynamique en boucle fermée d'un contrôleur PD pour produire des erreurs de position gouvernées par une matrice proxy X∞(K). La probabilité d'échec sur l'horizon T se factorise en un indice d'amplification Γ_T(K) dépendant des gains et en la perte de validation augmentée d'un terme de généralisation. Pour le système PD scalaire du second ordre, la variance stationnaire admet la forme fermée X∞(α,β) = σ²α/(2β), strictement monotone en rigidité (α) et en amortissement (β) sur l'ensemble de l'orthant stable. Quatre régimes canoniques sont classés : le mode conforme-suramorti (CO) minimise les erreurs ; le mode rigide-sous-amorti (SU) les maximise ; les deux cas intermédiaires restent dépendants de la dynamique propre du système. L'implication opérationnelle est directe : la perte d'entraînement ou de validation ne prédit pas la fiabilité en boucle fermée. Un modèle bien calibré peut échouer en déploiement si les gains du contrôleur PD amplifient les erreurs résiduelles de la politique apprise. Ce cadre analytique fournit aux intégrateurs robotiques un outil de dimensionnement concret : choisir des gains conformes-suramortis réduit statistiquement le risque d'échec de tâche, indépendamment de la qualité des démonstrations. Ce résultat remet en question une hypothèse largement répandue dans la communauté du robot learning, selon laquelle améliorer les données ou l'architecture du modèle suffit à améliorer les performances en conditions réelles. Ce travail prolonge les recherches de Bronars et al. sur l'atténuation d'erreurs dépendante des gains en offrant une extension non-asymptotique à horizon fini, qui manquait dans la littérature. Si les propriétés asymptotiques de stabilité des contrôleurs PD sont bien établies, leur traduction en bornes probabilistes finies sur l'échec de tâche restait ouverte. La contribution est directement applicable aux architectures BC modernes, notamment les VLA (Vision-Language-Action models) déployés sur des manipulateurs et des humanoïdes chez des acteurs comme 1X Technologies, Figure AI, Boston Dynamics ou Sanctuary AI. La discrétisation ZOH (Zero-Order Hold) est traitée explicitement, ancrant les résultats dans les implémentations numériques réelles plutôt que dans la seule analyse en temps continu.

UELes laboratoires et équipes R&D européens (INRIA, CEA-List, start-ups BC/VLA) déployant des politiques apprises sur manipulateurs ou humanoïdes peuvent appliquer directement ce cadre analytique pour calibrer leurs gains PD et réduire statistiquement les échecs en déploiement réel.

RecherchePaper
1 source
VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action
530arXiv cs.RO 

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

Publiée en mars 2026 sur arXiv (référence 2603.22003v3), VP-VLA est une architecture à deux systèmes qui dissocie raisonnement de haut niveau et exécution motrice dans les modèles Vision-Language-Action. Le problème adressé est structurel : les VLA actuels effectuent un unique passage en avant (forward pass) censé gérer simultanément l'interprétation d'instructions, l'ancrage spatial et le contrôle moteur de bas niveau, ce qui dégrade la précision spatiale et la robustesse hors distribution. VP-VLA sépare ces responsabilités via une interface de prompts visuels : un "Planificateur Système 2" décompose les instructions en sous-tâches et localise objets et positions cibles, puis rend ces ancres spatiales directement dans l'espace RGB natif sous forme de réticules et boîtes englobantes. Un "Contrôleur Système 1", entraîné avec un objectif auxiliaire d'ancrage visuel, génère ensuite les trajectoires de bas niveau à partir de ces prompts. En simulation et en environnement réel, VP-VLA surpasse les baselines end-to-end QwenOFT (basé sur les modèles Qwen d'Alibaba) et GR00T-N1.6 (NVIDIA), les deux références industrielles les plus avancées du moment. L'intérêt architectural tient à l'évitement du mismatch de modalité que créent les représentations intermédiaires denses -- masques d'affordance, cartes de contrôle spécialisées -- qui obligent les modèles à jongler entre espaces de représentation hétérogènes. En substituant des annotations légères directement dans l'espace RGB natif, VP-VLA maintient une cohérence de modalité tout au long du pipeline. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela se traduit concrètement par une meilleure robustesse aux configurations non vues à l'entraînement et une précision spatiale accrue sur les tâches de manipulation. La séparation explicite planification/exécution faciliterait aussi la mise à jour ou le remplacement indépendant de chaque composant, un avantage non négligeable en contexte de déploiement itératif. VP-VLA s'inscrit dans un mouvement plus large de déconstruction des VLA monolithiques, après RT-2, OpenVLA, et les architectures GR00T de NVIDIA. La publication en version v3 indique des révisions successives, signe probable d'une soumission à une conférence de premier rang (IROS 2026, CoRL 2026 ou RSS 2026). Le choix de GR00T-N1.6 et QwenOFT comme baselines positionne explicitement VP-VLA face aux approches portées par des acteurs industriels majeurs. Aucun déploiement physique industriel ni partenariat de production n'est annoncé à ce stade : les expériences réelles restent en environnement de laboratoire. La page projet ouverte (visualprompt-vla.github.io) laisse présager une publication du code, ce qui favoriserait une adoption rapide et une validation indépendante par la communauté robotique.

UELes laboratoires européens actifs en VLA (INRIA, CEA-List) pourraient bénéficier d'une architecture open-source plus robuste hors distribution si le code est publié, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

IA physiqueOpinion
1 source
Le futur est-il compatible ? Diagnostic de la cohérence dynamique dans les modèles d'action du monde
531arXiv cs.RO 

Le futur est-il compatible ? Diagnostic de la cohérence dynamique dans les modèles d'action du monde

Une équipe de recherche a soumis le 12 mai 2026 sur arXiv (référence 2605.07514) une étude ciblant un angle mort des World Action Models (WAMs) : la cohérence dynamique entre les actions prédites et les transitions d'état qu'elles sont supposées engendrer. Les WAMs sont des modèles capables de générer des "rollouts" imaginés, c'est-à-dire des séquences futures simulées d'observations et d'actions, pour guider la prise de décision d'un agent robotique. Les auteurs montrent, à travers une étude systématique de modèles de joint-prediction et d'inverse-dynamics, que ces futurs imaginés peuvent être visuellement plausibles tout en étant dynamiquement incompatibles avec la séquence d'actions associée. Ils définissent formellement l'action-state consistency comme l'alignement entre les actions prédites et les transitions d'état induites, et établissent empiriquement que cette métrique distingue fiablement les rollouts réussis des rollouts échoués sur une large variété de tâches. En s'appuyant sur ces résultats, ils proposent une stratégie dite "value-free consensus" pour la sélection à l'inférence : les candidats rollouts sont classés par accord entre futurs prédits, sans recours à un modèle de récompense ni à un entraînement supplémentaire. Cette stratégie améliore les taux de succès sur les benchmarks RoboCasa et RoboTwin 2.0. L'enjeu pratique est direct pour les équipes qui déploient des politiques basées sur des world models : une inconsistance action-état non détectée peut propager des erreurs tout au long d'une séquence planifiée, rendant les rollouts trompeurs même lorsqu'ils semblent visuellement convaincants. Le fait que la métrique suive des tendances similaires aux estimations de valeur apprises suggère qu'elle capture une structure pertinente pour la décision, au-delà du réalisme perceptif. La stratégie consensus sans valeur est notable car elle élimine le besoin d'un reward model, souvent coûteux à entraîner et fragile à distribuer, ce qui la rend directement utilisable dans des pipelines de déploiement existants. Les WAMs s'inscrivent dans le courant plus large des VLAs (Vision-Language-Action models) et des approches de planification par world model, où des systèmes comme DreamerV3 ou des dérivés de modèles de diffusion cherchent à faire planifier un agent dans un espace latent imaginé. Les benchmarks utilisés, RoboCasa et RoboTwin 2.0, sont des environnements de manipulation simulée de référence dans la communauté. Les auteurs identifient également un phénomène limite qu'ils nomment "background collapse" : les trajectoires échouées à faible dynamique peuvent paraître artificiellement cohérentes car prédire un futur statique est plus facile, ce qui constitue un biais à surveiller lors de l'utilisation de cette métrique. Les prochaines étapes naturelles seraient de valider la stratégie consensus sur des plateformes physiques et d'étendre l'analyse à des modèles de type diffusion policy.

RechercheActu
1 source
Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres
532arXiv cs.RO 

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

Une équipe de chercheurs a publié le 10 mai 2026 sur arXiv un travail (2605.07381) remettant en cause une pratique répandue dans l'adaptation des modèles Vision-Language-Action (VLA) à des robots réels : la collecte de démonstrations aussi variées que possible. Leur étude formalise ce qu'ils appellent un "piège de la diversité", le fait que, sous un budget de données fixe et limité, multiplier les conditions uniques introduit un bruit d'estimation qui ne converge pas vers zéro, dégradant finalement la fiabilité de la politique apprise. Pour le quantifier, ils décomposent l'erreur de politique en deux composantes : un terme d'estimation lié à la densité des démonstrations, et un terme d'extrapolation lié à la couverture des conditions. Ils montrent qu'il existe un point optimal intérieur, c'est-à-dire non aux extrêmes, pour l'allocation des configurations uniques avec un budget contraint. Sur cette base, ils proposent l'Anchor-Centric Adaptation (ACA), un cadre en deux étapes : d'abord stabiliser un squelette de politique via des démonstrations répétées sur des ancres centrales, puis étendre sélectivement la couverture vers des zones à haut risque d'erreur via un "teacher-forced error mining" et des mises à jour résiduelles contraintes. Des expériences sur robot réel valident l'approche et montrent des taux de succès supérieurs à la stratégie diversifiée standard avec le même budget. Ce résultat a des implications directes pour les équipes qui tentent de déployer des VLA généralistes, tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, sur des plateformes matérielles spécifiques. Le coût de collecte de démonstrations physiques est élevé, et la pratique habituelle consistant à "maximiser la diversité" repose sur une intuition empruntée au machine learning classique qui ne tient pas ici. ACA suggère qu'un protocole structuré, ciblant d'abord la répétabilité sur des configurations critiques avant d'explorer les marges, peut réduire significativement les besoins en données tout en améliorant la robustesse. Cela touche directement le "reality gap" : les VLA entraînés en simulation ou en général échouent souvent à l'adaptation fine non pas par manque de couverture, mais par instabilité statistique sur les ancres critiques. Le travail s'inscrit dans un mouvement plus large de rationalisation du fine-tuning des VLA pour des applications industrielles, où chaque heure de télé-opération coûte cher. Les approches concurrentes incluent DAgger, des méthodes de résidual policy learning, et diverses stratégies de curriculum. Ce papier est un preprint non encore évalué par les pairs ; les expériences réelles décrites restent à reproduire indépendamment. Les prochaines étapes probables incluent une validation sur plusieurs plateformes (bras industriels, manipulateurs mobiles) et une intégration dans des pipelines de déploiement VLA existants.

RechercheOpinion
1 source
RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée
533arXiv cs.RO 

RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée

Une équipe de chercheurs a publié en mai 2025 RobotEQ (arXiv:2605.06234), un benchmark conçu pour évaluer ce qu'ils appellent l'intelligence active dans les systèmes d'IA incarnée. Contrairement aux approches actuelles, où un robot exécute des tâches sur instruction explicite de l'utilisateur (intelligence passive), l'intelligence active désigne la capacité d'un système à identifier de manière autonome quelles actions sont socialement acceptables ou interdites, sans consigne préalable. Pour mesurer cette aptitude, les auteurs ont constitué RobotEQ-Data : un jeu de données de 1 900 images en vue égocentrique, couvrant 10 catégories scénario typiques de l'IA incarnée et 56 sous-catégories. Via annotation manuelle intensive, ils ont produit 5 353 questions de jugement d'action et 1 286 questions d'ancrage spatial, formant ensemble le socle du benchmark RobotEQ-Bench. Les résultats d'évaluation sur les modèles de pointe actuels sont sans ambiguïté : aucun ne satisfait de manière fiable aux exigences de l'intelligence active, avec des lacunes particulièrement marquées sur l'ancrage spatial, c'est-à-dire la capacité à localiser précisément les objets ou zones pertinents dans une scène pour motiver un comportement conforme aux normes sociales. L'étude montre cependant qu'intégrer des bases de connaissances externes via des techniques de RAG (Retrieval-Augmented Generation) améliore significativement les performances, ce qui suggère une piste concrète pour les développeurs de systèmes robotiques sociaux. Pour les industriels et intégrateurs, ce résultat pointe une limite critique avant tout déploiement en environnement humain non contrôlé : les robots actuels ne sont pas équipés pour naviguer les conventions implicites du quotidien. RobotEQ s'inscrit dans un effort académique plus large visant à combler le fossé entre capacités de manipulation assistée et autonomie sociale réelle, un sujet de plus en plus pressant à mesure que les robots humanoïdes entrent dans des espaces partagés avec des humains. Les grandes plateformes évaluées ne sont pas nommées explicitement dans l'abstract, mais le benchmark cible les VLMs (Vision-Language Models) utilisés dans les architectures d'IA incarnée actuelles, comme ceux sous-tendant des systèmes tels que Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Aucun partenaire industriel ni calendrier de déploiement n'est annoncé, ce papier restant à ce stade une contribution de recherche fondamentale avec dataset et benchmark disponibles pour la communauté.

RecherchePaper
1 source
VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés
534arXiv cs.RO 

VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés

Une équipe de chercheurs publie VLA-GSE (Generalized and Specialized Experts) sur arXiv en mai 2026 (arXiv:2605.06175), une méthode d'affinage efficace en paramètres (PEFT) pour les modèles vision-langage-action (VLA). Ces modèles, construits sur des dorsales visuelles et linguistiques pré-entraînées comme celles d'OpenVLA ou pi-0, souffrent d'oubli catastrophique lorsqu'on les affine entièrement sur des données de contrôle robotique. VLA-GSE répond à ce problème via une décomposition spectrale de la dorsale gelée : les composantes singulières dominantes alimentent des experts généralisés partagés entre toutes les tâches, tandis que les composantes résiduelles disjointes alimentent des experts spécialisés routés selon la tâche. Seuls 2,51 % des paramètres totaux sont entraînables. Sur le benchmark LIBERO-Plus, la méthode atteint 81,2 % de taux de succès moyen en zéro-shot, surpassant à la fois l'affinage complet (FFT) et LoRA, tout en préservant des performances comparables à LoRA sur les benchmarks de compréhension multimodale. Ce résultat remet en question une hypothèse implicite du secteur : préserver les connaissances pré-entraînées et adapter efficacement au contrôle robotique seraient deux objectifs incompatibles. La décomposition spectrale permet d'allouer la capacité d'adaptation là où elle est nécessaire sans écraser les représentations visuelles-sémantiques acquises. Pour les équipes R&D et les intégrateurs travaillant sur des robots manipulateurs, cela signifie qu'un modèle de fondation peut être spécialisé sur un domaine restreint avec un budget computationnel réduit sans sacrifier la généralisation. La robustesse observée face à plusieurs changements de distribution (environnement, objets, éclairage) renforce la crédibilité de l'approche, même si les expériences sur plateformes physiques restent limitées dans les résultats publiés. Les modèles VLA constituent depuis 2023-2024 un axe de recherche majeur, portés notamment par OpenVLA (UC Berkeley), pi-0 (Physical Intelligence) et GR00T N1/N2 (NVIDIA). La stratégie dominante jusqu'ici reposait sur un affinage complet coûteux ou sur LoRA standard, qui peine à capturer la complexité des politiques de contrôle. VLA-GSE se positionne entre ces deux extrêmes avec un ratio paramètres/performance favorable. Le code source est disponible sur GitHub (YuhuaJiang2002/VLA-GSE), facilitant la reproduction. Les prochaines étapes logiques incluent des validations sur des plateformes physiques variées, notamment des bras à 6-7 DOF et des robots mobiles manipulateurs, ainsi qu'une comparaison directe avec des approches concurrentes comme SpatialVLA en conditions de déploiement réel.

RechercheOpinion
1 source
Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne
535arXiv cs.RO 

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs ont publié sur arXiv (arXiv:2605.05544, mai 2026) une méthode appelée Adaptive Q-Chunking (AQC), visant à résoudre une limitation structurelle de l'apprentissage par renforcement offline-to-online avec action chunking. Toutes les approches existantes appliquent une taille de chunk fixe à chaque état, ce qui est sous-optimal : près d'un contact physique, des chunks courts sont nécessaires pour un contrôle réactif ; en déplacement libre, des chunks longs améliorent l'attribution du crédit temporel. La solution naïve, entraîner un critique par taille de chunk puis comparer les valeurs Q, échoue systématiquement par désalignement des échelles de remise (discount-scale mismatch) et dégénère en bruit dans les états à faible valeur. AQC corrige ce double problème en comparant l'avantage relatif de chaque horizon par rapport à une baseline normalisée par le facteur de remise, rendant les comparaisons non biaisées même en l'absence de signal discriminant. La méthode atteint des taux de succès état de l'art sur les benchmarks OGBench et Robomimic, et améliore significativement les performances de modèles VLA à grande échelle sur les tâches RoboCasa-GR1. L'enjeu est concret pour les équipes qui intègrent des modèles Vision-Language-Action en production. Ces architectures, dont Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, prédisent des séquences d'actions dont l'efficacité dépend directement de la granularité temporelle de ces séquences. AQC est applicable sans modifier l'architecture sous-jacente, ce qui en fait un correctif plug-and-play pour des pipelines existants. Les auteurs fournissent également des bornes formelles sur l'immunité au bruit du sélecteur d'avantage et sur la dominance en valeur du chunking adaptatif face à toute taille fixe, donnant une assise théorique à des performances que les benchmarks confirment empiriquement. L'action chunking s'est imposé comme paradigme de référence en manipulation apprise depuis ACT (Action Chunking with Transformers, Chi et al., 2023) et Diffusion Policy. La limitation d'une taille fixe était documentée mais sans solution rigoureuse. Des approches concurrentes adressent la granularité temporelle via la planification hiérarchique ou le fine-tuning online de politiques de diffusion, sans résoudre le biais de comparaison entre horizons. AQC se positionne comme correctif algorithmique orthogonal, applicable en surcouche de ces méthodes. Les résultats présentés portent intégralement sur des environnements simulés ; la validation sur plateformes physiques reste à établir, le gap sim-to-real demeurant une variable non résolue dans ce domaine.

RechercheOpinion
1 source
Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)
536arXiv cs.RO 

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

Des chercheurs de l'Université Renmin de Chine (RUC) ont publié le 7 mai 2026 une étude systématique sur la supervision par actions latentes dans les modèles VLA (Vision-Language-Action), une architecture clé pour les robots capables de comprendre des instructions en langage naturel et d'agir dans le monde physique. L'article, référencé arXiv:2605.04678, pose une question concrète : comment entraîner efficacement un VLA sur des datasets hétérogènes, issus de robots différents avec des espaces d'action incompatibles ? La réponse explorée est l'action latente, une représentation intermédiaire abstraite qui sert de pivot commun entre perception visuelle, langage et commande motrice. Les auteurs comparent quatre stratégies d'intégration sous une baseline VLA unifiée, en distinguant deux familles : les actions latentes basées sur l'image (qui encodent les transitions visuelles entre frames) et celles basées sur l'action (qui compressent directement les commandes moteurs dans un espace latent). Les résultats révèlent une correspondance formulation-tâche claire, ce qui est utile pour tout intégrateur qui choisit une architecture : les actions latentes image-based sont plus efficaces sur les tâches longues nécessitant un raisonnement multi-étapes et une généralisation au niveau de la scène, tandis que les actions latentes action-based surperforment sur la coordination motrice fine et complexe. La découverte la plus opérationnelle est que superviser directement le modèle de langage vision (VLM) avec des tokens discrets d'actions latentes donne les meilleures performances globales, devançant les approches de supervision continue ou indirecte. L'étude apporte également des premières preuves que la supervision par actions latentes améliore l'entraînement en données mixtes (multi-robot, multi-tâche), un verrou majeur pour passer du lab au déploiement à grande échelle. Ce travail s'inscrit dans une course effrénée à la généralisation des VLA, après les succès récents de Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA), qui ont tous démontré des capacités cross-embodiment limitées mais prometteuses. La contribution de RUC est moins un nouveau modèle qu'un benchmark de design choices, un type de contribution rare et précieux dans un domaine encore dominé par les démonstrations spectaculaires. La prochaine étape naturelle serait de valider ces résultats sur du matériel réel au-delà des benchmarks simulés, notamment sur des plateformes comme ALOHA 2 ou des manipulateurs industriels, pour confirmer que le gap sim-to-real ne neutralise pas les gains observés en simulation. Le code est disponible sur GitHub (RUCKBReasoning/FromPixelsto_Tokens).

RechercheOpinion
1 source
Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts
537arXiv cs.RO 

Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts

Des chercheurs ont publié DreamTacVLA, un framework qui dote les modèles Vision-Language-Action (VLA) d'un sens du toucher anticipatif. Ces architectures, parmi lesquelles Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, généralisent des comportements robotiques à partir de connaissances web-scale, mais restent aveugles à la physique du contact : force, texture et glissement. DreamTacVLA introduit une perception hiérarchique à trois niveaux : images tactiles haute résolution (micro-vision), caméra poignet (vision locale) et vue tierce (macro-vision), le tout aligné par une perte baptisée Hierarchical Spatial Alignment (HSA). Le système est ensuite affiné par un modèle de monde tactile prédisant des états de contact futurs, ce qui lui permet de conditionner ses décisions à la fois sur des observations réelles et sur des conséquences anticipées ; sur des benchmarks de manipulation contact-riche (vissage, pelage, textiles), il atteint jusqu'à 95 % de succès face aux baselines VLA état de l'art, appuyé par un dataset hybride combinant simulation haute-fidélité (digital twin) et expériences en monde réel. Ce résultat quantifie concrètement le "gap tactile" des VLA modernes : intégrer des signaux de contact haute résolution est discriminant pour des tâches industrielles entières, de l'assemblage de précision au conditionnement de composants déformables. Conditionner les décisions sur des conséquences tactiles anticipées, et non seulement sur des observations en temps réel, rapproche les VLA du raisonnement physique implicite des opérateurs expérimentés. Pour les intégrateurs B2B, cela laisse entrevoir une prochaine génération de politiques robotiques capables de manipulation fine sans capteurs de force-couple coûteux, à condition d'embarquer des capteurs tactiles conformes haute résolution. La démonstration reste cependant purement académique : aucun déploiement industriel ni partenariat de production n'est annoncé dans le papier. Le travail s'inscrit dans un mouvement d'enrichissement des VLA au-delà du seul canal vision-langage, aux côtés d'approches intégrant proprioception, retour de force ou audio. DreamTacVLA se distingue par l'application au domaine tactile de techniques issues des modèles de monde visuels (Dreamer, RSSM), une transposition méthodologiquement originale. L'article est à sa troisième révision arXiv (v3), signe d'une évaluation par les pairs active. Parmi les acteurs à surveiller : Sanctuary AI et Agility Robotics sur les politiques de manipulation, GelSight et Contactile sur les capteurs tactiles, et en Europe, Pollen Robotics qui explore des effecteurs sensoriellement enrichis.

UEPollen Robotics, identifié comme acteur européen explorant des effecteurs sensoriellement enrichis, est directement positionné pour intégrer ce type d'avancée tactile dans ses politiques de manipulation VLA.

IA physiqueOpinion
1 source
Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot
538arXiv cs.RO 

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Des chercheurs du RAI Institute publient sur arXiv (2605.05172, mai 2026) Q2RL, un algorithme d'apprentissage offline-to-online conçu pour améliorer automatiquement des politiques de contrôle robotique après une phase d'imitation. La méthode repose sur deux composants distincts : Q-Estimation, qui extrait une Q-function à partir d'une politique de Behavior Cloning (BC) en quelques étapes d'interaction avec l'environnement, et Q-Gating, qui alterne dynamiquement entre les actions BC et les actions RL en comparant leurs Q-values respectives pour guider la collecte de données d'entraînement. Sur les benchmarks standards D4RL et robomimic, Q2RL surpasse les meilleures baselines offline-to-online existantes en taux de succès et en vitesse de convergence. Appliqué directement sur robot réel, il apprend des politiques robustes pour des tâches de manipulation à contact riche et haute précision, assemblage de tuyaux et kitting industriel, en 1 à 2 heures d'interaction, avec des taux de succès atteignant 100 % et un gain jusqu'à 3,75x par rapport à la politique BC initiale. L'enjeu pratique est significatif : le BC reste la méthode dominante pour apprendre à partir de démonstrations humaines, notamment dans les architectures VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence, mais il souffre d'une limite structurelle, il ne s'améliore pas seul une fois déployé. Les approches offline-to-online existantes se heurtent à un problème de distribution mismatch : en passant à l'apprentissage en ligne, le RL tend à écraser les bonnes actions apprises hors ligne. Q2RL adresse ce problème directement via le Q-Gating, qui agit comme un filtre de qualité empêchant la dégradation de la politique. Un délai de convergence de 1 à 2 heures sur robot physique est une performance notable pour des tâches à contact, où la variabilité mécanique rend le sim-to-real particulièrement difficile. Le contexte est celui d'une course intense à l'autonomie post-démonstration. Physical Intelligence (Pi-0), Figure AI, Apptronik et d'autres misent massivement sur le fine-tuning en ligne pour réduire le gap démo-to-deployment. Q2RL s'inscrit dans cette dynamique mais en ciblant l'efficacité computationnelle : l'algorithme est conçu pour tourner sans infrastructure cloud lourde, directement sur le contrôleur embarqué. Le RAI Institute, relativement discret sur la scène robotique, positionne ici une contribution technique solide sur un verrou bien identifié. Le code et les vidéos sont disponibles publiquement, ce qui facilite la reproductibilité et l'éventuelle intégration dans des pipelines industriels existants.

IA physiquePaper
1 source
Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil
539arXiv cs.RO 

Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil

Des chercheurs ont déposé sur arXiv (identifiant 2507.23045, version révisée) un algorithme de calibration extrinsèque pour plateformes multi-capteurs, formulé comme une solution générale au problème dit de "robot-world and hand-eye calibration" (RWHEC). La contribution centrale est la garantie de convergence vers l'optimum global, une propriété que les méthodes précédentes, souvent fondées sur une optimisation locale par descente de gradient, ne pouvaient pas assurer. L'algorithme résout simultanément la pose de plusieurs capteurs et de plusieurs cibles, et prend en charge les caméras monoculaires, qui présentent une ambiguïté d'échelle intrinsèque : seules, elles ne peuvent pas mesurer la distance absolue sans information supplémentaire. Une implémentation open-source accompagne la publication pour faciliter reproductibilité et adoption. La calibration extrinsèque, la détermination précise de la position et de l'orientation relative entre un capteur (caméra, LiDAR) et l'effecteur ou la base d'un robot, est un prérequis critique pour tout système multi-capteurs, qu'il s'agisse de robotique industrielle, de véhicules autonomes ou de manipulation. En pratique, les méthodes existantes exigent soit des hypothèses fortes sur l'environnement (cibles connues, mouvements structurés), soit des initialisations manuelles proches de la solution, au risque de converger vers un minimum local erroné. Les auteurs dérivent des critères d'identifiabilité a priori, c'est-à-dire des conditions mathématiques permettant de vérifier avant le calcul si le problème admet une solution unique, ainsi que des garanties d'optimalité globale pour des instances à erreurs de mesure bornées. Cela réduit la charge opérateur et élimine le risque d'échec silencieux en production. Techniquement, l'algorithme repose sur une relaxation SDP (Semidefinite Programming) d'un programme quadratique à contraintes quadratiques (QCQP), une famille de méthodes popularisée notamment par TEASER++ (MIT, 2020) pour le recalage de nuages de points. Les auteurs introduisent en parallèle une nouvelle qualification de contraintes pour les programmes non linéaires à contraintes redondantes, une contribution de théorie de l'optimisation valable indépendamment du problème de calibration. À noter que ce travail reste un preprint non encore évalué par les pairs. Dans un secteur où des acteurs comme Boston Dynamics, Agility Robotics, ou côté français Wandercraft, investissent massivement dans la perception embarquée multi-capteurs, disposer d'une calibration certifiée, générale et peu contraignante représente un gain opérationnel concret pour le passage à l'échelle en environnements réels.

UELes entreprises françaises multi-capteurs comme Wandercraft pourraient intégrer cet algorithme open-source pour fiabiliser leur calibration robot en production sans risque de minimum local silencieux.

RecherchePaper
1 source
STEP : politiques visuomotrices pré-initialisées avec prédiction de cohérence spatiotemporelle
540arXiv cs.RO 

STEP : politiques visuomotrices pré-initialisées avec prédiction de cohérence spatiotemporelle

Publiée sur arXiv en février 2026 (arXiv:2602.08245v2), STEP (Spatiotemporal Consistency Prediction) est une méthode conçue pour accélérer les diffusion policies en manipulation robotique sans dégrader la qualité d'exécution. Les diffusion policies modélisent des distributions de séquences d'actions avec une forte capacité à capturer la multimodalité des comportements, mais leur processus de débruitage itératif engendre une latence d'inférence élevée qui limite la fréquence de contrôle en boucle fermée temps réel. STEP génère des actions de démarrage à chaud (warm-start) distributivement proches de la cible et temporellement cohérentes, couplées à un mécanisme d'injection de perturbation sensible à la vélocité qui module dynamiquement l'excitation d'actuation pour éviter les blocages d'exécution en conditions réelles. Avec seulement 2 pas de débruitage, la méthode surpasse BRIDGER de 21,6% en taux de succès moyen sur le benchmark RoboMimic, et DDIM de 27,5% sur deux tâches physiques réelles, pour un total de neuf benchmarks simulés évalués. Le code est publié en open source sur GitHub (github.com/Kimho666/STEP). L'enjeu pratique est la déployabilité en production: une fréquence de contrôle trop basse rend une politique visuomotrice fragile face aux perturbations dynamiques, ce qui freine l'adoption industrielle de ces approches pourtant performantes en simulation. STEP avance la frontière de Pareto entre latence d'inférence et taux de succès là où les méthodes précédentes, réduction du nombre de pas d'échantillonnage, prédiction directe ou réutilisation d'actions passées, sacrifiaient l'une ou l'autre. La validation sur des tâches physiques réelles, et non uniquement en simulation, renforce la crédibilité du sim-to-real transfer, souvent contesté dans la littérature robotique. Les auteurs fournissent également une analyse théorique montrant que le mécanisme de prédiction introduit un mapping localement contractant, garantissant la convergence des erreurs d'action pendant le raffinement par diffusion, un argument formel solide pour des équipes R&D cherchant à fiabiliser leur pipeline avant déploiement. Les diffusion policies pour la manipulation ont émergé autour de 2023 avec les travaux de Chi et al. (Diffusion Policy), suivis rapidement de variantes d'accélération comme DDIM, emprunté à la génération d'images, et BRIDGER, que STEP dépasse désormais sur les deux métriques clés simultanément. Dans le paysage plus large des architectures visuomotrices, la méthode est complémentaire des VLA (Vision-Language-Action) comme pi-zero de Physical Intelligence ou OpenVLA, où la latence d'inférence constitue un goulot d'étranglement comparable. Aucun acteur européen n'est directement impliqué dans cette publication, mais la disponibilité open source permettra à des équipes comme celles de l'INRIA ou de laboratoires spécialisés en manipulation flexible d'intégrer directement la méthode dans leurs pipelines existants. Les prochaines étapes naturelles incluront l'évaluation sur des robots mobiles manipulateurs et des environnements industriels non structurés, ainsi que l'intégration dans des architectures VLA de plus grande envergure.

RechercheOpinion
1 source
De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM
541arXiv cs.RO 

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

Une étude publiée sur arXiv (référence 2604.27267) propose la première modélisation unifiée des menaces de sécurité pour les systèmes robotiques autonomes pilotés par des grands modèles de langage (LLM). Les auteurs ont modélisé un robot autonome déployé en architecture edge-cloud sous la forme d'un Data Flow Diagram (DFD) hiérarchique, puis appliqué la méthode STRIDE-per-interaction sur six points de franchissement de frontières de confiance. Cette analyse identifie trois familles de menaces distinctes : les menaces cyber conventionnelles (injections réseau, falsification de données), les menaces adversariales (attaques sur la perception visuelle ou sensorielle) et les menaces conversationnelles (prompt injection, manipulation des sorties du LLM). Trois chaînes d'attaque cross-boundary sont tracées de l'entrée externe jusqu'à l'actionnement physique non sécurisé du robot. Ce travail est significatif parce qu'il démontre que ces trois catégories de menaces convergent aux mêmes points d'interface architecturale, ce qui invalide l'hypothèse implicite de nombreux intégrateurs selon laquelle les couches perception, planification et actuation peuvent être sécurisées indépendamment. L'étude expose trois failles structurelles distinctes : l'absence de validation sémantique indépendante entre l'entrée utilisateur et la commande d'actionneur, la translation cross-modale de la perception visuelle vers l'instruction LLM, et le franchissement non médié des frontières via les outils côté fournisseur (tool use). Pour un COO industriel ou un intégrateur déployant des robots LLM-enabled en production, ces résultats impliquent que le pipeline perception-planification-actuation constitue une surface d'attaque continue, et non un empilement de composants isolables. Le contexte est celui d'une intégration accélérée des LLM dans la robotique autonome, portée par des acteurs comme Figure AI, 1X Technologies, Boston Dynamics ou Physical Intelligence (pi0), qui utilisent des architectures VLA (Vision-Language-Action) pour le contrôle haut niveau. Les travaux antérieurs traitaient séparément la cybersécurité robotique, les attaques adversariales sur la perception et la sécurité des LLM, sans modèle architectural unifié. Cette étude, encore au stade preprint et non évaluée par les pairs, comble ce vide méthodologique et devrait alimenter les discussions dans les groupes de standardisation (ISO TC 299, IEC) sur la certification des systèmes robotiques cognitifs. Les auteurs ne précisent pas d'affiliations institutionnelles spécifiques ni de financements dans l'abstract.

UECette étude devrait alimenter les groupes de standardisation européens (IEC, ISO TC 299) travaillant sur la certification des systèmes robotiques cognitifs dans le cadre de l'AI Act, en fournissant une méthodologie unifiée manquante.

RechercheOpinion
1 source
FASTER : repenser les VLA de flux en temps réel
542arXiv cs.RO 

FASTER : repenser les VLA de flux en temps réel

Des chercheurs ont publié sur arXiv (2603.19199v2) une méthode baptisée FASTER (Fast Action Sampling for ImmediaTE Reaction) visant à réduire la latence de réaction des modèles VLA (Vision-Language-Action) sur des robots physiques. Le problème ciblé est précis : dans les politiques génératives basées sur le flow matching, comme π₀.₅ de Physical Intelligence ou X-VLA, le système doit compléter l'intégralité des étapes d'échantillonnage avant de pouvoir déclencher le moindre mouvement. FASTER introduit un "Horizon-Aware Schedule" qui réorganise l'ordre de débruitage pour prioriser les actions immédiates, comprimant leur génération de dix étapes à une seule, soit une réduction d'un facteur dix. La méthode a été validée sur des robots réels, dont une tâche de tennis de table à haute dynamique, et s'exécute sur GPU grand public via une architecture client-serveur en streaming. L'apport central est analytique avant d'être technique : les auteurs formalisent le temps de réaction comme une distribution uniforme déterminée conjointement par le TTFA (Time to First Action) et l'horizon d'exécution. Cette modélisation démontre que la pratique standard d'un schedule constant dans les VLA basées sur le flow constitue un goulot d'étranglement structurel, et non un simple détail d'implémentation. En comprimant la génération des actions proches en une seule passe de débruitage tout en préservant la qualité des trajectoires longues, FASTER réduit effectivement la latence mesurée sur robot physique. Le test sur ping-pong, tâche reconnue pour son exigence en temps de boucle fermée, représente un signal de validation plus robuste que les benchmarks de manipulation statique habituellement retenus dans ce type de papier. Le contexte est celui d'une concurrence accrue entre architectures VLA depuis la publication de π₀ par Physical Intelligence fin 2024, rapidement suivie de π₀.₅, d'OpenVLA-OFT et de X-VLA. Ces modèles héritent tous du paradigme "action chunking" issu de ACT et Diffusion Policy, qui génère des segments d'actions plutôt que des commandes individuelles, introduisant mécaniquement de la latence. FASTER s'inscrit dans ce courant d'optimisation de l'inférence, aux côtés de travaux de distillation de policies, sans requérir de réentraînement du modèle de base. La démonstration sur GPU grand public est un signal d'accessibilité notable pour les intégrateurs sans infrastructure HPC, mais le stade reste celui d'une preuve de concept académique, sans déploiement industriel annoncé à ce stade.

RechercheOpinion
1 source
Apprentissage du parkour pour quadrupèdes : mélange d'experts parcimonieux avec entrée visuelle
543arXiv cs.RO 

Apprentissage du parkour pour quadrupèdes : mélange d'experts parcimonieux avec entrée visuelle

Des chercheurs ont publié sur arXiv (référence 2604.19344) une étude comparant deux architectures de réseaux de neurones pour le contrôle d'un robot quadrupède Unitree Go2 face à des obstacles de parkour, notamment des marches et discontinuités élevées. L'architecture testée repose sur un mécanisme dit de "mixture d'experts à portes creuses" (sparsely gated MoE) : au lieu d'activer tous les paramètres du réseau à chaque inférence, seul un sous-ensemble d'experts spécialisés est sollicité selon le contexte. Les résultats sur robot réel sont nets : la politique MoE atteint le double de taux de succès dans la traversée de grands obstacles par rapport à une baseline MLP classique, à budget computationnel identique (même nombre de paramètres actifs à l'inférence). Pour obtenir des performances équivalentes avec un MLP dense, il faut augmenter sa taille totale au niveau du MoE complet, ce qui entraîne une hausse de 14,3 % du temps de calcul. L'intérêt de ce résultat tient moins aux performances brutes qu'à ce qu'il démontre structurellement : les gains architecturaux qui ont propulsé les grands modèles de langage (Mixtral, GPT-4 et consorts utilisent des variantes MoE) sont transférables aux politiques de contrôle robotique bas niveau. Cela valide une intuition croissante dans la communauté : la scalabilité des politiques de locomotion n'est pas uniquement une question de données ou de sim-to-real, mais aussi d'architecture. Pour les équipes travaillant sur des robots embarqués avec contraintes computationnelles, l'activation creuse offre un levier concret pour améliorer les performances sans alourdir les exigences matérielles. Le parkour quadrupède s'est imposé ces deux dernières années comme un benchmark exigeant pour la locomotion, avec des travaux notables issus de Berkeley, ETH Zurich et CMU sur des plateformes similaires (ANYmal, Spot, Go1/Go2). L'approche dominante jusqu'ici reposait sur des MLP séquentiels entraînés par reinforcement learning en simulation puis transférés sur le robot physique. Cette étude, dont le code est accessible en version anonymisée, ouvre une piste d'amélioration architecturale orthogonale aux efforts habituels sur les données ou les environnements de simulation. Les prochaines étapes naturelles concerneraient l'extension à des environnements plus complexes et l'évaluation du comportement des experts spécialisés pour mieux comprendre la décomposition fonctionnelle apprise.

RecherchePaper
1 source
RoboWM-Bench : un benchmark pour évaluer les modèles du monde en manipulation robotique
544arXiv cs.RO 

RoboWM-Bench : un benchmark pour évaluer les modèles du monde en manipulation robotique

Une équipe de chercheurs a déposé sur arXiv (identifiant 2604.19092) RoboWM-Bench, un benchmark dédié à l'évaluation des world models vidéo pour la manipulation robotique. Le protocole est exigeant : les comportements générés par ces modèles, à partir de vidéos de mains humaines ou de robots en action, sont convertis en séquences d'actions exécutables, puis validés par exécution réelle sur robot physique. Les évaluations conduites sur les meilleurs world models actuels sont sans appel : produire des comportements physiquement exécutables de manière fiable reste un problème ouvert. Les modes d'échec récurrents identifiés incluent les erreurs de raisonnement spatial, la prédiction instable des contacts entre effecteur et objet, et les déformations non physiques de matériaux. Un fine-tuning sur données de manipulation améliore les résultats, mais les incohérences physiques persistent. Ce constat soulève une question stratégique pour l'industrie : peut-on utiliser des world models comme simulateurs bon marché pour générer des données d'entraînement, en remplacement des démonstrations terrain coûteuses ? Le réalisme visuel d'une vidéo générée ne garantit pas sa plausibilité physique, une distinction que les benchmarks existants, majoritairement orientés perception ou diagnostic, ne permettaient pas de mesurer. En imposant la validation par exécution réelle comme critère central, RoboWM-Bench dépasse les métriques habituelles de cohérence temporelle ou de FID. Pour les équipes engineering et les intégrateurs, la conclusion est opérationnelle : les world models actuels ne sont pas encore substituables aux démonstrations réelles pour l'apprentissage de politiques de manipulation précise. L'intérêt pour les world models en robotique s'est intensifié depuis 2024, porté par des modèles génératifs comme Sora (OpenAI), Genie 2 (Google DeepMind) ou UniSim, et alimenté par les avancées des VLA (Vision-Language-Action). L'hypothèse qu'un monde simulé pourrait tenir lieu de terrain d'entraînement, évitant la collecte de données réelles, est au coeur des investissements d'une dizaine de startups et labos académiques actifs sur ce créneau. RoboWM-Bench s'inscrit dans une dynamique de standardisation comparable à ce que RoboMimic ou MetaWorld ont établi pour l'imitation learning : un protocole unifié et reproductible. Aucune affiliation institutionnelle ni timeline d'extension du benchmark ne figurent dans le preprint, ce qui en limite la portée immédiate, mais la publication envoie un signal net : la communauté robotique commence à exiger des preuves d'exécutabilité physique, et non plus seulement de cohérence visuelle.

RecherchePaper
1 source
ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique
545arXiv cs.RO 

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion
1 source
Flow-Opt : optimisation centralisée et scalable de trajectoires multi-robots par flow matching et optimisation différentiable
546arXiv cs.RO 

Flow-Opt : optimisation centralisée et scalable de trajectoires multi-robots par flow matching et optimisation différentiable

Flow-Opt est une méthode de planification de trajectoires multi-robots publiée sur arXiv (référence 2510.09204v2) qui s'attaque à un verrou connu de la robotique en essaim : l'optimisation centralisée dans l'espace joint de plusieurs robots est théoriquement supérieure (accès à un espace de solutions plus large, trajectoires plus fluides dans les espaces contraints), mais devient informatiquement intractable dès que la flotte dépasse quelques unités. L'approche proposée décompose le problème en deux étapes : un modèle génératif basé sur le flow matching, implémenté via un diffusion transformer (DiT) augmenté d'encodeurs invariants aux permutations pour les positions des robots et la carte, produit des trajectoires candidates ; un Safety-Filter (SF) différentiable, doté d'un réseau de neurones qui prédit une initialisation spécifique au contexte de façon auto-supervisée, garantit ensuite la satisfaction des contraintes à l'inférence. Résultat annoncé : génération de trajectoires pour des dizaines de robots en environnement encombré en quelques dizaines de millisecondes, avec la capacité de résoudre plusieurs dizaines d'instances en parallèle en une fraction de seconde. Ces performances, si elles se confirment hors benchmark contrôlé, changeraient concrètement le dimensionnement des systèmes de gestion de flotte (FMS) pour les AMR en entrepôt ou en environnement industriel. Aujourd'hui, les planificateurs centralisés sont réservés à de petites flottes ou nécessitent des horizons de planification longs ; les approches décentralisées sacrifient l'optimalité globale. Flow-Opt revendique de combler cet écart en rendant le calcul centralisé compatible avec les contraintes temps-réel. La capacité de batching est particulièrement notable : elle permet de traiter des dizaines d'instances simultanément, ce qui ouvre la voie à une planification à re-planification fréquente ou à des architectures de simulation-dans-la-boucle. Il faut cependant noter que les résultats sont présentés sur des benchmarks simulés et que le gap sim-to-real n'est pas adressé dans ce papier. La planification de trajectoires multi-robots centralisée est un problème ouvert depuis les années 2010, avec des travaux fondateurs comme CBS (Conflict-Based Search) et ses dérivés. Les approches par apprentissage profond, notamment les modèles de diffusion appliqués à la planification (DDPM, Score Matching), ont montré des gains de vitesse mais peinaient à garantir la faisabilité des trajectoires produites. Flow-Opt se positionne comme une alternative plus rapide et plus fiable face à ces baselines diffusion, tout en restant dans le registre académique : aucun déploiement industriel n'est annoncé. Les acteurs comme Exotec (Hauts-de-France), qui opère des flottes denses de robots Skypod, ou MiR et Locus Robotics, pourraient être des débouchés naturels si les auteurs industrialisent leur approche. La prochaine étape logique serait une validation sur hardware réel avec des perturbations dynamiques.

UEExotec (Hauts-de-France), opérateur de flottes denses de robots Skypod, est explicitement cité comme débouché naturel si la méthode est industrialisée, ce qui représente un impact potentiel direct sur l'écosystème robotique français.

RecherchePaper
1 source
Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux
547arXiv cs.RO 

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

Des chercheurs ont publié sur arXiv (référence 2505.19237) une étude portant sur la capacité des grands modèles de langage multimodaux (LLM multimodaux) à développer une forme de conscience proprioceptive lorsqu'ils sont embarqués sur un robot mobile autonome. L'équipe a intégré un LLM multimodal directement dans la boucle de contrôle d'un robot mobile, puis a évalué si le système pouvait construire une représentation interne de son propre corps dans l'environnement, sans programmation explicite de cette capacité. Les résultats montrent que le robot démontre trois propriétés distinctes : une conscience environnementale (perception cohérente du monde extérieur), une auto-identification (le système infère lui-même sa nature robotique et ses caractéristiques de mouvement), et une conscience prédictive (anticipation de ses propres états futurs). Les chercheurs ont utilisé la modélisation par équations structurelles (SEM) pour quantifier comment l'intégration sensorielle influence les différentes dimensions du "soi minimal", et ont conduit des tests d'ablation sur les entrées sensorielles pour isoler le rôle de la mémoire épisodique et structurée. Ces résultats ont des implications concrètes pour les intégrateurs et les équipes de développement travaillant sur des architectures d'agents incarnés. Jusqu'ici, la conscience de soi dans les systèmes robotiques reposait sur des modèles cinématiques codés en dur ou des estimateurs d'état dédiés. Démontrer qu'un LLM peut inférer sa propre nature physique à partir de l'expérience sensorimotrice ouvre la voie à des robots plus adaptatifs, capables de recalibrer leur comportement sans reconfiguration manuelle. Les tests d'ablation confirment que les capteurs se compensent mutuellement en cas de défaillance partielle, ce qui est un indicateur de robustesse opérationnelle réelle, pas seulement de performance en conditions idéales. La mémoire épisodique s'avère indispensable, ce qui renforce l'intérêt des architectures de type RAG (retrieval-augmented generation) pour la robotique embarquée. Ce travail s'inscrit dans un mouvement plus large visant à unifier les capacités cognitives des LLM avec l'action physique, un champ que des acteurs comme Physical Intelligence (Pi-0), Figure AI ou le projet GR00T de NVIDIA explorent depuis 2023-2024 sous l'angle des architectures VLA (Vision-Language-Action). La particularité ici est de remonter à une couche plus fondamentale : non pas "comment le robot agit" mais "comment le robot se sait robot", ce que les philosophes cognitifs appellent le "soi minimal". Aucun acteur européen n'est directement cité dans ce papier académique, mais des laboratoires comme celui de Wandercraft à Paris ou des groupes de recherche en robotique cognitive à l'INRIA travaillent sur des questions adjacentes. La prochaine étape naturelle sera de tester cette architecture sur des plateformes humanoïdes à degrés de liberté élevés, où l'auto-modélisation corporelle devient critique pour la sécurité et la planification de mouvement.

UEAucun acteur européen n'est impliqué directement, mais l'INRIA et des groupes de robotique cognitive français travaillent sur des problématiques adjacentes susceptibles de bénéficier de ces résultats sur l'auto-modélisation embarquée.

RechercheOpinion
1 source
Distillation de représentations tactiles simulées pour la manipulation dextérique (PTLD)
548arXiv cs.RO 

Distillation de représentations tactiles simulées pour la manipulation dextérique (PTLD)

Des chercheurs ont publié sur arXiv (référence 2603.04531) une méthode baptisée PTLD, pour "Privileged Tactile Latent Distillation", visant à résoudre l'un des verrous fondamentaux de la manipulation dextère robotique : intégrer le retour tactile dans des politiques de contrôle sans disposer de simulation réaliste de capteurs tactiles. L'approche repose sur un entraînement par renforcement en simulation, puis une phase de distillation en monde réel : des capteurs tactiles "privilégiés" (accessibles uniquement lors de la collecte de données réelles) servent à entraîner un estimateur d'état latent, qui est ensuite intégré dans la politique proprioceptive déjà apprise. Sur la tâche de référence de rotation en main (in-hand rotation), PTLD affiche une amélioration de 182 % par rapport à une politique basée uniquement sur la proprioception. Sur la tâche plus difficile de réorientation en main guidée par le toucher, le gain atteint 57 % en nombre d'objectifs atteints. L'enjeu industriel est direct : la manipulation fine avec des mains multi-doigts bute depuis des années sur deux obstacles simultanés, l'impossibilité de simuler fidèlement les capteurs tactiles et le coût prohibitif des démonstrations téléopérées de qualité suffisante. PTLD contourne les deux en découplant apprentissage en simulation (pour la dynamique) et distillation en monde réel (pour le sens du toucher), sans jamais exiger de simulation tactile. Ce résultat valide l'hypothèse que le sim-to-real n'implique pas nécessairement de simuler chaque modalité sensorielle, à condition de concevoir intelligemment la phase de transfert. Pour les intégrateurs et les équipes de R&D travaillant sur l'assemblage précis ou la manipulation d'objets déformables, c'est un signal fort : des politiques robustes sont atteignables sans infrastructure de téléopération lourde. La manipulation dextère avec retour tactile reste un chantier ouvert dans le champ robotique : des acteurs comme Sanctuary AI, Dexterous Robotics, ou encore Shadow Robot explorent des approches similaires, tandis que des laboratoires académiques (Stanford, CMU, MIT) publient régulièrement sur le sim-to-real pour mains multi-doigts. PTLD se distingue en évitant la simulation tactile là où d'autres groupes investissent dans des moteurs physiques spécialisés (ex. Isaac Gym avec contact enrichi). Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un résultat académique publié sur preprint ; la reproductibilité sur des plateformes matérielles variées (Allegro, LEAP Hand, Dexterous Hand de Shadow) reste à démontrer.

RecherchePaper
1 source
Guidance stable par le langage pour les modèles vision-langage-action (VLA)
549arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source
Filtre de Kalman étendu itératif invariant pour l'odométrie des robots quadrupèdes
550arXiv cs.RO 

Filtre de Kalman étendu itératif invariant pour l'odométrie des robots quadrupèdes

Une équipe de chercheurs a publié sur arXiv (référence 2604.15449, avril 2026) un algorithme open-source d'estimation d'état pour robots à pattes, fondé sur le filtre de Kalman étendu invariant itéré, ou IterIEKF. L'algorithme s'applique aux robots quadrupèdes et repose exclusivement sur des mesures proprioceptives : il exploite les contraintes cinématiques sur la vitesse des pieds en phase de contact et la vitesse exprimée dans le référentiel du châssis, sans capteurs extéroceptifs (caméras, lidar). Les évaluations ont été conduites via simulations numériques approfondies et sur des jeux de données réels. Les résultats montrent que l'IterIEKF surpasse l'IEKF classique, le filtre de Kalman basé SO(3) et sa variante itérée, aussi bien en précision qu'en cohérence statistique. L'intérêt de cette contribution réside dans la rigueur mathématique apportée à l'odométrie des robots à pattes, un problème notoirement difficile à cause des contacts intermittents, des glissements et des dynamiques non linéaires. Les filtres de Kalman étendus standard souffrent de deux hypothèses rarement vérifiées en pratique : linéarité des dynamiques et linéarité du modèle de mesure, toutes deux avec bruit gaussien. L'IEKF avait partiellement résolu le premier problème en opérant sur des groupes de Lie à dynamiques group-affines. Le travail présenté ici généralise cette approche à l'étape de mise à jour, en montrant que l'itération de cette étape préserve des propriétés de compatibilité analogues à celles du filtre linéaire classique. Pour un intégrateur ou un ingénieur robotique, cela se traduit par une localisation plus robuste aux conditions terrain, sans dépendance à la perception visuelle ni à l'infrastructure externe. Le filtre de Kalman étendu invariant (IEKF) a été formalisé théoriquement dans les années 2010, notamment par Barrau et Bonnabel, et appliqué depuis à des plateformes variées allant des drones aux robots humanoïdes. Sa variante itérée (IterIEKF) avait été proposée récemment dans [1], mais son application à la locomotion quadrupède et la mise à disposition en open-source constituent des étapes concrètes vers l'adoption industrielle. Les concurrents directs sur ce segment incluent des approches basées sur des facteurs graphiques (GTSAM, iSAM2) et des estimateurs hybrides vision-inertie comme VILENS ou Pronto. La disponibilité open-source de ce filtre ouvre la voie à une intégration directe dans des stacks de navigation pour plateformes comme ANYmal, Spot ou Go2.

UELes chercheurs français Barrau et Bonnabel, à l'origine de la théorie IEKF, sont cités comme fondateurs de cette approche ; la disponibilité open-source de l'IterIEKF renforce la boîte à outils accessible aux équipes de recherche et startups européennes travaillant sur la locomotion de robots à pattes.

RecherchePaper
1 source