Aller au contenu principal

Dossier arXiv cs.RO — page 17

2263 articles · page 17 sur 46

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude
801arXiv cs.RO RecherchePaper

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

1 source
Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées
802arXiv cs.RO 

Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées

Des chercheurs ont présenté Sequential Asymmetric Imitation (SAI), une méthode d'apprentissage par imitation pour entraîner deux robots manipulateurs mobiles bimanuels à collaborer physiquement sur des tâches conjointes impliquant des objets rigides ou déformables. Publiée en pré-impression sur arXiv (2606.16490v1), l'étude part d'un constat précis : les échecs en manipulation collaborative ne proviennent pas d'un manque de compétence individuelle, mais de problèmes de synchronisation, notamment les attentes mal timées, le cédage insuffisant et les conflits lors du saisissement ou du relâchement d'objets. SAI propose un curriculum en trois étapes piloté par un seul téléopérateur : Robot A est d'abord entraîné à partir de démonstrations unilatérales avec un partenaire humain compliant ; Robot B est ensuite entraîné contre la politique déployée de Robot A ; enfin, Robot A est affiné par des interventions ponctuelles ciblées sur les zones de défaillance de coordination. Les expériences en conditions réelles montrent des gains mesurés sur la réussite des tâches, la synchronisation de phase et le comportement de cédage adaptatif, par rapport à des baselines d'imitation indépendante. L'apport principal de SAI réside dans l'élimination de la contrainte des démonstrations synchronisées à deux opérateurs, un frein logistique majeur pour la collecte de données dans les systèmes multi-robots. En structurant le curriculum de manière asymétrique, la méthode expose progressivement chaque robot à des comportements partenaires de plus en plus réalistes, incluant délais, décalages de phase et résistance insuffisante, sans nécessiter de canal de communication explicite entre les robots. Pour les intégrateurs industriels, l'argument est concret : un seul opérateur qualifié suffit à générer un dataset multi-agent viable. L'étude suggère que la coordination physique peut émerger de la structure du curriculum d'imitation elle-même, plutôt que d'un mécanisme de coordination dédié, ce qui contredit l'hypothèse dominante selon laquelle la collaboration multi-robot nécessite obligatoirement une communication inter-agents ou des démonstrations co-téléopérées. Ce travail s'inscrit dans un corpus croissant sur la manipulation multi-robot en milieu non structuré, où les approches dominantes reposaient jusqu'ici soit sur des communications inter-robots explicites, soit sur des démonstrations co-téléopérées coûteuses. En n'utilisant aucun des deux, SAI propose une troisième voie potentiellement plus scalable pour les déploiements industriels impliquant des paires de bras robotiques. Il convient toutefois de souligner que la méthode n'est validée que sur un ensemble limité de tâches réelles, sans benchmark standardisé face à des méthodes récentes comme ACT ou Diffusion Policy en contexte multi-agent, et que ce document reste un pré-print non révisé par les pairs. La page projet est disponible sur GitHub (cyc0429.github.io/sai-project-page) ; les prochaines étapes naturelles incluront la généralisation à des topologies de tâches plus complexes et l'évaluation sur des horizons temporels plus longs.

RecherchePaper
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
803arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source
Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1
804arXiv cs.RO 

Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1

Des chercheurs ont publié sur arXiv (référence 2606.15915) un modèle physique linéaire-en-paramètres permettant de prédire avec précision la consommation électrique du bras gauche à sept degrés de liberté (7-DOF) du robot humanoïde Unitree G1. Le modèle intègre des termes de pertes actuateur, une correction de couple de base capturant les variations de charge en compensation gravitationnelle, et des termes d'interaction par paires pour modéliser le couplage de puissance lors de mouvements multi-articulaires simultanés. Les paramètres ont été identifiés à partir de données expérimentales collectées sur un G1 physique, en utilisant les mesures de puissance embarquées comme cible de régression. Sur 897 trajectoires couvrant des mouvements mono-articulaires et coordonnés à plusieurs vitesses, le modèle atteint un R² de 0,933 avec un RMSE de 1,07 W. La validation sur 46 trajectoires à des vitesses non vues lors de l'entraînement donne un R² de 0,965, confirmant une bonne capacité de généralisation. Ces résultats sont directement utiles pour les équipes qui intègrent des humanoïdes dans des contextes industriels ou logistiques. Un modèle de consommation précis et léger à l'inférence constitue un prérequis pour la planification de mouvement énergétiquement consciente, la gestion de batterie en temps réel et la surveillance thermique des actionneurs, trois points critiques pour tout déploiement prolongé hors laboratoire. La performance du modèle sur des vitesses non vues suggère qu'il est exploitable sans recalibration systématique, ce qui réduit le coût d'intégration. L'analyse des paramètres identifiés révèle par ailleurs des signatures distinctes selon les articulations : les pertes par frottement visqueux dominent l'épaule en tangage et les trois articulations du poignet, les pertes cuivre dominent l'abduction d'épaule et le coude, tandis que le roulis d'épaule présente un profil atypique dominé par le frottement de Coulomb. Unitree, constructeur chinois connu pour ses robots quadrupèdes à prix agressifs, a élargi sa gamme aux humanoïdes avec le G1, positionné comme une plateforme de recherche abordable face au Spot de Boston Dynamics ou aux robots de Figure et Apptronik. Ce travail s'inscrit dans un effort croissant de la communauté académique pour produire des modèles physiques fiables sur du matériel commercial accessible, en complément des approches par apprentissage (comme les VLA ou les politiques neuronales). La prochaine étape logique serait d'étendre le modèle au bras droit et aux membres inférieurs, puis de l'intégrer dans une boucle de planification de trajectoire en ligne. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint.

UELes équipes de recherche européennes utilisant le Unitree G1 comme plateforme académique abordable peuvent réutiliser directement ce modèle sans recalibration pour réduire le coût d'intégration dans leurs pipelines de planification de mouvement.

RecherchePaper
1 source
Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées
805arXiv cs.RO 

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement. L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche. Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

RecherchePaper
1 source
Entraînement et évaluation des politiques de diffusion avec de longs contextes
806arXiv cs.RO 

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Une équipe de recherche a publié le 20 juin 2026 sur arXiv (arXiv:2606.16447) une étude systématique sur l'impact de la longueur de contexte dans l'apprentissage par imitation pour la manipulation robotique. Les politiques diffusion actuelles, celles qui apprennent des trajectoires motrices à partir d'observations RGB, ne conditionnent généralement les actions du robot que sur une courte fenêtre temporelle d'observations passées. Les auteurs ont construit un benchmark couvrant un spectre de tâches à stabilité locale et à exigences mémoire variables, en faisant varier progressivement la longueur du contexte de courte à longue, et ce dans plusieurs régimes de données. Leur résultat central : avec le bon backbone de débruitage (UNet avec cross-attention), les politiques single-task atteignent des taux de succès élevés même en scalant naïvement le contexte, y compris dans les régimes de données standards. Les chercheurs proposent également un algorithme d'entraînement qui entraîne conjointement les politiques sur plusieurs longueurs de contexte, réduisant ainsi la complexité d'échantillonnage de l'apprentissage à long contexte. Cette étude remet directement en cause un consensus répandu dans la littérature sur les VLA (Vision-Language-Action models) et les diffusion policies : l'idée que l'extension naïve du contexte serait fragile et nécessiterait des solutions architecturales spécifiques. Si ce résultat se confirme sur des benchmarks plus larges, il simplifie considérablement le pipeline de développement pour les intégrateurs robotiques, qui n'auraient plus besoin d'architectures mémoire spécialisées (LSTM, state-space models) pour résoudre des tâches séquentielles longues. C'est aussi un signal que le "memory gap" souvent invoqué pour justifier des approches complexes était peut-être surestimé, au moins dans les régimes de données courants. Les diffusion policies sont devenues un axe central de la robotique de manipulation depuis les travaux de Diffusion Policy (Chi et al., 2023) et leurs déclinaisons comme pi-0 de Physical Intelligence. La question du contexte long était jusqu'ici traitée par des approches ad hoc, recurrence, attention causale, mémoire externe. Cette étude offre la première analyse systématique à ce niveau de granularité, selon les auteurs eux-mêmes. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation industrielle réelle, la généralisation multi-tâche, et l'évaluation contre des baselines comme ACT ou des variantes de pi-0, dont les benchmarks publics permettraient une comparaison directe.

RecherchePaper
1 source
Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques
807arXiv cs.RO 

Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques

Des chercheurs ont publié (arXiv:2602.02773, mise à jour juin 2026) les résultats d'un système permettant à des utilisateurs atteints de lésions cervicales de la moelle épinière (cSCI, quadriplégie) de piloter un manipulateur mobile domestique via des manchettes électromyographiques haute densité (HDEMG). Le dispositif consiste en deux manchettes textiles intégrées, portées sur les deux avant-bras, qui captent l'activité neuromotrice résiduelle de membres cliniquement paralysés et la convertissent en commandes gestuelles temps réel pour le robot. Sur deux participants avec cSCI, le système atteint un taux de classification des intentions motrices allant jusqu'à 98,0 %. L'étude s'est déroulée sur douze jours en conditions réelles, dans le domicile même des participants, pour des tâches quotidiennes de type ADL (activities of daily living). Ce résultat est significatif pour plusieurs raisons. D'abord, il démontre qu'une interface de contrôle non invasive et portable peut extraire un signal moteur exploitable depuis des membres dont la paralysie est établie cliniquement, ce qui remet en cause l'hypothèse selon laquelle les interfaces robustes nécessitent obligatoirement une implantation chirurgicale (BCI intracrânien) ou des capacités motrices résiduelles importantes. Ensuite, l'architecture d'autonomie partagée, combinant vision, langage naturel et planification de mouvement, réduit la charge cognitive de l'opérateur pour les tâches de navigation, qui sont habituellement les plus pénibles dans un environnement domestique non structuré. Pour un intégrateur ou un décideur industriel, cela valide un paradigme de téléopération augmentée où l'IA complète les intentions de l'utilisateur sans les supplanter. Ce travail s'inscrit dans un champ de recherche qui, depuis une décennie, explore l'EMG de surface pour le contrôle prothétique et robotique, mais qui peinait à franchir le cap du test en laboratoire vers un déploiement prolongé hors-lab. Côté concurrence, des acteurs comme Aescape, Wandercraft (exosquelettes) ou des programmes DARPA/NSF travaillent sur des interfaces haptiques et neurales, mais peu ont publié des études en domicile réel sur plusieurs jours. Les prochaines étapes probables incluent l'élargissement de la cohorte au-delà de n=2, l'intégration avec des plateformes commerciales comme le Stretch de Hello Robot ou le spot-arm de Boston Dynamics, et l'évaluation des effets d'adaptation sur le long terme.

UEImpact indirect pour les acteurs français comme Wandercraft qui développent des interfaces neuromotrices pour exosquelettes, mais l'étude provient de chercheurs non identifiés comme européens et ne cible pas le marché UE.

RecherchePaper
1 source
RHO : votre agent de code est secrètement un roboticien
808arXiv cs.RO 

RHO : votre agent de code est secrètement un roboticien

Des chercheurs ont publié en juin 2026 une méthode nommée RHO (Robotics Harness Optimization), qui repense l'usage des LLM pour le contrôle robotique. Plutôt que de générer du code en boucle pendant l'exécution, comme le font les systèmes Code-as-Policies actuels, RHO déplace l'optimisation à l'entraînement : des agents codeurs explorent des dépôts de politiques multi-fichiers (Repositories-as-Policies), composant des primitives de perception, planification et contrôle, avec pour seul signal du reward d'environnement, sans démos téléopérées. À l'exécution, le robot tourne sur du code statique. Sur le benchmark LIBERO-PRO (saisie-dépose avec perturbations), OpenVLA plafonne à 0,0 % et π₀.₅ de Physical Intelligence atteint 12,83 %, contre 45,0 % pour RHO, soit 2,5 fois le meilleur système multi-tour concurrent. Sur Robosuite, RHO fixe un nouveau SOTA à 70,0 % (record précédent : 68,29 %), en exécution single-turn sans corrections LLM au déploiement. Sur le benchmark O3DE de RAI, le taux de succès passe de 23,5 % à 44,3 %, avec 20 % moins de temps horloge et 27 % moins d'appels d'outils. Le résultat pointe un problème concret des VLA (Vision-Language-Action models) et des pipelines Code-as-Policies classiques : itérer avec un LLM à chaque cycle de contrôle est incompatible avec les contraintes temps-réel d'un bras industriel. RHO sépare raisonnement offline et exécution rapide, ce qui rend le déploiement possible sans dépendance cloud en temps réel. Sur LIBERO-PRO, les VLA de Physical Intelligence, parmi les plus robustes du secteur, échouent quasi-systématiquement sur des variantes perturbées que RHO gère à 45 %, ce qui suggère une meilleure généralisation out-of-distribution via l'approche neurosymbolique. Le paradigme Code-as-Policies a été popularisé par des travaux de Google et CMU, mais souffrait de son coût à l'inférence. RHO s'inscrit dans une logique de séparation train/deploy que l'on retrouve dans les approches de compilation de politiques robotiques. Les concurrents directs sur les benchmarks cités sont OpenVLA (Berkeley/Stanford) et π₀.₅ de Physical Intelligence. La recherche est un preprint arXiv (juin 2026), non encore soumis à peer review, et tous les résultats ont été obtenus en simulation ; une validation sur hardware physique et des déploiements industriels réels restent à démontrer.

IA physiqueOpinion
1 source
Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable
809arXiv cs.RO 

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.16572) SteerGenPO, un cadre d'apprentissage par renforcement en espace latent destiné à transformer une politique générative entraînée, basée sur la diffusion ou les flux normalisants, en un contrôleur robotique déterministe et stable. Le système a été évalué sur six benchmarks Isaac Lab d'NVIDIA et sur une tâche de locomotion avec le robot humanoïde Unitree G1, avec des résultats supérieurs aux baselines RL classiques et génératives selon les auteurs. Il s'agit d'une publication académique en pré-impression, sans déploiement industriel annoncé ni validation terrain au-delà du G1. Le verrou technique adressé est connu : les politiques de diffusion accumulent des variations d'action à chaque pas de temps, ce qui dégrade la stabilité sur des systèmes robotiques à haute dimensionnalité. SteerGenPO sépare architecturalement exploration et contrôle : l'échantillonnage stochastique reste actif à l'entraînement pour diversifier les proposals d'actions, mais au déploiement, un acteur latent appris prédit une entrée déterministe et dépendante de l'état qui pilote la politique générative sans bruit résiduel. Pour les intégrateurs, la proposition n'exige pas de réentraîner la politique depuis zéro : elle greffe un mécanisme de pilotage sur un checkpoint pré-entraîné existant, ce qui ouvre la voie à l'exploitation de modèles fondation tout en garantissant la reproductibilité des trajectoires en production. Ce travail s'inscrit dans la compétition intense autour des politiques génératives en robotique. Physical Intelligence avec Pi-0 (2024) et NVIDIA avec GR00T N2 (2025) ont validé l'approche VLA-diffusion en environnements contrôlés, mais les questions sur la robustesse à l'inférence longue restent ouvertes. Boston Dynamics, Agility Robotics et Figure AI privilégient des pipelines de contrôle plus classiques pour la fiabilité en production. SteerGenPO propose une voie médiane : capitaliser sur la richesse exploratoire des modèles génératifs sans en subir l'instabilité au déploiement. Aucune timeline, partenariat industriel ni essai terrain n'est mentionné dans le préprint ; les prochaines validations naturelles porteraient sur la manipulation dextère et des tests sim-to-real approfondis.

IA physiqueOpinion
1 source
Prise de décision bio-inspirée dans les essaims de robots soumis à des biais
810arXiv cs.RO 

Prise de décision bio-inspirée dans les essaims de robots soumis à des biais

Des chercheurs présentent dans un preprint arXiv (2509.07561, version 2, juin 2026) une étude comparative sur les mécanismes de prise de décision collective dans les essaims de robots minimalistes. Le scénario central : des robots individuels commettent fréquemment des erreurs de perception environnementale, mais le groupe doit néanmoins converger rapidement et fiablement vers la meilleure option parmi n alternatives discrètes. L'étude compare deux règles canoniques issues de la dynamique d'opinion observée dans les systèmes biologiques, le "direct-switch" (bascule directe) et la "cross-inhibition" (inhibition croisée), en les soumettant à des biais asociaux, c'est-à-dire des prédispositions individuelles indépendantes de l'interaction sociale. Les modèles de champ moyen existants sont généralisés pour intégrer ces perturbations. Les résultats ont une implication directe pour quiconque conçoit des systèmes multi-agents décentralisés : la cross-inhibition, mécanisme inspiré des colonies d'insectes et des populations neuronales, surpasse systématiquement le direct-switch en présence de biais. Là où le direct-switch se révèle performant en conditions idéales, il conduit à des blocages décisionnels ("decision deadlocks") dès que des biais individuels entrent en jeu. La cross-inhibition, elle, produit des décisions plus rapides, plus cohésives, plus précises et plus robustes sur une large gamme de conditions biaisées, et ce à des échelles croissantes d'essaims. C'est un résultat concret contre l'hypothèse que des règles simples suffisent sans distinction dans des environnements bruités. Cette recherche s'inscrit dans un corpus plus large sur la robotique en essaim (swarm robotics), domaine porté notamment par des équipes comme celles de Marco Dorigo (Université Libre de Bruxelles) et Vito Trianni (CNR-ISTC, Rome), avec des applications visées en surveillance environnementale, réponse aux catastrophes et logistique médicale. Sur le plan compétitif, les approches centralisées (flottes AMR coordonnées par un orchestrateur central, comme chez Exotec ou 6 River Systems) offrent des performances prévisibles mais restent fragiles à la perte de communication. L'enjeu ici est de prouver qu'une architecture entièrement distribuée peut égaler cette fiabilité sans infrastructure centralisée. La prochaine étape naturelle serait la validation expérimentale sur robots physiques, absente de cette version de l'étude.

UELes équipes européennes porteuses de ces travaux (Marco Dorigo, ULB Bruxelles ; Vito Trianni, CNR-ISTC Rome) positionnent la recherche EU en tête sur la robotique en essaim décentralisée, avec des retombées potentielles pour les applications de logistique et de réponse aux catastrophes en Europe.

RecherchePaper
1 source
FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes
811arXiv cs.RO 

FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes

FlashNav, un framework d'entraînement de politiques de navigation robotique présenté dans une préprint arXiv (2606.15846) publiée en juin 2026, annonce un entraînement en moins de 20 secondes sur GPU pour des politiques de navigation déployables sur robots réels. Les auteurs ont testé le système sur deux plateformes matérielles : le robot à roues TurtleBot2 et le robot quadrupède Unitree Go2. Sur une carte RTX 5090, FlashNav atteint un taux de succès de 100 % en dessous de 20 secondes, et reste dans les dizaines de secondes sur des GPU de bureau grand public. L'architecture repose sur un simulateur bitmap batché et un pipeline d'entraînement entièrement résidant sur GPU, piloté par un algorithme baptisé FastDSAC, qui génère en parallèle un volume massif de transitions de navigation sans jamais quitter la mémoire GPU. La clé du gain de vitesse est architecturale : FlashNav aligne strictement la simulation sur le MDP (processus de décision markovien) de navigation, en conservant uniquement les composantes utiles à l'apprentissage, géométrie d'occupation, capteurs de distance (range sensing), contrôle conditionné par objectif, dynamique de mouvement, gestion des collisions, terminaison et réinitialisation, tout en éliminant le rendu graphique et les détails physiques haute-fidélité habituellement présents dans les simulateurs. Ce choix réduit drastiquement le coût computationnel sans sacrifier la transférabilité : les politiques apprises se transfèrent sur robots physiques, en environnement intérieur statique et dynamique. Pour les intégrateurs robotiques, c'est un signal fort : le sim-to-real gap reste gérable même avec une simulation volontairement appauvrie, à condition que le MDP soit correctement modélisé. Le deep reinforcement learning pour la navigation autonome souffrait jusqu'ici d'un frein majeur à l'adoption industrielle : des cycles d'entraînement de plusieurs heures, voire de plusieurs jours, incompatibles avec l'itération rapide en production. FlashNav attaque directement ce verrou. Sur le plan concurrentiel, il se positionne face aux approches de navigation basées sur des cartes (SLAM classique) et aux VLA (Vision-Language-Action models) qui nécessitent des ressources de calcul bien supérieures. La prochaine étape naturelle sera de valider le passage à l'échelle dans des environnements dynamiques plus complexes et sur des flottes de robots, ce que la préprint ne couvre pas encore.

RecherchePaper
1 source
λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes
812arXiv cs.RO 

λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes

Une équipe de chercheurs publie sur arXiv (arXiv:2606.16022, juin 2026) une nouvelle méthode d'analyse de sécurité pour robots humanoïdes à haute dimension, baptisée λ-Reachability. L'approche reformule les équations de Bellman Hamilton-Jacobi, qui permettent de délimiter le "safe set" d'un système dynamique, en remplaçant les mises à jour TD à un seul pas par un estimateur stochastique multi-pas à horizon géométrique. Un paramètre λ contrôle l'interpolation entre cohérence locale et objectifs sur horizon long, par analogie avec TD(λ) en apprentissage par renforcement. Un second paramètre δ < 1 garantit formellement que la mise à jour est une contraction, permettant l'apprentissage par différence temporelle avec convergence prouvée. Les auteurs appliquent la méthode à des humanoïdes en simulation et en conditions réelles, sur des tâches d'équilibre et d'évitement de collision, avec une amélioration significative de la classification des frontières du safe set et de l'estimation des marges de sécurité par rapport aux baselines TD à un seul pas. Le verrou que cherche à lever ce travail est central pour la commercialisation des humanoïdes : garantir formellement la sécurité d'un système à plusieurs dizaines de degrés de liberté opérant près d'humains. L'analyse Hamilton-Jacobi est mathématiquement rigoureuse mais ne passait pas à l'échelle au-delà de six ou sept dimensions. L'estimateur multi-pas à horizon géométrique améliore l'estimation de valeur de sécurité sans exploser la variance, un compromis que les méthodes à un seul pas gèrent mal sur des espaces d'état élevés. L'inclusion d'expériences sur vrai robot renforce la crédibilité des résultats, même si la nature précise du robot et les conditions expérimentales exactes ne sont pas détaillées dans le résumé du preprint. L'analyse de reachability Hamilton-Jacobi est un domaine actif depuis les années 1990, mais les toolboxes classiques (helperOC, BEACLS) butaient sur la malédiction de la dimensionnalité. Les méthodes concurrentes incluent les Control Barrier Functions (CBF), très utilisées dans les laboratoires de CMU, MIT et Berkeley, et le safe RL à contraintes Lagrangiennes. La connexion avec TD(λ) positionne ce travail à l'intersection du contrôle optimal et du deep RL, un territoire que convoitent Figure, 1X, Agility Robotics et Unitree pour obtenir des garanties de sécurité certifiables en déploiement industriel. Il s'agit d'un preprint académique sans partenariat industriel annoncé : les équipes robotique qui évaluent des approches de safety pour homologation auront intérêt à surveiller la suite de ces travaux.

UELes laboratoires européens comme le CEA-List et l'INRIA, actifs sur la vérification formelle des systèmes robotiques, pourraient intégrer cette approche à horizon géométrique dans leurs travaux de certification sécurité pour humanoïdes.

RecherchePaper
1 source
GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels
813arXiv cs.RO 

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Une équipe de chercheurs a publié sur arXiv (2606.14160) une nouvelle méthode d'estimation d'état proprioceptive pour robots à pattes, baptisée GAIT. L'approche repose sur une tokenisation inertielle-jambe (Inertial-Leg, IL) couplée à un réseau d'attention : plutôt que de concaténer l'ensemble des données capteurs en un seul vecteur plat, l'architecture représente les mesures inertielles et les mesures par jambe comme des tokens distincts, puis utilise un mécanisme d'attention pour pondérer dynamiquement chaque source selon les conditions de contact courantes. La méthode a été validée sur un robot quadrupède Unitree Go1, sur des terrains encombrés de débris absents de la simulation d'entraînement, et sur des allures (gait patterns) non présentées lors de l'apprentissage. L'enjeu de GAIT est de résoudre un problème central des estimateurs à pattes : la fiabilité des mesures de cinématique directe dépend du contact effectif du pied avec le sol. Les estimateurs classiques "contact-aided" contournent ce problème via un module de détection de contact explicite et l'hypothèse d'un appui stationnaire, ce qui les rend fragiles sur terrains irréguliers ou lors de transitions d'allure. GAIT apprend ce comportement de repondération directement depuis les données, sans estimateur de contact dédié, éliminant une source d'erreur en cascade. Les résultats montrent une supériorité sur les estimateurs d'apprentissage existants pour des allures non vues, ainsi qu'une amélioration par rapport aux méthodes modèles contact-aided, confirmant que les architectures à attention peuvent réduire le gap sim-to-real sur l'estimation proprioceptive bas-niveau. L'estimation d'état proprioceptive reste un défi persistant en robotique à pattes : les filtres de Kalman étendu (EKF) et variantes invariantes dominent en production chez Boston Dynamics et Unitree, mais peinent sur terrains non structurés. Les approches d'apprentissage antérieures traitaient généralement les capteurs comme un vecteur plat homogène, sans différenciation structurelle entre inertielles et cinématiques. GAIT s'inscrit dans la tendance 2024-2026 d'appliquer des mécanismes d'attention aux données robotiques bas-niveau, une direction convergente avec les architectures VLA (Vision-Language-Action) pour la commande motrice. Le code n'est pas encore publié ; la prochaine étape naturelle serait une validation sur plateformes bipèdes telles que l'Unitree H1 ou le Boston Dynamics Atlas, où la phase de vol rend l'estimation d'état encore plus critique.

RecherchePaper
1 source
Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables
814arXiv cs.RO 

Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables

Fin juin 2025, une équipe de recherche a déposé sur arXiv (2506.14188) CORD-SLS, une méthode de contrôle temps réel pour la manipulation certifiée d'objets déformables, principalement des cordes et des tissus. Le coeur du système est un simulateur différentiable GPU-parallèle avec lissage de contact, permettant une planification par gradient à travers des contacts intermittents. Un algorithme de commande prédictive robuste (MPC) à retour de sortie, lui aussi GPU-parallèle, exploite ce simulateur pour générer des trajectoires en quelques millisecondes. Pour gérer les incertitudes de modèle et de perception, le système intègre la prédiction conforme (conformal prediction), qui calibre les erreurs de rétroaction visuelle et produit des "tubes atteignables" offrant des garanties probabilistes de sécurité. Les expériences couvrent des tâches à contact riche: évitement d'obstacles, routage de corde, pliage et lissage de tissu, évaluées en simulation et sur matériel réel, avec des résultats supérieurs aux baselines sur les critères de sécurité, de vitesse et de taux de succès. La manipulation d'objets déformables reste l'un des angles morts de la robotique industrielle: cordes et tissus présentent des espaces d'états quasi-infinis et des dynamiques de contact difficiles à modéliser. CORD-SLS attaque deux verrous simultanément: la vitesse de planification compatible avec du contrôle en boucle fermée temps réel, et des garanties formelles de sécurité absentes de la quasi-totalité des approches par apprentissage (RL, VLA). Le fait que le même simulateur accélère également l'entraînement de politiques neuronales model-based est notable: cela ouvre la voie à des pipelines hybrides combinant planification robuste et politiques apprises. Pour les intégrateurs ciblant la couture automatisée, la logistique textile ou la robotique chirurgicale, c'est une démonstration académique sérieuse, pas encore un produit déployé. La manipulation déformable est étudiée depuis les années 1990, mais les approches classiques échouaient systématiquement à l'échelle réelle faute de simulateurs rapides et fiables. Les méthodes par apprentissage de type diffusion policies et VLAs gagnent du terrain mais peinent à fournir des garanties certifiables, ce qui freine leur adoption dans des contextes régulés. CORD-SLS positionne le couplage MPC robuste et prédiction conforme comme une alternative formellement vérifiable. Les concurrents directs incluent les travaux de simulation différentiable de DiffTaichi, les approches MPC déformable développées à MIT et CMU, et les politiques end-to-end de type Pi-0 de Physical Intelligence. Le papier reste un preprint sans publication en conférence confirmée à ce stade; les suites dépendront de validations sur des tâches industrielles réelles et d'une éventuelle mise à disposition publique du code.

RecherchePaper
1 source
Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné
815arXiv cs.RO 

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

Des chercheurs publient sur arXiv (référence 2606.14084) une méthode baptisée SDN (Selected Diffusion Noise), conçue pour améliorer à l'inférence les politiques VLA (Vision-Language-Action) basées sur la diffusion, sans nécessiter de réentraînement. SDN opère dans l'espace du bruit de diffusion en sélectionnant dynamiquement des vecteurs de bruit maximalement séparés d'un ensemble de référence, ce qui réduit la dépendance aux corrélations visuelles parasites, tout en filtrant les candidats produisant des trajectoires d'action plus cohérentes. La méthode a été évaluée sur deux benchmarks de simulation (Google Robot, Widow-X) et deux jeux de données réels, sur plusieurs politiques VLA majeures dont pi0 (Physical Intelligence), Groot-N1.5 et Groot-N1.6 (NVIDIA). Les gains annoncés sont de +8 points de taux de succès en simulation et +10 points en conditions réelles, avec une réduction mesurable du "action jitter", c'est-à-dire l'instabilité des trajectoires articulaires. Ces résultats sont issus d'un preprint non encore évalué par les pairs. L'intérêt pratique tient à l'approche "training-free" : SDN s'applique à l'inférence sans modifier les paramètres du modèle, ce qui permet d'améliorer un système déjà déployé sans refondre le pipeline ML ni supporter les coûts d'un réentraînement. Pour un intégrateur ou un décideur achetant une solution robotique basée sur une politique VLA, ce type de méthode représente un levier de fiabilité à faible coût opérationnel. La robustesse maintenue sous des observations avec occultation partielle (object-masked observations) est également pertinente pour les environnements industriels réels. SDN s'inscrit dans la tendance plus large des techniques d'optimisation test-time appliquées aux modèles génératifs, analogues au best-of-N sampling dans les LLMs. Les politiques VLA basées sur la diffusion, popularisées par Physical Intelligence (pi0, pi0.5) et NVIDIA Isaac (GR00T N1.5, N1.6), sont devenues en 2025-2026 la référence de facto en manipulation robotique généraliste. Elles héritent toutefois d'une sensibilité aux artefacts visuels hors distribution et d'une certaine instabilité d'action, deux problèmes que SDN cible directement. L'abstract ne mentionne ni affiliation institutionnelle ni dépôt de code public, ce qui limite pour l'instant la reproductibilité et les comparaisons indépendantes. Les prochaines étapes naturelles seraient une validation sur plateformes humanoïdes complètes (Figure, 1X, Unitree H1) et des benchmarks de manipulation plus diversifiés que Widow-X ou Google Robot.

UELes intégrateurs européens déployant des solutions robotiques basées sur des politiques VLA (pi_0, GR00T) pourraient bénéficier de cette méthode d'optimisation sans réentraînement, mais aucun acteur FR/EU n'est directement impliqué dans ces travaux.

IA physiqueOpinion
1 source
EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée
816arXiv cs.RO 

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

Une équipe de recherche publie sur arXiv (arXiv:2606.12690, juin 2026) une architecture baptisée EWAM (Enhanced World Action Model), conçue pour adapter un robot à de nouvelles configurations de tâches sans aucun jeu de démonstrations supplémentaires et sans réentraîner le réseau de base. EWAM s'appuie sur Cosmos3, le modèle fondationnel de simulation-prédiction monde développé par NVIDIA, maintenu entièrement gelé. Quatre couches neuronales légères y sont greffées : une couche mémoire d'expérience (Neural Experience Memory Layer) insérée dans les couches intermédiaires du Diffusion Transformer (DiT), qui injecte du contexte d'exécution ; une couche de détection d'anomalies (Neural Anomaly Detection Layer) placée après la tête de prédiction d'état, qui mesure en temps réel la divergence entre état prédit et état observé ; une couche de routage de politique (Neural Policy Routing Layer) qui choisit dynamiquement entre exécution directe, replanification conservative ou rollback de récupération selon la sévérité de l'anomalie ; et une couche de correction d'action (Neural Action Correction Layer) qui affine les séquences d'actions générées à partir des diagnostics d'exécution. L'ensemble est évalué exclusivement en protocole zéro-shot. Ce que montre EWAM, c'est qu'il est possible d'obtenir des gains de performance significatifs à l'inférence uniquement, sans toucher aux poids du modèle de base et sans collecter de nouvelles démonstrations spécifiques à chaque tâche. Pour un intégrateur industriel ou un COO, c'est un signal important : le coût de redéploiement sur de nouveaux layouts d'atelier, qui constitue aujourd'hui l'un des freins majeurs à la généralisation des robots mobiles et des manipulateurs apprenants, pourrait être absorbé par de l'adaptation en ligne plutôt que par des cycles coûteux de collecte de données et de fine-tuning. Le module de détection d'anomalies couplé au routage de récupération adresse directement le "demo-to-reality gap" : les modèles génératifs de type monde peuvent prédire des états plausibles mais diverger sur le terrain ; EWAM tente de corriger cette dérive en boucle fermée. La différenciabilité des modules mémoire, détection et correction dans le chemin forward de Cosmos3 distingue cette approche d'une simple fusion de features en post-processing. Cosmos3 est le modèle monde physique de NVIDIA, successeur de Cosmos1 et Cosmos2, entraîné sur des volumes massifs de vidéos de manipulation et de navigation pour prédire des trajectoires d'états futurs vraisemblables. L'architecture EWAM s'inscrit dans une vague de travaux qui cherchent à exploiter ces fondations gelées plutôt qu'à les réentraîner, une tendance que l'on retrouve aussi dans Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA Robotics) ou les approches VLA (Vision-Language-Action) basées sur des backbones pré-entraînés. Les acteurs concurrents sur ce créneau de l'adaptation légère incluent les équipes de DeepMind (RT-2, AutoRT), de Physical Intelligence et de plusieurs laboratoires universitaires américains et chinois. EWAM est pour l'instant un résultat de recherche académique non déployé en production, et les auteurs ne précisent pas de partenaires industriels ni de calendrier de transfert. Les prochaines étapes naturelles seraient une validation sur hardware réel à grande échelle et une comparaison directe en termes de coût de déploiement face aux méthodes de fine-tuning léger (LoRA, QLoRA) appliquées à ces mêmes backbones.

IA physiqueOpinion
1 source
WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force
817arXiv cs.RO 

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

Une équipe de chercheurs présente WT-UMI dans un preprint arXiv déposé en juin 2026, une interface tactile portable conçue pour la manipulation corps entier par des robots humanoïdes. Le dispositif se porte sur un opérateur humain ou se monte directement sur un humanoïde, et capture simultanément des images tactiles, des mesures de force de contact et les poses des effecteurs terminaux, aussi bien en mode démonstration humaine qu'en téléopération. L'architecture repose sur deux modules complémentaires : un correcteur de pose cible conditionné par la force, qui apprend à traduire les poses humaines en commandes exécutables par le robot à partir de données de téléopération, et un planificateur supervisé par la force qui prédit conjointement les trajectoires de pose et les profils de force de contact. Ces prédictions servent de référence à un contrôleur d'admittance basé sur le retour tactile. Évalué sur cinq tâches à contacts riches couvrant des objets déformables, des charges rigides encombrantes et la collaboration humain-humanoïde, WT-UMI surpasse quatre politiques de référence en taux de succès et en précision de suivi des contacts. L'enjeu sous-jacent est structurel : la quasi-totalité des politiques d'imitation actuelles traitent les forces de contact de manière implicite, par le signal visuel ou proprioceptif uniquement, ce qui atteint ses limites physiques dès que l'objet manipulé est souple, encombrant ou porté à plusieurs agents. WT-UMI attaque directement le dilemme classique entre démonstrations humaines, riches en interactions de contact naturelles mais non exécutables telles quelles par un robot, et téléopération, précise dans les actions robot mais moins naturelle dans la régulation des forces. La fusion des deux sources via un module de correction appris propose une troisième voie. Pour les intégrateurs et les décideurs industriels, cela ouvre une piste concrète vers la manipulation de charges souples ou asymétriques, un verrou persistant en logistique et en assemblage. WT-UMI s'inscrit dans la lignée des interfaces UMI (Universal Manipulation Interface) apparues vers 2023-2024 pour faciliter la collecte de démonstrations à faible coût. L'extension "WT" ajoute la détection tactile distribuée sur l'ensemble du corps, au-delà des capteurs de poignet ou de doigts habituels. Il s'agit à ce stade d'un preprint de recherche sans déploiement industriel annoncé, ce point mérite d'être précisé face à des métriques présentées sans contexte de cadence de cycle ni de robustesse à l'échelle. Dans le paysage concurrent, Physical Intelligence avec Pi-0, Figure avec ses humanoïdes commerciaux et Boston Dynamics ciblent également la manipulation robuste, mais restent majoritairement dans une logique visuo-motrice ou de politiques VLA. WT-UMI se distingue en faisant du contact une variable de planification explicite plutôt qu'un résidu à corriger a posteriori. Les prochaines étapes logiques seraient une validation sur matériel humanoïde commercial et une comparaison frontale avec des architectures VLA, aujourd'hui dominantes dans la course à la généralisation.

IA physiquePaper
1 source
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
818arXiv cs.RO 

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

IA physiqueOpinion
1 source
SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation
819arXiv cs.RO 

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

Une équipe de chercheurs présente SAFER-Nav (arXiv:2606.11636), une méthode de fine-tuning pour améliorer la sécurité des modèles de navigation visuelle robotique opérant uniquement à partir d'images RGB. Le problème est connu : les politiques basées sur des transformeurs ou modèles de diffusion, telles que ViNT (Visual Navigation Transformer) et NoMaD, restent orientées vers leur objectif même dans des environnements inconnus, mais génèrent des trajectoires dangereuses en présence d'obstacles non vus ou de conditions décalées. SAFER-Nav intègre directement dans la politique, via un fine-tuning "segmentation-aware", la représentation explicite des frontières d'obstacles et de l'espace libre traversable, une information absente des approches existantes fondées sur la correction externe de trajectoire ou des priors géométriques internes. Les évaluations portent sur plusieurs plateformes robotiques mobiles, des environnements intérieurs, et des scénarios avec obstacles statiques et dynamiques ; elles montrent une réduction de la fréquence de collisions par rapport à ViNT, NoMaD et leurs variantes augmentées CARE, avec maintien des performances d'atteinte d'objectif. Il s'agit d'un preprint arXiv déposé en juin 2026, non encore évalué par les pairs, sans déploiement commercial annoncé. L'enjeu central est la généralisation à des environnements non vus, verrou majeur pour le déploiement industriel de robots mobiles autonomes dans des entrepôts, hôpitaux ou chantiers. Les méthodes existantes de correction de trajectoire agissent en aval de la politique sans modifier sa représentation interne, laissant intacte la cause première des comportements dangereux. En encodant la structure sémantique de la scène directement dans les poids du modèle, SAFER-Nav adresse le problème à la source ; sa compatibilité avec des backbones RGB variés représente un avantage pratique pour les intégrateurs souhaitant améliorer des systèmes existants sans changer d'architecture. Ces résultats appuient l'hypothèse que le "demo-to-real gap" peut être réduit par supervision sémantique au fine-tuning, sans refonte architecturale complète. ViNT et NoMaD, issus de groupes de recherche de l'Université de Californie à Berkeley, ont instauré un paradigme de modèles de fondation navigants déployables sur des plateformes robotiques hétérogènes sans reprogrammation dédiée. CARE visait à les augmenter par des mécanismes d'évitement sans modifier la politique de base. SAFER-Nav s'inscrit dans la tendance d'adaptation efficace des politiques robotiques par fine-tuning ciblé, parallèlement aux travaux sur les VLA (Vision-Language-Action models) comme pi-zero (Physical Intelligence) ou GR00T N2 (NVIDIA). Les prochaines étapes naturelles incluent une validation en environnement extérieur et en conditions dynamiques réelles, ainsi qu'une évaluation par les pairs. L'absence de financement industriel dans le preprint indique une contribution de recherche fondamentale, non une annonce produit imminente.

UELes équipes R&D et intégrateurs européens de robots mobiles autonomes (entrepôts, hôpitaux, chantiers) pourraient exploiter cette méthode de fine-tuning pour réduire les collisions sur flottes RGB existantes sans refonte architecturale, sous réserve de validation par les pairs et de mise à disposition publique des poids.

IA physiquePaper
1 source
Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur
820arXiv cs.RO 

Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur

Des chercheurs ont publié le 11 juin 2026 sur arXiv (référence 2606.11464) un cadre basé sur des transformeurs pour prédire l'état d'une balle de ping-pong en conditions réelles, dans le but d'améliorer le contrôle en boucle fermée d'un robot de tennis de table. Le système modélise les corrélations temporelles longue portée à partir de séquences d'observations historiques, sans recourir à des équations physiques de vol ou de rebond. Pour l'entraînement, l'équipe a constitué un jeu de données réel à grande échelle, collecté auprès de joueurs de niveaux variés et avec des configurations différentes de canons à balles, afin de maximiser la diversité des trajectoires. La pièce centrale de la contribution est SPAD (Swap Predictor at Deployment) : une stratégie de transfert sim-to-real qui consiste simplement à substituer, au moment du déploiement, le simulateur physique utilisé pendant l'entraînement par le prédicteur entraîné sur données réelles, sans nécessiter de réentraînement de la politique de contrôle. Ce résultat est significatif car il s'attaque directement au problème du sim-to-real gap, l'un des verrous majeurs de la robotique dynamique à haute vitesse. La plupart des approches existantes soit dépendent d'une identification précise des paramètres physiques (masse de la balle, coefficient de rebond, spin), soit peinent à généraliser hors distribution simulée. SPAD propose une alternative modulaire : le prédicteur est un composant interchangeable, ce qui permet de conserver l'efficacité de l'entraînement en simulation tout en bénéficiant de la fidélité des données réelles uniquement à l'inférence. C'est un paradigme "plug-and-play" qui pourrait s'étendre à d'autres tâches de manipulation rapide où la simulation reste incomplète. Le tennis de table robotique est un banc de test établi pour le contrôle haute vitesse, utilisé notamment par des équipes de Google DeepMind (qui ont démontré des robots capables de battre des joueurs amateurs en 2023) et par plusieurs laboratoires universitaires en Chine et en Europe. La spécificité de cette approche est d'éviter toute hypothèse sur le modèle physique du vol de balle, là où des systèmes comme celui de DeepMind intègrent encore des composantes analytiques explicites. La prochaine étape naturelle serait de valider SPAD sur des politiques de contrôle plus complexes, notamment face au spin variable et aux échanges multi-rebonds, qui restent les cas limites non résolus du domaine.

RecherchePaper
1 source
Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques
821arXiv cs.RO 

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion
1 source
Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires
822arXiv cs.RO 

Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires

Une équipe de chercheurs publie sur arXiv (référence 2606.12027) ILD, pour Invertible Latent Decomposition, un framework de planification de trajectoires sans collision dans des espaces de configuration encombrés. ILD apprend conjointement un mapping inversible et un ensemble de polytopes convexes explicites dans l'espace latent correspondant : la planification s'effectue sur ces convexes latents, et le mapping inversible retraduit les chemins vers l'espace d'origine en préservant la faisabilité vis-à-vis des régions sûres explicites. Le framework intègre également VGS (Visibility-Guided Sampling), une méthode d'échantillonnage guidée par la visibilité conçue pour maintenir la connectivité entre ensembles convexes lors de la planification. Les évaluations couvrent la navigation 2D, un manipulateur à 6 degrés de liberté (DOF) et un bras bimanuel à 14-DOF. Sur ce dernier, les auteurs démontrent une planification temps réel avec un affinement à l'exécution (test-time refinement) s'adaptant aux changements de géométrie de scène, confirmé sur un bras 6-DOF réel. Zéro faux positif n'est observé après cet affinement, contre des taux non nuls pour les méthodes de référence testées. L'enjeu industriel est la résolution d'un arbitrage fondamental en robotique de manipulation : les représentations explicites comme les unions de polytopes convexes s'intègrent directement dans les planificateurs à base d'optimisation comme contraintes dures, garantissant l'absence de collision, mais leur complexité de paramétrage explose avec la dimension de l'espace de configuration. Les représentations implicites passent mieux à l'échelle géométrique mais n'offrent pas ces garanties formelles. ILD combine les deux avantages. Pour un intégrateur ou un responsable de production, la planification temps réel sur 14-DOF avec adaptation dynamique à la scène représente un seuil d'utilisabilité concret en environnement industriel, à condition que les performances tiennent hors des conditions contrôlées de laboratoire, point sur lequel les auteurs restent prudemment ouverts. La planification sous contraintes de collision est un problème adressé depuis des décennies par des planificateurs probabilistes (RRT, PRM) et des méthodes d'optimisation convexe comme IRIS et GCS (Graph of Convex Sets), issus en particulier des travaux de Russ Tedrake au MIT CSAIL. ILD s'inscrit dans la tendance récente qui hybride apprentissage profond et garanties formelles plutôt que d'opposer les deux approches. Le preprint ne mentionne ni partenaire industriel ni calendrier de commercialisation, restant au stade académique. Les extensions attendues concernent la robustesse sur des scènes plus dynamiques et le passage à des espaces de configuration supérieurs à 14-DOF, en vue des manipulateurs humanoïdes à bras multiples dont les architectures dépassent souvent 28-DOF.

RecherchePaper
1 source
UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles
823arXiv cs.RO 

UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles

Une équipe de chercheurs a publié mi-juin 2026 sur arXiv (arXiv:2606.10683) un travail intitulé UniDexTok, proposant une représentation unifiée pour les états de mains dextres hétérogènes, humaines et robotiques. Le coeur du système est le Unified Dexterous Hand Model (UDHM), une interface sémantique partagée à 22 degrés de liberté (DoF) qui normalise les états articulaires de n'importe quelle main dans un espace commun. Sur cette base, UniDexTok est un tokenizer d'états appris exclusivement depuis des données réelles, sans recours au retargeting ni à la simulation. Les gains de précision par rapport à la baseline UniHM sont significatifs : l'erreur angulaire moyenne par articulation (MPJAE) chute de 15,63° à 0,16° (réduction de 98,98 %), et l'erreur de position par articulation (MPJPE) passe de 18,51 mm à 0,18 mm (réduction de 99,03 %), ramenant la reconstruction de l'échelle centimétrique à une précision sub-millimétrique. La portée industrielle de ce résultat tient moins aux chiffres absolus qu'à ce qu'ils rendent possible : un entraînement cross-embodiment sans pipeline de retargeting, qui a longtemps constitué un goulot d'étranglement dans la constitution de datasets pour mains dextres. Jusqu'ici, les données capturées sur une Shadow Hand, une Allegro ou une LEAP Hand étaient difficilement réutilisables pour un autre robot, faute de représentation commune. UniDexTok permet de les agréger : les expériences montrent que des données provenant d'autres embodiments améliorent la reconstruction sur l'embodiment cible, validant le principe de transfert cross-morphologie. Le système affiche également des capacités zero-shot et few-shot lors de l'introduction de nouvelles mains, ce qui réduit le coût d'intégration pour les intégrateurs qui déploient plusieurs plateformes en parallèle. La manipulation dextre reste l'un des défis les plus ouverts de la robotique humanoïde, avec une fragmentation des efforts entre labos (Dexterous Manipulation Group chez CMU, OpenAI Dactyl suspendu, Physical Intelligence avec Pi-0) et industriels (Tesla Optimus, Figure, Unitree). Les approches précédentes comme UniHM avaient posé la question de la représentation unifiée mais avec des erreurs de reconstruction trop élevées pour être exploitables en contrôle fin. UniDexTok s'inscrit dans un mouvement plus large vers des politiques robotiques génériques multi-embodiments, analogue à ce que les VLA (Vision-Language-Action models) tentent du côté de la perception. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat ; il s'agit d'une contribution de recherche fondamentale, dont l'intégration dans des pipelines de formation de politiques reste à démontrer en conditions réelles.

RecherchePaper
1 source
AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique
824arXiv cs.RO 

AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique

Une équipe de recherche a publié en juin 2026 sur arXiv (référence 2606.10903) un framework de navigation locale appelé AgniNav, conçu pour permettre à des robots de morphologies radicalement différentes de naviguer en autonomie à partir d'une unique caméra RGB, sans recourir à un capteur de profondeur actif et sans réentraînement du modèle. Le système repose sur une enveloppe de sécurité définie par quatre paramètres mesurables : hauteur critique pour la détection de collisions, longueur avant, longueur arrière, demi-largeur. Ces paramètres conditionnent simultanément un réseau image-vers-scan qui prédit un pseudo-laserscan 1D à partir d'une image couleur monoculaire, et un planificateur local qui adapte la vérification de collisions au gabarit du robot. Les expérimentations ont été conduites sur trois plateformes réelles : le Turtlebot2 (base à roues), l'Unitree Go2 (quadrupède), et l'Accelerated Evolution K1 (humanoïde). Les taux de succès sont respectivement de 39/40, 18/20 et 18/20, avec 0, 1 et 2 collisions sur l'ensemble des essais, le tout tournant à 30 Hz sur un Jetson Orin. Ce qui distingue AgniNav des travaux existants est précisément l'absence de retraining par plateforme. La quasi-totalité des politiques de navigation visuelle actuelles sont entraînées pour un couple caméra/gabarit fixe, ce qui rend leur transfert d'un robot à un autre coûteux en données et en temps. Ici, le même réseau, entraîné une fois sur des paires couleur-profondeur supervisées par des labels de scan générés à la volée, se déploie sans adaptation sur des morphologies aussi différentes qu'un rover plat et un humanoïde. Pour un intégrateur gérant une flotte hétérogène, ou pour un OEM souhaitant embarquer la navigation sur plusieurs SKUs avec un seul modèle, c'est un changement d'économie non négligeable. La navigation cross-embodiment est un problème ouvert depuis plusieurs années dans la communauté robotique : les approches concurrentes, comme celles mobilisant des politiques VLA (vision-language-action) ou des pipelines basés sur la simulation, exigent généralement soit du matériel dédié (LiDAR, caméra de profondeur RGB-D), soit des cycles de fine-tuning par plateforme. AgniNav s'inscrit dans un courant de travaux cherchant à normaliser la couche de perception au niveau de l'enveloppe physique plutôt que du modèle de robot complet. Le résultat présenté reste à ce stade une contribution de recherche, pas un produit ou un SDK distribué. Les prochaines étapes naturelles incluent la validation sur des environnements dynamiques et des densités d'obstacles plus élevées, ainsi que l'extension à des architectures d'enveloppe plus complexes pour les humanoïdes à forte variation de posture.

RecherchePaper
1 source
Modèles de tiges pour le contrôle des robots continus et souples : une revue
825arXiv cs.RO 

Modèles de tiges pour le contrôle des robots continus et souples : une revue

Une équipe de chercheurs a publié sur arXiv (référence 2407.05886, troisième révision) une revue exhaustive des modèles de tiges (rod models) appliqués à la modélisation et au contrôle des robots continus et souples. Le travail couvre les fondements mathématiques des théories de tiges, leur application à la modélisation de structures déformables, et les stratégies de contrôle dérivées, tant model-based que learning-based. Les auteurs proposent une classification des modèles selon le type de déformation pris en compte, contribution qui fait défaut dans la littérature existante. Les domaines applicatifs ciblés incluent la santé, l'agriculture, le milieu marin et l'espace, où les robots rigides conventionnels montrent leurs limites face à des environnements non structurés et à des interactions mécaniques en contact permanent. L'intérêt principal de ce survey est de structurer un sous-champ marqué par une forte fragmentation de la littérature. Les modèles de type Cosserat ou Kirchhoff proposent une approximation dimensionnellement réduite du comportement de corps élancés et déformables, offrant un meilleur équilibre que les méthodes éléments finis (FEM) entre précision et coût computationnel temps-réel. Pour les équipes R&D travaillant sur des bras flexibles endoscopiques, des cathéters guidés ou des manipulateurs agricoles, ce panorama unifié permet d'arbitrer entre approche physique et apprentissage, et de cibler les lacunes identifiées : robustesse au contact incertain, calibration en conditions réelles, et fermeture du fossé sim-to-real. Les modèles de tiges appliqués à la robotique souple se sont imposés comme cadre de référence depuis le milieu des années 2010, portés par l'essor des actionneurs à câbles, pneumatiques et à base d'élastomères. Plusieurs groupes académiques restent moteurs sur le sujet : INRIA, MIT CSAIL, IIT Gênes, Universität Stuttgart. Dans l'écosystème industriel, les applications en chirurgie mini-invasive et en manipulation agricole sont directement confrontées à ces problèmes de modélisation. Le papier identifie trois directions ouvertes : gestion du contact multi-points, intégration avec les architectures VLA (vision-langage-action), et généralisation à des morphologies hybrides rigides-souples. Ces fronts devraient alimenter le champ dans les deux à trois prochaines années.

UEINRIA figure parmi les groupes académiques moteurs du domaine ; les applications ciblées (chirurgie mini-invasive, manipulation agricole) concernent directement des acteurs industriels et projets de recherche européens.

RecherchePaper
1 source
Ce qui compte dans l'orchestration des politiques robotiques : étude systématique des agents VLA hiérarchiques
826arXiv cs.RO 

Ce qui compte dans l'orchestration des politiques robotiques : étude systématique des agents VLA hiérarchiques

Une équipe de chercheurs a publié en juin 2026 sur arXiv (réf. 2606.10267) une étude systématique des architectures hiérarchiques VLA, désignées Hi-VLA, pour la manipulation robotique. Ces systèmes couplent un planificateur de haut niveau basé sur un grand modèle vision-langage (VLM) avec un contrôleur bas niveau de type VLA (vision-language-action) : le planificateur décompose une tâche complexe en sous-objectifs formulés en langage naturel, que le contrôleur exécute séquentiellement. Les auteurs unifient plusieurs architectures Hi-VLA existantes sous un cadre commun dit « options-style » et les évaluent sur trois familles de tâches : courte horizon, longue horizon et à forte charge de raisonnement. Les expériences combinent simulation et validation physique sur un robot ALOHA, le manipulateur bimanuel développé initialement par Stanford et repris par Google DeepMind. Ce travail comble un manque réel dans la littérature : jusqu'ici, les systèmes Hi-VLA divergeaient dans leurs choix de planificateurs, de contrôleurs, de mécanismes de transition et de représentation mémoire, sans base de comparaison commune. Les résultats montrent qu'une hiérarchie bien conçue surpasse clairement le contrôle VLA plat (non-hiérarchique) ainsi qu'une hiérarchie naïve, ce qui valide empiriquement l'approche mais souligne que les gains dépendent fortement des interfaces entre niveaux et du choix des modèles. Pour les intégrateurs industriels qui explorent les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ces principes de conception fournissent un cadre d'arbitrage concret entre flexibilité de planification et précision de contrôle. L'article s'inscrit dans une dynamique de consolidation méthodologique qui suit une période d'expérimentation empirique rapide. Depuis 2023-2024, des systèmes comme SayCan (Google), RoboCat (DeepMind) ou les architectures de Physical Intelligence ont démontré la faisabilité des VLA à grande échelle, mais les recettes de design restaient opaques. Les concurrents directs sur le segment de la planification hiérarchique incluent des travaux comme Code-as-Policies ou Voyager. La prochaine étape naturelle sera l'extension de ces principes à des environnements non structurés hors laboratoire ; le site du projet (jiahenghu.github.io/hi-vla) propose des vidéos de démonstration, mais aucun déploiement industriel n'est annoncé à ce stade.

RechercheOpinion
1 source
TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs
827arXiv cs.RO 

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

Des chercheurs ont publié le 10 juin 2026 sur arXiv (arXiv:2606.09337) un framework baptisé TORL-VLA (Tactile-guided Online Reinforcement Learning for Vision-Language-Action), conçu pour résoudre un point de blocage précis des VLA en robotique de manipulation : l'inadaptation en temps réel aux conditions de contact. TORL-VLA couple un module VLA enrichi de retour tactile, capable de prédire à la fois une action de référence et une séquence de forces futures (wrench sequences), avec un module d'apprentissage par renforcement en ligne, léger, qui raffine ces actions au fil des tentatives. Le système a été validé sur des tâches longues et en contact soutenu avec l'environnement : manipulation d'une serrure (latch manipulation), placement précis d'une tasse à café, et manipulation d'un œuf cru. Sur l'ensemble de ces scénarios, TORL-VLA améliore les taux de succès à l'échelle des sous-tâches et des tâches complètes, ainsi que l'efficacité temporelle d'exécution par rapport aux baselines comparées. L'enjeu technique est bien réel : les VLA actuels sont déployés comme des politiques hors ligne (offline policies), c'est-à-dire figées après entraînement. Dès que les conditions de contact s'écartent de la distribution d'entraînement, friction différente, compliance d'objet inattendue, positionnement imprécis, la politique échoue sans mécanisme de correction. Le résultat concret est une accumulation de forces de contact inappropriées et des boucles de retry inefficaces, problème critique pour tout déploiement industriel où la reproductibilité du geste est exigée. TORL-VLA introduit également un "intervention-censored critic", un mécanisme qui évite d'attribuer à tort un succès post-intervention humaine aux actions de la politique générées avant cette intervention, ce qui stabilise l'apprentissage sur des données mixtes (exploration autonome + corrections opérateur). Cette approche est méthodologiquement significative : elle rend l'apprentissage en ligne viable dans un contexte d'apprentissage par démonstration avec supervision humaine intermittente, ce qui correspond précisément aux conditions réelles de mise en service. Les VLA comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de RT-2 (Google DeepMind) ont démontré une généralisation impressionnante en manipulation, mais leur rigidité post-entraînement constitue un frein reconnu au déploiement en production. Des travaux comme DexVLA ou des approches avec force feedback (ForceSight, TacVLA) ont commencé à intégrer la modalité tactile, mais sans adaptation en ligne. TORL-VLA se positionne à l'intersection de ces deux axes : adaptation dynamique et perception haptique. Aucun chiffre de performance absolu (taux de succès brut, temps de cycle) n'est communiqué dans l'abstract, ce qui limite la comparaison directe avec d'autres systèmes, les résultats complets sont dans le papier complet. Du côté européen, des acteurs comme Enchanted Tools (France, robot Mirokaï) ou Wandercraft travaillent sur la compliance et l'interaction physique, mais sur des architectures différentes. Les prochaines étapes naturelles pour TORL-VLA concernent la généralisation à d'autres objets déformables, la réduction de la latence du module RL en ligne, et une validation à plus grande échelle avant tout positionnement comme solution industrielle.

UELes équipes françaises comme Enchanted Tools ou Wandercraft, actives sur la compliance et l'interaction physique, pourraient s'appuyer sur cette méthodologie d'adaptation tactile en ligne pour améliorer la robustesse au contact de leurs robots, bien qu'aucun transfert direct ne soit documenté.

IA physiqueOpinion
1 source
Coordination continue de robots quadrupèdes par découverte de compétences sémantiques
828arXiv cs.RO 

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Des chercheurs ont publié sur arXiv (réf. 2606.08102) un framework appelé Conquer, conçu pour coordonner des équipes de robots quadrupèdes en apprentissage continu, c'est-à-dire sans avoir à réentraîner le système à chaque nouvelle tâche. L'approche repose sur une bibliothèque de compétences sémantiques organisée autour d'un cycle récupérer-adapter-mettre à jour : avant d'exécuter une tâche inconnue, le système construit un descripteur sémantique à partir des informations pré-exécution, retrouve la compétence la plus proche dans la bibliothèque, l'adapte, puis intègre les trajectoires réelles pour enrichir la base. Le backbone SAG (Self-Allies-Goal) permet de gérer des équipes de taille variable en modélisant explicitement l'état propre de chaque robot, le contexte de ses coéquipiers et l'objectif de la tâche. En simulation, Conquer atteint un taux de succès moyen final de 95,6 %, avec un transfert positif démontré vers de nouvelles tâches et un oubli catastrophique qualifié de négligeable. Des essais en conditions réelles ont été conduits sur des équipes de Unitree Go2, le quadrupède commercial d'Unitree Robotics. Ce résultat compte parce qu'il s'attaque à l'un des verrous fondamentaux de la robotique multi-agents : les méthodes de type MARL (apprentissage par renforcement multi-agents) existantes entraînent des politiques spécifiques à une famille de tâches fermée, ce qui les rend inutilisables dans des environnements industriels où les missions évoluent en permanence. Conquer propose une alternative où de nouvelles compétences de coordination s'accumulent sans effacer les précédentes, un prérequis pour tout déploiement réel dans des entrepôts ou sur des lignes de production à géométrie variable. La capacité à gérer des équipes de taille arbitraire est également non triviale : la plupart des approches supposent un nombre fixe d'agents. À noter cependant que les métriques de succès sont issues de simulation, et que les vidéos de déploiement sur Go2 restent des démonstrations sélectionnées, sans données quantifiées sur les taux d'échec terrain ni sur les temps de cycle réels. La coordination multi-quadrupèdes s'est intensifiée avec la disponibilité de robots comme le Go2 d'Unitree (lancé à moins de 2 700 dollars en version grand public), qui abaisse le coût d'expérimentation en laboratoire. La problématique de l'apprentissage continu en robotique est partagée par plusieurs groupes de recherche, notamment autour des architectures VLA (Vision-Language-Action) qui cherchent elles aussi à éviter la réinitialisation à chaque nouvelle tâche. Conquer se positionne dans un espace encore peu industrialisé, entre les approches MARL classiques et les frameworks généralistes de type foundation model. Les prochaines étapes logiques seraient des évaluations en entrepôt réel sur des tâches de manutention collaboratives, domaine où des acteurs comme Exotec (France) ou Boston Dynamics investissent sur des flottes mixtes humanoïdes et quadrupèdes.

RecherchePaper
1 source
MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel
829arXiv cs.RO 

MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel

Des chercheurs présentent MotionWAM (arXiv:2606.09215), un World Action Model (WAM) temps réel pour la loco-manipulation humanoïde, validé sur neuf tâches physiques avec un Unitree G1 piloté par une unique caméra égocentrique. Contrairement aux architectures dominantes qui séparent une politique pour les bras et un contrôleur pour la locomotion, le système prédit des tokens de mouvement corps-entier dans un espace d'action unifié couvrant locomotion, déplacements du torse, régulation de hauteur, interaction plantaire et manipulation des mains. Pour atteindre le temps réel, MotionWAM conditionne la politique sur les features intermédiaires de débruitage d'un modèle monde vidéo, évitant le débruitage itératif complet sur des latents haute dimension, goulot d'étranglement des WAMs antérieurs. Sur le hardware réel, le système dépasse de plus de 30 points les baselines Vision-Language-Action (VLA) entraînées sur les mêmes démonstrations et réalise des tâches d'interaction plantaire inatteignables par les politiques haut/bas-corps découplées. Le paradigme hiérarchique haut/bas-corps, présent dans des systèmes comme GR00T N2 (NVIDIA) et de nombreuses architectures humanoïdes commerciales, contraint les jambes à un simple rôle d'équilibre déconnecté de la manipulation. MotionWAM démontre sur matériel réel que cette contrainte n'est pas une fatalité et valide que des modèles monde pré-entraînés sur vidéo peuvent réduire la dépendance aux démonstrations robotiques coûteuses. Les métriques restent à contextualiser: neuf tâches sur un seul embodiment, sans publication de temps de cycle ni de robustesse aux variations de scène, restent loin d'une validation industrielle. Les WAMs appliqués à la robotique s'appuient sur des travaux antérieurs en manipulation tabletop (UniSim, Genie de Google DeepMind); MotionWAM étend ces techniques à la commande humanoïde corps-entier. Face aux approches VLA dominantes dans les publications de référence, notamment pi-0 (Physical Intelligence) et GR00T N2, cette architecture propose une alternative centrée sur la dynamique vidéo pré-entraînée. Les prochaines étapes naturelles concernent la validation multi-embodiment et des déploiements industriels semi-structurés, où la variabilité des environnements constituera le vrai test de maturité.

IA physiqueOpinion
1 source
LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation
830arXiv cs.RO 

LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation

LightTact est un capteur tactile-visuel de bout de doigt conçu pour détecter les contacts sans déformation mécanique de surface. Là où les capteurs conventionnels (GelSight du MIT, DIGIT de Meta, Tactip) s'appuient sur la déformation d'un élastomère pour inférer un contact, LightTact exploite une configuration optique à blocage de lumière ambiante: seule la lumière diffusée aux points de véritables contacts traverse le système, laissant les pixels non-contactés à une valeur de gris moyenne inférieure à 3 sur 255. Les images brutes produites sont à fort contraste, chaque zone de contact préservant l'apparence naturelle de la surface touchée. La robustesse annoncée couvre les variations de propriétés matérielles, de force de contact, d'apparence de surface et d'éclairage ambiant, sans calibration spécifique au matériau. Ce verrou adresse un angle mort structurant de la manipulation robotique fine: les contacts dits "légers" avec des liquides, semi-liquides ou matériaux ultra-mous ne génèrent pas de déformation macroscopique et restent donc invisibles pour la plupart des capteurs actuels. LightTact démontre des comportements jusque-là difficiles à automatiser: étalement d'eau sur une surface, prélèvement de crème cosmétique, interaction avec des films minces souples. Pour les intégrateurs ciblant la cosmétique, l'agroalimentaire ou la manutention de produits fragiles, c'est un point de blocage technique levé. Fait significatif: les images visuelles et tactiles, spatialement alignées, sont directement interprétables par des vision-language models (VLMs), ce qui abaisse la barrière d'intégration avec les pipelines d'IA multimodaux sans couche de traitement intermédiaire dédiée. Le travail est publié en préprint sur arXiv (référence 2512.20591, troisième version), ce qui le situe au stade de la recherche académique: aucun produit commercial ni déploiement industriel n'est annoncé. Dans le panorama des capteurs tactiles visuels, LightTact occupe une niche distincte de celle de GelSight et ses dérivés, ou des solutions capacitives comme Xela Robotics, qui ciblent des régimes de contact avec déformation mesurable. Du côté européen, Pollen Robotics ou Wandercraft ne proposent pas de capteur tactile propre à ce niveau de spécificité. Les prochaines étapes logiques incluent une validation en boucle fermée sur plateforme robotique réelle et un test de durabilité de la surface optique face à des matériaux agressifs en usage répété.

UEAucun impact direct documenté à ce stade de préprint, mais les acteurs FR/EU ciblant la manipulation fine (Pollen Robotics, intégrateurs agroalimentaire/cosmétique) pourraient bénéficier de cette approche pour des contacts légers avec matériaux mous ou liquides.

RecherchePaper
1 source
UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)
831arXiv cs.RO 

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (référence 2602.18020v2) une méthode baptisée UAOR (Uncertainty-aware Observation Reinjection), conçue pour améliorer les modèles VLA (Vision-Language-Action) sans nécessiter de réentraînement ni de données supplémentaires. Le principe repose sur la mesure de l'entropie d'action à chaque couche du modèle de langage sous-jacent : lorsqu'une couche présente une incertitude élevée, le module réinjecte les informations d'observation clés dans le réseau Feed-Forward (FFN) de la couche suivante, via un mécanisme d'attention retrieval. Les auteurs exploitent ici une propriété connue des transformeurs où les FFN se comportent comme des mémoires clé-valeur, et l'appliquent de façon adaptative et conditionnelle à l'état d'incertitude du modèle. Les expériences couvrent à la fois des environnements simulés et des tâches de manipulation réelle, sans précisions chiffrées sur les volumes ou les délais de cycle dans l'abstract publié. L'intérêt pratique est réel pour les équipes qui cherchent à améliorer des pipelines VLA existants : la plupart des approches actuelles exigent l'ajout de capteurs (nuages de points, cartes de profondeur) ou de modules auxiliaires (détecteurs d'objets, encodeurs spécialisés), impliquant collecte de données et phases d'entraînement coûteuses. UAOR se branche en plug-and-play sur des modèles déjà entraînés, ce qui réduit significativement le coût d'intégration. Cette approche "training-free" est particulièrement pertinente dans un contexte industriel où le fine-tuning sur données propriétaires reste un frein. Cela dit, l'abstract ne communique pas de métriques précises (taux de succès, amélioration relative), ce qui rend l'évaluation de l'amplitude des gains difficile avant lecture complète du papier. Les VLA sont devenus un axe central de la robotique de manipulation généraliste depuis 2024, portés par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). UAOR s'inscrit dans une dynamique de recherche qui cherche à extraire davantage de performance des architectures existantes plutôt qu'à en construire de nouvelles, une tendance d'optimisation à moindre coût computationnel. La prochaine étape naturelle serait une évaluation comparative sur des benchmarks standardisés comme RLBench ou FurnitureBench, et un test d'intégration sur des modèles open-source populaires tels qu'OpenVLA ou Octo.

RechercheOpinion
1 source
Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques
832arXiv cs.RO 

Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques

Une équipe de recherche publie sur arXiv (2606.08107) les résultats d'Ego-Pi, une méthode de fine-tuning de modèle VLA (Vision-Language-Action) conçue pour exploiter des données égocentristes humaines dans l'entraînement de robots manipulateurs. L'étude prend comme fondation le modèle π₀.₅ de Physical Intelligence et cible des robots humanoïdes équipés de mains à cinq doigts dextres. Le résultat central : des données de manipulation filmées du point de vue humain permettent au robot d'apprendre de nouvelles sémantiques de tâches et de composer des compétences existantes en comportements inédits, sans nécessiter de données robot équivalentes pour ces mêmes tâches. Ce résultat adresse directement l'un des verrous les plus cités en robotique : la rareté des données d'entraînement à grande échelle. Contrairement au NLP ou à la vision, il n'existe pas de corpus internet pour la manipulation robotique. La démonstration qu'une capture égocentrique humaine, collectée plus facilement, à moindre coût et à plus grande échelle, peut servir de substitut partiel représente un changement de paradigme potentiel pour les pipelines de données. Cela valide aussi l'hypothèse du transfert inter-embodiment : un VLA peut généraliser entre morphologies humaine et robotique si le point de vue reste cohérent. Physical Intelligence, startup californienne fondée en 2023 et à l'origine des modèles π₀ et π₀.₅, positionne ainsi sa fondation comme un socle cross-embodiment viable. Ses concurrents directs, notamment NVIDIA avec GR00T N2 et Google DeepMind avec RT-2, explorent également l'apprentissage multi-source. Il faut souligner qu'Ego-Pi est un preprint non encore évalué par les pairs, sans benchmark industriel ni déploiement réel annoncé à ce stade.

UERésultats potentiellement utiles aux équipes européennes (CEA-List, INRIA) travaillant sur des VLA, mais aucun acteur ni déploiement européen directement impliqué.

IA physiqueOpinion
1 source
Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés
833arXiv cs.RO 

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Des chercheurs proposent une méthode de récupération après chute pour robots humanoïdes sur terrains variés, publiée en juin 2026 sur arXiv (identifiant 2606.08922). Baptisée PTDL (Phase-Terrain Decoupled Learning), elle cible un problème concret : un humanoïde tombé sur du gravier, une pente ou un sol inégal doit non seulement se relever, mais reprendre immédiatement une marche dirigée par commande de vitesse, sans capteurs externes ni étiquettes de terrain fournies au moment de l'exécution. La validation porte sur le Unitree G1, humanoïde commercial de 29 degrés de liberté, testé en simulation et sur robot réel, sur sol plat, gravier et inclinaisons allant jusqu'à 20 degrés. L'architecture de PTDL repose sur une double décorrélation. Sur l'axe des phases, des discriminateurs de mouvement à double prior conditionnés par la gravité projetée lient la récupération post-chute à la reprise de locomotion normale. Sur l'axe des terrains, un façonnage de récompense stratifié par surface applique des supervisions d'entraînement spécifiques à chaque sol, labels qui sont ensuite retirés à la politique au déploiement : le robot développe des comportements de lever implicitement adaptés à chaque surface, sans qu'on lui indique sur quoi il repose. Les méthodes antérieures s'arrêtaient généralement au lever quasi-statique ou entraînaient une politique de compromis dégradée face à la diversité des terrains. PTDL enchaîne récupération et reprise de marche sous une seule politique proprioceptive unifiée, ce qui est directement pertinent pour tout déploiement en environnement industriel non structuré où la chute n'est pas une exception mais une probabilité réelle. Le G1 de Unitree Robotics (Shenzhen) est devenu en 2024-2025 une plateforme de référence pour la recherche en locomotion humanoïde, notamment grâce à son accessibilité tarifaire (environ 16 000 USD). La récupération après chute reste un angle mort notoire dans la course humanoïde actuelle : Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus) se concentrent principalement sur les démonstrations de marche et de manipulation, peu sur les protocoles de résilience post-chute. Ce preprint arXiv n'annonce pas de déploiement industriel immédiat et n'a pas encore subi de révision par les pairs, mais il ouvre une piste méthodologique solide : entraîner sur des terrains stratifiés tout en maintenant une politique unifiée à l'inférence, une approche transposable à d'autres défis de robustesse en conditions réelles.

RecherchePaper
1 source
Avatar androïde cybernétique Yui : intégration système, déploiement terrain et évaluation
834arXiv cs.RO 

Avatar androïde cybernétique Yui : intégration système, déploiement terrain et évaluation

Yui est un avatar androïde téléopéré à corps entier, développé par une équipe de recherche japonaise et présenté dans un article soumis à arXiv (2606.08099) en juin 2026. Le système embarque 55 degrés de liberté répartis sur l'ensemble du corps, combinant une tête androïde préexistante avec un contrôle des expressions faciales, du regard, de la mobilité des bras et des mains, et une plateforme mobile. Deux modes de pilotage sont disponibles : un mode immersif via casque de réalité mixte (HMD), et un mode bureau utilisant une simple webcam. Le système a été déployé dans trois configurations réelles : une exposition longue durée à l'Expo 2025 d'Osaka (Kansai, Japon), un échange pédagogique à distance entre écoliers, et une étude d'interaction avec le grand public. Sur le seul site de l'Expo, deux unités ont cumulé environ 1 131 heures d'opération, ce qui constitue un volume de terrain significatif pour ce type de plateforme. Ce chiffre de 1 131 heures dépasse la plupart des évaluations publiées sur les avatars androïdes, généralement limitées à des sessions de laboratoire contrôlées. Il permet d'identifier des enjeux de maintenance réels et de valider l'exploitabilité opérationnelle dans des conditions d'usage non maîtrisées. Les retours recueillis auprès des opérateurs et des interlocuteurs sont globalement positifs sur la sensation de co-présence et la transmission des émotions et intentions. Toutefois, les auteurs reconnaissent explicitement des lacunes en termes de contrôlabilité fine, notamment pour les gestes précis, ce qui est cohérent avec les défis connus de la téléopération à haute fidélité sensorielle. Le projet s'inscrit dans la continuité des travaux d'Hiroshi Ishiguro (Osaka University) sur les androïdes téléopérés, dont les systèmes Geminoid et Telenoid ont posé les bases de cette discipline depuis les années 2000. Dans l'espace commercial, des acteurs comme Engineered Arts (Ameca, Royaume-Uni) ou des projets de téléprésence incarnée comme ceux de l'entreprise californienne Embodied restent sur des périmètres plus restreints. Yui se distingue par son déploiement public massif à l'Expo 2025, qui a accueilli plusieurs millions de visiteurs, fournissant un terrain d'évaluation rare. Les prochaines étapes identifiées portent sur l'amélioration de la précision de contrôle et l'élargissement des scénarios d'usage sociaux, avec des implications de conception pour les futures générations d'avatars androïdes déployables en contexte ouvert.

HumanoïdesPaper
1 source
Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes
835arXiv cs.RO 

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08725) une méthode de planification de trajectoire en temps réel pour la téleopération sans collision de bras manipulateurs. Le problème central : en téleopération, l'opérateur ne contrôle que la pose de l'effecteur terminal (position et orientation de l'outil), sans piloter individuellement les articulations. Cela provoque régulièrement des auto-collisions du bras sur lui-même ou des collisions avec les obstacles de l'environnement de travail. L'approche proposée reformule les contraintes d'évitement de collision en les rendant différentiables via la dualité en optimisation convexe, une formulation récente adaptée ici au contexte de la téleopération. Le robot est représenté géométriquement par des capsules (cylindres à extrémités hémisphériques), l'environnement par des polytopes. La méthode a été validée en simulation sur des scénarios à nombre variable d'obstacles, puis testée physiquement sur un bras UR5e de Universal Robots dans une session de téleopération réelle. Les résultats indiquent des temps de calcul inférieurs aux méthodes de référence, tout en autorisant une modélisation géométrique plus fidèle, produisant des trajectoires plus lisses et garantissant l'absence de collision. L'enjeu industriel est direct : les approches existantes contraignent les développeurs à choisir entre précision géométrique et performance de calcul. Approximer robot et obstacles par des sphères simplifie la différentiabilité mais introduit des marges de sécurité artificiellement larges, restreignant l'espace de travail utile. À l'inverse, approximer les dérivées dégrade la convergence du solveur et augmente la latence, incompatible avec les exigences temps réel de la téleopération. En utilisant la dualité convexe, ce travail contourne les deux compromis simultanément. Pour un intégrateur déployant des cellules robotisées téléopérées, cela représente potentiellement moins de zones interdites inutiles et une meilleure réactivité du système. La téleopération connaît un regain d'intérêt important depuis 2023, portée par les besoins en collecte de données pour l'apprentissage par imitation dans les robots humanoïdes et par les applications en environnements dangereux ou médicaux. Les méthodes concurrentes incluent les contrôleurs réactifs basés sur des champs de potentiel, les planificateurs par échantillonnage (RRT, CHOMP) et les approches de contrôle optimal à horizon glissant avec modèles en sphères. L'approche ici, fondée sur la programmation différentiable et les contraintes duales convexes, s'inscrit dans une tendance plus large d'intégration des outils d'optimisation différentiable dans la robotique de manipulation. Le travail est un preprint non encore évalué par les pairs ; les prochaines étapes probables concernent l'extension à des configurations à plus grand nombre de degrés de liberté et à des environnements dynamiques.

UEApplicable aux intégrateurs européens déployant des cellules téléopérées (chirurgie, environnements dangereux), mais aucun acteur FR/EU n'est directement impliqué dans ce preprint.

RecherchePaper
1 source
EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes
836arXiv cs.RO 

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (réf. 2606.08495) EgoPriMo, un cadre unifié d'apprentissage de prior de mouvement pour robots humanoïdes, entraîné exclusivement à partir de démonstrations humaines en vue égocentrique (caméra portée sur la personne). Le système prend en entrée une séquence vidéo égocentrique et un prompt texte, puis reconstruit, génère ou prédit des mouvements corps entier au format SMPL (Skinned Multi-Person Linear model, le standard académique de représentation du squelette humain). L'architecture centrale est un Triple-stream Diffusion Transformer (DiT) qui modélise conjointement la dynamique corporelle, le contexte visuel égocentriique et le langage naturel via un seul checkpoint partagé, des masques de conditionnement de tâche routant les trois cas d'usage sans architecture distincte. Évalué sur les datasets Nymeria et EgoExo4D, EgoPriMo surpasse UniEgoMotion sur la génération égocentrique, et les trajectoires SMPL produites ont été exécutées avec succès sur le contrôleur humanoïde Unitree (probablement G1 ou H1). Il s'agit d'un papier de recherche, pas d'un déploiement industriel. L'intérêt de cette approche tient à son vecteur de données : les vidéos égocentrique humaines (Nymeria, EgoExo4D) sont disponibles à grande échelle, contrairement aux démonstrations téléopérées sur robots qui restent coûteuses et lentes à collecter. En utilisant le langage comme signal de contrôle haut niveau plutôt que comme spécification complète du mouvement, EgoPriMo vise la généralisation comportementale sans avoir à décrire exhaustivement chaque trajectoire, ce qui est l'un des verrous historiques des systèmes VLA (Vision-Language-Action). Le fait qu'un seul checkpoint gère reconstruction, génération et prévision simplifie le déploiement et réduit la dette de maintenance. La validation sur Unitree démontre une transition sim-to-real partielle, bien qu'aucun chiffre de robustesse en environnement non contrôlé ne soit communiqué dans l'abstract. Ce travail s'inscrit dans une compétition dense autour des priors de mouvement pour humanoïdes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure (03) investissent massivement dans des pipelines VLA capables de généraliser à des tâches variées. L'originalité d'EgoPriMo est de contourner la dépendance aux données robot en exploitant l'observation humaine égocentrique, une direction explorée également par des travaux issus de CMU et Stanford sur l'imitation via vidéo. Le choix de Unitree comme cible hardware est cohérent avec sa diffusion large dans les labos académiques. Les prochaines étapes naturelles seraient une validation en environnement semi-industriel et une intégration dans une boucle de contrôle fermée, deux dimensions absentes de ce preprint.

RechercheOpinion
1 source
Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains
837arXiv cs.RO 

Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains

Des chercheurs ont publié Meridian, une méthode de localisation globale pour robots terrestres qui exploite des images aériennes à la place du GNSS, avec une erreur de trajectoire moyenne de 2,4 mètres sur 19 kilomètres parcourus dans des environnements variés. L'algorithme met en correspondance des primitives métrique-sémantiques extraites d'images satellites ou de drones avec les données RGB-D collectées par la caméra embarquée du robot, sans nécessiter d'entraînement ni d'ajustement sur les données locales de la zone ciblée. Les expériences couvrent un dataset de conduite autonome urbaine, une zone de parc et campus, ainsi qu'un camp en milieu naturel, trois contextes distincts sur lesquels le même modèle généraliste a été appliqué sans adaptation préalable. Ce résultat est notable car la localisation sans GPS dans des terrains non structurés reste l'un des problèmes ouverts les plus persistants de la robotique mobile. Les approches existantes s'appuient généralement sur des modèles entraînés pour un environnement précis et peinent face aux géométries répétitives et aux paysages peu texturés, forêts, prairies, zones périurbaines, où les méthodes basées sur des points d'intérêt visuels classiques échouent. Meridian contourne ce problème en formalisant des métriques de cohérence pour estimer une distribution sur les poses du sous-graphe robot et rejeter les hypothèses aberrantes via une optimisation robuste du graphe de poses. L'absence de dépendance à des données d'entraînement spécifiques est le point le plus opérationnellement significatif : elle rend le système déployable sur zones inconnues sans phase de cartographie préalable. Le travail s'inscrit dans un courant actif de localisation visuelle croisée (cross-view localization) qui bénéficie de la disponibilité croissante d'imagerie aérienne haute résolution via satellites commerciaux ou drones. Des méthodes concurrentes comme OrienterNet (Meta AI, 2023) ciblent principalement les environnements urbains structurés via OpenStreetMap. Meridian se distingue en visant explicitement les terrains naturels, ce qui l'oriente vers des applications de recherche et sauvetage, de surveillance agricole ou d'opérations militaires en zone dégradée, secteurs où des plateformes comme Boston Dynamics Spot ou des robots de terrain industriels pourraient directement tirer parti de l'approche. L'article est disponible en prépublication sur arXiv (2606.06312) et n'a pas encore été soumis à révision par les pairs, ce qui invite à traiter les métriques annoncées avec prudence en attendant une validation indépendante.

RecherchePaper
1 source
3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D
838arXiv cs.RO 

3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D

Des chercheurs ont publié le 4 juin 2026 sur arXiv (2506.04436) un framework dénommé 3DThinkVLA, conçu pour doter les modèles vision-language-action (VLA) d'un raisonnement spatial 3D implicite lors de la prédiction d'actions robotiques, sans recours à des capteurs de profondeur ni à la génération de texte à l'inférence. Le système articule trois composants opérant dans l'espace latent : un module de perception géométrique 3D qui aligne les features visuelles intermédiaires avec un modèle fondationnel 3D, un module de distillation de raisonnement en ligne utilisant un "reasoning anchor token" partagé, et un mécanisme d'intégration d'actions spatialement augmenté. À l'entraînement, le modèle apprend à raisonner spatialement depuis des prompts enseignants explicites ; au déploiement, seuls des adaptateurs légers sont conservés, le modèle fondationnel 3D et la branche enseignante étant élagués. Les auteurs déclarent des performances état-de-l'art sur les benchmarks LIBERO, LIBERO-PLUS et SimplerEnv, ainsi que sur des tâches de manipulation réelles. L'apport principal est de découpler la perception géométrique 3D du raisonnement spatial de haut niveau pour les injecter à différents niveaux hiérarchiques, sans modifier l'architecture du backbone VLM. Ce découplage répond à un problème central des VLA actuels : leur tendance aux raccourcis d'action (action shortcuts) face aux relations spatiales complexes, ce qui dégrade les performances hors simulation. Le mécanisme d'anchor token transfère le raisonnement spatial implicitement, sans chain-of-thought au déploiement, réduisant la latence d'inférence. Pour les intégrateurs robotiques, cela ouvre la voie à des VLA plus robustes en manipulation de précision sans surcoût matériel. La méthode prévient également le catastrophic forgetting du VLM pré-entraîné, point critique lors du fine-tuning sur données robotiques spécialisées. Les VLA ont connu une accélération depuis Pi-0 de Physical Intelligence fin 2024 et GR00T N2 de NVIDIA en 2025, mais la gestion du raisonnement 3D à partir d'images 2D reste un obstacle au déploiement industriel fiable, notamment pour l'assemblage et la manipulation fine. 3DThinkVLA s'inscrit dans une lignée de travaux concurrents, dont SpatialVLA et RoboVLMs, cherchant à injecter des priors géométriques sans alourdir l'inférence. Il convient de noter qu'il s'agit d'un preprint arXiv non encore évalué par les pairs, et que les benchmarks LIBERO et SimplerEnv sont des environnements de simulation standardisés dont les résultats ne garantissent pas les performances en conditions industrielles réelles. Aucun déploiement terrain ni partenariat commercial n'est annoncé à ce stade.

IA physiqueActu
1 source
TransTac : transition visuo-tactile via des élastomères transparents codés aux ultraviolets
839arXiv cs.RO 

TransTac : transition visuo-tactile via des élastomères transparents codés aux ultraviolets

Des chercheurs ont mis en ligne sur arXiv (référence 2506.04477) un capteur tactile visuel appelé TransTac, qui lève une contrainte fondamentale des VBTS (Vision-Based Tactile Sensors) actuels : l'opacité de l'élastomère de contact, incompatible avec une observation directe de la scène. TransTac intègre dans un seul dispositif compact un élastomère transparent portant des marqueurs réfléchissants ultraviolets, un système binoculaire stéréoscopique, et un algorithme de triangulation sparse par triangulation de Delaunay guidé par contraintes géométriques a priori. Un détecteur léger assure la localisation stable des marqueurs semi-transparents sous déformation de contact. Le coût matériel du prototype est d'environ 70 dollars. Les performances mesurées sont significatives à plusieurs titres. L'algorithme de mise en correspondance surpasse les méthodes d'affectation globale de 21 % en robustesse de correspondance. En reconnaissance zero-shot sur images tactiles, TransTac atteint 83,3 %, soit 50 points de pourcentage au-dessus des baselines opaques équivalentes. L'analyse des espaces d'embedding révèle que la similarité cosinus entre classes tactiles et images naturelles passe de 0,2 à plus de 0,77 : l'élastomère transparent permet de construire des représentations alignées avec les modèles de vision généralistes sans fine-tuning dédié, ce qui ouvre la voie à des pipelines de manipulation fondés sur des VLA (Vision-Language-Action models) sans adaptation sensorielle spécifique. Des expériences contrôlées quantifient également la dégradation des caméras RGB-D en dessous de quelques dizaines de centimètres, et montrent que l'intégration visuo-tactile étend la couverture géométrique utile dans cette plage critique. Le secteur des VBTS s'est densifié depuis GelSight (MIT) et ses dérivés comme DIGIT (développé conjointement par Meta et CMU) ou Allsight. Ces capteurs sacrifient tous la transparence pour maintenir le contraste optique nécessaire à la reconstruction de surface. TransTac contourne ce compromis en séparant l'illumination tactile (spectre UV) du spectre visible, une approche qui reste à valider sur des manipulateurs industriels en conditions de production réelles, notamment en termes de durée de vie de l'élastomère et de robustesse aux contaminants. Aucune affiliation institutionnelle ni partenariat industriel ne sont mentionnés dans le préprint : ce travail est à ce stade un prototype de laboratoire. Pour les intégrateurs travaillant sur la manipulation de précision ou l'inspection à contact, le ratio coût-performance annoncé (un capteur d'extrémité non-occlusif à 70 dollars) mérite d'être suivi lors des prochaines validations expérimentales en conditions réelles.

RecherchePaper
1 source
ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines
840arXiv cs.RO 

ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines

Une équipe de recherche a publié sur arXiv (référence 2603.09170v2) ZeroWBC, un cadre d'apprentissage du contrôle corporel complet pour robots humanoïdes qui se passe entièrement de données de télé-opération. Le système apprend à partir de vidéos égocentrées humaines -- c'est-à-dire filmées du point de vue d'un opérateur -- associées à des annotations de mouvement corps-entier et de texte. Concrètement, une image initiale prise en vue subjective est combinée à une instruction en langage naturel ; un modèle vision-langage (VLM) affiné génère alors des tokens de mouvement humain futur, qui sont décodés en trajectoires continues et retargetés vers le robot humanoïde. Ces mouvements de référence, accompagnés des trajectoires de la racine et des parties clés du corps, alimentent ensuite une politique de suivi de mouvement interactif. Les expériences ont été conduites sur le robot Unitree G1, un humanoïde compact commercialisé à environ 16 000 dollars. L'apport central de ZeroWBC réside dans l'élimination du coût de collecte des données de télé-opération, traditionnellement un verrou majeur pour l'apprentissage du contrôle corps-entier à grande échelle. En exploitant le stock immense de vidéos humaines égocentrées déjà disponibles, la méthode ouvre un paradigme de scalabilité que les approches par démonstration robotique directe ne peuvent pas égaler facilement. L'introduction d'une récompense de suivi orientée interaction -- qui priorise l'alignement global des trajectoires tout en préservant la naturalité du mouvement -- tente de combler le gap entre génération de gestes plausibles et exécution physiquement cohérente. C'est un résultat de recherche académique, pas un produit déployé en production : les vidéos présentées montrent des comportements variés en scène statique, mais les conditions réelles d'un environnement industriel dynamique n'ont pas été testées. ZeroWBC s'inscrit dans un courant plus large de méthodes "zéro-démonstration robot" qui cherchent à transférer la richesse des données humaines vers des systèmes incarnés, à l'instar des travaux sur les politiques visuomotrices à base de VLA (Vision-Language-Action). Sur le terrain concurrent, des approches comme ACT, UMI ou les pipelines de diffusion de Physical Intelligence (Pi-0) misent encore largement sur la télé-opération directe ou les données simulées. Unitree, constructeur chinois dont le G1 est l'une des plateformes humanoïdes les plus accessibles du marché, bénéficie ici d'une visibilité croissante comme banc d'essai académique de référence. Les prochaines étapes naturelles seraient d'étendre ZeroWBC à des scènes dynamiques, de tester la robustesse en dehors du labo, et d'évaluer si le sim-to-real tient face à la variabilité réelle des interactions objet-robot.

RechercheOpinion
1 source
DLO-Lab : évaluation de la manipulation d'objets linéaires déformables avec physique différentiable
841arXiv cs.RO 

DLO-Lab : évaluation de la manipulation d'objets linéaires déformables avec physique différentiable

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.04206) DLO-Lab, un cadre de recherche combinant simulateur physique différentiable et suite de benchmarks dédiée à la manipulation robotique d'objets linéaires déformables (DLO), soit concrètement les câbles, cordes et élastiques. Le simulateur modélise explicitement une gamme étendue de propriétés matérielles : extensibilité et inextensibilité, élasticité, plasticité en flexion, ainsi que les interactions complexes entre objets. Sur cette base, les auteurs proposent un ensemble de tâches représentatives qui mettent en évidence deux difficultés centrales de la manipulation DLO : la complexité topologique inhérente aux objets déformables et la sensibilité aux points de saisie. Ils introduisent également un agent spécialisé qui sélectionne des points de préhension stratégiques et décompose les tâches longues en sous-séquences pour maximiser l'autorité de contrôle. L'ensemble est évalué avec plusieurs algorithmes d'apprentissage de politiques, et des expériences de transfert sim-to-real sont conduites pour valider le potentiel applicatif de la plateforme. L'enjeu industriel est direct : la manipulation de câbles et de fils est l'un des derniers verrous majeurs de l'automatisation en électronique, câblage automobile et logistique. Les approches antérieures se heurtaient à un double plafond de verre, étroitesse des tâches supportées et impossibilité pratique de collecter des données réelles suffisamment diversifiées. L'usage d'un simulateur différentiable change l'équation : les gradients physiques peuvent guider directement l'optimisation des politiques, ce qui réduit le besoin en démonstrations humaines et rend l'apprentissage plus transférable. Les expériences sim-to-real présentées dans l'article constituent la mesure critique : elles indiquent si le fossé simulation-réalité est franchissable pour ce type d'objets réputés imprévisibles, bien que les conditions expérimentales précises (matériaux testés, taux de succès chiffrés) restent à examiner dans le détail du papier complet. La manipulation DLO est un problème actif depuis les années 2010, avec des travaux notables du MIT, de Berkeley (notamment autour de l'équipe Pieter Abbeel) et, côté européen, de l'Inria et du DLR. Les benchmarks existants comme RLBench ou ManipulaTHOR ne couvrent pas spécifiquement les propriétés physiques des déformables linéaires, ce qui justifie la niche que vise DLO-Lab. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'une contribution académique pré-print, non encore évaluée par les pairs. Les prochaines étapes naturelles seraient une intégration dans des environnements de simulation largement adoptés comme Isaac Sim ou MuJoCo, et une validation sur des cas industriels concrets tels que le câblage de faisceaux dans l'automobile.

UELes équipes européennes (Inria, DLR) sont actives sur la manipulation DLO, et l'industrie automobile européenne, notamment le câblage de faisceaux, constitue l'un des débouchés industriels directs visés par ces travaux de simulation différentiable.

RecherchePaper
1 source
PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA
842arXiv cs.RO 

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

Des chercheurs ont publié sur arXiv (référence 2606.03598) un framework de continual learning baptisé PHASER (Phase-Aware and Semantic Experience Replay), conçu pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'architecture est agnostique au backbone sous-jacent et a été évaluée sur trois modèles VLA distincts dans les suites de benchmarks LIBERO, une référence du domaine. Sur le scénario LIBERO-Goal CL (continual learning), PHASER atteint un taux de succès moyen (Average Success Rate, ASR) de 87,8 % en fin d'entraînement, soit un gain de 31 points de pourcentage par rapport à l'experience replay uniforme standard avec le même budget mémoire. Le problème que PHASER attaque est celui de l'oubli catastrophique : lorsqu'un robot apprend séquentiellement de nouvelles compétences gestuelles, les représentations antérieures se dégradent rapidement dans les poids du modèle. L'experience replay classique échoue parce qu'il échantillonne uniformément, sous-représentant les sous-phases courtes mais critiques d'une trajectoire de manipulation (la saisie, le transfert, la dépose), un phénomène que les auteurs nomment "phase starvation". PHASER corrige cela avec deux mécanismes : une allocation mémoire par phase (capacity allocation) pour garantir une couverture équilibrée de tous les sous-comportements, et un routage dynamique qui priorise les phases historiques à haut risque d'oubli. Un troisième composant, Auto-PC, automatise la détection des frontières temporelles entre sous-phases par analyse non supervisée des signaux d'action, validée ensuite par un VLM, évitant ainsi l'annotation manuelle coûteuse. Les VLA, qui conditionnent les actions du robot sur du langage naturel et des images, sont devenus un axe central de la robotique généraliste, portés notamment par des modèles comme OpenVLA (UC Berkeley), pi0 (Physical Intelligence) ou RT-2 (Google DeepMind). L'un des verrous majeurs à leur déploiement industriel reste précisément la capacité à apprendre de nouvelles tâches sans régression sur les anciennes, prérequis pour tout robot polyvalent en atelier. PHASER reste pour l'instant une contribution de recherche évaluée en simulation, mais son caractère agnostique au backbone en fait un candidat naturel pour une intégration dans des pipelines d'entraînement continuel sur des plateformes hardware comme Figure 02, Unitree G1 ou Boston Dynamics Atlas.

IA physiqueOpinion
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
843arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper
1 source
Mémoire épisodique pour robots à filtrage par surprise
844arXiv cs.RO 

Mémoire épisodique pour robots à filtrage par surprise

Des chercheurs ont publié sur arXiv (référence 2606.03787) une architecture de mémoire épisodique sélective pour robots généralistes, baptisée "Surprise-Gated Episodic Memory". Le principe central : utiliser la surprise bayésienne comme filtre pour décider quels événements méritent d'être mémorisés à long terme. Plutôt que de stocker l'intégralité du flux sensoriel, un mécanisme de calcul de surprise opère dans l'espace latent de V-JEPA-2, le modèle vidéo de Meta, jugé sémantiquement riche et indépendant du contexte de déploiement. Cette mémoire épisodique filtrée vient augmenter une mémoire spatiale fondée sur des graphes de scène 4D. Sur les benchmarks de question-answering robot, l'approche surpasse les méthodes de référence d'au moins 12 % sur les questions temporelles, spatiales et binaires, et bat également des méthodes supervisées ainsi que des approches non-causales, avec une méthode non supervisée et causale pour la segmentation d'événements. L'enjeu derrière ce résultat est directement opérationnel : un robot généraliste déployé en entrepôt, en hôpital ou sur un chantier reçoit des instructions ancrées dans des événements passés ("Retourne là où le colis a été mal placé hier soir"). Sans mémoire épisodique sélective, soit le robot stocke tout et sature sa mémoire, soit il oublie et échoue à répondre. La surprise bayésienne comme critère de filtrage est élégante parce qu'elle ne nécessite aucun superviseur humain ni liste de tâches futures a priori, elle capte l'inhabituel de façon autonome. Que cette méthode non supervisée et causale batte des méthodes supervisées est un signal fort : le sim-to-real gap pour la mémoire sémantique pourrait se réduire sans annotation coûteuse. Ce travail s'inscrit dans un courant de recherche en pleine accélération autour de la mémoire à long terme pour les robots mobiles, face aux limites des approches purement réactives popularisées par les VLA (Vision-Language-Action models). V-JEPA-2, publié par Meta en 2025, s'impose progressivement comme fondation visuelle pour plusieurs équipes de recherche extérieures à Meta. Sur le plan concurrentiel, des approches comparables sont développées par des groupes travaillant sur les représentations spatiales pour l'embodied AI (CMU, Stanford, ETH Zurich). L'étape suivante naturelle serait de valider la méthode sur du matériel réel en conditions non contrôlées, les résultats actuels restant des benchmarks, la question du passage à l'échelle sur des robots comme Figure 03 ou Unitree G1 en déploiement continu reste entière.

RecherchePaper
1 source
Entraînement de robots par LLM : génération automatisée de données via l'augmentation de démonstrations
845arXiv cs.RO 

Entraînement de robots par LLM : génération automatisée de données via l'augmentation de démonstrations

Des chercheurs de Carnegie Mellon University ont publié LLM Trainer (arXiv:2509.20070v2), un pipeline entièrement automatisé capable de transformer une poignée de démonstrations humaines, aussi peu qu'une seule, en un large jeu de données pour l'apprentissage par imitation robotique. Le système décompose la génération de nouvelles démonstrations en deux étapes : une annotation hors-ligne qui extrait des keyframes, des objets saillants et des relations pose-objet à partir des trajectoires originales, puis un retargeting de keyposes en ligne qui adapte ces keyframes à un nouvel environnement à partir d'une simple observation initiale. Le pipeline déforme ensuite géométriquement la trajectoire originale pour en produire une nouvelle, l'exécute sur le robot, et ne conserve les données que si l'exécution est concluante. Pour optimiser la qualité des annotations, réutilisables d'une scène à l'autre, l'équipe intègre un mécanisme de Thompson sampling qui améliore significativement le taux de succès. Les validations ont été conduites sur un bras Franka Emika Panda. L'enjeu est structurant pour l'imitation learning en robotique industrielle : le goulot d'étranglement reste la collecte coûteuse de démonstrations humaines. LLM Trainer propose de contourner ce problème en mobilisant la connaissance du monde embarquée dans les LLMs pour générer des variantes de scènes plausibles sans intervention humaine supplémentaire. Les résultats montrent que la méthode d'annotation LLM surpasse systématiquement des baselines conçues par des experts humains. L'approche d'ensemble, combinant un plan feed-forward LLM optimisé et un contrôleur par imitation en feedback, ouvre une piste vers des politiques plus robustes à la variabilité des environnements réels, ce qui intéresse directement les intégrateurs confrontés à des lignes de production hétérogènes. Ce travail s'inscrit dans une tendance forte en manipulation robotique : réduire la dépendance aux données humaines via l'augmentation synthétique, après des approches comme RoboAgent, DemoAugment ou les pipelines sim-to-real de Google DeepMind. Carnegie Mellon reste un acteur central de cet espace, aux côtés de Stanford (Mobile ALOHA), Berkeley (RoboVerse) et du MIT. Pour l'heure, LLM Trainer est uniquement validé sur un seul modèle de bras dans des conditions de laboratoire, ce qui laisse ouverte la question du passage à l'échelle vers des robots humanoïdes ou des environnements moins structurés. La version v2 publiée sur arXiv suggère des révisions post-soumission, probablement en vue d'une conférence comme CoRL 2025 ou ICRA 2026.

RecherchePaper
1 source
Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes
846arXiv cs.RO 

Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes

Des chercheurs ont soumis fin mai 2026 sur arXiv (référence 2606.00637) une méthode baptisée GLAD (Global-Local Attention Decomposition) pour améliorer la locomotion perceptive des robots humanoïdes sur terrain irrégulier. L'approche repose sur un encodeur coarse-to-fine appliqué à une carte d'élévation centrée sur le robot, qui sépare deux branches d'attention : une branche globale utilisant l'attention pooling pour synthétiser le contexte environnemental, et une branche locale conditionnée à l'état du robot pour encoder avec précision la géométrie des surfaces d'appui. La méthode a été validée sur un humanoïde Unitree G1 équipé d'un LiDAR embarqué, sur des terrains à appuis discontinus (gaps, pierres de gué, escaliers) et dans des environnements confinés, avec un transfert sim-to-real zéro-shot sans réentraînement sur données réelles. La décomposition explicite de l'attention perceptive comble un manque identifié dans la littérature : les encodeurs conventionnels tendent à mélanger la perception macroscopique du terrain, utile pour la navigation globale, et la détection fine des surfaces d'appui, utile pour le placement des pieds, ce qui dégrade les performances dans les deux registres. En séparant ces fonctions, GLAD réduit la dilution des signaux spatiaux fins et allège la charge d'entraînement. Plus notable encore : la politique apprise fait émerger des comportements adaptatifs non explicitement supervisés, comme le suivi de chemins étroits et le contournement d'obstacles sous de simples commandes de vitesse, sans planificateur de navigation dédié. Ce résultat suggère que la structuration de l'encodeur perceptif peut induire une forme de navigation implicite, angle qui intéresse directement les intégrateurs cherchant à alléger la pile logicielle des humanoïdes déployés. La locomotion perceptive des humanoïdes a progressé rapidement depuis les travaux fondateurs en apprentissage par renforcement sur terrain accidenté (ANYmal d'ETH Zurich, CMU Locomotion Group), mais le sim-to-real sur appuis discontinus reste un verrou difficile, notamment à cause du bruit des capteurs de profondeur. L'utilisation du LiDAR embarqué du Unitree G1, commercialisé autour de 16 000 dollars et devenu banc d'essai courant dans la communauté académique, offre une robustesse capteur supérieure aux caméras RGB-D. Sur ce segment, plusieurs équipes sont en compétition directe : Berkeley Humanoid Locomotion Group, MIT CSAIL, et les équipes internes de Figure AI (modèle Helix) et d'Agility Robotics (Digit). Le papier ne publie pas de métriques quantitatives précises (taux de succès, nombre d'essais), ce qui limite la comparaison directe avec d'autres systèmes ; il s'agit d'un résultat académique, pas d'un produit déployé.

RecherchePaper
1 source
PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts
847arXiv cs.RO 

PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts

Des chercheurs ont publié sur arXiv (référence 2506.00515) PaCo-VLA, un framework qui comble le fossé entre les modèles Vision-Language-Action et le contrôle de contact haute fréquence. Le problème est structurel : les VLAs génèrent une sortie à quelques hertz seulement, alors que la régulation de dynamiques de contact exige des boucles à plusieurs kilohertz. PaCo-VLA requalifie le rôle du réseau neuronal : plutôt que de produire des commandes moteur directes, le VLA émet des "proposals de compliance", à savoir des engagements sémantiques, des étapes de tâche et des paramètres d'admittance. Un bouclier de passivité haute fréquence, indépendant du modèle, filtre ces proposals via une comptabilité d'énergie (energy-tank accounting) et des contrôles aux frontières, bloquant toute prédiction invalide ou périmée avant qu'elle n'atteigne la physique de contact. Les expériences d'insertion de connecteurs, en simulation et en conditions réelles, montrent une précision supérieure aux baselines VLA non protégées, avec zéro violation de passivité même sous perturbations adversariales de compliance. L'enjeu dépasse la performance brute. La passivité est une propriété de sécurité prouvable : elle garantit que le système ne génère pas d'énergie mécanique non désirée, ce qui est critique pour les assemblages de précision où une force mal régulée peut détruire la pièce ou l'actionneur. L'architecture découplée permet aussi une évaluation causale du VLA, isolant ce que le modèle contribue réellement en termes de raisonnement sémantique par opposition aux raccourcis géométriques que les réseaux exploitent souvent sans compréhension réelle. Pour un intégrateur ou un responsable industriel, PaCo-VLA propose un contrat d'interface formel, le "sampled-passive runtime contract at the admittance port", qui pourrait constituer un argument solide dans un dossier de certification pour environnement réglementé. Cette publication s'inscrit dans une problématique centrale de 2025-2026 : comment déployer des modèles de fondation tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 de Google DeepMind sur des robots industriels sans compromettre la sécurité de contact ? La manipulation contact-riche, insertion de connecteurs, vissage, assemblage, reste le point faible des VLAs actuels qui excellent en manipulation en espace libre mais peinent dès que la force devient une variable critique. PaCo-VLA est encore au stade de preprint et n'a pas été validé à l'échelle industrielle ; les résultats publiés portent sur des tâches d'insertion en contexte contrôlé, loin d'un benchmark d'assemblage général. La prochaine étape naturelle serait une validation sur des chaînes de production réelles, où la variabilité des pièces et des tolérances mettrait véritablement à l'épreuve la robustesse du bouclier passif.

UEImpact indirect : le contrat d'interface formel proposé (passivité prouvable) pourrait alimenter les dossiers de certification pour déploiements VLA industriels en environnement réglementé EU, notamment dans le contexte de l'AI Act, mais aucun acteur européen n'est impliqué directement.

IA physiqueOpinion
1 source
Raisonnement continu pour les modèles vision-langage-action (VLA)
848arXiv cs.RO 

Raisonnement continu pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (2606.00229) une architecture appelée Continuous Reasoning for VLA, qui remplace le langage naturel comme médium de raisonnement pour les politiques robotiques par un espace latent gaussien continu. Le problème est fondamental : le texte opère à la granularité d'une tâche entière, tandis qu'une politique VLA (Vision-Language-Action) doit sélectionner des actions à une échelle temporelle bien plus fine. Le modèle génère d'abord un ensemble structuré de "pensées continues" sous forme de vecteurs gaussiens, puis les réutilise comme contexte partagé pour la génération d'actions par chunks. L'entraînement repose sur un objectif de vérification croisée : un teacher EMA (exponential moving average) doit consommer le raisonnement du modèle étudiant pour prédire les actions cibles, forçant le latent à rester transférable et vérifiable entre instances. Sur robots réels, l'architecture améliore le taux de succès moyen par sous-tâche de 40,4 % sur TX-G2 (variante compatible AgiBot G2) et de 26,3 % sur HSR (Human Support Robot de Toyota), comparé à π0.5 de Physical Intelligence. Ces résultats contredisent une hypothèse répandue : ajouter des tokens de raisonnement textuel via chain-of-thought ou sous-objectifs explicites améliore le contrôle robotique. Les auteurs montrent que ce raisonnement textuel devient facilement un raccourci interne au modèle, efficace sur les comportements vus en entraînement mais peu généralisable. Un médium de raisonnement utile doit être partageable entre instances de modèle et vérifiable via l'amélioration du contrôle aval, deux propriétés que le texte satisfait mal à l'échelle de l'action. La comparaison directe avec π0.5 positionne ce travail en réponse à Physical Intelligence, acteur de référence dans l'espace VLA. Les plateformes testées (AgiBot G2 et HSR) couvrent la robotique de service et industrielle légère, pas uniquement les humanoïdes à fort investissement comme Figure 03 ou Optimus Gen 3. D'autres architectures concurrentes, dont GR00T N2 de NVIDIA et Helix de Figure AI, misent sur des représentations latentes pour améliorer le transfert sim-to-real, mais restent davantage orientées production que recherche fondamentale. Il s'agit pour l'instant d'un résultat académique, sans annonce de pilote commercial ni de déploiement industriel.

RechercheOpinion
1 source
TRANS : navigation agile de robots quadrupèdes par apprentissage par renforcement sensible au terrain en milieu social
849arXiv cs.RO 

TRANS : navigation agile de robots quadrupèdes par apprentissage par renforcement sensible au terrain en milieu social

Des chercheurs ont publié TRANS (Terrain-aware Reinforcement learning for Agile Navigation under Social interactions), un cadre d'apprentissage par renforcement profond destiné à la navigation de robots quadrupèdes sur des terrains non structurés en présence d'humains. Disponible sur arXiv (référence 2602.12724v3), la contribution se décompose en trois pipelines distincts : TRANS-Loco, un modèle acteur-critique asymétrique pour la locomotion sur terrain accidenté, sans observation explicite du contact ni du relief ; TRANS-Nav, un cadre acteur-critique symétrique pour la navigation sociale, qui transforme directement les données LiDAR brutes en commandes motrices sous cinématique différentielle ; et enfin le pipeline unifié TRANS, qui fusionne ces deux modules pour supporter simultanément la conscience du terrain et les environnements peuplés de piétons. Des expériences sur matériel physique confirment un transfert sim-to-real fonctionnel. La portée de ces travaux tient à leur approche intégrée. La grande majorité des systèmes de navigation quadrupède séparent encore la planification de mouvement du contrôle de locomotion, ce qui génère des violations de contraintes de corps entier et une ignorance du terrain. Les méthodes bout-en-bout corrigent cette fragmentation mais exigent un capteur haute fréquence, coûteux et sensible au bruit. Plus significatif encore, quasi toutes les approches publiées supposent un environnement statique, rendant leur déploiement en milieu industriel ou public très limité. TRANS adresse les trois lacunes simultanément, et la validation sur robot réel, point souvent défaillant dans la littérature robotique académique, renforce la crédibilité opérationnelle de la méthode. Ce travail s'inscrit dans un domaine très actif où Boston Dynamics (Spot), ANYbotics (ANYmal), Unitree et Ghost Robotics déploient des quadrupèdes commerciaux mais peinent à combiner locomotion complexe et navigation sociale adaptative dans un seul système cohérent. Les approches concurrentes basées sur des cartes de hauteur ou des contrôleurs hiérarchiques séparés restent largement dominantes en industrie. La prochaine étape crédible serait une validation en conditions industrielles réelles (entrepôt, chantier, aéroport) et une comparaison quantitative formelle contre ces plateformes sur des parcours standardisés, pour confirmer si les gains en simulation se maintiennent face aux non-linéarités du monde physique.

RecherchePaper
1 source
CART : adaptation au terrain sensible au contexte par sélection de séquences temporelles pour robots à pattes
850arXiv cs.RO 

CART : adaptation au terrain sensible au contexte par sélection de séquences temporelles pour robots à pattes

Une équipe de chercheurs a publié CART (Context-Aware Terrain Adaptation), un contrôleur de locomotion conçu pour permettre aux robots à pattes de naviguer sur des terrains complexes non structurés. Le système fusionne deux sources d'information embarquées: la proprioception (couples articulaires, accélérations du torse, contacts au sol) et l'extéroception (vision par caméra), via une architecture de sélection de séquences temporelles. Les expériences ont été réalisées sur trois plateformes: le Unitree Go2 et l'ANYmal-C d'ANYbotics en simulation sous NVIDIA IsaacSim, et un Boston Dynamics SPOT pour les essais en conditions réelles. Les gains mesurés sont significatifs: +5 % de taux de traversée réussi par rapport aux méthodes de référence, -41 % d'oscillation de la base du robot en simulation, et -22 % en conditions réelles, sans dégradation du temps de mission. Le problème central que CART adresse est ce que les auteurs nomment le "Visual-Texture Paradox": ce que le capteur visuel détecte peut différer radicalement de ce que le robot ressent lors du contact physique (béton recouvert de sable, herbe sur substrat rocheux, revêtements peints imitant une autre texture). La majorité des systèmes d'adaptation de terrain actuels ne modélisent pas explicitement cette discordance, ce qui se traduit par des chutes ou des récupérations erratiques sur terrains difficiles. En liant l'historique des interactions proprioceptives récentes à l'apparence extéroceptive courante, CART construit une représentation contextuelle du terrain plus fiable que la vision seule. C'est une propriété directement utile pour des déploiements en extérieur: inspection d'infrastructure, logistique sur chantier, robotique minière. La locomotion adaptative pour robots à pattes a connu des avancées majeures depuis les travaux fondateurs d'ETH Zurich sur ANYmal (2016-2022), avec des méthodes d'apprentissage par renforcement en simulation démontrant un transfert sim-to-real robuste. Boston Dynamics SPOT reste la référence commerciale sur terrains difficiles, tandis que le Unitree Go2 s'impose dans la recherche académique grâce à son coût réduit. CART se positionne comme une couche de contrôle agnostique à la plateforme, sans modification matérielle requise. Il s'agit d'un preprint arXiv (identifiant 2604.14344, avril 2026), sans déploiement ni partenaire industriel annoncé à ce stade. La validation sur des conditions météorologiques adverses et des scénarios multi-terrains plus variés constitue la prochaine étape attendue.

UEImpact indirect via ANYbotics (Suisse, hors UE) et l'héritage ETH Zurich sur ANYmal, mais aucun déploiement ni partenaire européen annoncé à ce stade.

RecherchePaper
1 source