Aller au contenu principal

Dossier arXiv cs.RO — page 12

2027 articles · page 12 sur 41

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Entraînement et évaluation des politiques de diffusion avec de longs contextes
551arXiv cs.RO RecherchePaper

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Une équipe de recherche a publié le 20 juin 2026 sur arXiv (arXiv:2606.16447) une étude systématique sur l'impact de la longueur de contexte dans l'apprentissage par imitation pour la manipulation robotique. Les politiques diffusion actuelles, celles qui apprennent des trajectoires motrices à partir d'observations RGB, ne conditionnent généralement les actions du robot que sur une courte fenêtre temporelle d'observations passées. Les auteurs ont construit un benchmark couvrant un spectre de tâches à stabilité locale et à exigences mémoire variables, en faisant varier progressivement la longueur du contexte de courte à longue, et ce dans plusieurs régimes de données. Leur résultat central : avec le bon backbone de débruitage (UNet avec cross-attention), les politiques single-task atteignent des taux de succès élevés même en scalant naïvement le contexte, y compris dans les régimes de données standards. Les chercheurs proposent également un algorithme d'entraînement qui entraîne conjointement les politiques sur plusieurs longueurs de contexte, réduisant ainsi la complexité d'échantillonnage de l'apprentissage à long contexte. Cette étude remet directement en cause un consensus répandu dans la littérature sur les VLA (Vision-Language-Action models) et les diffusion policies : l'idée que l'extension naïve du contexte serait fragile et nécessiterait des solutions architecturales spécifiques. Si ce résultat se confirme sur des benchmarks plus larges, il simplifie considérablement le pipeline de développement pour les intégrateurs robotiques, qui n'auraient plus besoin d'architectures mémoire spécialisées (LSTM, state-space models) pour résoudre des tâches séquentielles longues. C'est aussi un signal que le "memory gap" souvent invoqué pour justifier des approches complexes était peut-être surestimé, au moins dans les régimes de données courants. Les diffusion policies sont devenues un axe central de la robotique de manipulation depuis les travaux de Diffusion Policy (Chi et al., 2023) et leurs déclinaisons comme pi-0 de Physical Intelligence. La question du contexte long était jusqu'ici traitée par des approches ad hoc, recurrence, attention causale, mémoire externe. Cette étude offre la première analyse systématique à ce niveau de granularité, selon les auteurs eux-mêmes. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation industrielle réelle, la généralisation multi-tâche, et l'évaluation contre des baselines comme ACT ou des variantes de pi-0, dont les benchmarks publics permettraient une comparaison directe.

1 source
OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique
552arXiv cs.RO 

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

Une équipe de chercheurs publie sur arXiv (référence 2508.08706, troisième révision) OmniVTLA, une architecture VLA (vision-langage-action) augmentée de perception tactile. Le modèle repose sur un encodeur tactile dual-path : un ViT préentraîné classique traite les capteurs tactiles basés sur la vision, tandis qu'un SA-ViT (semantically-aligned Vision Transformer) prend en charge les capteurs basés sur la force. Les auteurs publient parallèlement ObjTac, un dataset tri-modal de 135 000 échantillons couvrant 56 objets en 10 catégories, associant données textuelles, visuelles et tactiles. En environnement de laboratoire sur des tâches pick-and-place, OmniVTLA atteint 96,9 % de taux de réussite avec des pinces robotiques, soit +21,9 points sur la baseline VLA de référence, et 100 % avec des mains dextres (+6,2 points), tout en réduisant le temps d'exécution et en générant des trajectoires plus lisses. Ce résultat pointe une lacune structurelle des VLA de génération actuelle : pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) reposent sur des fondations visuelles et langagières, mais restent aveugles au toucher, ce qui les met en échec sur toute tâche impliquant une manipulation fine, une surface glissante ou un objet déformable. OmniVTLA démontre qu'un encodeur tactile sémantiquement aligné peut compenser l'hétérogénéité des capteurs physiques, frein historique à l'intégration du toucher dans les architectures fondatrices. La mise à disposition publique d'ObjTac répond également à une pénurie documentée de données tactiles labellisées, qui limitait jusqu'ici la recherche dans ce domaine. Depuis pi-0 en octobre 2024 et GR00T N2 présenté en mars 2025, les architectures VLA multimodales s'imposent comme la direction principale pour généraliser la manipulation robotique, mais la perception tactile y reste systématiquement absente, faute de données standardisées et d'harmonisation entre capteurs optiques (GelSight, DIGIT) et piézo-résistifs. OmniVTLA tente de combler ce vide via SA-ViT, entraîné sur ObjTac pour apprendre une représentation tactile unifiée transférable. Il s'agit toutefois d'un preprint arXiv en environnement contrôlé : les performances hors-labo, la robustesse à la variabilité des objets réels et la généralisation à des tâches d'assemblage complexe n'ont pas encore été démontrées. ObjTac est disponible en open access, ce qui ouvre la voie à une réplication indépendante et à de futurs benchmarks communautaires sur la perception tactile.

UEL'open access d'ObjTac offre aux équipes de recherche européennes en manipulation robotique un dataset tri-modal rare, mais aucune institution ou entreprise FR/EU n'est impliquée directement.

IA physiqueOpinion
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
553arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source
Prise de décision bio-inspirée dans les essaims de robots soumis à des biais
554arXiv cs.RO 

Prise de décision bio-inspirée dans les essaims de robots soumis à des biais

Des chercheurs présentent dans un preprint arXiv (2509.07561, version 2, juin 2026) une étude comparative sur les mécanismes de prise de décision collective dans les essaims de robots minimalistes. Le scénario central : des robots individuels commettent fréquemment des erreurs de perception environnementale, mais le groupe doit néanmoins converger rapidement et fiablement vers la meilleure option parmi n alternatives discrètes. L'étude compare deux règles canoniques issues de la dynamique d'opinion observée dans les systèmes biologiques, le "direct-switch" (bascule directe) et la "cross-inhibition" (inhibition croisée), en les soumettant à des biais asociaux, c'est-à-dire des prédispositions individuelles indépendantes de l'interaction sociale. Les modèles de champ moyen existants sont généralisés pour intégrer ces perturbations. Les résultats ont une implication directe pour quiconque conçoit des systèmes multi-agents décentralisés : la cross-inhibition, mécanisme inspiré des colonies d'insectes et des populations neuronales, surpasse systématiquement le direct-switch en présence de biais. Là où le direct-switch se révèle performant en conditions idéales, il conduit à des blocages décisionnels ("decision deadlocks") dès que des biais individuels entrent en jeu. La cross-inhibition, elle, produit des décisions plus rapides, plus cohésives, plus précises et plus robustes sur une large gamme de conditions biaisées, et ce à des échelles croissantes d'essaims. C'est un résultat concret contre l'hypothèse que des règles simples suffisent sans distinction dans des environnements bruités. Cette recherche s'inscrit dans un corpus plus large sur la robotique en essaim (swarm robotics), domaine porté notamment par des équipes comme celles de Marco Dorigo (Université Libre de Bruxelles) et Vito Trianni (CNR-ISTC, Rome), avec des applications visées en surveillance environnementale, réponse aux catastrophes et logistique médicale. Sur le plan compétitif, les approches centralisées (flottes AMR coordonnées par un orchestrateur central, comme chez Exotec ou 6 River Systems) offrent des performances prévisibles mais restent fragiles à la perte de communication. L'enjeu ici est de prouver qu'une architecture entièrement distribuée peut égaler cette fiabilité sans infrastructure centralisée. La prochaine étape naturelle serait la validation expérimentale sur robots physiques, absente de cette version de l'étude.

UELes équipes européennes porteuses de ces travaux (Marco Dorigo, ULB Bruxelles ; Vito Trianni, CNR-ISTC Rome) positionnent la recherche EU en tête sur la robotique en essaim décentralisée, avec des retombées potentielles pour les applications de logistique et de réponse aux catastrophes en Europe.

RecherchePaper
1 source
Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques
555arXiv cs.RO 

Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques

Des chercheurs ont publié (arXiv:2602.02773, mise à jour juin 2026) les résultats d'un système permettant à des utilisateurs atteints de lésions cervicales de la moelle épinière (cSCI, quadriplégie) de piloter un manipulateur mobile domestique via des manchettes électromyographiques haute densité (HDEMG). Le dispositif consiste en deux manchettes textiles intégrées, portées sur les deux avant-bras, qui captent l'activité neuromotrice résiduelle de membres cliniquement paralysés et la convertissent en commandes gestuelles temps réel pour le robot. Sur deux participants avec cSCI, le système atteint un taux de classification des intentions motrices allant jusqu'à 98,0 %. L'étude s'est déroulée sur douze jours en conditions réelles, dans le domicile même des participants, pour des tâches quotidiennes de type ADL (activities of daily living). Ce résultat est significatif pour plusieurs raisons. D'abord, il démontre qu'une interface de contrôle non invasive et portable peut extraire un signal moteur exploitable depuis des membres dont la paralysie est établie cliniquement, ce qui remet en cause l'hypothèse selon laquelle les interfaces robustes nécessitent obligatoirement une implantation chirurgicale (BCI intracrânien) ou des capacités motrices résiduelles importantes. Ensuite, l'architecture d'autonomie partagée, combinant vision, langage naturel et planification de mouvement, réduit la charge cognitive de l'opérateur pour les tâches de navigation, qui sont habituellement les plus pénibles dans un environnement domestique non structuré. Pour un intégrateur ou un décideur industriel, cela valide un paradigme de téléopération augmentée où l'IA complète les intentions de l'utilisateur sans les supplanter. Ce travail s'inscrit dans un champ de recherche qui, depuis une décennie, explore l'EMG de surface pour le contrôle prothétique et robotique, mais qui peinait à franchir le cap du test en laboratoire vers un déploiement prolongé hors-lab. Côté concurrence, des acteurs comme Aescape, Wandercraft (exosquelettes) ou des programmes DARPA/NSF travaillent sur des interfaces haptiques et neurales, mais peu ont publié des études en domicile réel sur plusieurs jours. Les prochaines étapes probables incluent l'élargissement de la cohorte au-delà de n=2, l'intégration avec des plateformes commerciales comme le Stretch de Hello Robot ou le spot-arm de Boston Dynamics, et l'évaluation des effets d'adaptation sur le long terme.

UEImpact indirect pour les acteurs français comme Wandercraft qui développent des interfaces neuromotrices pour exosquelettes, mais l'étude provient de chercheurs non identifiés comme européens et ne cible pas le marché UE.

RecherchePaper
1 source
Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées
556arXiv cs.RO 

Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées

Des chercheurs ont présenté Sequential Asymmetric Imitation (SAI), une méthode d'apprentissage par imitation pour entraîner deux robots manipulateurs mobiles bimanuels à collaborer physiquement sur des tâches conjointes impliquant des objets rigides ou déformables. Publiée en pré-impression sur arXiv (2606.16490v1), l'étude part d'un constat précis : les échecs en manipulation collaborative ne proviennent pas d'un manque de compétence individuelle, mais de problèmes de synchronisation, notamment les attentes mal timées, le cédage insuffisant et les conflits lors du saisissement ou du relâchement d'objets. SAI propose un curriculum en trois étapes piloté par un seul téléopérateur : Robot A est d'abord entraîné à partir de démonstrations unilatérales avec un partenaire humain compliant ; Robot B est ensuite entraîné contre la politique déployée de Robot A ; enfin, Robot A est affiné par des interventions ponctuelles ciblées sur les zones de défaillance de coordination. Les expériences en conditions réelles montrent des gains mesurés sur la réussite des tâches, la synchronisation de phase et le comportement de cédage adaptatif, par rapport à des baselines d'imitation indépendante. L'apport principal de SAI réside dans l'élimination de la contrainte des démonstrations synchronisées à deux opérateurs, un frein logistique majeur pour la collecte de données dans les systèmes multi-robots. En structurant le curriculum de manière asymétrique, la méthode expose progressivement chaque robot à des comportements partenaires de plus en plus réalistes, incluant délais, décalages de phase et résistance insuffisante, sans nécessiter de canal de communication explicite entre les robots. Pour les intégrateurs industriels, l'argument est concret : un seul opérateur qualifié suffit à générer un dataset multi-agent viable. L'étude suggère que la coordination physique peut émerger de la structure du curriculum d'imitation elle-même, plutôt que d'un mécanisme de coordination dédié, ce qui contredit l'hypothèse dominante selon laquelle la collaboration multi-robot nécessite obligatoirement une communication inter-agents ou des démonstrations co-téléopérées. Ce travail s'inscrit dans un corpus croissant sur la manipulation multi-robot en milieu non structuré, où les approches dominantes reposaient jusqu'ici soit sur des communications inter-robots explicites, soit sur des démonstrations co-téléopérées coûteuses. En n'utilisant aucun des deux, SAI propose une troisième voie potentiellement plus scalable pour les déploiements industriels impliquant des paires de bras robotiques. Il convient toutefois de souligner que la méthode n'est validée que sur un ensemble limité de tâches réelles, sans benchmark standardisé face à des méthodes récentes comme ACT ou Diffusion Policy en contexte multi-agent, et que ce document reste un pré-print non révisé par les pairs. La page projet est disponible sur GitHub (cyc0429.github.io/sai-project-page) ; les prochaines étapes naturelles incluront la généralisation à des topologies de tâches plus complexes et l'évaluation sur des horizons temporels plus longs.

RecherchePaper
1 source
Étude de cas : automatisation robotique dans l'habillement, jumeaux numériques, interopérabilité et formation des équipes
557arXiv cs.RO 

Étude de cas : automatisation robotique dans l'habillement, jumeaux numériques, interopérabilité et formation des équipes

Un système de couture robotisé pour la fabrication de jeans a été déployé en deux phases dans un environnement de production réel, selon une étude de cas publiée sur arXiv (2606.16078) en juin 2026. Le système s'appuie sur un module de "fil numérique" qui parse automatiquement des dessins de production au format DXF pour en extraire des paramètres de process et des trajectoires exécutables par le robot, réduisant l'effort de programmation manuelle et permettant un reciblage rapide entre différentes opérations de couture. Un jumeau numérique de la cellule de travail est utilisé en pré-déploiement pour valider la portée du bras, les dégagements, la disposition et le séquençage, ainsi que la compatibilité en temps de cycle avec les tâches en amont et en aval. En production, un robot collaboratif est intégré à des équipements de couture conventionnels, à des postes de soudure, à des préhenseurs à aspiration et à des automates machine via une couche d'interopérabilité. Les deux déploiements couvrent des opérations de couture 2D (poches plaquées sur shorts en denim) et des coutures 3D de mise en forme de vêtements, accompagnés d'un monitoring en temps réel incluant la vérification des coutures, la détection de collision et la validation de trajectoires. La portée de ce travail dépasse la démonstration de laboratoire : il s'agit d'un déploiement usine réel sur des pièces textiles déformables, segment réputé pour son "reality gap" persistant entre environnements contrôlés et production. L'article identifie cinq leviers critiques pour monter en échelle : validation par jumeau numérique, génération de tâches par fil numérique, interopérabilité entre équipements hétérogènes, vérification runtime, et outillage de formation des opérateurs. Ce dernier point est souvent négligé dans la littérature robotique mais s'avère décisif pour l'adoption en PME textile. Les auteurs ne communiquent pas de métriques de temps de cycle chiffrées dans l'abstract, ce qui limite l'évaluation comparative de la performance brute. L'automatisation de la confection demeure l'un des derniers bastions résistants à la robotisation flexible, là où l'électronique et l'automobile ont largement industrialisé leurs lignes. Les principaux acteurs sur ce créneau incluent SoftWear Automation (Sewbot, États-Unis), Sewts (Allemagne) et quelques projets en cours en Europe du Sud. Aucune entreprise n'est nommée dans cet article académique, ce qui suggère soit une confidentialité industrielle, soit un partenariat en phase pilote. Les prochaines étapes logiques seraient l'extension à d'autres typologies de vêtements, la généralisation du fil numérique à d'autres formats CAO que le DXF, et la quantification rigoureuse des gains de productivité pour un dossier ROI convaincant auprès des intégrateurs textiles.

UELes PME textiles européennes (France, Italie, Portugal) spécialisées en confection pourraient s'appuyer sur cette méthodologie, jumeau numérique + fil numérique DXF + couche d'interopérabilité, pour franchir le seuil de robotisation flexible sur pièces déformables, un verrou persistant que l'acteur européen Sewts (Allemagne) cible également.

IndustrielActu
1 source
ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée
558arXiv cs.RO 

ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée

Des chercheurs ont publié en juin 2026 un préprint arXiv (2606.14255) présentant ReactVLA, un framework VLA (Vision-Language-Action) conçu pour réduire drastiquement la latence d'inférence des politiques de manipulation robotique. Le problème ciblé est précis : les architectures VLA basées sur la diffusion, comme π₀ (Physical Intelligence) ou SmolVLA (HuggingFace/LeRobot), génèrent des distributions d'action expressives mais exigent un échantillonnage itératif coûteux, qui plombe leur utilisabilité en boucle fermée temps-réel. ReactVLA propose deux mécanismes complémentaires pour y remédier : un générateur d'actions iMF (improved Mean Flow) qui ramène la diffusion multi-étapes à une ou quelques passes seulement, et AttnRes (Attention Residuals), un mécanisme de routage dynamique des features par couche d'attention censé mieux préserver les représentations multimodales liées à la tâche. Sur les benchmarks de simulation LIBERO et RoboIMI, ainsi que sur des tâches de manipulation physique, ReactVLA affiche jusqu'à 1,65× de gain en taux de succès sur les tâches de précision et plus de 4× d'accélération à l'inférence par rapport aux VLA de référence de taille comparable. La latence de politique en conditions réelles tombe sous 38,6 ms. Ce seuil de 38,6 ms est le chiffre à retenir pour un intégrateur ou un ingénieur robotique : il passe sous la barre des 40 ms généralement considérée comme nécessaire pour un contrôle réactif crédible en manipulation dynamique, là où les modèles de diffusion standards restent souvent au-delà de 150 à 300 ms. Si les résultats se confirment hors contexte académique, cela répond à l'une des critiques récurrentes contre les VLA pour l'industrie : la qualité d'action est là, mais la cadence ne suit pas. L'approche Mean Flow (accélération de la diffusion par réduction du nombre d'étapes via un flux de probabilité direct) n'est pas nouvelle en vision générative, mais son application aux espaces d'action robotiques avec maintien des performances sur tâches de précision reste un résultat non trivial. Il faut cependant nuancer : il s'agit d'un preprint non relu, les benchmarks LIBERO et RoboIMI sont des environnements académiques standardisés loin des contraintes industrielles réelles, et les vidéos de démonstration présentées sur le site projet ne constituent pas une validation de déploiement. ReactVLA s'inscrit dans une course dense à l'efficacité des VLA depuis 2024. π₀ (Physical Intelligence) reste la référence en qualité d'action sur tâches bimanuelle complexes mais souffre précisément de cette latence. SmolVLA, publié par HuggingFace début 2025, vise la légèreté et l'accessibilité open-source. Côté industriel, GR00T N2 de NVIDIA et Helix (co-développé par Figure et d'autres partenaires) intègrent leurs propres pipelines VLA dans des architectures humanoïdes avec des contraintes de déploiement très différentes. Aucune affiliation institutionnelle ni source de financement n'est mentionnée dans le preprint, ce qui limite l'évaluation du contexte de transfert technologique. Les prochaines étapes naturelles seraient une validation sur des manipulateurs industriels (6-DOF, scénarios de pick-and-place variables) et une soumission en conférence de référence comme CoRL ou ICRA pour validation par les pairs.

UESmolVLA (HuggingFace, entreprise française) est cité comme référence comparative directe, mais ReactVLA est un preprint sans affiliation institutionnelle connue et sans déploiement démontré en Europe, l'impact reste indirect via l'écosystème open-source LeRobot.

IA physiqueOpinion
1 source
Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables
559arXiv cs.RO 

Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables

Fin juin 2025, une équipe de recherche a déposé sur arXiv (2506.14188) CORD-SLS, une méthode de contrôle temps réel pour la manipulation certifiée d'objets déformables, principalement des cordes et des tissus. Le coeur du système est un simulateur différentiable GPU-parallèle avec lissage de contact, permettant une planification par gradient à travers des contacts intermittents. Un algorithme de commande prédictive robuste (MPC) à retour de sortie, lui aussi GPU-parallèle, exploite ce simulateur pour générer des trajectoires en quelques millisecondes. Pour gérer les incertitudes de modèle et de perception, le système intègre la prédiction conforme (conformal prediction), qui calibre les erreurs de rétroaction visuelle et produit des "tubes atteignables" offrant des garanties probabilistes de sécurité. Les expériences couvrent des tâches à contact riche: évitement d'obstacles, routage de corde, pliage et lissage de tissu, évaluées en simulation et sur matériel réel, avec des résultats supérieurs aux baselines sur les critères de sécurité, de vitesse et de taux de succès. La manipulation d'objets déformables reste l'un des angles morts de la robotique industrielle: cordes et tissus présentent des espaces d'états quasi-infinis et des dynamiques de contact difficiles à modéliser. CORD-SLS attaque deux verrous simultanément: la vitesse de planification compatible avec du contrôle en boucle fermée temps réel, et des garanties formelles de sécurité absentes de la quasi-totalité des approches par apprentissage (RL, VLA). Le fait que le même simulateur accélère également l'entraînement de politiques neuronales model-based est notable: cela ouvre la voie à des pipelines hybrides combinant planification robuste et politiques apprises. Pour les intégrateurs ciblant la couture automatisée, la logistique textile ou la robotique chirurgicale, c'est une démonstration académique sérieuse, pas encore un produit déployé. La manipulation déformable est étudiée depuis les années 1990, mais les approches classiques échouaient systématiquement à l'échelle réelle faute de simulateurs rapides et fiables. Les méthodes par apprentissage de type diffusion policies et VLAs gagnent du terrain mais peinent à fournir des garanties certifiables, ce qui freine leur adoption dans des contextes régulés. CORD-SLS positionne le couplage MPC robuste et prédiction conforme comme une alternative formellement vérifiable. Les concurrents directs incluent les travaux de simulation différentiable de DiffTaichi, les approches MPC déformable développées à MIT et CMU, et les politiques end-to-end de type Pi-0 de Physical Intelligence. Le papier reste un preprint sans publication en conférence confirmée à ce stade; les suites dépendront de validations sur des tâches industrielles réelles et d'une éventuelle mise à disposition publique du code.

RecherchePaper
1 source
GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels
560arXiv cs.RO 

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Une équipe de chercheurs a publié sur arXiv (2606.14160) une nouvelle méthode d'estimation d'état proprioceptive pour robots à pattes, baptisée GAIT. L'approche repose sur une tokenisation inertielle-jambe (Inertial-Leg, IL) couplée à un réseau d'attention : plutôt que de concaténer l'ensemble des données capteurs en un seul vecteur plat, l'architecture représente les mesures inertielles et les mesures par jambe comme des tokens distincts, puis utilise un mécanisme d'attention pour pondérer dynamiquement chaque source selon les conditions de contact courantes. La méthode a été validée sur un robot quadrupède Unitree Go1, sur des terrains encombrés de débris absents de la simulation d'entraînement, et sur des allures (gait patterns) non présentées lors de l'apprentissage. L'enjeu de GAIT est de résoudre un problème central des estimateurs à pattes : la fiabilité des mesures de cinématique directe dépend du contact effectif du pied avec le sol. Les estimateurs classiques "contact-aided" contournent ce problème via un module de détection de contact explicite et l'hypothèse d'un appui stationnaire, ce qui les rend fragiles sur terrains irréguliers ou lors de transitions d'allure. GAIT apprend ce comportement de repondération directement depuis les données, sans estimateur de contact dédié, éliminant une source d'erreur en cascade. Les résultats montrent une supériorité sur les estimateurs d'apprentissage existants pour des allures non vues, ainsi qu'une amélioration par rapport aux méthodes modèles contact-aided, confirmant que les architectures à attention peuvent réduire le gap sim-to-real sur l'estimation proprioceptive bas-niveau. L'estimation d'état proprioceptive reste un défi persistant en robotique à pattes : les filtres de Kalman étendu (EKF) et variantes invariantes dominent en production chez Boston Dynamics et Unitree, mais peinent sur terrains non structurés. Les approches d'apprentissage antérieures traitaient généralement les capteurs comme un vecteur plat homogène, sans différenciation structurelle entre inertielles et cinématiques. GAIT s'inscrit dans la tendance 2024-2026 d'appliquer des mécanismes d'attention aux données robotiques bas-niveau, une direction convergente avec les architectures VLA (Vision-Language-Action) pour la commande motrice. Le code n'est pas encore publié ; la prochaine étape naturelle serait une validation sur plateformes bipèdes telles que l'Unitree H1 ou le Boston Dynamics Atlas, où la phase de vol rend l'estimation d'état encore plus critique.

RecherchePaper
1 source
Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles
561arXiv cs.RO 

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

Des chercheurs ont publié en juin 2026 (arXiv:2606.13746) un système de peau tactile dynamique basé sur des guides d'ondes acoustiques passifs et flexibles. L'architecture repose sur des résonateurs de Helmholtz à membranes élastiques interconnectés par des microtubes renforcés par ressorts, formant un réseau fermé dont la transmission acoustique reste stable sous flexion macroscopique, sans électronique distribuée dans la structure. Quatre microphones suffisent à couvrir 64 noeuds de détection avec une résolution spatiale de 4 mm et une précision de localisation supérieure à 99 %. L'inférence, fondée sur une transformée en ondelettes continue rapide (Fast CWT) couplée à un réseau de neurones léger, s'exécute en 5,5 ms. Les prototypes démontrés (réseau d'extrémité de doigt, gant tactile, peaux de grande surface) détectent des stimuli allant du contact d'un seul cheveu à un impact de particule de 5 mg, ainsi que des ondes de pouls artériel et des effleurements de plume, sur des signaux inférieurs à 100 Hz. La contribution clé n'est pas la sensibilité brute mais le découplage entre performance et flexibilité structurelle : contrairement aux capteurs piézorésistifs ou capacitifs qui se dégradent sur des substrats courbés, la transmission acoustique passive reste invariante. Ramener à quatre microphones la couverture de 64 points de mesure réduit câblage, coût et modes de défaillance, trois leviers critiques pour une mise en série industrielle. La précision annoncée de 99 % reste à confirmer hors conditions de laboratoire contrôlé et sur des cycles de manipulation réels. Ces travaux s'inscrivent dans une compétition dense autour de la peau tactile robotique, face aux capteurs optiques (famille GelSight du MIT), aux matrices piézorésistives (BeBop Sensors, SynTouch) et aux peaux capacitives développées en Europe et en Asie. Aucune approche n'a encore atteint la trifecta scalabilité-robustesse-coût sur un corps humanoïde complet. Ce paradigme passif pourrait intéresser des plateformes comme Agility Robotics, Figure AI ou Apptronik, qui cherchent à intégrer du retour tactile sans multiplier la complexité d'assemblage. La validation mécanique sur cycles répétés et la soumission à une revue à comité de lecture constituent les prochaines étapes critiques.

RecherchePaper
1 source
EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement
562arXiv cs.RO 

EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement

Une équipe de chercheurs a publié en juin 2026 sur arXiv (2606.14665) EgoGuide, une interface de collecte de démonstrations robotiques sans robot physique. Le système enregistre simultanément deux flux vidéo : une caméra au poignet de l'opérateur (wrist view) et une caméra égocentrique portée sur la tête (egocentric view). Un module de guidage visuel-géométrique en ligne évalue la qualité de chaque épisode en temps réel et signale les données redondantes ou peu informatives avant leur accumulation dans le jeu d'entraînement. Les auteurs introduisent également une "Gated Egocentric Residual Policy", une architecture qui mobilise la vue égocentrique pour corriger les ambiguïtés de la vue poignet, tout en préservant la stabilité du contrôle moteur local. Les expériences en conditions réelles confirment une réduction du nombre d'épisodes de démonstration nécessaires et une meilleure robustesse face aux occultations visuelles. L'apport principal est de s'attaquer à un goulot d'étranglement bien identifié dans le domaine : le coût humain de la collecte de données de qualité. Les pipelines de type UMI (Universal Manipulation Interface), qui permettent à un opérateur de collecter des démonstrations manuellement sans robot dédié, produisent souvent des épisodes redondants et manquent de contexte global de scène. Le guidage en ligne réduit ce gaspillage dès la source. La politique résiduelle répond à un problème concret des systèmes d'imitation : la vue poignet seule est ambiguë lors d'occultations ou de passages critiques dans la trajectoire. Donner au modèle un accès conditionnel (gated) à la vue globale lève ces ambiguïtés sans déstabiliser le contrôle fin. Pour un intégrateur, cela signifie potentiellement moins d'heures de collecte humaine pour atteindre un niveau de performance équivalent. EgoGuide s'inscrit dans la lignée directe de l'UMI, développé par Cheng Chi et ses collaborateurs à Stanford et Columbia, qui a popularisé la collecte de démonstrations via des dispositifs portatifs instrumentés. Le verrou adressé ici n'est pas la quantité brute de données mais leur qualité et leur diversité informationnelle. Les approches concurrentes incluent ACT (Action Chunking Transformer), Diffusion Policy et les plateformes de téléopération à faible coût comme ALOHA. Ce travail reste une publication académique arXiv sans déploiement industriel annoncé, et les expériences présentées restent à l'échelle laboratoire. La combinaison guidage en ligne et politique bi-caméra présente toutefois un intérêt direct pour les équipes cherchant à réduire le coût opérationnel de la démonstration à grande échelle.

RechercheOpinion
1 source
Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné
563arXiv cs.RO 

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

Des chercheurs publient sur arXiv (référence 2606.14084) une méthode baptisée SDN (Selected Diffusion Noise), conçue pour améliorer à l'inférence les politiques VLA (Vision-Language-Action) basées sur la diffusion, sans nécessiter de réentraînement. SDN opère dans l'espace du bruit de diffusion en sélectionnant dynamiquement des vecteurs de bruit maximalement séparés d'un ensemble de référence, ce qui réduit la dépendance aux corrélations visuelles parasites, tout en filtrant les candidats produisant des trajectoires d'action plus cohérentes. La méthode a été évaluée sur deux benchmarks de simulation (Google Robot, Widow-X) et deux jeux de données réels, sur plusieurs politiques VLA majeures dont pi0 (Physical Intelligence), Groot-N1.5 et Groot-N1.6 (NVIDIA). Les gains annoncés sont de +8 points de taux de succès en simulation et +10 points en conditions réelles, avec une réduction mesurable du "action jitter", c'est-à-dire l'instabilité des trajectoires articulaires. Ces résultats sont issus d'un preprint non encore évalué par les pairs. L'intérêt pratique tient à l'approche "training-free" : SDN s'applique à l'inférence sans modifier les paramètres du modèle, ce qui permet d'améliorer un système déjà déployé sans refondre le pipeline ML ni supporter les coûts d'un réentraînement. Pour un intégrateur ou un décideur achetant une solution robotique basée sur une politique VLA, ce type de méthode représente un levier de fiabilité à faible coût opérationnel. La robustesse maintenue sous des observations avec occultation partielle (object-masked observations) est également pertinente pour les environnements industriels réels. SDN s'inscrit dans la tendance plus large des techniques d'optimisation test-time appliquées aux modèles génératifs, analogues au best-of-N sampling dans les LLMs. Les politiques VLA basées sur la diffusion, popularisées par Physical Intelligence (pi0, pi0.5) et NVIDIA Isaac (GR00T N1.5, N1.6), sont devenues en 2025-2026 la référence de facto en manipulation robotique généraliste. Elles héritent toutefois d'une sensibilité aux artefacts visuels hors distribution et d'une certaine instabilité d'action, deux problèmes que SDN cible directement. L'abstract ne mentionne ni affiliation institutionnelle ni dépôt de code public, ce qui limite pour l'instant la reproductibilité et les comparaisons indépendantes. Les prochaines étapes naturelles seraient une validation sur plateformes humanoïdes complètes (Figure, 1X, Unitree H1) et des benchmarks de manipulation plus diversifiés que Widow-X ou Google Robot.

UELes intégrateurs européens déployant des solutions robotiques basées sur des politiques VLA (pi_0, GR00T) pourraient bénéficier de cette méthode d'optimisation sans réentraînement, mais aucun acteur FR/EU n'est directement impliqué dans ces travaux.

IA physiqueOpinion
1 source
AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique
564arXiv cs.RO 

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion
1 source
WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force
565arXiv cs.RO 

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

Une équipe de chercheurs présente WT-UMI dans un preprint arXiv déposé en juin 2026, une interface tactile portable conçue pour la manipulation corps entier par des robots humanoïdes. Le dispositif se porte sur un opérateur humain ou se monte directement sur un humanoïde, et capture simultanément des images tactiles, des mesures de force de contact et les poses des effecteurs terminaux, aussi bien en mode démonstration humaine qu'en téléopération. L'architecture repose sur deux modules complémentaires : un correcteur de pose cible conditionné par la force, qui apprend à traduire les poses humaines en commandes exécutables par le robot à partir de données de téléopération, et un planificateur supervisé par la force qui prédit conjointement les trajectoires de pose et les profils de force de contact. Ces prédictions servent de référence à un contrôleur d'admittance basé sur le retour tactile. Évalué sur cinq tâches à contacts riches couvrant des objets déformables, des charges rigides encombrantes et la collaboration humain-humanoïde, WT-UMI surpasse quatre politiques de référence en taux de succès et en précision de suivi des contacts. L'enjeu sous-jacent est structurel : la quasi-totalité des politiques d'imitation actuelles traitent les forces de contact de manière implicite, par le signal visuel ou proprioceptif uniquement, ce qui atteint ses limites physiques dès que l'objet manipulé est souple, encombrant ou porté à plusieurs agents. WT-UMI attaque directement le dilemme classique entre démonstrations humaines, riches en interactions de contact naturelles mais non exécutables telles quelles par un robot, et téléopération, précise dans les actions robot mais moins naturelle dans la régulation des forces. La fusion des deux sources via un module de correction appris propose une troisième voie. Pour les intégrateurs et les décideurs industriels, cela ouvre une piste concrète vers la manipulation de charges souples ou asymétriques, un verrou persistant en logistique et en assemblage. WT-UMI s'inscrit dans la lignée des interfaces UMI (Universal Manipulation Interface) apparues vers 2023-2024 pour faciliter la collecte de démonstrations à faible coût. L'extension "WT" ajoute la détection tactile distribuée sur l'ensemble du corps, au-delà des capteurs de poignet ou de doigts habituels. Il s'agit à ce stade d'un preprint de recherche sans déploiement industriel annoncé, ce point mérite d'être précisé face à des métriques présentées sans contexte de cadence de cycle ni de robustesse à l'échelle. Dans le paysage concurrent, Physical Intelligence avec Pi-0, Figure avec ses humanoïdes commerciaux et Boston Dynamics ciblent également la manipulation robuste, mais restent majoritairement dans une logique visuo-motrice ou de politiques VLA. WT-UMI se distingue en faisant du contact une variable de planification explicite plutôt qu'un résidu à corriger a posteriori. Les prochaines étapes logiques seraient une validation sur matériel humanoïde commercial et une comparaison frontale avec des architectures VLA, aujourd'hui dominantes dans la course à la généralisation.

IA physiquePaper
1 source
SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation
566arXiv cs.RO 

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

Une équipe de chercheurs présente SAFER-Nav (arXiv:2606.11636), une méthode de fine-tuning pour améliorer la sécurité des modèles de navigation visuelle robotique opérant uniquement à partir d'images RGB. Le problème est connu : les politiques basées sur des transformeurs ou modèles de diffusion, telles que ViNT (Visual Navigation Transformer) et NoMaD, restent orientées vers leur objectif même dans des environnements inconnus, mais génèrent des trajectoires dangereuses en présence d'obstacles non vus ou de conditions décalées. SAFER-Nav intègre directement dans la politique, via un fine-tuning "segmentation-aware", la représentation explicite des frontières d'obstacles et de l'espace libre traversable, une information absente des approches existantes fondées sur la correction externe de trajectoire ou des priors géométriques internes. Les évaluations portent sur plusieurs plateformes robotiques mobiles, des environnements intérieurs, et des scénarios avec obstacles statiques et dynamiques ; elles montrent une réduction de la fréquence de collisions par rapport à ViNT, NoMaD et leurs variantes augmentées CARE, avec maintien des performances d'atteinte d'objectif. Il s'agit d'un preprint arXiv déposé en juin 2026, non encore évalué par les pairs, sans déploiement commercial annoncé. L'enjeu central est la généralisation à des environnements non vus, verrou majeur pour le déploiement industriel de robots mobiles autonomes dans des entrepôts, hôpitaux ou chantiers. Les méthodes existantes de correction de trajectoire agissent en aval de la politique sans modifier sa représentation interne, laissant intacte la cause première des comportements dangereux. En encodant la structure sémantique de la scène directement dans les poids du modèle, SAFER-Nav adresse le problème à la source ; sa compatibilité avec des backbones RGB variés représente un avantage pratique pour les intégrateurs souhaitant améliorer des systèmes existants sans changer d'architecture. Ces résultats appuient l'hypothèse que le "demo-to-real gap" peut être réduit par supervision sémantique au fine-tuning, sans refonte architecturale complète. ViNT et NoMaD, issus de groupes de recherche de l'Université de Californie à Berkeley, ont instauré un paradigme de modèles de fondation navigants déployables sur des plateformes robotiques hétérogènes sans reprogrammation dédiée. CARE visait à les augmenter par des mécanismes d'évitement sans modifier la politique de base. SAFER-Nav s'inscrit dans la tendance d'adaptation efficace des politiques robotiques par fine-tuning ciblé, parallèlement aux travaux sur les VLA (Vision-Language-Action models) comme pi-zero (Physical Intelligence) ou GR00T N2 (NVIDIA). Les prochaines étapes naturelles incluent une validation en environnement extérieur et en conditions dynamiques réelles, ainsi qu'une évaluation par les pairs. L'absence de financement industriel dans le preprint indique une contribution de recherche fondamentale, non une annonce produit imminente.

UELes équipes R&D et intégrateurs européens de robots mobiles autonomes (entrepôts, hôpitaux, chantiers) pourraient exploiter cette méthode de fine-tuning pour réduire les collisions sur flottes RGB existantes sans refonte architecturale, sous réserve de validation par les pairs et de mise à disposition publique des poids.

IA physiquePaper
1 source
Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur
567arXiv cs.RO 

Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur

Des chercheurs ont publié le 11 juin 2026 sur arXiv (référence 2606.11464) un cadre basé sur des transformeurs pour prédire l'état d'une balle de ping-pong en conditions réelles, dans le but d'améliorer le contrôle en boucle fermée d'un robot de tennis de table. Le système modélise les corrélations temporelles longue portée à partir de séquences d'observations historiques, sans recourir à des équations physiques de vol ou de rebond. Pour l'entraînement, l'équipe a constitué un jeu de données réel à grande échelle, collecté auprès de joueurs de niveaux variés et avec des configurations différentes de canons à balles, afin de maximiser la diversité des trajectoires. La pièce centrale de la contribution est SPAD (Swap Predictor at Deployment) : une stratégie de transfert sim-to-real qui consiste simplement à substituer, au moment du déploiement, le simulateur physique utilisé pendant l'entraînement par le prédicteur entraîné sur données réelles, sans nécessiter de réentraînement de la politique de contrôle. Ce résultat est significatif car il s'attaque directement au problème du sim-to-real gap, l'un des verrous majeurs de la robotique dynamique à haute vitesse. La plupart des approches existantes soit dépendent d'une identification précise des paramètres physiques (masse de la balle, coefficient de rebond, spin), soit peinent à généraliser hors distribution simulée. SPAD propose une alternative modulaire : le prédicteur est un composant interchangeable, ce qui permet de conserver l'efficacité de l'entraînement en simulation tout en bénéficiant de la fidélité des données réelles uniquement à l'inférence. C'est un paradigme "plug-and-play" qui pourrait s'étendre à d'autres tâches de manipulation rapide où la simulation reste incomplète. Le tennis de table robotique est un banc de test établi pour le contrôle haute vitesse, utilisé notamment par des équipes de Google DeepMind (qui ont démontré des robots capables de battre des joueurs amateurs en 2023) et par plusieurs laboratoires universitaires en Chine et en Europe. La spécificité de cette approche est d'éviter toute hypothèse sur le modèle physique du vol de balle, là où des systèmes comme celui de DeepMind intègrent encore des composantes analytiques explicites. La prochaine étape naturelle serait de valider SPAD sur des politiques de contrôle plus complexes, notamment face au spin variable et aux échanges multi-rebonds, qui restent les cas limites non résolus du domaine.

RecherchePaper
1 source
UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles
568arXiv cs.RO 

UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles

Une équipe de chercheurs a publié mi-juin 2026 sur arXiv (arXiv:2606.10683) un travail intitulé UniDexTok, proposant une représentation unifiée pour les états de mains dextres hétérogènes, humaines et robotiques. Le coeur du système est le Unified Dexterous Hand Model (UDHM), une interface sémantique partagée à 22 degrés de liberté (DoF) qui normalise les états articulaires de n'importe quelle main dans un espace commun. Sur cette base, UniDexTok est un tokenizer d'états appris exclusivement depuis des données réelles, sans recours au retargeting ni à la simulation. Les gains de précision par rapport à la baseline UniHM sont significatifs : l'erreur angulaire moyenne par articulation (MPJAE) chute de 15,63° à 0,16° (réduction de 98,98 %), et l'erreur de position par articulation (MPJPE) passe de 18,51 mm à 0,18 mm (réduction de 99,03 %), ramenant la reconstruction de l'échelle centimétrique à une précision sub-millimétrique. La portée industrielle de ce résultat tient moins aux chiffres absolus qu'à ce qu'ils rendent possible : un entraînement cross-embodiment sans pipeline de retargeting, qui a longtemps constitué un goulot d'étranglement dans la constitution de datasets pour mains dextres. Jusqu'ici, les données capturées sur une Shadow Hand, une Allegro ou une LEAP Hand étaient difficilement réutilisables pour un autre robot, faute de représentation commune. UniDexTok permet de les agréger : les expériences montrent que des données provenant d'autres embodiments améliorent la reconstruction sur l'embodiment cible, validant le principe de transfert cross-morphologie. Le système affiche également des capacités zero-shot et few-shot lors de l'introduction de nouvelles mains, ce qui réduit le coût d'intégration pour les intégrateurs qui déploient plusieurs plateformes en parallèle. La manipulation dextre reste l'un des défis les plus ouverts de la robotique humanoïde, avec une fragmentation des efforts entre labos (Dexterous Manipulation Group chez CMU, OpenAI Dactyl suspendu, Physical Intelligence avec Pi-0) et industriels (Tesla Optimus, Figure, Unitree). Les approches précédentes comme UniHM avaient posé la question de la représentation unifiée mais avec des erreurs de reconstruction trop élevées pour être exploitables en contrôle fin. UniDexTok s'inscrit dans un mouvement plus large vers des politiques robotiques génériques multi-embodiments, analogue à ce que les VLA (Vision-Language-Action models) tentent du côté de la perception. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat ; il s'agit d'une contribution de recherche fondamentale, dont l'intégration dans des pipelines de formation de politiques reste à démontrer en conditions réelles.

RecherchePaper
1 source
Modèles de tiges pour le contrôle des robots continus et souples : une revue
569arXiv cs.RO 

Modèles de tiges pour le contrôle des robots continus et souples : une revue

Une équipe de chercheurs a publié sur arXiv (référence 2407.05886, troisième révision) une revue exhaustive des modèles de tiges (rod models) appliqués à la modélisation et au contrôle des robots continus et souples. Le travail couvre les fondements mathématiques des théories de tiges, leur application à la modélisation de structures déformables, et les stratégies de contrôle dérivées, tant model-based que learning-based. Les auteurs proposent une classification des modèles selon le type de déformation pris en compte, contribution qui fait défaut dans la littérature existante. Les domaines applicatifs ciblés incluent la santé, l'agriculture, le milieu marin et l'espace, où les robots rigides conventionnels montrent leurs limites face à des environnements non structurés et à des interactions mécaniques en contact permanent. L'intérêt principal de ce survey est de structurer un sous-champ marqué par une forte fragmentation de la littérature. Les modèles de type Cosserat ou Kirchhoff proposent une approximation dimensionnellement réduite du comportement de corps élancés et déformables, offrant un meilleur équilibre que les méthodes éléments finis (FEM) entre précision et coût computationnel temps-réel. Pour les équipes R&D travaillant sur des bras flexibles endoscopiques, des cathéters guidés ou des manipulateurs agricoles, ce panorama unifié permet d'arbitrer entre approche physique et apprentissage, et de cibler les lacunes identifiées : robustesse au contact incertain, calibration en conditions réelles, et fermeture du fossé sim-to-real. Les modèles de tiges appliqués à la robotique souple se sont imposés comme cadre de référence depuis le milieu des années 2010, portés par l'essor des actionneurs à câbles, pneumatiques et à base d'élastomères. Plusieurs groupes académiques restent moteurs sur le sujet : INRIA, MIT CSAIL, IIT Gênes, Universität Stuttgart. Dans l'écosystème industriel, les applications en chirurgie mini-invasive et en manipulation agricole sont directement confrontées à ces problèmes de modélisation. Le papier identifie trois directions ouvertes : gestion du contact multi-points, intégration avec les architectures VLA (vision-langage-action), et généralisation à des morphologies hybrides rigides-souples. Ces fronts devraient alimenter le champ dans les deux à trois prochaines années.

UEINRIA figure parmi les groupes académiques moteurs du domaine ; les applications ciblées (chirurgie mini-invasive, manipulation agricole) concernent directement des acteurs industriels et projets de recherche européens.

RecherchePaper
1 source
RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement
570arXiv cs.RO 

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Des chercheurs ont publié RoboGPT-R1, un framework d'entraînement en deux étapes conçu pour améliorer la planification de tâches des agents robotiques incarnés, présenté dans un preprint arXiv (2510.14828, version 3). Le système repose sur une séquence supervisée classique, qui ancre les connaissances fondamentales via des démonstrations expertes, suivie d'un apprentissage par renforcement (RL) ciblé sur les lacunes en compréhension visuo-spatiale et en raisonnement multi-étapes. Le modèle de base choisi est Qwen2.5-VL-3B, un vision-language model open-source de 3 milliards de paramètres. Les résultats publiés sur le benchmark EmbodiedBench montrent que RoboGPT-R1 dépasse GPT-4o-mini de 21,33 points de pourcentage, et surclasse d'autres approches entraînées sur Qwen2.5-VL-7B de 20,33 points, ce dernier disposant pourtant de plus du double de paramètres. Le cœur technique du framework est une fonction de récompense basée sur des règles qui prend en compte simultanément les performances à long horizon et les contraintes d'action dans l'environnement physique simulé. Ces résultats viennent étayer une thèse qui s'impose progressivement dans la communauté robotique : le fine-tuning supervisé seul génère des agents fragiles hors distribution, en particulier pour les tâches de manipulation longue séquence dans des environnements non contrôlés. RoboGPT-R1 démontre qu'un modèle compact peut surpasser des architectures significativement plus grandes dès lors que le RL est utilisé pour affiner la compréhension physique et la cohérence des séquences d'actions. Pour les équipes d'intégration et les responsables techniques, cela pointe vers une trajectoire viable vers des solutions embarquables sur hardware contraint, sans sacrifier les capacités de planification complexe. Un écart de 21 points sur un benchmark spécialisé par rapport à GPT-4o-mini indique que la spécialisation domaine via RL compense largement le désavantage de taille brute. RoboGPT-R1 s'inscrit dans une dynamique post-SFT amplifiée depuis fin 2024, en large partie accélérée par les travaux DeepSeek-R1 qui ont popularisé le RL comme levier de raisonnement pour les LLMs. Dans le champ robotique, Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec GR00T N2 et RT-X, ou encore OpenVLA, explorent des trajectoires d'alignement vision-language-action (VLA) comparables. RoboGPT-R1 se distingue par son positionnement sur la planification symbolique de haut niveau plutôt que le contrôle moteur bas niveau, et par sa base Qwen2.5-VL open-source qui favorise la reproductibilité. Important à noter : il s'agit à ce stade exclusivement d'une validation sur EmbodiedBench, un benchmark simulé. Aucun déploiement physique n'est annoncé et le sim-to-real gap, question centrale pour tout passage en production, reste une problématique que l'article ne traite pas.

RechercheOpinion
1 source
Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)
571arXiv cs.RO 

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 10 juin 2026 sur arXiv (2606.10495) SALSA, un framework de post-entraînement en deux étapes destiné à rendre les modèles Vision-Language-Action (VLA) capables de naviguer en sécurité parmi des piétons. Sans aucune annotation humaine, la méthode réduit les quasi-collisions de 86,4 % et fait passer la précision de reconnaissance des situations sociales critiques de 53 % à 93 %, mesurée sur le dataset SCAND et lors de déploiements en conditions réelles. SALSA opère en deux temps : une étape d'alignement comportemental social connecte les représentations internes des couches intermédiaires du VLA à sa tête d'action, via un entraînement sur des paires scènes humain/objet contrefactuelles pour casser les raccourcis de saillance visuelle ; une étape d'alignement temporel de sécurité génère automatiquement une supervision sur le risque futur pour permettre une évitement anticipatoire, avant que le danger ne soit imminent, plutôt que purement réactif. L'intérêt principal de ce résultat est de démontrer que les VLA pré-entraînés encodent déjà, dans leurs représentations latentes, la distinction piéton/obstacle et des signaux de collision future, mais que le behavior cloning classique échoue à traduire ces signaux en actions appropriées. Pour les intégrateurs et décideurs industriels, cela signifie que des robots équipés de VLA existants (Pi-0, OpenVLA, GR00T N2) peuvent être rendus plus sûrs en navigation sociale sans réentraînement complet ni pipeline d'annotation coûteux. Le caractère annotation-free est industriellement significatif : il supprime le goulot d'étranglement du labeling humain qui freine le passage à l'échelle des approches d'apprentissage pour la navigation sociale. La navigation sociale en robotique mobile est un problème ouvert depuis une décennie : les approches classiques (Social Force Model, ORCA) ignorent le contexte sémantique, tandis que les méthodes RLHF nécessitent une récompense dense difficile à définir. SALSA s'inscrit dans une vague de travaux post-entraînement sur les VLA, aux côtés de méthodes comme DPO appliqué à la robotique et les pipelines de fine-tuning de Physical Intelligence. Les concurrents directs incluent les approches à modules de détection piéton explicites (Spot de Boston Dynamics, Nav2 avec costmaps sociaux) et les frameworks d'apprentissage par renforcement socialement conscients. Les chercheurs valident sur déploiement réel, mais sans préciser le matériel robotique utilisé ni les conditions d'environnement, un point à surveiller avant toute généralisation industrielle.

IA physiqueOpinion
1 source
X-OP : téléopération corps entier entre morphologies différentes via MPC
572arXiv cs.RO 

X-OP : téléopération corps entier entre morphologies différentes via MPC

X-OP est un système de téléopération whole-body présenté en pré-publication arXiv (2606.07934) qui permet à un opérateur humain de contrôler un robot corps entier via un unique casque de réalité étendue (XR), sans exosquelette ni setup multi-caméras. Le coeur technique est un retargeter basé sur le MPC (Model Predictive Control) qui optimise simultanément l'alignement avec les intentions de l'opérateur et la faisabilité dynamique du robot en temps réel. Pour stabiliser l'exécution, la méthode réinitialise l'état du simulateur à chaque pas MPC afin de gérer les mesures bruitées et la sensibilité aux contacts, et intègre une estimation de pose globale par SLAM pour limiter la dérive long terme. En simulation, le système obtient un temps de complétion réduit de plus de 30 % et une consommation énergétique réduite de 20 % pour un humanoïde, et zéro collision pour un manipulateur mobile, par rapport aux baselines. Des expériences réelles valident la méthode sur les deux plateformes. L'apport central est l'absence de réentraînement lors du changement de morphologie robot : là où les méthodes XR existantes basées sur du RL end-to-end nécessitent une politique par plateforme, X-OP s'insère comme couche d'abstraction au-dessus des contrôleurs bas niveau existants. C'est un signal potentiellement structurant pour les intégrateurs industriels cherchant à constituer des datasets loco-manipulation à moindre coût. La distinction entre retargeting cinématique classique (qui ignore la dynamique) et retargeting MPC (qui garantit la faisabilité) résout partiellement le problème de distribution shift qui fragilise les politiques VLA au déploiement réel, un point que le secteur peine à adresser. La téléopération pour la collecte de données est au coeur des stratégies de Physical Intelligence (Pi-0), d'Agility Robotics et de Figure AI, qui s'appuient sur des exosquelettes ou setups dédiés coûteux. X-OP se positionne comme alternative généraliste et bas coût. Il convient de noter que le papier est une pré-publication non peer-reviewed, et que les expériences réelles restent limitées en scope : les métriques de simulation sans contexte de tâche industrielle invitent à la prudence. Aucun partenaire commercial ni déploiement terrain n'est annoncé à ce stade.

IA physiqueOpinion
1 source
CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur
573arXiv cs.RO 

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Une équipe de recherche a publié sur arXiv (arXiv:2606.09572, juin 2026) une architecture légère pour le contrôle visuomoteur de robots manipulateurs, baptisée CT-VAM (Cerebello-Thalamic-Inspired Vision-Action Model). Avec seulement 68 millions de paramètres, le modèle prédit des séquences d'actions (action chunks) à partir de deux flux visuels simultanés, de données proprioceptives et d'un vecteur de tâche compact, sans retraiter le langage naturel à chaque pas de contrôle. La pièce centrale est TARS (Thalamic Action Routing Stream), un décodeur à attention conditionnelle qui route séparément les flux d'actions, de vision et de tâche, empêchant les tokens visuels denses de noyer les signaux de commande utiles. Sur le benchmark LIBERO, les auteurs rapportent des taux de réussite comparables à ceux de VLA nettement plus volumineux, avec une latence d'inférence réduite. Un mécanisme de flow-consistent inpainting permet en outre l'exécution asynchrone des chunks, autorisant un contrôle haute fréquence sur du matériel embarqué à ressources limitées. L'enjeu pratique est direct pour les intégrateurs et les équipes robotiques : les VLA actuels comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA exigent une puissance de calcul élevée et souffrent d'une latence incompatible avec le contrôle temps réel en manipulation fine. CT-VAM propose une séparation architecturale explicite, dite cloud-edge : le raisonnement sémantique de haut niveau reste dans le cloud ou sur un serveur dédié, tandis qu'une politique locale compacte assure la boucle fermée rapide. Si ce paradigme se confirme en conditions réelles, il permettrait de déployer des robots manipulateurs sur du matériel embarqué moins coûteux, réduisant le BOM (bill of materials) sans sacrifier la généralisation. Il faut noter que le preprint ne précise ni la plateforme matérielle exacte ni les scénarios industriels testés au-delà de LIBERO, un écart classique entre validation académique et terrain. L'inspiration neuroanatomique est explicite : le cervelet gère les boucles de contrôle moteur rapide pendant que le thalamus filtre et route l'information sensorielle, une séparation fonctionnelle que les auteurs transposent directement en architecture réseau. Dans l'écosystème VLA, la tendance depuis 2023 va vers des modèles de plus en plus lourds (RT-2, OpenVLA à 7B, Pi-0 de Physical Intelligence), et CT-VAM représente un contre-argument en faveur de la compacité, un axe également exploré par LeRobot de Hugging Face et certaines architectures de diffusion légère. À 68M paramètres, il se positionne dans la famille des politiques efficientes plutôt que des foundation models généralistes. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade ; les étapes logiques seraient une validation sur des benchmarks plus larges comme DROID ou RLBench, ainsi qu'une ouverture des poids du modèle à la communauté.

UELa validation du paradigme cloud-edge et des politiques compactes converge avec la direction de LeRobot de Hugging Face (France), offrant un signal indirect aux équipes R&D européennes sur la viabilité des architectures légères face aux VLA massifs.

IA physiqueOpinion
1 source
Coordination continue de robots quadrupèdes par découverte de compétences sémantiques
574arXiv cs.RO 

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Des chercheurs ont publié sur arXiv (réf. 2606.08102) un framework appelé Conquer, conçu pour coordonner des équipes de robots quadrupèdes en apprentissage continu, c'est-à-dire sans avoir à réentraîner le système à chaque nouvelle tâche. L'approche repose sur une bibliothèque de compétences sémantiques organisée autour d'un cycle récupérer-adapter-mettre à jour : avant d'exécuter une tâche inconnue, le système construit un descripteur sémantique à partir des informations pré-exécution, retrouve la compétence la plus proche dans la bibliothèque, l'adapte, puis intègre les trajectoires réelles pour enrichir la base. Le backbone SAG (Self-Allies-Goal) permet de gérer des équipes de taille variable en modélisant explicitement l'état propre de chaque robot, le contexte de ses coéquipiers et l'objectif de la tâche. En simulation, Conquer atteint un taux de succès moyen final de 95,6 %, avec un transfert positif démontré vers de nouvelles tâches et un oubli catastrophique qualifié de négligeable. Des essais en conditions réelles ont été conduits sur des équipes de Unitree Go2, le quadrupède commercial d'Unitree Robotics. Ce résultat compte parce qu'il s'attaque à l'un des verrous fondamentaux de la robotique multi-agents : les méthodes de type MARL (apprentissage par renforcement multi-agents) existantes entraînent des politiques spécifiques à une famille de tâches fermée, ce qui les rend inutilisables dans des environnements industriels où les missions évoluent en permanence. Conquer propose une alternative où de nouvelles compétences de coordination s'accumulent sans effacer les précédentes, un prérequis pour tout déploiement réel dans des entrepôts ou sur des lignes de production à géométrie variable. La capacité à gérer des équipes de taille arbitraire est également non triviale : la plupart des approches supposent un nombre fixe d'agents. À noter cependant que les métriques de succès sont issues de simulation, et que les vidéos de déploiement sur Go2 restent des démonstrations sélectionnées, sans données quantifiées sur les taux d'échec terrain ni sur les temps de cycle réels. La coordination multi-quadrupèdes s'est intensifiée avec la disponibilité de robots comme le Go2 d'Unitree (lancé à moins de 2 700 dollars en version grand public), qui abaisse le coût d'expérimentation en laboratoire. La problématique de l'apprentissage continu en robotique est partagée par plusieurs groupes de recherche, notamment autour des architectures VLA (Vision-Language-Action) qui cherchent elles aussi à éviter la réinitialisation à chaque nouvelle tâche. Conquer se positionne dans un espace encore peu industrialisé, entre les approches MARL classiques et les frameworks généralistes de type foundation model. Les prochaines étapes logiques seraient des évaluations en entrepôt réel sur des tâches de manutention collaboratives, domaine où des acteurs comme Exotec (France) ou Boston Dynamics investissent sur des flottes mixtes humanoïdes et quadrupèdes.

RecherchePaper
1 source
Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine
575arXiv cs.RO 

Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine

Des chercheurs ont publié début juin 2026 Video2Sim2Real (arXiv:2606.08828), un pipeline complet permettant à un robot d'acquérir des compétences de manipulation dextre à partir d'une seule vidéo de démonstration humaine. Le système fonctionne en trois étapes : des modèles de fondation reconstruisent un jumeau numérique prêt pour la simulation, extraient les trajectoires main-objet, puis identifient des keyframes orientés objet pour optimiser les configurations articulaires du robot. Ces configurations servent d'ancres pour recalibrer le mouvement brut, comblant l'écart entre la cinématique humaine et les contraintes d'un end-effector mécanique. Pour le transfert sim-to-real, le framework dissocie deux problèmes distincts : la robustesse aux nuages de points bruités du monde réel, traitée par apprentissage par imitation (IL), et les variations de dynamique doigt-objet, gérées par du RL résiduel local au niveau des phalanges. Un module de planification collision-aware permet enfin la généralisation spatiale à des configurations d'objets inédites. L'intérêt principal pour les intégrateurs et équipes R&D est l'absence de démonstrations téléopérées coûteuses : une seule vidéo d'un humain effectuant une tâche suffit à bootstrapper la politique. C'est une réponse directe au "demonstration bottleneck" qui freine le déploiement des robots manipulateurs en environnements non structurés. La décomposition explicite du gap sim-to-real en deux sous-problèmes indépendants est méthodologiquement solide et contraste avec les approches end-to-end qui peinent à diagnostiquer leurs propres échecs. Sur plusieurs tâches de manipulation quotidienne, le système améliore le taux de succès en simulation, la sécurité et la cohérence des trajectoires face à de nombreuses baselines existantes. Il faut noter cependant que le papier ne publie pas de métriques de succès absolues consolidées en conditions réelles ; les évaluations demeurent comparatives, ce qui limite l'interprétation des gains annoncés. Cette direction s'inscrit dans un mouvement plus large exploitant les vidéos comme supervision faible pour la robotique, à l'instar de π0 (Physical Intelligence), GR00T N2 (NVIDIA) ou UniSim. Video2Sim2Real se distingue en visant la pipeline complète, de la vidéo brute au déploiement réel, sans intervention intermédiaire. Les approches concurrentes comme DexMV ou AnyTeleop requièrent généralement des données supplémentaires (MoCap, téléopération) ou restent limitées à des scènes très contraintes. Aucun déploiement industriel n'est annoncé à ce stade ; les prochaines étapes naturelles seraient une validation sur des end-effectors commerciaux (Allegro Hand, Shadow Dexterous Hand) et une mise à l'épreuve sur des objets articulés ou déformables, là où la dynamique de contact reste un problème ouvert.

UELes équipes R&D françaises et européennes spécialisées en manipulation dextre peuvent intégrer cette approche pour s'affranchir de la téléopération coûteuse, sans partenariat ou initiative EU spécifique annoncé.

IA physiqueOpinion
1 source
Avatar androïde cybernétique Yui : intégration système, déploiement terrain et évaluation
576arXiv cs.RO 

Avatar androïde cybernétique Yui : intégration système, déploiement terrain et évaluation

Yui est un avatar androïde téléopéré à corps entier, développé par une équipe de recherche japonaise et présenté dans un article soumis à arXiv (2606.08099) en juin 2026. Le système embarque 55 degrés de liberté répartis sur l'ensemble du corps, combinant une tête androïde préexistante avec un contrôle des expressions faciales, du regard, de la mobilité des bras et des mains, et une plateforme mobile. Deux modes de pilotage sont disponibles : un mode immersif via casque de réalité mixte (HMD), et un mode bureau utilisant une simple webcam. Le système a été déployé dans trois configurations réelles : une exposition longue durée à l'Expo 2025 d'Osaka (Kansai, Japon), un échange pédagogique à distance entre écoliers, et une étude d'interaction avec le grand public. Sur le seul site de l'Expo, deux unités ont cumulé environ 1 131 heures d'opération, ce qui constitue un volume de terrain significatif pour ce type de plateforme. Ce chiffre de 1 131 heures dépasse la plupart des évaluations publiées sur les avatars androïdes, généralement limitées à des sessions de laboratoire contrôlées. Il permet d'identifier des enjeux de maintenance réels et de valider l'exploitabilité opérationnelle dans des conditions d'usage non maîtrisées. Les retours recueillis auprès des opérateurs et des interlocuteurs sont globalement positifs sur la sensation de co-présence et la transmission des émotions et intentions. Toutefois, les auteurs reconnaissent explicitement des lacunes en termes de contrôlabilité fine, notamment pour les gestes précis, ce qui est cohérent avec les défis connus de la téléopération à haute fidélité sensorielle. Le projet s'inscrit dans la continuité des travaux d'Hiroshi Ishiguro (Osaka University) sur les androïdes téléopérés, dont les systèmes Geminoid et Telenoid ont posé les bases de cette discipline depuis les années 2000. Dans l'espace commercial, des acteurs comme Engineered Arts (Ameca, Royaume-Uni) ou des projets de téléprésence incarnée comme ceux de l'entreprise californienne Embodied restent sur des périmètres plus restreints. Yui se distingue par son déploiement public massif à l'Expo 2025, qui a accueilli plusieurs millions de visiteurs, fournissant un terrain d'évaluation rare. Les prochaines étapes identifiées portent sur l'amélioration de la précision de contrôle et l'élargissement des scénarios d'usage sociaux, avec des implications de conception pour les futures générations d'avatars androïdes déployables en contexte ouvert.

HumanoïdesPaper
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
577arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés
578arXiv cs.RO 

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Des chercheurs proposent une méthode de récupération après chute pour robots humanoïdes sur terrains variés, publiée en juin 2026 sur arXiv (identifiant 2606.08922). Baptisée PTDL (Phase-Terrain Decoupled Learning), elle cible un problème concret : un humanoïde tombé sur du gravier, une pente ou un sol inégal doit non seulement se relever, mais reprendre immédiatement une marche dirigée par commande de vitesse, sans capteurs externes ni étiquettes de terrain fournies au moment de l'exécution. La validation porte sur le Unitree G1, humanoïde commercial de 29 degrés de liberté, testé en simulation et sur robot réel, sur sol plat, gravier et inclinaisons allant jusqu'à 20 degrés. L'architecture de PTDL repose sur une double décorrélation. Sur l'axe des phases, des discriminateurs de mouvement à double prior conditionnés par la gravité projetée lient la récupération post-chute à la reprise de locomotion normale. Sur l'axe des terrains, un façonnage de récompense stratifié par surface applique des supervisions d'entraînement spécifiques à chaque sol, labels qui sont ensuite retirés à la politique au déploiement : le robot développe des comportements de lever implicitement adaptés à chaque surface, sans qu'on lui indique sur quoi il repose. Les méthodes antérieures s'arrêtaient généralement au lever quasi-statique ou entraînaient une politique de compromis dégradée face à la diversité des terrains. PTDL enchaîne récupération et reprise de marche sous une seule politique proprioceptive unifiée, ce qui est directement pertinent pour tout déploiement en environnement industriel non structuré où la chute n'est pas une exception mais une probabilité réelle. Le G1 de Unitree Robotics (Shenzhen) est devenu en 2024-2025 une plateforme de référence pour la recherche en locomotion humanoïde, notamment grâce à son accessibilité tarifaire (environ 16 000 USD). La récupération après chute reste un angle mort notoire dans la course humanoïde actuelle : Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus) se concentrent principalement sur les démonstrations de marche et de manipulation, peu sur les protocoles de résilience post-chute. Ce preprint arXiv n'annonce pas de déploiement industriel immédiat et n'a pas encore subi de révision par les pairs, mais il ouvre une piste méthodologique solide : entraîner sur des terrains stratifiés tout en maintenant une politique unifiée à l'inférence, une approche transposable à d'autres défis de robustesse en conditions réelles.

RecherchePaper
1 source
Nouveau manipulateur redondant à câbles et joints quaternions : commande par FABRIK et renforcement résiduel
579arXiv cs.RO 

Nouveau manipulateur redondant à câbles et joints quaternions : commande par FABRIK et renforcement résiduel

Des chercheurs ont publié sur arXiv (référence 2606.05236) une nouvelle configuration de bras manipulateur redondant à câbles, contrôlé par apprentissage par renforcement résiduel. L'architecture proposée repose sur 4 segments et 8 joints de type quaternion, une géométrie qui permet d'atteindre un espace de travail plus large que les configurations existantes tout en réduisant le coût matériel. Le point central des résultats : l'algorithme Residual Reinforcement Learning (RRL) surpasse de trois ordres de grandeur l'algorithme FABRIK (Forward And Backward Reaching Inverse Kinematics), référence actuelle du domaine, aussi bien en précision positionnelle qu'orientationnelle. L'implémentation du système de contrôle est décrite dans son intégralité, FABRIK inclus, ce qui rend la méthodologie directement reproductible. Ce résultat est notable parce qu'il s'attaque à un problème structurel des manipulateurs à câbles redondants : leur modèle cinématique, fondé sur des joints quaternion, est non-linéaire et amplifie les écarts entre conception et artefact physique, notamment les imprécisions de fabrication. Le fait que RRL absorbe ces non-linéarités et batte FABRIK de mille fois en précision suggère que l'apprentissage par renforcement résiduel -- qui combine un contrôleur analytique de base avec un réseau correcteur appris -- est une piste sérieuse pour les systèmes hyper-redondants à câbles, là où les méthodes géométriques classiques atteignent leurs limites. Pour les intégrateurs industriels travaillant sur des bras destinés à des espaces confinés (inspection, chirurgie, maintenance aéronautique), c'est un levier de précision sans surcoût hardware majeur. Les manipulateurs redondants à câbles existent depuis plusieurs décennies, mais l'introduction des joints quaternion est récente et a relancé l'intérêt pour cette classe de robots en réduisant le nombre de moteurs par degré de liberté, ouvrant la voie à des architectures plus compactes. Les acteurs industriels positionnés sur les bras flexibles -- dont plusieurs startups européennes dans l'endoscopie et la maintenance -- suivent ces travaux de près. Ce papier reste un preprint sans validation en environnement industriel réel ; les prochaines étapes attendues sont un prototype physique et des tests en workspace obstrué pour confirmer les gains simulés.

UEPlusieurs startups européennes dans l'endoscopie et la maintenance industrielle suivent ces travaux sur les bras à câbles redondants, qui pourraient améliorer leur précision de contrôle sans surcoût hardware, sous réserve de validation sur prototype physique.

RecherchePaper
1 source
PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée
580arXiv cs.RO 

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

Des chercheurs ont publié PiL-World (arXiv:2606.05773), un modèle de monde (world model) en boucle fermée conçu pour évaluer les politiques VLA (Vision-Language-Action) sans exécution physique continue. Le système fonctionne par blocs d'actions (action chunks) : à chaque itération, la politique VLA génère une séquence d'actions, PiL-World simule les observations multi-vues résultantes, et ces observations alimentent le cycle d'inférence suivant. Évalué sur trois tâches de manipulation bimanuelle réelles, PiL-World réduit l'écart entre le taux de succès mesuré sur robot physique et celui estimé en simulation boucle fermée de 63,2 % à 12,0 % par rapport à la baseline, soit plus de cinq fois moins d'erreur d'évaluation. Le modèle conditionne la génération vidéo sur le mouvement du robot en vue de tête et sur un historique latent encodant le contexte d'exécution de la tâche, et apprend à la fois sur des démonstrations téléopérées réussies et sur des trajectoires d'échec. L'évaluation des politiques VLA en boucle fermée est un goulot d'étranglement critique dans le développement robotique : chaque cycle de test sur hardware coûte du temps, de l'usure mécanique et une supervision humaine. Un écart de 63,2 % entre simulation et réalité rend une baseline en boucle ouverte essentiellement inexploitable pour prédire les performances terrain. Ramené à 12,0 %, ce delta commence à être utilisable pour screener des politiques avant validation physique. Le fait que PiL-World apprenne aussi sur des rollouts d'échec est notable : cela corrige un biais classique des world models entraînés uniquement sur démonstrations positives, et rapproche la distribution simulée de celle des exécutions politiques réelles, qui incluent naturellement des tentatives ratées. La demande pour des boucles d'évaluation sans robot s'intensifie depuis que les VLA, notamment Pi-0 de Physical Intelligence, OpenVLA, ou GR00T N2 de NVIDIA, sont devenues les architectures de référence pour la manipulation généraliste. Les simulateurs physiques classiques comme Isaac Lab ou MuJoCo souffrent du sim-to-real gap pour les tâches de contact fin, d'où l'intérêt croissant pour les world models appris directement sur données réelles. PiL-World rejoint une tendance émergente aux côtés de travaux comme UniSim ou IRASim, qui visent à remplacer partiellement l'exécution physique par des modèles génératifs vidéo conditionnés sur les actions. Les résultats sur trois tâches bimanuelles restent limités en diversité de scènes et de morphologies robotiques, et aucun déploiement industriel ni partenariat n'est annoncé à ce stade, ce qui positionne PiL-World comme une contribution de recherche prometteuse plutôt qu'un outil prêt pour l'intégration.

RechercheOpinion
1 source
Adaptation de politique sans mise à jour du modèle par flux normalisant
581arXiv cs.RO 

Adaptation de politique sans mise à jour du modèle par flux normalisant

Des chercheurs du laboratoire RIPL ont publié sur arXiv (2606.06461) GLOVES, une famille de méthodes d'adaptation fondées sur le flow matching permettant de corriger les actions d'agents robotiques non experts, politiques pré-entraînées, modèles de fondation ou opérateurs humains, sans modifier leurs poids ni leur logique de contrôle. Le principe : plutôt que de remplacer l'agent par un système entièrement autonome, GLOVES "transporte" ses actions vers une distribution cible apprise d'un expert, à partir d'un petit nombre de démonstrations ou de segments de compétences réutilisables. Un mécanisme de score par flux inverse (reverse flow evaluation) sert de portail d'intervention sélective : les actions déjà cohérentes avec la distribution experte passent inchangées, seules les actions anomales ou hors distribution (OOD) sont corrigées. Ce travail répond à un problème concret et croissant dans le déploiement des modèles de fondation robotiques de type VLA (Vision-Language-Action) : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA produisent des comportements génériques qui échouent souvent sur des tâches spécifiques ou dans des environnements non vus à l'entraînement. GLOVES propose une couche d'adaptation légère qui ne nécessite pas de réentraîner le modèle de base, quelques démonstrations suffisent, et les segments de compétences réussis sont réutilisables sur plusieurs tâches. L'intervention conditionnelle préserve l'autonomie de l'agent sous-jacent, ce qui est pertinent pour des déploiements industriels où l'opérateur veut conserver le contrôle sémantique du comportement sans tout reconstruire. GLOVES s'inscrit dans un courant actif de recherche sur la correction de politiques et le contrôle partagé (shared autonomy), distinct de l'imitation learning classique ou de l'IRL. Le flow matching est en forte progression depuis son adoption dans Pi-0 (diffusion policies) ; GLOVES l'applique non à la génération d'actions brutes mais à leur correction post-hoc, ce qui est architecturalement plus modulaire et plus facile à greffer sur un système existant. Le code et les démonstrations sont disponibles à ripl.github.io/GLOVES_web. Les suites naturelles incluent l'intégration dans des pipelines de téléopération augmentée, bien que le preprint n'annonce pas encore de déploiements industriels concrets ni de partenariats commerciaux.

RechercheOpinion
1 source
RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique
582arXiv cs.RO 

RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique

RealDexUMI est une interface de téléopération portable présentée en juin 2026 par des chercheurs de BeingBeyond dans un preprint arXiv (arXiv:2606.06033). Le dispositif repose sur un module d'effecteur terminal partagé combinant une main robotique légère, une caméra embarquée dans la paume et des capteurs tactiles au bout des doigts. Un gant isomorphe porté par l'opérateur humain traduit les mouvements des doigts en commandes articulaires directes sur la main robotique, sans retargeting ni conversion d'incarnation. Le système a été évalué sur huit tâches réelles couvrant des manipulations fines, riches en contacts, à longue durée et bimanuelles, obtenant un taux de succès moyen de 88,75%. Les politiques apprises se généralisent à des poses initiales non vues lors de l'entraînement et ont été transférées vers trois morphologies de robots différentes. Le verrou que RealDexUMI cherche à lever est connu dans le secteur sous le nom de "collection-to-deployment gap". Les pipelines classiques de collecte de données pour la manipulation dextre font face à un dilemme : la motion capture ou les gants souples permettent une collecte rapide mais nécessitent un retargeting qui dégrade la fidélité des contacts, tandis que la téléopération robot-spécifique préserve cette fidélité mais reste onéreuse et difficile à passer à l'échelle. RealDexUMI propose un troisième chemin via un effecteur "zéro-gap" : les observations (images embarquées, signaux tactiles, contacts, commandes articulaires) sont identiques entre collecte et déploiement, supprimant le biais d'observation qui dégrade souvent les politiques d'imitation. Un taux de 88,75% sur des tâches bimanuelles longue durée est significatif si les conditions expérimentales sont représentatives, bien que le preprint ne détaille pas encore la distribution des tentatives par tâche ni les protocoles de randomisation des scènes. La question de l'interface universelle de manipulation dextre est activement travaillée depuis plusieurs années, notamment depuis les travaux UMI de Columbia University (2023-2024), qui instrumentaient une spatule pour des robots standard. RealDexUMI étend ce paradigme aux mains multi-doigts, terrain nettement plus difficile. La démarche entre en compétition directe avec des approches comme ALOHA 2 et ACT de Carnegie Mellon, les systèmes de DexHand Research, ou les plateformes bimanuelle d'Apptronik et Agility Robotics. En Europe, des équipes de l'ISIR à Sorbonne Université et du DLR en Allemagne travaillent sur des thématiques proches de capture et transfert de manipulation dextre. BeingBeyond reste discret sur son positionnement commercial et ses partenaires industriels : la prochaine étape naturelle serait une validation dans des environnements non structurés ou une intégration sur des plateformes humanoïdes commerciales comme Figure 03, Unitree G1 ou Fourier GR-1, où la manipulation dextre demeure le principal goulot d'étranglement.

UELes équipes européennes de manipulation dextre (ISIR/Sorbonne, DLR) pourraient intégrer l'approche zéro-gap de RealDexUMI pour accélérer leurs pipelines de collecte de données sans retargeting.

RechercheOpinion
1 source
L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte
583Pandaily 

L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte

Des chercheurs de l'université du Zhejiang, en collaboration avec Cornell University, la National University of Singapore et Xidian University, ont publié sur arXiv (2605.30011) un système de raisonnement visuel pour robots baptisé VisualThink-VLA. L'approche remplace le raisonnement en chaîne de pensée textuelle, où le robot génère un monologue interne en tokens de langage avant chaque action, par des tokens visuels directs. Résultat mesuré : le temps de traitement par étape passe de 8,377 secondes (approche texte ECoT) à 0,367 secondes, soit un gain de 22,8x. Sur huit benchmarks standardisés, VisualThink-VLA atteint un taux de succès moyen de 92,63 %, contre 85,09 % pour ECoT. Les expériences physiques ont été conduites sur un bras robotique PIPER NERO à 7 degrés de liberté, sur des tâches de préhension multi-objets, de placement sensible aux relations spatiales, de réorientation sous contrainte de contact, et de séquences composées à deux étapes. Le jeu d'entraînement "VisualEvidence-Set" couvre 754 700 instructions de manipulation. L'intérêt industriel de ce résultat tient à la rareté de la combinaison : gain de vitesse ET gain de précision simultanés, alors que les systèmes d'IA échangent habituellement l'un contre l'autre. Pour les intégrateurs et les équipes de déploiement robotique, un temps de cycle sous 400 ms par étape ouvre la voie à des manipulations en environnement dynamique sans supervision humaine rapprochée. L'architecture à quatre canaux visuels, Bounding Box, Edge, Motion, Relation, utilise un mécanisme de routage adaptatif qui sélectionne en moyenne seulement 2,22 canaux par étape, évitant le surcoût computationnel d'une fusion systématique. Le caractère plug-and-play revendiqué par les auteurs est un argument commercial non négligeable : les systèmes VLA existants pourraient être mis à niveau sans refonte de l'architecture sous-jacente, ce qui réduit le coût d'adoption. Cette affirmation reste à vérifier sur des robots de production tiers, les expériences publiées se limitant au PIPER NERO. Le contexte de ce travail s'inscrit dans une compétition intense autour des VLA (Vision-Language-Action models), dominée jusqu'ici par des approches comme OpenVLA, pi0 (Physical Intelligence) ou RoboVLMs, qui traitent toutes la vision et le langage comme co-entrées mais conservent un raisonnement textuel latent. L'université du Zhejiang est l'un des laboratoires les plus productifs en robotique incarnée en Chine, avec plusieurs publications majeures ces deux dernières années sur le sim-to-real et la manipulation dextère. Sur le fond, VisualThink-VLA teste l'hypothèse que le langage est un détour inutile pour la perception motrice, hypothèse que partagent des équipes comme Wayve ou Enchanted Tools côté européen dans leurs architectures world-model. Les prochaines étapes non précisées dans le papier concernent l'extension à des manipulateurs bimanaux et à des environnements non structurés hors laboratoire, deux conditions nécessaires avant tout pilote industriel crédible.

UELes équipes VLA européennes, notamment Enchanted Tools (France) dont l'architecture world-model partage des hypothèses similaires, pourraient s'inspirer de cette approche pour réduire les latences de manipulation sans sacrifier la précision.

IA physiqueOpinion
1 source
IA incarnée fiable : un programme communautaire du test à la vérification formelle
584arXiv cs.RO 

IA incarnée fiable : un programme communautaire du test à la vérification formelle

Un article de position publié sur arXiv (2606.03593) dans le cadre du programme AAAI'26 Bridge sur la fiabilité des IA embarquées pose un constat cru : malgré l'accélération des déploiements en environnements ouverts, l'industrie ne dispose d'aucune méthodologie unifiée pour garantir le comportement sûr et prévisible de ces systèmes. Les auteurs identifient trois axes complémentaires : des tests par scénarios appuyés sur des spécifications validées et des métriques de couverture, une vérification compositionnelle via des représentations symboliques structurées, et des mécanismes d'assurance à l'exécution capables de gérer les incertitudes et les glissements de distribution (distribution shifts) en déploiement réel. Leur thèse centrale : ces trois approches doivent être intégrées dans un workflow d'assurance continu reliant tests, vérification formelle et adaptation runtime via des représentations neuro-symboliques partagées, sur l'ensemble du cycle de vie du système. L'enjeu est direct pour les intégrateurs et les COO industriels. Les systèmes d'IA embarquée, robots humanoïdes, AMR, bras de manipulation autonome, atteignent un niveau de capacité qui autorise des déploiements commerciaux, mais la certification de leurs comportements reste un angle mort. Là où l'automobile dispose de l'ISO 26262 et l'aéronautique de la DO-178C, la robotique IA ne dispose d'aucun cadre équivalent. Ce papier ne propose pas de norme : il trace un agenda de recherche communautaire pour combler cet écart. Prouver formellement les propriétés de sécurité d'un système dont les comportements émergent d'un réseau de neurones reste un problème ouvert, et l'absence de solution freine les déploiements à grande échelle en logistique, en industrie et dans les soins à la personne. Ce travail s'inscrit dans le sillage de l'essor des VLA (Vision-Language-Action models), Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, qui ont rendu les robots plus capables mais aussi moins prédictibles, compliquant d'autant leur vérification. Des acteurs français comme Wandercraft (exosquelette marchant) et Enchanted Tools (robot Mirokaï) se heurtent au même verrou réglementaire dès qu'ils visent des environnements hospitaliers ou publics. La suite logique de cet agenda passe par la constitution de benchmarks partagés et d'outils de vérification formelle adaptés aux architectures neuro-symboliques, un chantier que le Bridge Program de l'AAAI'26, prévu pour 2026, entend contribuer à structurer.

UEWandercraft et Enchanted Tools sont cités explicitement comme confrontés à ce verrou réglementaire dès qu'ils visent des environnements hospitaliers ou publics en France, cet agenda de recherche pourrait structurer le cadre de certification qui leur fait défaut.

RechercheOpinion
1 source
Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage
585arXiv cs.RO 

Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage

Une équipe de chercheurs a publié début juin 2026 (arXiv:2606.02735) un framework baptisé S2, pour "See Less, Specify More", destiné à améliorer la généralisation des modèles vision-langage-action (VLA). S2 repose sur deux mécanismes complémentaires : "Specify More" reformule chaque trajectoire d'entraînement avec des instructions affinées au niveau de la sous-tâche, tout en préservant l'objectif global original, tandis que "See Less" impose un budget explicite de preuves visuelles, forçant le modèle à agir à partir d'un contexte visuel suffisant pour la tâche plutôt que d'un champ de vision non contraint. Le système a été évalué sur huit tâches réelles de manipulation sur deux plateformes robotiques : le TX-G2, une variante compatible AgiBot G2, et le Toyota HSR. Le résultat principal : le taux de succès moyen par sous-tâche passe de 54,2 % à 79,0 % par rapport au modèle de référence pi0.5 de Physical Intelligence. Ces résultats s'attaquent à l'un des verrous les plus documentés du domaine VLA : la dégradation des performances sous distracteurs visuels, changements d'apparence ou tâches sémantiquement similaires. Le problème identifié est ce que les auteurs nomment "supervision aliasing" : des instructions trop grossières créent une ambiguïté que le modèle doit résoudre seul, dégradant l'apprentissage. S2 contourne ce problème sans annotation de régions ou de masques, ce qui est notable en termes de coût de labellisation. La compatibilité avec des planificateurs VLM standards via le mécanisme d'in-context learning facilite également l'intégration dans des pipelines existants, sans refonte architecturale. S2 s'inscrit dans une course serrée autour des VLA généralisables. pi0.5, développé par Physical Intelligence (ex-startup fondée par des chercheurs de Google DeepMind et Stanford), constitue ici la baseline battue. La plateforme AgiBot G2, produite par la startup chinoise éponyme, gagne en visibilité comme banc d'essai de référence pour la manipulation humanoïde. Les concurrents directs incluent les approches OpenVLA (Stanford), Octo (Berkeley), et les travaux VLA de Google DeepMind autour de RT-2 et ses successeurs. L'absence de déploiement industriel annoncé maintient S2 dans la catégorie "résultat de recherche prometteur" plutôt que "produit embarqué", mais le gain de 25 points de succès sur des tâches réelles justifie une attention soutenue de la part des intégrateurs robotiques.

RechercheOpinion
1 source
IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable
586arXiv cs.RO 

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

Une équipe de chercheurs publie en juin 2026 (arXiv:2606.03784) une réévaluation du chain-of-thought incarné (CoT) appliqué aux modèles vision-langage-action (VLA) pour la manipulation robotique généraliste. Pour mener cette étude à grande échelle, les auteurs ont constitué le plus grand corpus de ce type jamais assemblé : 978 743 trajectoires, 226,3 millions d'échantillons et 2 592,5 heures de données robot. Leur modèle ERVLA atteint 86,9 % de succès sur LIBERO-Plus et 53,2 % sur VLABench, surpassant les baselines de référence, notamment sur les tâches de désambiguïsation sémantique et d'exécution à longue portée en environnement réel. Le code, les données et les checkpoints seront prochainement disponibles en accès ouvert. Le principal apport théorique porte sur la manière d'intégrer le raisonnement linguistique dans une politique robotique. Les auteurs établissent que le CoT explicite, utilisé comme préfixe autorégressif avant chaque action, accumule des erreurs au fil des étapes et génère un couplage instable entre raisonnement et commande motrice. De même, le raisonnement de haut niveau seul, sans ancrage dans des descriptions concrètes comme les trajectoires d'effecteur terminal ou les positions dans l'espace image, n'apporte que des gains marginaux. ERVLA résout cette tension via une stratégie de "reasoning-dropout" : le modèle assimile des traces de raisonnement riches pendant l'entraînement, mais prédit les actions directement à l'inférence, sans décodage CoT. Ce découplage améliore la montée en échelle avec le volume de préentraînement et stabilise l'exécution. C'est un signal clair pour les équipes travaillant sur des politiques généralisables : la valeur du langage réside dans ce qu'il apprend au modèle, pas dans ce qu'il verbalise au moment du déploiement. Ces travaux s'inscrivent dans une compétition intense autour des fondations VLA capables de généraliser hors de leur distribution d'entraînement, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. La mise à disposition de 2 592 heures de données robotiques en accès ouvert constitue en elle-même une contribution notable dans un secteur où la pénurie de données reste un verrou majeur. Aucun déploiement industriel n'est mentionné : ERVLA est à ce stade un résultat de recherche académique, avec des validations sur robot réel mais sans pipeline de production annoncé.

UELa publication en accès ouvert de 2 592 heures de données robotiques et des checkpoints ERVLA offre une ressource directement exploitable par les équipes de recherche françaises et européennes travaillant sur les politiques VLA généralisables.

RechercheOpinion
1 source
VLESA : un agent de sécurité incarnée vision-langage pour la surveillance des activités humaines
587arXiv cs.RO 

VLESA : un agent de sécurité incarnée vision-langage pour la surveillance des activités humaines

Des chercheurs ont publié sur arXiv (preprint 2606.03954, juin 2026) VLESA, un cadre de supervision de la sécurité humaine fondé sur la vision et le langage. Le système analyse des flux vidéo égocentrés (caméra portée à la première personne) pour prédire en temps réel si une action humaine imminente présente un risque, et déclenche une intervention avant que le danger se matérialise. Le coeur technique repose sur deux composants : un agent de prédiction d'intention-action qui infère conjointement l'objectif de l'opérateur et ses prochains gestes à partir de la vidéo, et un Q-filter de sécurité conditionné par l'objectif, entraîné via GRPO (Group Relative Policy Optimization). Ce filtre évalue la dangerosité d'une action en fonction du but inféré, sans nécessiter de ré-entraînement. Sur le benchmark ASIMOV-2.0, VLESA surpasse les baselines en précision d'intervention à la frame exacte, et le Q-filter GRPO améliore la sécurité des actions de plus de 41 points de pourcentage via un décodage contraint conditionné à l'intention. Le code est disponible publiquement sur GitHub. L'apport conceptuel central est la notion de "sécurité dépendante de l'intention" : une action physiquement identique peut être sûre ou dangereuse selon le contexte opérationnel. Saisir un couteau pour couper des légumes n'est pas la même chose que le saisir après un conflit verbal. Les approches classiques de détection d'anomalies ignorent cette ambiguïté et génèrent trop de faux positifs pour être industrialisables. En décomposant le problème en inférence d'intention puis évaluation de risque conditionnel, VLESA propose une architecture plus proche des besoins réels de la cobotique, des environnements de soin à domicile assisté, ou de la surveillance d'opérateurs en milieu industriel. Le gain de 41 points sur ASIMOV-2.0 est significatif si les conditions du benchmark reflètent la diversité du terrain, ce que la nature sélective d'un preprint ne permet pas encore de confirmer. Ce travail s'inscrit dans un champ en forte expansion, celui de la sécurité des systèmes embarqués et des agents physiques autonomes, porté par la montée des VLA (Vision-Language-Action models) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'approche VLESA se distingue en ciblant non pas le robot mais l'humain en interaction avec son environnement, positionnement plus proche des travaux en human activity recognition que de la robotique pure. Les acteurs établis du monitoring de sécurité industrielle (Pilz, Sick, Keyence côté capteurs) n'ont pas encore intégré de couche sémantique de ce niveau. Aucun déploiement pilote n'est annoncé dans l'article : il s'agit d'une contribution académique, avec dataset et code partagés, dont la trajectoire vers l'industrialisation dépendra de la robustesse des résultats sur des scénarios hors benchmark et de validations en conditions réelles.

UELes acteurs européens de la sécurité industrielle (Pilz, Sick) n'ayant pas encore intégré de couche sémantique de ce niveau, VLESA ouvre une piste concrète pour la cobotique et le monitoring d'opérateurs, applicable dans le cadre de mise en conformité avec la directive machines révisée.

RecherchePaper
1 source
Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable
588arXiv cs.RO 

Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable

Des chercheurs ont soumis sur arXiv (arXiv:2606.03385) le framework GTP-FA, acronyme de Grasp-Then-Plan with Failure Attribution, une architecture en deux étapes pour la manipulation robotique de précision. L'approche découple explicitement la phase de saisie d'objets du planning de trajectoire: le système génère d'abord des candidats de prise en main, sélectionne le plus adapté à la tâche, puis conditionne la planification aval sur ce choix. Quand une séquence de manipulation échoue, un modèle d'attribution des échecs analyse la trajectoire défaillante pour isoler la source du problème, grasping ou planning, et se généralise à des prises non vues lors de l'entraînement. Sur cette base diagnostique, chaque module est optimisé: côté grasping, des priors orientés tâche et des pénalités de risque filtrent les prises instables ou incompatibles avec la tâche; côté planning, une collecte de données ciblée sur les états initiaux à haut risque affine le module de trajectoire. Les résultats sont validés en simulation et sur robot réel, bien que l'abstract ne détaille pas les chiffres précis de taux de succès obtenus. Ce que GTP-FA résout est un angle mort persistant: dans les pipelines grasping-planning couplés, l'origine d'un échec reste opaque, ce qui transforme l'optimisation en tâtonnement coûteux et peu reproductible. Le framework s'applique indifféremment aux paradigmes d'apprentissage par renforcement (RL), par imitation (IL), par diffusion policy, et aux architectures VLA (Vision-Language-Action), et améliore les taux de succès globaux dans chacun selon les auteurs. C'est une contribution méthodologique transversale: elle ne remplace pas les architectures VLA émergentes mais s'y superpose, ce qui la rend potentiellement intégrable dans des systèmes existants sans refonte architecturale. La manipulation robotique de précision est aujourd'hui l'un des principaux fossés entre les démonstrations en laboratoire et le déploiement industriel. Des acteurs comme Physical Intelligence (modèle pi-0), Google DeepMind (GR00T N2) ou Figure AI investissent massivement dans des architectures VLA généralisables, mais la fiabilité de la prise en main dans des conditions non contrôlées reste un verrou documenté. GTP-FA adresse ce verrou depuis la recherche académique, sans affiliation commerciale identifiée dans ce préprint. Les suites naturelles incluront la validation sur objets déformables ou transparents, catégories où le grasping échoue le plus fréquemment, et l'intégration dans des tâches à horizon long en environnements peu structurés.

UEContribution méthodologique académique publiquement accessible aux équipes de recherche robotique européennes, sans impact institutionnel ou industriel direct identifié en France/UE.

RecherchePaper
1 source
RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde
589arXiv cs.RO 

RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde

Une équipe de recherche a publié RynnVLA-002, un modèle unifié combinant Vision-Language-Action (VLA) et world model, présenté en preprint sur arXiv (2511.17502v3). L'architecture couple deux composantes interdépendantes : le world model prédit des états visuels futurs à partir des actions et observations courantes, apprenant ainsi la physique implicite de l'environnement ; le modèle VLA génère en retour les actions suivantes depuis des observations visuelles brutes. Ce couplage bidirectionnel vise un apprentissage conjoint de la dynamique environnementale et de la planification motrice. Sur le benchmark de simulation LIBERO, RynnVLA-002 atteint 97,4 % de taux de succès sans pré-entraînement. En conditions réelles, dans des expériences conduites avec le framework open-source LeRobot de Hugging Face, l'intégration du world model améliore le taux de succès global de 50 % par rapport au modèle VLA seul. L'intérêt de cette architecture tient dans la mutualisation de deux paradigmes historiquement distincts. Les world models ont longtemps servi d'outils de planification offline ou de data augmentation, tandis que les VLA visent la génération d'actions en temps réel depuis des observations brutes. RynnVLA-002 cherche à démontrer leur renforcement mutuel : le world model corrige la génération d'actions en anticipant leurs conséquences visuelles, ce qui réduit la dépendance aux données d'entraînement dans des zones peu couvertes. Le gain de 50 % en real-world est significatif, mais le preprint reste peu disert sur la diversité des tâches testées et les conditions expérimentales précises, ce qui rend une évaluation indépendante prématurée. Pour les équipes confrontées au sim-to-real gap, l'idée d'ancrer une VLA dans une représentation physique anticipatrice constitue néanmoins une direction crédible. Les VLA sont devenus un terrain de compétition dense depuis Pi-0 de Physical Intelligence, OpenVLA, et les approches RoboVLMs, qui exploitent des backbones vision-langage pré-entraînés pour produire des politiques généralisables. Côté world models, des travaux comme Dreamer (DeepMind) et UniSim ont popularisé la prédiction vidéo comme supervision indirecte pour la robotique. RynnVLA-002 cherche à unifier explicitement ces deux lignes, se différenciant ainsi des architectures à modules séparés. À sa troisième version de preprint, le travail est en itération active, mais aucune affiliation institutionnelle claire ni partenariat industriel n'est mentionné dans l'abstract, ce qui limite l'évaluation de sa maturité réelle. Les prochaines étapes logiques incluront une validation sur des benchmarks plus exigeants comme CALVIN ou RLBench, et idéalement une publication des poids du modèle pour permettre une réplication indépendante.

UEL'utilisation de LeRobot (framework open-source de HuggingFace, entreprise française) comme cadre expérimental de référence valide l'écosystème robotique open-source porté par un acteur français, sans impact direct sur le marché ou la R&D en France/UE.

RechercheOpinion
1 source
StressDream : piloter des modèles du monde vidéo pour évaluer et améliorer la robustesse des politiques
590arXiv cs.RO 

StressDream : piloter des modèles du monde vidéo pour évaluer et améliorer la robustesse des politiques

StressDream est une méthode proposée par des chercheurs dans un preprint arXiv (2606.00267, juin 2026) pour orienter les modèles du monde vidéo (video world models, WMs) vers des scénarios rares mais plausibles lors de l'évaluation et de l'amélioration de politiques robotiques. Le principe : au lieu de tirer des millions d'échantillons depuis un WM diffusion pour espérer tomber sur un cas d'échec critique, StressDream optimise directement le bruit initial du processus de diffusion à l'inférence, guidé par une consigne textuelle (par exemple "l'agent rate la tâche"). Deux objectifs complémentaires structurent l'optimisation : un objectif sémantique, où un modèle vision-langage (VLM) fournit des gradients en raisonnant sur la vidéo générée, et un objectif de plausibilité qui empêche le bruit optimisé de dériver hors distribution (OOD), évitant ainsi des imaginations irréalistes. La méthode est validée sur des benchmarks en conduite autonome et en manipulation robotique. L'enjeu est de taille pour les équipes de validation pré-déploiement. L'évaluation nominale des politiques, c'est-à-dire simuler ce qui se passe en moyenne, rate systématiquement les événements à fort impact mais faible probabilité : collision, lâcher d'objet, blocage de bras. Or ces cas sont précisément ceux qui bloquent la mise en production. StressDream propose de les cibler chirurgicalement sans explosion combinatoire du budget de simulation. C'est une forme de stress-test automatisé, piloté par langage naturel, applicable à n'importe quel WM diffusion existant, ce qui en fait un outil d'intégration potentiellement direct dans les pipelines d'évaluation de politique comme ceux utilisés par des laboratoires développant des VLAs (Vision-Language-Action models). Les video world models ont connu une montée en puissance rapide depuis 2023, notamment avec des travaux comme DIAMOND (Micheli et al.), UniSim ou DreamerV3, portés en partie par leur utilisation dans la robotique humanoïde et la conduite autonome. La difficulté de trouver des échecs plausibles sans déploiement réel est un frein reconnu à la certification de politiques autonomes. StressDream s'inscrit dans une dynamique plus large visant à combler le gap entre simulation et réel en enrichissant la diversité des scénarios simulés, sans pour autant halluciner des situations impossibles. Les auteurs publient des résultats vidéo sur junwon.me/StressDream, mais aucune intégration industrielle ni partenariat de déploiement n'est annoncé à ce stade.

RechercheOpinion
1 source
Sécurité permissive par inférence vérifiable : filtres neuronaux en espace de croyance pour la robotique interactive
591arXiv cs.RO 

Sécurité permissive par inférence vérifiable : filtres neuronaux en espace de croyance pour la robotique interactive

Des chercheurs ont déposé sur arXiv (arXiv:2606.02562v1) une méthode algorithmique visant à certifier formellement la sécurité des robots autonomes en interaction avec des humains. Le coeur du travail porte sur le "belief-space safety filter" (BeliefSF), un filtre de sécurité modulaire qui, contrairement aux approches classiques cantonnées à l'espace physique, raisonne simultanément sur la position du robot et sur ses croyances en temps réel concernant l'humain : ses préférences, ses objectifs, sa compétence et sa disposition à coopérer. Pour certifier cette architecture, les auteurs appliquent la prédiction conforme (conformal prediction), une technique statistique qui produit des garanties de sécurité à haute probabilité tout en tenant explicitement compte des erreurs d'inférence et d'approximation neuronale. La validation est réalisée sur un benchmark simulé d'interaction humain-véhicule, où le filtre certifié s'avère significativement moins conservatif qu'une baseline conformal prediction standard. L'enjeu industriel est direct : dans les scénarios de cobotique, de robots de livraison ou de véhicules autonomes partageant l'espace avec des piétons, les filtres de sécurité trop conservatifs dégradent l'efficacité opérationnelle et rendent le déploiement économiquement non viable. La difficulté jusqu'ici résidait dans le "curse of dimensionality" des espaces de croyance : plus le robot modélise finement l'incertitude humaine, plus l'espace d'état explose, rendant les garanties formelles quasi impossibles sans approximation neuronale coûteuse en fiabilité. En focalisant la vérification sur les régions où l'inférence est statistiquement fiable, les auteurs contournent cette contrainte sans alourdir la complexité d'échantillonnage, ce qui constitue une avancée méthodologique notable pour les intégrateurs cherchant des certifications de sécurité fonctionnelle (ISO 13849, IEC 62061). Le BeliefSF a été introduit comme concept dans des travaux antérieurs, mais sans garanties formelles exploitables, ce qui en limitait la portée au stade de la démonstration académique. Ce preprint comble ce manque en s'appuyant sur la prédiction conforme, une technique qui gagne rapidement du terrain dans la vérification de systèmes apprenants, notamment après des travaux récents de groupes comme MIT CSAIL et Stanford sur les Control Barrier Functions (CBF) à base de données. La prochaine étape critique reste la validation sur hardware réel, en dehors de la simulation, pour évaluer si les garanties tiennent face aux bruits capteurs et aux latences d'inférence propres au déploiement physique. Aucun partenaire industriel ni calendrier de transfert n'est mentionné dans ce preprint.

UECette méthode de certification formelle pourrait faciliter la conformité aux normes européennes de sécurité fonctionnelle (ISO 13849, IEC 62061) pour les intégrateurs de cobots et robots autonomes en Europe, sous réserve de validation hardware réelle.

RechercheOpinion
1 source
Des démonstrations aux récompenses : optimisation de prompts au moment du test pour les modèles de récompense VLM
592arXiv cs.RO 

Des démonstrations aux récompenses : optimisation de prompts au moment du test pour les modèles de récompense VLM

Des chercheurs ont publié sur arXiv (arXiv:2606.00083) une méthode baptisée Demo2Reward, qui adapte automatiquement les instructions textuelles d'un modèle de récompense basé sur un VLM (Vision-Language Model) à partir d'un petit nombre de trajectoires expertes, typiquement 3 à 10 démonstrations. L'objectif est de réduire les faux positifs que produisent les VLMs utilisés tel quel comme évaluateurs de politique en apprentissage par renforcement. La technique opère en phase de test (test-time adaptation), sans ré-entraînement du modèle ni ressources de calcul supplémentaires pendant l'apprentissage de la politique. Les auteurs démontrent que Demo2Reward surpasse les approches zero-shot et few-shot existantes sur plusieurs tâches robotiques simulées, et valident le transfert vers un scénario d'apprentissage en environnement réel. La conception de fonctions de récompense reste l'un des principaux goulots d'étranglement en robotique par renforcement. Les approches manuelles exigent une expertise domaine significative et ne passent pas à l'échelle sur des tâches variées. L'utilisation des VLMs comme juges zero-shot est prometteuse mais fragile: un faux positif, c'est-à-dire le modèle qui valide une trajectoire incorrecte, corrompt l'entraînement de façon cumulative. Demo2Reward résout ce problème pragmatiquement en exploitant les quelques démonstrations déjà collectées pour amorcer l'apprentissage, afin de calibrer automatiquement le prompt du VLM, sans annotation supplémentaire. Ce résultat suggère que le fossé entre ingénierie de récompense manuelle et supervision automatique via VLM peut être comblé à faible coût computationnel, argument concret pour les équipes cherchant à réduire l'intervention humaine dans leurs pipelines RL. L'exploitation des VLMs comme fonctions de récompense est un axe actif depuis 2023, porté notamment par EUREKA (NVIDIA, qui utilise GPT-4 pour générer du code de récompense) et des approches basées sur CLIP comme évaluateurs de trajectoires. Demo2Reward se différencie par son focus sur la correction du prompt plutôt que sur la génération de code, et par l'utilisation explicite de démonstrations comme signal de calibration, ce qui le rend directement exploitable dans les pipelines existants. Du côté des acteurs concurrents, Google DeepMind, Physical Intelligence avec pi0, et plusieurs laboratoires académiques explorent des pistes proches pour automatiser la supervision en robotique. La contribution reste un preprint arXiv sans déploiement industriel ni partenariat commercial annoncé. Les étapes naturelles seraient une validation sur des manipulateurs en environnement industriel non structuré ou sur des plateformes humanoïdes, là où les récompenses manuelles sont les plus coûteuses à concevoir.

RechercheOpinion
1 source
Cohérence des croyances entre modèles fondation et perception géométrique dans les cartes robotiques persistantes
593arXiv cs.RO 

Cohérence des croyances entre modèles fondation et perception géométrique dans les cartes robotiques persistantes

Des chercheurs ont publié début juin 2026 un article (arXiv:2606.00318) proposant un opérateur de mise à jour pour les cartes persistantes de robots autonomes, conçu pour gérer la contradiction entre deux canaux de perception : la pile géométrique classique à fiabilité bien caractérisée, et les modèles de fondation (VLM), qui produisent des assertions sémantiques sans calibration par classe d'objet. Les systèmes actuels intègrent les deux canaux en traitant le VLM comme un simple votant bayésien, sans mécanisme pour détecter les contradictions momentanées entre sources. La solution proposée repose sur deux mécanismes coopérants : une "commit gate" calibrée par classe, et une fenêtre de rejet des conflits qui refuse d'intégrer les assertions du VLM lorsqu'elles contredisent simultanément la perception géométrique. Évalué sur KITTI-360 (scènes extérieures) et ScanNet (scènes intérieures) avec Mask2Former comme segmenteur sémantique temps réel, l'opérateur atteint 99,7 % de précision de commit sur la classe "voiture" contre 43,9 % pour un opérateur sans gestion des conflits, et un IoU moyen par classe de 0,522 contre 0,180. Ces résultats ont une implication directe pour les intégrateurs de systèmes robotiques : la fusion naïve des VLM dans une carte persistante génère une contamination sémantique massive, même sur des catégories aussi communes qu'une voiture. Le problème n'est pas la puissance des modèles de fondation, mais leur absence de calibration par rapport au contexte géométrique local. Ce mécanisme de cohérence explicite, appliqué sans modifier le modèle sous-jacent, suffit à réduire drastiquement le taux de fausses assertions engagées dans la carte. Ce résultat contredit l'hypothèse selon laquelle les VLM actuels seraient suffisamment robustes pour servir directement de source de vérité sémantique dans des cartographies à long terme. La question s'inscrit dans une tension que traverse le domaine depuis l'essor des modèles multimodaux : comment combiner des perceptions hétérogènes à fiabilité inégale sans dégrader la cohérence de la carte, problème analogue à la fusion lidar-caméra mais avec une asymétrie de calibration bien plus marquée. Des approches comme SemanticFusion (McCormac et al., 2017) posaient déjà la question de la cartographie sémantique bayésienne sans disposer de VLM aussi expressifs. L'architecture proposée est explicitement agnostique au modèle de fondation utilisé, l'article revendiquant l'invariance par substitution, ce qui ouvre la voie à des déploiements avec tout VLM futur. La validation sur des plateformes physiques en navigation longue durée reste l'étape naturelle suivante, contexte où les erreurs de cartographie se cumulent et où la précision de commit devient critique pour la sûreté opérationnelle.

RechercheOpinion
1 source
Construction d'un jeu de données robotique modélisée comme un processus de build par artefacts
594arXiv cs.RO 

Construction d'un jeu de données robotique modélisée comme un processus de build par artefacts

Des chercheurs de l'Université de la Bundeswehr Munich (UniBwTAS) ont publié Bagzel, une extension open source pour le système de build Bazel qui modélise la construction de jeux de données robotiques comme un processus basé sur des artefacts et un graphe de dépendances. Présenté sur arXiv (référence 2606.00162), l'outil convertit des enregistrements ROS bag en jeux de données prêts pour l'entraînement ML, avec export natif au format nuScenes. Les auteurs évaluent Bagzel et une variante Bagzel-xattr (gestion des digests côté serveur) contre un pipeline séquentiel de référence rosbag2nuscenes, sur des volumes de 5,1 à 20,4 Go. En mode warm build (recalcul sur données déjà traitées), Bagzel atteint une accélération jusqu'à 386,26x par rapport au baseline séquentiel ; en mode incrémental (après modification partielle du dataset), le gain est de 7,21x. Bagzel-xattr réduit en outre le temps d'exécution de 5,9 % en moyenne par rapport à Bagzel standard. Le goulet d'étranglement que cible Bagzel est bien connu des équipes de robotique appliquée : les scripts séquentiels ad hoc imposent de recalculer l'intégralité du dataset à chaque modification, allongeant les cycles d'itération de plusieurs heures. En appliquant les principes de reproductibilité et de build incrémental du génie logiciel au traitement de données capteurs multimodales, Bagzel rend viable l'exploration rapide de paramètres de preprocessing, le débogage de pipelines de perception, et la maintenance de datasets versionnés de manière déterministe. Pour un intégrateur ou une équipe de recherche manipulant régulièrement des dizaines de gigaoctets de données capteurs, réduire le temps de rebuild d'un facteur plusieurs centaines change concrètement le rythme d'expérimentation. Le format ROS bag reste le standard de facto pour l'enregistrement de données capteurs (lidar, caméra, IMU) en conditions réelles, tant en recherche qu'en industrie, mais sa conversion vers des formats ML exploitables est généralement assurée par des scripts maison non maintenables. Bagzel s'inscrit dans une tendance de professionnalisation du MLOps en robotique, un espace où des outils comme DVC ou Foxglove Studio couvrent des parties du problème sans offrir la cohérence d'un système de build unifié. Le laboratoire TAS de l'UniBwM est actif sur les thématiques de conduite autonome et de perception embarquée. Les prochaines étapes naturelles pour Bagzel concernent l'intégration avec des pipelines d'entraînement continu et l'extension à d'autres formats standardisés comme le Waymo Open Dataset.

UEL'outil est développé par l'Université de la Bundeswehr Munich (Allemagne/UE), renforçant l'outillage MLOps open source européen pour les équipes de robotique et de conduite autonome manipulant des données capteurs ROS.

InfrastructureOpinion
1 source
Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage
595arXiv cs.RO 

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage

Des chercheurs ont publié le 31 mai 2026 sur arXiv un article (référence 2606.00095) décrivant HSGM, une carte hiérarchique sémantique-géométrique conçue pour améliorer la navigation d'agents robotiques guidés par instructions en langage naturel. Le système repose sur une représentation top-down multi-couches organisée en trois niveaux : un niveau géométrique qui encode les zones navigables et les obstacles, un niveau sémantique qui modélise les objets et leurs relations spatiales, et un niveau décisionnel qui supporte le raisonnement de haut niveau pour la sélection des objectifs. Durant la navigation, le modèle de vision-langage (VLM) joue le rôle de planificateur sémantique : il interprète la carte HSGM pour sélectionner des points de passage géométriquement cohérents, tandis qu'un algorithme de planification de trajectoire classique prend en charge les déplacements locaux sans collision. Pour les instructions longues, le système les décompose en sous-tâches afin d'éviter l'oubli de progression ou les hallucinations sur des horizons temporels étendus. Les expériences sur les benchmarks R2R-CE et RxR-CE montrent que le framework en mode zero-shot atteint des performances à l'état de l'art et surpasse même plusieurs méthodes supervisées. Ce résultat est notable parce qu'il attaque un verrou bien identifié de la robotique embodied : les VLMs comprennent le langage et l'image 2D avec compétence, mais peinent à raisonner en 3D et à modéliser la causalité entre actions et transitions spatiales. En convertissant la géométrie 3D en une représentation structurée lisible par les VLMs, HSGM découple proprement le raisonnement sémantique de l'exécution motrice, une architecture qui pourrait simplifier l'intégration de LLMs généralistes dans des chaînes de contrôle robotique existantes sans retraining complet. La performance zero-shot supérieure à certaines méthodes supervisées suggère une généralisation robuste à des environnements inconnus, ce qui est directement pertinent pour des déploiements en entrepôt, bâtiment tertiaire ou environnement hospitalier où l'annotation préalable est coûteuse. Ce travail s'inscrit dans un champ de recherche actif sur la navigation embodied guidée par langage, avec des benchmarks de référence établis notamment par Anderson et al. (R2R, 2018) et leurs extensions continues (R2R-CE pour les environnements continus, RxR-CE multilingue). La tendance de fond est à l'utilisation de VLMs pré-entraînés comme raisonneurs généraux plutôt que de former des architectures dédiées depuis zéro, une approche défendue aussi par des équipes comme CMU, Oxford ou Google DeepMind sur des problèmes adjacents. La prochaine étape naturelle pour ce type de système est l'intégration sur des plateformes physiques réelles, domaine où le sim-to-real gap reste un défi ouvert que les benchmarks en simulation ne mesurent pas. Le code est disponible publiquement sur GitHub (Teacher-Tom/HSGM\_public), ce qui facilite la reproduction et l'adaptation par des équipes tierces.

IA physiqueOpinion
1 source
Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close
596arXiv cs.RO 

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

Des chercheurs ont publié sur arXiv (réf. 2606.01238) une approche baptisée Closed-Form Diffusion Policies (CFDP), qui supprime entièrement la phase d'entraînement offline des politiques de diffusion pour l'apprentissage par imitation. Plutôt que d'entraîner un réseau de neurones pendant plusieurs heures, CFDP calcule analytiquement la fonction score directement à partir du jeu de démonstrations, en forme fermée. Résultat : une politique opérationnelle en quelques millisecondes, déployée et testée en temps réel sur un CPU mobile standard, sans GPU dédié. L'enjeu industriel est direct : dans le cycle données → politique → déploiement → nouvelles données, la phase d'entraînement constitue aujourd'hui le principal goulot d'étranglement. Pouvoir générer une politique compétitive à partir d'un dataset de démonstrations sans entraînement réduit ce délai de plusieurs heures à quelques millisecondes. Sur les benchmarks d'imitation learning testés, CFDP se montre compétitif face aux baselines neuronales classiques, qui nécessitent elles des heures de calcul. Cela remet en cause l'hypothèse selon laquelle la puissance expressive des politiques de diffusion est indissociable de leur coût computationnel. Pour les intégrateurs robotiques ou les équipes de recherche appliquée qui itèrent fréquemment sur leurs démos, ce type de pipeline sans entraînement change concrètement le rythme de développement. Les politiques de diffusion ont émergé comme référence en manipulation robotique ces deux dernières années, avec des travaux notables comme Diffusion Policy (Chi et al., 2023) ou Pi-0 (Physical Intelligence). Leur principal défaut reconnu reste précisément le coût d'entraînement et la rigidité vis-à-vis de nouvelles démonstrations. CFDP s'inscrit dans ce contexte comme un primitif composable : les auteurs montrent qu'il peut s'interfacer avec des politiques neuronales pré-entraînées existantes, permettant du policy guidance ou de l'augmentation de démonstrations à l'inférence. Aucun déploiement industriel ni partenariat applicatif n'est annoncé à ce stade ; il s'agit d'un preprint académique, dont les résultats restent à valider sur des tâches plus complexes et des robots à dextérité élevée.

RechercheOpinion
1 source
Caspar : un accélérateur CUDA pour la programmation symbolique avec réordonnancement adaptatif
597arXiv cs.RO 

Caspar : un accélérateur CUDA pour la programmation symbolique avec réordonnancement adaptatif

Une équipe de chercheurs a présenté Caspar (CUDA Accelerator for Symbolic Programming with Adaptive Reordering), une bibliothèque open source qui génère automatiquement des noyaux CUDA optimisés à partir d'expressions symboliques définies en Python, sans que l'utilisateur n'écrive une seule ligne de C++. Construite sur SymForce, elle prend en charge les opérations sur les groupes de Lie et la différentiation symbolique automatique : l'utilisateur formule ses fonctions résiduelles de façon expressive, et Caspar compile l'ensemble en code GPU haute performance. Pour valider l'approche, l'équipe a mesuré les performances sur le jeu de données BAL (Bundle Adjustment in the Large), référence académique standard pour les problèmes d'ajustement de faisceaux en vision 3D, en comparant Caspar aux meilleurs solveurs disponibles. Sur ce benchmark, Caspar s'avère 5 à 20 fois plus rapide que la meilleure alternative existante, avec une empreinte mémoire moindre et une précision comparable. C'est un résultat notable pour toute application robotique reposant sur l'optimisation non linéaire temps réel : SLAM (Simultaneous Localization and Mapping), calibration de capteurs multiples, planification de trajectoires, ou reconstruction 3D embarquée. En abstrayant la complexité CUDA derrière une interface Python symbolique, Caspar abaisse substantiellement la barrière à l'accélération GPU dans les pipelines robotiques industriels, un domaine où la maîtrise du CUDA reste rare et coûteuse. Le résultat illustre qu'une approche de compilation symbolique automatisée peut rivaliser, voire dépasser, des implémentations GPU écrites à la main par des experts. SymForce a été initialement développé chez Skydio, fabricant américain de drones autonomes, avant d'être publié en open source. Dans l'espace des solveurs non linéaires, Caspar entre en concurrence directe avec Ceres Solver (Google), g2o et GTSAM, qui dominent les applications de SLAM et de robotique. La bibliothèque est disponible librement dans le dépôt GitHub symforce-org/symforce ; la publication présentée ici est un preprint arXiv, non encore évalué par les pairs. Les benchmarks portent exclusivement sur des jeux de données académiques standards : les gains annoncés restent à confirmer sur des cas d'usage robotiques temps réel embarqués, où les contraintes de latence et de mémoire GPU sont sensiblement plus sévères.

RecherchePaper
1 source
ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play
598arXiv cs.RO 

ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play

ELAN4D est un cadre d'entraînement pour modèles Vision-Language-Action (VLA) publié en preprint arXiv en mai 2026, conçu pour améliorer la robustesse aux perturbations hors-distribution. Le problème central: les VLA actuels comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) réagissent directement aux observations sans modéliser les dynamiques futures, ce qui dégrade leurs performances dès que les conditions changent. ELAN4D injecte une supervision 4D basée sur l'embodiment: à partir des seuls états proprioceptifs du robot, il calcule des trajectoires 3D de points clés (articulations, effecteur terminal) via cinématique directe, sans tracker externe ni reconstruction. Un décodeur léger est ajouté pendant l'entraînement puis retiré à l'inférence, laissant l'interface du modèle de base inchangée. Sur les benchmarks LIBERO, LIBERO-Plus, RoboTwin2.0 et sur des tâches en conditions réelles, ELAN4D surpasse les baselines VLA avec des gains substantiels sous perturbations de caméra, d'arrière-plan et de disposition d'objets. L'atout principal est pragmatique: améliorer un VLA existant sans reconstruction 3D coûteuse ni modification du backbone vision-langage pré-entraîné (les gradients sont isolés pour le préserver), et sans overhead à l'inférence. Ce mode plug-and-play permet d'appliquer l'approche à des modèles existants sans repartir d'une architecture neuve, un avantage direct pour les équipes R&D et les intégrateurs. Le gap de généralisation hors-distribution est l'un des freins majeurs à l'industrialisation des politiques de manipulation, et les gains annoncés sur benchmarks sont potentiellement significatifs si confirmés en déploiement réel. Il convient cependant de tempérer: les résultats sont établis en conditions de laboratoire, sans validation à grande échelle en production. La dynamique de recherche sur les VLA robustes s'est intensifiée depuis pi-0 (Physical Intelligence, octobre 2024) et la popularisation des architectures diffusion policy et action chunking transformer, avec plusieurs équipes explorant des approches concurrentes basées sur les world models vidéo ou la reconstruction 3D. ELAN4D est une contribution purement académique: le preprint ne mentionne ni partenaire industriel ni déploiement en cours. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou multi-bras en environnement industriel réel, sans qu'aucune timeline ne soit annoncée.

IA physiqueOpinion
1 source
Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire
599arXiv cs.RO 

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

Une équipe de chercheurs a publié début 2026 sur arXiv (réf. 2602.21013, version révisée) une approche augmentant les modèles VLA (Vision-Language-Action) d'un module de mémorisation textuelle appelé "scratchpad", littéralement un bloc-notes interne. Le principe : pendant l'exécution d'une tâche, le modèle peut écrire des notes intermédiaires en langage naturel, notamment les positions d'objets détectées, l'état d'avancement du plan et les sous-objectifs restants à accomplir. Les auteurs ont évalué cette méthode sur deux benchmarks spécialisés, ClevrSkills et MemoryBench, ainsi que sur une tâche réelle de pick-and-place. Résultat annoncé : le scratchpad améliore significativement la généralisation sur ces tâches, aussi bien pour les architectures récurrentes que non récurrentes. La problématique adressée est structurelle. La majorité des VLA actuels opèrent de façon "sans état" (stateless) : ils traitent chaque instant de décision de manière indépendante, sans mémoire explicite des étapes précédentes. Or de nombreuses tâches de manipulation dextère sont non-markoviennes par nature, ce qui signifie que la décision optimale à l'instant t dépend de ce qui s'est passé avant t. Ce travail défend qu'un mécanisme aussi simple qu'un bloc-notes textuel suffit à combler une partie de ce gap, sans modifier l'architecture fondamentale du modèle. Pour les équipes R&D développant des solutions sur longue séquence (assemblage multi-étapes, tri conditionnel, manipulation avec gestion d'état), c'est une piste légère compatible avec les VLA open-source existants, à condition que les résultats sur ClevrSkills et MemoryBench se confirment dans des environnements industriels réels plus bruités. Les VLA ont connu une accélération majeure depuis 2023 avec RT-2 de Google DeepMind, OpenVLA de UC Berkeley, Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, tous construits sur le principe de la compréhension sémantique à grande échelle transférée au geste robotique. La limite "sans mémoire" était connue des praticiens mais peu formalisée dans la littérature récente. Ce travail s'inscrit dans une tendance visant à doter les VLA de capacités de raisonnement à long horizon, en parallèle d'autres approches comme les architectures récurrentes ou les planificateurs hybrides symbolique-neuraux. Il s'agit d'un preprint académique sans déploiement ni partenariat industriel annoncé, et les benchmarks utilisés (ClevrSkills, MemoryBench) restent des environnements relativement contrôlés dont la transférabilité au terrain est encore à démontrer.

IA physiqueOpinion
1 source
Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)
600arXiv cs.RO 

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs propose RS-CL (Robot State-aware Contrastive Loss), une nouvelle méthode de régularisation des représentations pour les modèles Vision-Language-Action (VLA), publiée dans une pré-publication arXiv (2510.01711v3, troisième révision). Le principe : ajouter une perte contrastive légère qui aligne les représentations internes du modèle sur les états proprioceptifs du robot, en utilisant les distances relatives entre ces états comme supervision douce. Cette composante s'intègre sans modification architecturale aux pipelines VLA existants et vient compléter l'objectif classique de prédiction d'actions. Sur le benchmark RoboCasa-Kitchen, RS-CL porte le meilleur modèle existant à 69,7 % de taux de succès. Sur des tâches réelles de manipulation en conditions difficiles, le gain est de 45,0 % à 58,3 %, soit plus de treize points d'écart. Ce résultat pointe une faiblesse structurelle des VLA actuels : hérités de Visual Language Models pré-entraînés sur des données web, leurs espaces de représentation sont optimisés pour la compréhension visuelle et linguistique, pas pour le contrôle moteur. RS-CL s'attaque directement à ce désalignement sans réentraîner le backbone ni alourdir significativement l'inférence. Pour les intégrateurs et les équipes de recherche appliquée, cela signifie qu'un gain de plus de treize points sur des tâches réelles est accessible via un simple ajout à la fonction de perte, sans refonte du pipeline. C'est une avancée sur la question du sim-to-real et du gap entre benchmarks synthétiques et déploiements effectifs, même si les conditions exactes des évaluations réelles ne sont pas détaillées dans le résumé. Les VLA constituent un axe de recherche actif depuis l'émergence de modèles comme RT-2 (Google DeepMind, 2023), OpenVLA, et plus récemment Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ces modèles partagent la même architecture de base : un VLM pré-entraîné auquel on greffe une tête de prédiction d'actions. RS-CL s'inscrit dans une tendance plus large visant à mieux ancrer ces modèles dans la physique du robot plutôt que dans la sémantique du langage. Les prochaines étapes naturelles seraient de tester la méthode sur d'autres benchmarks standardisés (LIBERO, OpenX-Embodiment) et sur des plateformes humanoïdes où la proprioception joue un rôle encore plus central.

IA physiqueOpinion
1 source