Aller au contenu principal

Dossier arXiv cs.RO — page 8

2027 articles · page 8 sur 41

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Système de capteurs tactiles capacitifs conçu pour les robots compagnons
351arXiv cs.RO RecherchePaper

Système de capteurs tactiles capacitifs conçu pour les robots compagnons

Des chercheurs ont publié sur arXiv (référence 2606.25348) un système de captation tactile à capacitance propre (self-capacitance) conçu pour les robots humanoïdes compagnons. L'architecture repose sur une unique couche de tissu conducteur avec un réseau de fils conducteurs, sans nécessiter de gravure d'électrodes complexe. La faisabilité a été démontrée par la fabrication d'un réseau de 100 points de mesure sur un circuit imprimé flexible (FPC). Les tests menés à différentes fréquences d'échantillonnage établissent que 10 Hz sont insuffisants et ratent les événements transitoires, alors que 100 Hz et 1 000 Hz permettent de distinguer fidèlement quatre types d'interactions : toucher léger, tapotement lent, tapotement rapide et impact. Un classifieur à arbre de décision est exécuté directement sur un FPGA, déchargeant le Raspberry Pi 4 embarqué de toute inférence temps réel, avec une latence minimale et une consommation électrique négligeable. Le système est dimensionné pour le robot HIRO-chan. L'intérêt technique de cette approche réside dans sa réponse directe aux trois verrous classiques de la peau artificielle : la complexité de fabrication (structures multicouches, câblage dense), le coût unitaire et l'incapacité à passer à l'échelle vers une couverture corporelle complète. En déléguant l'inférence au FPGA plutôt qu'au processeur principal, les auteurs résolvent également le problème de charge de calcul qui freine l'intégration tactile dans les plateformes à ressources contraintes. Pour les intégrateurs, la démonstration d'un tableau 100 points sur FPC souple est un signal concret : la fabrication de peaux tactiles denses devient accessible sans processus de photolithographie fin. HIRO-chan est un robot humanoïde compagnon d'origine japonaise, positionné sur les usages de proximité sociale plutôt que sur la manipulation industrielle. L'article reste un preprint académique et ne constitue pas une annonce produit ni un déploiement commercial. Le domaine de la peau artificielle voit plusieurs approches en compétition : capteurs piézoélectriques (BioTac, SynTouch), réseaux de capteurs optiques (MIT CSAIL, Meta FAIR), et systèmes à base de matériaux conducteurs élastiques comme celui proposé ici. La capacitance propre se distingue par sa simplicité de lecture mais reste sensible aux interférences électromagnétiques en environnement industriel. Les prochaines étapes logiques seraient une validation sur couverture corporelle partielle et des tests en conditions d'utilisation réelle avec des utilisateurs humains.

1 source
Planification de mouvement adaptative aux événements avec un modèle vision-langage distillé en situations critiques
352arXiv cs.RO 

Planification de mouvement adaptative aux événements avec un modèle vision-langage distillé en situations critiques

Une équipe de chercheurs a déposé le 25 juin 2026 sur arXiv (réf. 2606.25629) un cadre algorithmique baptisé EAMP (Event-Adaptive Motion Planning) pour la navigation robotique en environnements logistiques à criticité sécurité. Le système repose sur trois modules imbriqués : un déclencheur sémantique configurable par prompt, le PC-SET, qui surveille en continu de courtes séquences vidéo pour détecter des anomalies comportementales ; un modèle vision-langage allégé, le SemNav-VLM, activé uniquement lors d'une anomalie avérée, qui produit des décisions stratégiques discrètes ; et un module de contrôle prédictif sémantique (SMPC) qui traduit ces décisions en reconfiguration des objectifs d'optimisation et des références géométriques du planificateur bas niveau. Le SemNav-VLM est obtenu par distillation d'un grand modèle vision-langage (VLM), guidée par des vérifications de cohérence physique, ce qui préserve le raisonnement de bon sens du modèle parent tout en réduisant drastiquement la latence d'inférence. Les expériences sont menées dans des scénarios logistiques simulés. L'enjeu adressé est structurel pour la robotique mobile industrielle : dans les entrepôts et environnements mixtes, la majorité des collisions ne provient pas d'obstacles statiques inédits, mais du comportement imprévisible d'agents dynamiques, opérateurs humains, chariots élévateurs, autres robots autonomes. Les VLMs, capables d'un raisonnement contextuel robuste sur ces situations, sont jusqu'ici incompatibles avec la boucle de contrôle temps-réel en raison de leur latence computationnelle, qui déstabilise l'exécution physique. EAMP résout cette contradiction par déclenchement conditionnel : le modèle allégé n'est invoqué qu'en présence d'une anomalie, préservant l'efficacité temps-réel sans sacrifier la capacité de raisonnement sémantique. Les résultats indiquent une amélioration significative des marges de sécurité dynamiques par rapport aux baselines existantes. Il s'agit néanmoins d'une démonstration en simulation ; aucune validation sur robot physique réel n'est rapportée dans cette version du preprint. Ce travail s'inscrit dans une tendance de fond de 2025-2026 : intégrer les capacités de raisonnement des grands modèles dans des architectures de planification classiques (MPC, RRT) sans sacrifier la réactivité temps-réel. Les approches concurrentes incluent les modèles VLA (Vision-Language-Action) de bout en bout comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui fusionnent différemment raisonnement et action à l'échelle. La distillation supervisée par contraintes physiques est une direction active pour compresser ces modèles sans dégradation critique. Côté déploiement, des acteurs comme Exotec (France, système Skypod) opèrent déjà dans des entrepôts mixtes humains-robots où la problématique des agents dynamiques est centrale ; un cadre comme EAMP pourrait constituer une brique de planification adaptative pour ces systèmes, à condition d'une validation physique que les auteurs n'ont pas encore fournie.

UEExotec (France, système Skypod) est explicitement cité comme cas d'usage potentiel pour ce cadre de planification adaptative, mais l'absence de validation sur robot physique réel reporte tout impact industriel concret.

RecherchePaper
1 source
Emcar : contrôleur incarné pour l'animation de robots
353arXiv cs.RO 

Emcar : contrôleur incarné pour l'animation de robots

Une équipe de chercheurs a publié le 25 juin 2026 sur arXiv (2506.26008) la description d'EMCAR, un outil logiciel de programmation de mouvements robotiques basé sur des métaphores artistiques comme la marionnette et le dessin. La plateforme, présentée dans le cadre de la recherche en interaction humain-robot (HRI), adopte une approche no-code : aucune ligne de code n'est requise pour concevoir, tester et déployer des comportements sur des robots collaboratifs. L'article ne précise pas de plateformes matérielles cibles ni de métriques de performance (temps de programmation, taux d'erreur), ce qui limite l'évaluation des gains réels. L'enjeu central est celui de l'accessibilité : la programmation de cobots reste aujourd'hui l'apanage d'ingénieurs formés en robotique ou en ROS, ce qui freine le déploiement dans des environnements non-industriels (médiation culturelle, thérapie, spectacle vivant). En ouvrant l'outil à des artistes et à des profils sans bagage technique, EMCAR vise à élargir le spectre des cas d'usage HRI et à alimenter la recherche participative. Si la démonstration tient à l'échelle, cela confirmerait que l'abstraction par le geste et le mouvement peut substituer efficacement les interfaces de programmation classiques pour des tâches expressives. Ce type d'approche s'inscrit dans un courant établi : Choreograph de SoftBank Robotics pour Pepper et NAO, les interfaces de programmation par démonstration de Universal Robots, ou encore les environnements visuels Scratch-for-robots développés en milieu académique. Des acteurs français comme Enchanted Tools (Miroki) explorent également des paradigmes d'interaction expressifs pour les cobots. La suite dépendra de l'ouverture du code et des validations expérimentales avec des utilisateurs non-techniques, non encore publiées.

UESi EMCAR publie son code en open-source avec validation expérimentale, des acteurs français comme Enchanted Tools (Miroki) pourraient accélérer leurs interfaces de programmation expressive pour cobots dans des secteurs non-industriels (médiation culturelle, thérapie).

RecherchePaper
1 source
SurveilNav : navigation collaborative vers des objets cibles avec robot et système de surveillance
354arXiv cs.RO 

SurveilNav : navigation collaborative vers des objets cibles avec robot et système de surveillance

Une équipe de chercheurs propose SurveilNav, un système de navigation collaborative couplant un robot mobile à un réseau de caméras de surveillance fixes pour localiser des objets dans des espaces intérieurs de grande surface. Présenté sous forme de preprint arXiv (arXiv:2606.25119, juin 2026), le travail introduit un jeu de données inédit construit sur le simulateur Habitat-Sim, comportant 206 caméras réparties sur 74 étages. Le framework s'articule autour de quatre composants : un ordonnanceur de caméras actives, une cartographie conjointe 2D/3D, une estimation de valeur fondée sur un VLM (Vision-Language Model), et une vérification collaborative de la cible détectée. Évalué sur le benchmark HM3D (Habitat-Matterport 3D), SurveilNav atteint des résultats état de l'art en efficacité d'exploration et en taux de succès de navigation par rapport aux méthodes mono-agent existantes. L'intérêt technique tient à la complémentarité des deux types de perception : un robot mobile dispose d'une vue dynamique locale mais limitée par sa portée et ses angles morts, tandis qu'un réseau de caméras fixes offre une couverture globale statique, incomplète par construction. SurveilNav fusionne ces deux sources en temps réel via cartographie 3D partagée et estimation sémantique par VLM, permettant de prioriser les zones à explorer sans balayage exhaustif. Pour les intégrateurs industriels opérant dans des entrepôts ou usines déjà équipés d'infrastructure vidéo, la proposition est directement pertinente : elle exploite un actif existant (le réseau CCTV) pour augmenter les capacités des AMR sans modifier le matériel. L'usage du VLM pour l'estimation de valeur sémantique reste néanmoins un point à surveiller, les auteurs ne précisant pas la latence d'inférence ni sa compatibilité avec une navigation temps réel en conditions réelles. Le champ de l'Object Goal Navigation (OGN) s'est principalement construit sur des architectures mono-agent et des environnements simulés (Habitat, AI2-THOR, Gibson). L'extension vers un réseau de capteurs fixes hétérogènes représente une direction logique vers des scénarios industriels réels, où bâtiments tertiaires et usines sont massivement équipés de systèmes CCTV. Les travaux concurrents sur la navigation multi-robot, comme MultiON ou CoNav, restent centrés sur la coopération entre agents mobiles homogènes et ne tirent pas parti de l'infrastructure fixe existante. Aucun acteur européen n'est impliqué selon le résumé disponible. Les débouchés envisagés, dont la recherche en zone sinistrée (search-and-rescue) et la domotique, restent au stade de la validation en simulation : aucun déploiement terrain ni partenariat industriel n'est annoncé.

RecherchePaper
1 source
RoBoSR : représentations structurées de scènes pour le raisonnement des robots incarnés
355arXiv cs.RO 

RoBoSR : représentations structurées de scènes pour le raisonnement des robots incarnés

Une équipe de chercheurs a publié fin juin 2026 un preprint arXiv (2606.24338) présentant RoBoSR, un cadre de représentation intermédiaire structurée pour la manipulation robotique en monde ouvert. L'approche modélise chaque tâche comme une séquence de transitions d'états sur des graphes de scène orientés objet, sémantiquement ancrés. Concrètement, le système segmente l'environnement perçu en entités discrètes (objets, relations spatiales, états) avant de raisonner sur les préconditions et effets de chaque sous-tâche. Pour entraîner ce raisonnement, les auteurs publient simultanément Manip-Cognition-1.6M, un jeu de données de 1,6 million d'exemples couvrant la compréhension de scène, l'interprétation d'instructions et la planification de sous-tâches sur des manipulations variées. Sur plusieurs benchmarks et démonstrations réelles, RoBoSR revendique des performances supérieures aux méthodes par prompting et aux pipelines TAMP classiques (Task and Motion Planning), notamment en généralisation zéro-shot et sur des tâches longue-portée. Ce que pointe cette publication, c'est l'une des frictions centrales des architectures VLA (Vision-Language-Action) actuelles : leur biais séquentiel issu des données de démonstration les rend fragiles dès que la tâche sort du scénario d'entraînement. En intercalant une représentation graphique explicite entre la perception brute et l'action, RoBoSR tente de rendre le raisonnement causal modulaire et réutilisable, ce qui améliore théoriquement la robustesse aux variations d'environnement. Pour un intégrateur industriel, c'est le problème du "demo-to-reality gap" qui est visé : un robot qui comprend les dépendances entre sous-tâches peut récupérer d'un échec partiel sans replanifier depuis zéro. Le dataset Manip-Cognition-1.6M, s'il est effectivement rendu public, constitue également une ressource d'entraînement non négligeable pour la communauté. RoBoSR s'inscrit dans une vague de recherches cherchant à dépasser les limites des modèles d'imitation pure, dans un secteur où Physical Intelligence (pi0), Google DeepMind (GR00T N2) et Figure AI travaillent sur des architectures hybrides mêlant apprentissage et planification symbolique. Le papier reste un preprint non évalué par les pairs, et les résultats en "démonstrations réelles" ne sont pas détaillés quantitativement dans le résumé disponible. Les prochaines étapes naturelles seraient une soumission en conférence (CoRL, ICRA) et la mise à disposition publique du dataset annoncé.

IA physiquePaper
1 source
ArtiTwinSplat : reconstruction de jumeaux numériques interactifs par Gaussian Splatting à partir de vidéos RGB-D
356arXiv cs.RO 

ArtiTwinSplat : reconstruction de jumeaux numériques interactifs par Gaussian Splatting à partir de vidéos RGB-D

ArtiTwinSplat, présenté dans un preprint arXiv (arXiv:2606.24628) daté du 30 juin 2026, est un framework de reconstruction automatique de jumeaux numériques articulés depuis des vidéos RGB-D, sans modèles CAO, assets de simulation ni annotations manuelles. La méthode combine le 3D Gaussian Splatting (3DGS), une représentation 3D par primitives gaussiennes reconnue pour sa fidélité géométrique et son rendu temps réel, avec un pipeline non supervisé de détection d'articulations qui infère la structure en parties et la cinématique des joints (axes de rotation, translations) depuis le mouvement observé seul. Les jumeaux numériques produits supportent rendu interactif, contrôle de point de vue et manipulation temps réel, et sont conçus pour être directement consommables par des systèmes de planification et d'apprentissage robotiques en aval. L'enjeu est direct pour les intégrateurs : modéliser des objets articulés (portes, tiroirs, outils industriels) reste un goulot d'étranglement coûteux dans le déploiement de systèmes robotiques. Les approches classiques exigent des modèles CAO fournis par le fabricant ou des sessions de capture très structurées en environnement contrôlé. Un pipeline vidéo RGB-D non supervisé réduit drastiquement ce coût d'onboarding. En opérant sur des observations réelles plutôt que des données synthétiques, ArtiTwinSplat vise à réduire le sim-to-real gap dans les pipelines de manipulation, une promesse importante si elle se confirme à l'évaluation sur des scènes industrielles variées. La méthode s'inscrit dans la vague post-2023 du 3DGS, décliné en variantes articulées comme PARIS (CMU/MIT, 2023) ou REACTO. La revendication d'ArtiTwinSplat est d'être le premier pipeline entièrement non supervisé opérant sur vidéos réelles dans ce registre. Le preprint ne mentionne ni affiliation institutionnelle explicite, ni benchmark chiffré sur des datasets standards comme PartNet-Mobility, ni partenariat industriel : c'est une contribution académique à valider, pas un produit déployé. Des équipes comme Physical Intelligence, Anybotics ou des groupes de Stanford et CMU travaillent sur des problématiques adjacentes de manipulation généraliste en monde ouvert, ce qui situe ArtiTwinSplat dans un champ très compétitif.

IA physiquePaper
1 source
PanoVine : contrôle visuomoteur corps entier pour robot souple à croissance végétale
357arXiv cs.RO 

PanoVine : contrôle visuomoteur corps entier pour robot souple à croissance végétale

Une équipe de chercheurs a publié sur arXiv (preprint arXiv:2506.22923, juin 2026) un système baptisé PanoVine, premier robot « vigne » autonome doté d'un contrôle visuomoteur corps entier. Le principe : un robot souple à croissance continue, de la famille des vine robots, est équipé de 19 caméras distribuées sur toute la longueur de son corps. Ces capteurs fournissent un retour d'information panoramique sur l'état interne du robot et sur son environnement immédiat. Une politique visuomotrice bout-en-bout, entraînée à partir de démonstrations humaines, pilote le robot en boucle fermée sans recourir à un modèle cinématique explicite. Les capacités démontrées en laboratoire couvrent la navigation dans des structures ramifiées, l'escalade de pentes, la traversée de terrains sans appui, l'atteinte précise d'objets et le franchissement d'espaces confinés. L'intérêt technique est direct : les vine robots souffrent structurellement d'hystérésis, d'interactions avec leur câble d'alimentation et de déformations imprévisibles, ce qui rend les approches de planification classique peu efficaces. En substituant un pipeline data-driven à la modélisation explicite, PanoVine contourne ce mur de complexité. C'est un exemple concret de sim-to-real évité par l'apprentissage depuis des démonstrations réelles, une voie que plusieurs équipes en robotique molle explorent mais que peu ont validée sur un système à géométrie variable aussi difficile à instrumenter. Pour les intégrateurs travaillant sur l'inspection de canalisations, la chirurgie mini-invasive ou la recherche en environnements effondrés, cela ouvre une voie vers des contrôleurs déployables sans calibration géométrique fine. Les vine robots sont un champ de recherche actif depuis les travaux fondateurs de l'équipe de Allison Okamura à Stanford (Soft Robotics 2017-2019), et plusieurs groupes en Europe et aux États-Unis développent des variantes pour l'exploration souterraine ou médicale. PanoVine se distingue par l'échelle du réseau de capteurs embarqués et par l'autonomie complète de la boucle de contrôle. Il s'agit à ce stade d'une preuve de concept académique, sans déploiement industriel ni partenaire annoncé. Les prochaines étapes attendues concernent la robustesse hors distribution et la généralisation à des environnements non vus lors de l'entraînement.

RecherchePaper
1 source
Dynamique différentiable de corps rigides en batch sur GPU avec PyTorch pour l'apprentissage robotique
358arXiv cs.RO 

Dynamique différentiable de corps rigides en batch sur GPU avec PyTorch pour l'apprentissage robotique

Une équipe de chercheurs publie BARD (Batched Articulated Rigid-body Dynamics), une implémentation PyTorch des algorithmes de dynamique corps rigides de Featherstone, conçue pour l'évaluation GPU en batch et la différentiation automatique. Sur cinq modèles de robots allant de 7 à 23 degrés de liberté, BARD atteint un débit jusqu'à 64 fois supérieur à Pinocchio pour la cinématique directe et 63 fois supérieur pour les jacobiens, à une taille de batch de 4096 sur un NVIDIA H200. La bibliothèque repose sur trois choix d'architecture : un cache à évaluation paresseuse par niveaux qui évite les traversées redondantes de l'arbre cinématique, des transformées de joints sans multiplication matricielle grâce à des constantes de Rodrigues précalculées, et une propagation parallèle par niveaux qui ramène les opérations séquentielles à des étapes batchées proportionnelles à la profondeur de l'arbre. La précision numérique est validée par identification de système sur un manipulateur 7-DOF, avec une erreur moyenne de 1,24 % sur les masses des segments sous 5 % de bruit sur les couples. Intégré dans le pipeline d'entraînement Isaac Lab AMP pour un quadrupède à colonne vertébrale de 11 DOF avec 4096 environnements parallèles, BARD est 8,5 fois plus rapide que Pinocchio et 2 fois plus rapide qu'ADAM pour le calcul de dynamique en boucle d'entraînement. Le code est disponible en open source sur GitHub. L'enjeu est structurel : à mesure que le contrôle robotique migre vers le reinforcement learning à grande échelle avec calcul de dynamique en boucle (in-loop), les librairies CPU comme Pinocchio deviennent un goulot d'étranglement dans les pipelines GPU. BARD élimine ce découplage CPU/GPU sans sacrifier la précision ni la différentiabilité, deux propriétés critiques pour l'optimisation par gradient. Pour les équipes qui entraînent des politiques de locomotion ou de manipulation sur des milliers d'environnements parallèles, ce gain de débit se traduit directement en temps de calcul réduit et en capacité à itérer plus vite sur l'architecture des récompenses et des politiques. Pinocchio reste la référence académique et industrielle pour la dynamique articulée depuis plus de dix ans, mais son architecture CPU-first n'a pas été pensée pour les pipelines d'apprentissage modernes sur GPU. ADAM, autre alternative GPU, est ici surpassé d'un facteur 2 en contexte in-loop. BARD se positionne donc entre les simulateurs physiques complets comme Isaac Sim ou MuJoCo MJX et les librairies de dynamique symbolique, en ciblant explicitement l'usage comme composant différentiable dans une boucle d'entraînement. L'article est une prépublication arXiv (2605.31481), non encore soumise à révision par les pairs, et les benchmarks présentés portent sur des scénarios contrôlés : des tests en conditions de déploiement réel, notamment sur des robots industriels ou des plateformes commerciales, restent à venir.

UEBARD surpasse directement Pinocchio, bibliothèque de dynamique articulée développée et maintenue par LAAS-CNRS et INRIA, ce qui constitue un signal fort pour les équipes de recherche robotique françaises qui l'utilisent comme référence dans leurs pipelines d'apprentissage par renforcement.

RecherchePaper
1 source
Sous-espaces primitifs et transfert en quelques exemples dans les VLA
359arXiv cs.RO 

Sous-espaces primitifs et transfert en quelques exemples dans les VLA

Une équipe de recherche publiée en mai 2026 sur arXiv (2605.30695) démontre qu'entraîner des politiques VLA (vision-language-action) avec une segmentation explicite en sous-compétences primitives permet un transfert en quelques démonstrations, sans mise à jour des poids du modèle. Les chercheurs ont comparé deux architectures aux biais inductifs distincts, OpenVLA et π₀.₅ (de Physical Intelligence), sur le jeu de données REASSEMBLE, qui couvre des tâches d'assemblage à contact riche, en appliquant un protocole strict : mêmes recettes LoRA, mêmes hyperparamètres, trois seeds d'entraînement indépendantes. Les modèles entraînés avec des épisodes segmentés en primitives annotées par des prompts linguistiques spécifiques atteignent 78 % des performances du modèle fine-tuné complet avec seulement trois démonstrations d'une tâche jamais vue à l'entraînement. Les modèles entraînés sur des trajectoires plates nécessitent dix démonstrations pour atteindre le même niveau, soit un écart de 3× en efficacité d'échantillon, répliqué sur les deux architectures et validé sur un second jeu de données (LIBERO-Long). Ce résultat s'attaque directement au principal frein à l'industrialisation des VLA : aujourd'hui, introduire une nouvelle tâche en production implique un cycle coûteux de collecte de données et de fine-tuning. Réduire ce besoin à trois démonstrations représente un gain opérationnel concret pour les intégrateurs et les équipes de déploiement terrain. La rigueur causale est notable : les auteurs ablate le sous-espace décodable par les primitives dans les états cachés du modèle et mesurent une chute de 32 points de pourcentage sur le transfert few-shot, alors qu'ablater un sous-espace aléatoire de même dimensionnalité n'a aucun effet statistique. Cela établit que les représentations de primitives sont causalement nécessaires, et non simplement corrélées aux bonnes performances, une distinction importante que beaucoup d'études comparatives ne prennent pas la peine de vérifier. Dans le paysage concurrentiel, Physical Intelligence (π₀, π₀.₅) et le projet OpenVLA (Berkeley) sont les deux familles de VLA généralistes les plus actives, avec des approches très différentes sur la question de la généralisation. Ce travail s'inscrit dans la course à résoudre le problème sim-to-real et zero/few-shot, où RT-2 (Google DeepMind), Octo ou encore RoboFlamingo restent des références. Les auteurs signalent également un biais méthodologique systématique dans l'évaluation des politiques à actions groupées (chunked policies) : une inflation par famille des seuils de validation d'actions produit des taux de faux-échecs jusqu'à dix fois supérieurs lorsqu'on compare à des démonstrations humaines réelles, ce qui invalide silencieusement de nombreuses évaluations publiées dans ce sous-domaine.

💬 Trois démos au lieu de dix pour transférer une tâche jamais vue, sans toucher aux poids du modèle. C'est exactement le verrou qui bloquait l'industrialisation des robots généralistes, et là on a enfin des chiffres reproductibles sur deux architectures distinctes. Le bonus : ils prouvent la causalité par ablation, pas juste une corrélation, ce qui est trop rare dans ce domaine pour ne pas le signaler.

IA physiqueOpinion
1 source
Mélange d'horizons dans le découpage en actions
360arXiv cs.RO 

Mélange d'horizons dans le découpage en actions

Des chercheurs ont publié sur arXiv (réf. 2511.19433v2) une approche baptisée Mixture of Horizons (MoH) qui s'attaque à un verrou technique dans les modèles vision-langage-action (VLA) utilisés pour la manipulation robotique. Le problème identifié est le suivant : la longueur du "chunk d'action" (le nombre de pas d'action prédits en une seule passe, appelé horizon) conditionne fortement les performances, mais aucune valeur fixe n'est optimale. Un horizon long donne une meilleure prévision globale du mouvement mais dégrade la précision fine ; un horizon court améliore le contrôle local mais échoue sur les tâches longues. MoH découpe le chunk d'action en plusieurs segments à horizons différents, les traite en parallèle via un transformeur d'action partagé, et fusionne les sorties avec une porte linéaire légère. Appliqué aux politiques pi-0, pi-0.5 (Physical Intelligence) et pi-reg, MoH atteint 99 % de taux de succès moyen sur le benchmark LIBERO en seulement 30 000 itérations d'entraînement, un nouveau state-of-the-art. Le mode d'inférence dynamique, qui sélectionne les actions stables par consensus inter-horizons, délivre un débit 2,5 fois supérieur aux baselines. L'intérêt principal de MoH est sa nature plug-and-play : il s'intègre sans modification architecturale majeure dans tout module d'action à attention complète, avec un surcoût d'entraînement et d'inférence minimal. Pour les équipes qui déploient des VLA en manipulation industrielle ou sur des plateformes humanoïdes, cela signifie qu'elles peuvent améliorer significativement la robustesse sur des tâches mixtes (gestes fins + séquences longues) sans changer leur infrastructure. Le gain de débit est particulièrement pertinent pour le temps réel embarqué, où la latence de prédiction est un facteur limitant concret. Ce travail s'inscrit dans l'essor des VLA issus des travaux de Physical Intelligence (pi-0, sorti fin 2024) et d'OpenVLA, qui ont démontré que le préentraînement multimodal peut accélérer la généralisation en manipulation. Le benchmark LIBERO, issu de recherches en imitation learning, sert de référence standard pour évaluer la transfer et la composition de tâches. Les concurrents directs dans l'espace VLA incluent RoboVLMs de Google DeepMind, OpenVLA-OFT, et les travaux de Carnegie Mellon sur ACT/Diffusion Policy. MoH reste à ce stade une contribution de recherche académique, sans déploiement industriel annoncé, mais sa compatibilité plug-and-play le rend directement utilisable par les équipes qui entraînent déjà sur pi-0 ou des architectures dérivées.

💬 Le problème de l'horizon d'action, c'est un classique en robotique, et personne n'avait vraiment trouvé de sortie propre avant ça. MoH répond avec la bonne idée au bon moment : plusieurs horizons en parallèle, une porte de fusion légère, et tu gardes toute ton infra existante. 99 % sur LIBERO, 2,5x de débit, plug-and-play sur pi-0, bon, sur le papier c'est difficile de trouver à redire.

IA physiqueOpinion
1 source
MonoDuo : apprendre des politiques bimanuelles avec un seul bras robotique
361arXiv cs.RO 

MonoDuo : apprendre des politiques bimanuelles avec un seul bras robotique

Des chercheurs proposent avec MonoDuo (arXiv:2505.29298) une méthode pour entraîner des politiques de manipulation bimanuelles sans disposer de robots à deux bras. La collecte de données est hybride: un opérateur téléopère un bras unique pour exécuter un côté d'une tâche bimanuelles, un humain réalisant l'autre côté, puis les rôles sont inversés pour couvrir les deux membres. Les séquences RGB-D, capturées par une caméra de poignet et une caméra fixe, sont transformées en démonstrations synthétiques calibrées sur la cinématique du robot bimanuel cible, via estimation de pose des mains, segmentation de nuage de points et inpainting. Testé sur cinq tâches (soulèvement d'une boîte, remplissage d'un sac à dos, pliage d'un vêtement, fermeture d'une veste à glissière, passage d'une assiette), MonoDuo atteint jusqu'à 70% de taux de réussite en déploiement zero-shot sur des configurations bimanuelles non vues à l'entraînement. Avec seulement 25 démonstrations supplémentaires sur le robot cible, un fine-tuning few-shot améliore ces résultats de 65 à 70% par rapport à un entraînement depuis zéro. Le verrou adressé est structurel: les robots à deux bras coordonnés restent rares et onéreux dans les laboratoires de recherche, alors que les bras uniques sont omniprésents. Cette asymétrie crée un goulot d'étranglement dans la constitution de datasets pour les tâches bimanuelles, freinant le développement de politiques viables aussi bien pour les humanoïdes commerciaux que pour les cellules industrielles bimanuelles. MonoDuo montre qu'il est possible de bootstrapper ces politiques sans matériel dédié, réduisant considérablement le coût d'entrée. La réussite du déploiement zero-shot sur des configurations non vues est notable dans un domaine où le sim-to-real gap reste un obstacle structurel, et le gain de 65 à 70% obtenu avec seulement 25 démonstrations de fine-tuning constitue un signal positif pour les intégrateurs ne pouvant se permettre des milliers de cycles de collecte. Ce travail s'inscrit dans la lignée d'ALOHA, de UMI (Universal Manipulation Interface) et de Diffusion Policy, qui cherchent à décorréler la plateforme de collecte de la plateforme cible. L'essor des humanoïdes commerciaux (Figure 03, Tesla Optimus Gen 3, Unitree G1, 1X Eve) relance l'intérêt pour la manipulation bimanuelles à grande échelle. En Europe, Pollen Robotics avec son robot open-source Reachy et Enchanted Tools avec Miroki travaillent sur des problématiques similaires d'efficacité des démonstrations. MonoDuo reste à ce stade un preprint académique sans déploiement industriel annoncé; ses résultats devront être confirmés hors conditions de laboratoire pour valider leur transposabilité opérationnelle.

UEPollen Robotics et Enchanted Tools, qui développent des robots bimanuels en Europe, pourraient exploiter cette méthode pour constituer des datasets bimanuels à moindre coût sans dupliquer leur parc matériel.

RecherchePaper
1 source
Sortie de l'Open Motion Planning Library 2.0
362arXiv cs.RO 

Sortie de l'Open Motion Planning Library 2.0

L'Open Motion Planning Library (OMPL), publiée en open source en 2008, franchit en mai 2026 une étape majeure avec la sortie d'OMPL 2.0, annoncée via un preprint arXiv (2605.29301). Cette mise à jour de fond fait évoluer une bibliothèque de planification de mouvement par échantillonnage qui, en près de deux décennies de développement continu, avait déjà intégré des planificateurs asymptotiquement optimaux, des planificateurs paresseux (lazy planners), la planification sous contraintes, et la planification avec objectifs en logique temporelle. La version 2.0 cible explicitement la planification de mouvement en temps réel grâce à l'accélération matérielle (GPU/FPGA), et s'interface avec les workflows de recherche en IA modernes. Aucun benchmark quantitatif n'est publié dans le résumé; les détails de performance restent à évaluer à la lecture du papier complet. L'enjeu est direct pour les équipes de robotique intégrées dans des environnements industriels ou académiques : OMPL est aujourd'hui l'une des briques les plus utilisées dans ROS/ROS 2 via MoveIt, ce qui signifie qu'une accélération matérielle en production peut réduire les temps de calcul de trajectoire de plusieurs ordres de grandeur, condition sine qua non pour les bras manipulateurs collaboratifs, les humanoïdes en manipulation dextère, et les AMR opérant dans des espaces non structurés. L'intégration avec les pipelines IA modernes, typiquement Vision-Language-Action (VLA) ou apprentissage par imitation, répond à un verrou réel : les planificateurs classiques et les modèles neuronaux cohabitent encore difficilement en temps réel. OMPL a été développé initialement à Rice University sous l'impulsion de Ioan Sucan et Lydia Kavraki, puis maintenu par une communauté large incluant des contributions de Willow Garage, puis de MoveIt. Ses concurrents directs dans l'écosystème open source incluent DRAKE (Toyota Research Institute / MIT), Tesseract (ROS-Industrial), et Pinocchio côté cinématique. Côté européen, des acteurs comme Wandercraft (exosquelette) ou Enchanted Tools (Mirmi) s'appuient sur des couches de planification proches. La prochaine étape naturelle sera la validation sur benchmarks standardisés (MotionBenchMaker, PlanningBenchmark) et l'intégration officielle dans MoveIt 2; aucune timeline n'est encore communiquée.

UEWandercraft et Enchanted Tools (Mirmi), acteurs français s'appuyant sur des couches de planification proches d'OMPL via ROS/MoveIt, pourraient bénéficier de l'accélération GPU/FPGA d'OMPL 2.0 pour réduire les temps de calcul de trajectoire en production.

InfrastructureOpinion
1 source
Stratégies de préhension pratiques pour la manipulation mobile en environnement réel
363arXiv cs.RO 

Stratégies de préhension pratiques pour la manipulation mobile en environnement réel

Des chercheurs ont publié en avril 2025 sur arXiv (référence 2504.12512) une étude de terrain portant sur SHOPPER, une plateforme de manipulation mobile conçue pour évaluer des stratégies de préhension dans un supermarché réel. L'environnement choisi n'est pas anodin : un magasin d'alimentation impose une diversité extrême d'objets (formes irrégulières, emballages souples, produits réfléchissants), de configurations d'étagères et de layouts changeants. L'équipe a conduit des centaines de tentatives de saisie distinctes et documente en détail les modes de défaillance observés, sans annoncer de taux de réussite global, ce qui tranche avec la communication habituelle du secteur. Ce travail apporte une valeur rare dans la littérature robotique actuelle : une analyse honnête des échecs en conditions non structurées réelles, plutôt qu'une démonstration soigneusement sélectionnée en laboratoire. Le fossé demo-to-reality reste le principal obstacle au déploiement commercial des manipulateurs mobiles, et les auteurs cherchent précisément à le cartographier. Pour un intégrateur ou un décideur industriel, ce type d'inventaire des cas limites est plus exploitable qu'un benchmark contrôlé : il permet de calibrer les attentes sur ce que les pipelines VLA (Vision-Language-Action) et les approches de grasp planning généraliste peuvent réellement délivrer aujourd'hui hors laboratoire. La recherche en manipulation mobile s'est intensifiée ces deux dernières années, portée par des acteurs comme Apptronik, Agility Robotics (Digit) ou Boston Dynamics (Spot avec bras), mais aussi par des startups spécialisées dans le picking retail comme Symbotic ou des robots de supermarché tels que ceux de Focal Systems. Les approches fondées sur l'apprentissage end-to-end (pi0 de Physical Intelligence, RT-2 de Google DeepMind) promettent une généralisation, mais leur robustesse en environnement chaotique reste peu documentée de façon indépendante. SHOPPER s'inscrit dans une démarche de recherche ouverte visant à fournir à la communauté robotique un référentiel de problèmes concrets non résolus, ce qui suggère des publications de suivi et potentiellement un benchmark partagé.

RecherchePaper
1 source
ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces
364arXiv cs.RO 

ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces

Une équipe de chercheurs a publié le 29 mai 2026 un article préprint sur arXiv (2605.29438) présentant ElegantVLA, un cadre d'inférence adaptatif conçu pour accélérer les modèles de type Vision-Language-Action (VLA) sans modifier ni réentraîner le modèle de base. Le principe repose sur un ordonnanceur léger qui observe en temps réel la similarité des représentations temporelles, les signaux de mouvement du robot et la progression de l'épisode, puis alloue dynamiquement la charge de calcul entre l'encodeur visuel, le LLM et la tête d'action. Deux niveaux de granularité sont gérés : cinq modes de calcul Vision-LLM, allant de la recomputation complète à la réutilisation temporelle multi-pas, et trois modes de débruitage pour la génération d'actions, qui recyclent les états intermédiaires lors des phases de mouvement stable. Sur le modèle GR00T de NVIDIA sur six tâches réelles, ElegantVLA réduit la charge de calcul d'un facteur 2,18x et fait passer la fréquence de contrôle de 13,8 Hz à 26,3 Hz ; sur CogACT, le gain en vitesse atteint 3,77x. L'enjeu est direct pour les équipes qui cherchent à déployer des VLA en manipulation réelle : la fréquence de contrôle est un goulot d'étranglement critique dans les tâches nécessitant une réactivité fine, et doubler cette fréquence sans retoucher le modèle sous-jacent change fondamentalement le rapport coût-performance du déploiement. Le résultat contredit partiellement l'hypothèse dominante selon laquelle accélérer un VLA impose obligatoirement un compromis sur la qualité du raisonnement : en concentrant la puissance de calcul sur les phases sensibles aux objectifs, à l'image du contrôle moteur humain, le système préserve la précision là où elle compte. C'est un argument concret en faveur de l'inférence adaptative plutôt que des modèles distillés ou quantifiés à la hache. Les VLA généralistss comme GR00T (NVIDIA) ou CogACT (Microsoft Research) souffrent structurellement d'un coût d'inférence élevé dû à l'empilement d'un backbone vision-langage massif et d'une tête d'action itérative à chaque pas de contrôle. Les approches existantes d'accélération, élagage, distillation, cache KV statique, traitent tous les pas de contrôle de façon uniforme, ignorant que les besoins en raisonnement varient fortement au cours d'un épisode. ElegantVLA se positionne comme une surcouche plug-in compatible avec l'ensemble de l'écosystème VLA moderne, sans modifier les pipelines d'entraînement. La prochaine étape naturelle sera de valider l'approche sur des tâches longue durée et des environnements non structurés, là où la variabilité des phases est maximale et où le gain potentiel est le plus difficile à quantifier.

IA physiqueOpinion
1 source
RoboMemArena : un nouveau benchmark évalue systématiquement les capacités mémoire des robots
365Pandaily 

RoboMemArena : un nouveau benchmark évalue systématiquement les capacités mémoire des robots

Un consortium d'institutions chinoises de premier plan, l'HKUST (Guangzhou), l'Université Tsinghua, l'Université du Zhejiang, Westlake University et Shanghai Jiao Tong University, a publié RoboMemArena, présenté comme le premier benchmark dédié à l'évaluation des capacités mémorielles des robots dans des tâches de manipulation à long horizon. Le benchmark couvre quatre scénarios exigeant explicitement de la mémoire : transfert d'objets, occlusion de cibles, comptage d'actions et exécution de séquences. Il comprend 26 tâches à long horizon, 151 sous-tâches, 2 600 trajectoires de démonstration expertes, et des séquences dépassant en moyenne 1 000 étapes. Fait notable : 68,9 % des sous-tâches sont déclarées dépendantes d'états historiques. Le benchmark intègre également cinq tâches réelles, dont une séquence "préparer le petit-déjeuner à la manière humaine" (IHMB) dépassant 3 minutes d'exécution continue. Seule la méthode PrediMem, développée par l'équipe elle-même, a complété avec succès cette tâche. L'ensemble des ressources est open-source : dataset sur Hugging Face, code sur GitHub, leaderboard public, et article sur arXiv (2605.10921). Ce benchmark pointe une lacune réelle dans l'évaluation des robots embodied : la quasi-totalité des benchmarks existants mesurent la perception immédiate et le contrôle réactif, sans jamais tester la capacité à maintenir et exploiter un état historique. Pour les intégrateurs industriels et les équipes R&D, c'est un signal clair : les VLA (Vision-Language-Action models) et les architectures de politique actuelles ne sont pas évaluées sur ce qui compte dans les environnements réels, où un robot doit se souvenir qu'un objet a été déplacé trois minutes plus tôt. RoboMemArena fournit aussi des annotations multi-modales (sous-tâches, keyframes, observations visuelles alignées avec les états robot), ce qui le rend directement exploitable pour entraîner ou fine-tuner des modèles. Le contexte est celui d'une course active entre laboratoires asiatiques et occidentaux sur les capacités d'exécution longue durée des robots manipulateurs. Des travaux comme RoboAgent, RoboVLMs ou les benchmarks LIBERO ont posé des fondations, mais aucun ne ciblait explicitement la dépendance mémorielle. L'initiative est entièrement académique et ne mentionne pas de partenariat industriel. La prochaine étape naturelle serait l'intégration de ce benchmark dans les pipelines d'évaluation des grands modèles robotiques comme GR00T N2 (NVIDIA) ou OpenVLA, dont les performances sur des horizons longs restent peu documentées en conditions réelles.

UELes laboratoires européens en robotique (CEA-List, INRIA, ETH Zurich) peuvent exploiter directement ce benchmark open-source pour évaluer leurs architectures VLA sur des tâches à long horizon, comblant un manque critique dans leurs pipelines d'évaluation existants.

RecherchePaper
1 source
Champs vectoriels pour le suivi de trajectoire sur les groupes de Lie, appliqués au contrôle robotique
366arXiv cs.RO 

Champs vectoriels pour le suivi de trajectoire sur les groupes de Lie, appliqués au contrôle robotique

Des chercheurs ont publié en février 2026 (arXiv 2602.21450) un cadre général de champs vectoriels pour le suivi de chemin sur les groupes de Lie, ciblant les systèmes robotiques capables de contrôler indépendamment leur position et leur orientation dans l'espace 3D. Les applications visées incluent les véhicules aériens omnidirectionnels, les robots sous-marins et les effecteurs de bras manipulateurs. Le problème est formalisé sur le groupe matriciel SE(3), qui encode l'ensemble des déplacements rigides dans l'espace à six degrés de liberté (trois en translation, trois en rotation). Le cadre proposé garantit la convergence vers une courbe paramétrique depuis presque toutes les conditions initiales, tout en assurant un mouvement continu le long du chemin. La commande en entrée est exprimée via le body twist, une représentation compacte de la vitesse locale combinant composantes linéaires et angulaires, ce qui s'aligne directement avec les interfaces de contrôle industrielles standard. Des expériences sur un manipulateur réel suivant des poses complexes valident l'approche, et une implémentation open-source accompagne la publication. La distinction entre trajectory tracking et path following est centrale : le tracking impose une contrainte temporelle stricte, alors que le path following ne contraint que la convergence spatiale vers le chemin. Pour un intégrateur ou un décideur industriel, cela se traduit par une robustesse accrue aux perturbations et une simplification de la programmation des tâches répétitives. L'usage du body twist comme représentation minimale réduit la charge computationnelle, avantage direct pour les boucles de contrôle temps-réel sur systèmes embarqués. La garantie de convergence topologique depuis "presque toutes" les conditions initiales distingue ce travail des approches locales classiques, qui exigent une initialisation proche de la trajectoire cible. Le contrôle de pose sur SE(3) est un champ actif depuis plusieurs décennies, avec des approches classiques souffrant de singularités liées aux représentations paramétriques comme les angles d'Euler ou les quaternions. Ce travail s'inscrit dans un mouvement plus large d'adoption de la géométrie différentielle en robotique, porté par plusieurs équipes académiques en Europe et en Amérique du Nord. Les méthodes d'apprentissage end-to-end comme les VLA (Vision-Language-Action) ne fournissent pas de garanties formelles équivalentes, ce qui maintient la pertinence de ces approches analytiques dans les contextes réglementés tels que le médical, le spatial ou le nucléaire. La disponibilité du code open-source abaisse la barrière d'adoption pour les équipes souhaitant intégrer ce framework sur leurs plateformes robotiques existantes.

UELes équipes R&D européennes en robotique peuvent adopter directement le framework open-source pour améliorer le contrôle de manipulateurs dans les secteurs réglementés (médical, spatial, nucléaire) où les garanties formelles de convergence sont exigées.

RecherchePaper
1 source
Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé
367arXiv cs.RO 

Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé

Une équipe de recherche publie sur arXiv (2605.26478, mai 2026) une méthode d'apprentissage par renforcement visuel appelée SDPG (Stochastic Decoupled Policy Gradient), capable d'entraîner des politiques visuomotrices end-to-end en quelques heures sur un seul GPU NVIDIA RTX 4080. La clé : estimer les gradients de politique via des perturbations stochastiques de trajectoires, plutôt que via des centaines d'environnements rendus en batch, réduisant drastiquement mémoire et temps de calcul. Sur les benchmarks visuels MuJoCo, référence standard pour l'évaluation des politiques de contrôle à entrées visuelles, SDPG surpasse les méthodes concurrentes sur les trois critères mesurés : temps d'entraînement, empreinte mémoire et récompenses obtenues. L'article inclut également un premier transfert sim-to-real démontré sur matériel physique, couvrant des tâches de manipulation dextère et de locomotion en terrain difficile. L'enjeu touche directement à l'accessibilité du RL visuel pour la robotique. Jusqu'ici, les méthodes on-policy visuomotrices exigeaient des clusters GPU pour rester compétitives, concentrant de fait la recherche dans quelques grands laboratoires. Ramener le coût d'entraînement à un seul GPU grand public ouvre potentiellement la voie aux équipes académiques moins dotées et aux startups. La publication simultanée d'une suite de benchmarks de robotique visuelle réaliste tente de combler un autre manque structurel : la fragmentation des protocoles d'évaluation dans le domaine. Le transfert sim-to-real annoncé reste cependant à confirmer à plus grande échelle, un résultat sur hardware physique dans un preprint n'équivalant pas à une validation industrielle. Ce travail s'inscrit dans une dynamique de démocratisation du RL pour la robotique. Des approches comme DrQ-v2 (DeepMind) ou DreamerV3 ont progressivement amélioré l'efficacité en entrées visuelles, mais restent lourdes pour les environnements réalistes. Les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) contournent entièrement la boucle RL via des architectures de fondation préentraînées. SDPG choisit une troisième voie : rester dans le paradigme RL pur tout en réduisant radicalement le coût computationnel. La prochaine étape observable sera l'adoption ou le rejet de leurs benchmarks par la communauté comme référence standard de comparaison.

UEL'accessibilité réduite à un seul GPU grand public pourrait bénéficier aux équipes académiques européennes moins dotées en infrastructure de calcul, réduisant leur dépendance aux clusters HPC pour la recherche en RL visuel.

RecherchePaper
1 source
Attribution et contrôle des artefacts aux frontières de segments dans l'espace du bruit
368arXiv cs.RO 

Attribution et contrôle des artefacts aux frontières de segments dans l'espace du bruit

Une équipe de chercheurs publie sur arXiv (2506.11642v2) une analyse mécaniste des discontinuités d'exécution aux frontières de blocs d'actions dans les politiques visuomotrices génératives à action chunking. Cette technique, adoptée dans des systèmes comme Diffusion Policy (MIT/Columbia) ou ACT (Action Chunked Transformers, Stanford), consiste à prédire et exécuter plusieurs actions futures en un seul bloc plutôt qu'action par action. Les auteurs montrent d'abord que les métriques d'artefacts de frontière permettent de séparer de façon stable les épisodes réussis des épisodes en échec. Dans des politiques stochastiques, maintenir fixe le contexte d'observation et varier uniquement le bruit latent suffit à moduler systématiquement l'intensité de l'artefact. Sur un même checkpoint Diffusion Policy, la comparaison entre DDPM, DDPM à variance nulle et DDIM confirme que cette contrôlabilité locale dépend de l'intégrité du chemin d'information du bruit initial vers la sortie d'action. Dans un contexte clé favorisant les artefacts élevés, sélectionné par validation matched-continuation sur données tenues à l'écart, le taux de succès passe de 0,033 à 0,717. Ce résultat remet en cause une hypothèse tenace dans la communauté de la robotique apprenante : l'artefact de frontière de bloc n'est pas un simple sous-produit d'exécution à minimiser systématiquement, mais une variable dans l'espace bruit qui peut être attribuée, contrôlée et liée mécanistiquement au résultat de la tâche. Plus troublant encore, la direction préférentielle s'inverse selon le contexte d'exécution local : certains états obtiennent de meilleurs résultats sous artefact faible, d'autres sous artefact élevé, au sein d'une même tâche. Pour les intégrateurs robotiques, cela ouvre la voie à des stratégies d'inférence adaptatives où la sélection du bruit latent devient un levier de performance sans modifier ni réentraîner les modèles. L'action chunking équipe aujourd'hui de nombreuses politiques de manipulation en recherche, dont pi-0 (Physical Intelligence), et commence à apparaître dans des contextes de production. Le débat sur la robustesse à l'exécution et le sim-to-real gap reste central pour les équipes industrielles. Cette analyse fournit un outil diagnostique concret -- les métriques d'artefact comme signal pronostic d'échec -- et suggère que l'optimisation à l'inférence plutôt que la seule modification architecturale pourrait améliorer la fiabilité sur des tâches de manipulation fine. Les prochaines étapes naturelles incluent la généralisation à d'autres architectures VLA (vision-language-action) et la validation sur des plateformes matérielles réelles hors contexte de laboratoire.

💬 Passer de 3% à 72% de succès sur le même checkpoint juste en variant le bruit latent, sans toucher au modèle, c'est pas un détail de recherche. Ce que la communauté traitait comme un artefact à minimiser devient un levier d'optimisation à l'inférence, et ça change la façon dont on va aborder le débogage en prod. Bon, faut encore que ça tienne sur du matériel réel hors labo.

IA physiqueOpinion
1 source
Coordination multi-robots fédérée sans fragmentation multi-agents intra-robot
369arXiv cs.RO 

Coordination multi-robots fédérée sans fragmentation multi-agents intra-robot

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.11028v2) une architecture de coordination de flottes de robots baptisée Federated Single-Agent Robotics (FSAR). Le principe central s'oppose à une tendance croissante dans la robotique multi-robots : plutôt que de fragmenter chaque robot en plusieurs agents internes spécialisés (approche multi-agent intra-robot), FSAR préserve chaque unité comme un agent unique cohérent, doté de son propre runtime persistant, de son périmètre de politique locale et de son autorité de récupération autonome. La coordination inter-robots s'effectue au niveau de la flotte par fédération, via des registres partagés d'Embodied Capability Modules (ECM), de la délégation de tâches entre robots, une attribution d'autorité sensible aux politiques, et des protocoles de récupération en couches hiérarchiques. Sur des scénarios multi-robots représentatifs, les auteurs mesurent des gains statistiquement significatifs : effet de taille d=2.91 (p<0.001) pour la localité de gouvernance face au contrôle centralisé, et d=4.88 (p<0.001) pour le confinement des défaillances face aux architectures fortement décomposées. Pour les intégrateurs déployant des flottes d'AMR (Autonomous Mobile Robots) en entrepôt ou en environnement industriel, le choix de l'architecture de coordination impacte directement la robustesse opérationnelle. La thèse de FSAR est que la fragmentation intra-robot génère des conflits d'autorité, complique la récupération après panne et dilue la traçabilité des décisions. En maintenant un agent unique par robot, les politiques restent localement auditables, les pannes confinées, et la supervision humaine hiérarchique praticable à l'échelle de la flotte. Ces résultats sont toutefois issus de scénarios simulés qualifiés de "représentatifs" et non d'un déploiement physique documenté, ce qui limite pour l'instant la portée industrielle des conclusions. Le papier s'inscrit dans un débat architectural qui s'intensifie avec la montée en puissance des flottes humanoïdes (Figure AI, Agility Robotics, Apptronik) et des systèmes AMR à grande échelle. Les approches concurrentes, notamment les pipelines LLM/VLA qui décomposent chaque robot en sous-agents spécialisés, offrent davantage de flexibilité mais au prix d'une complexité de gouvernance croissante, selon les auteurs. En Europe, des acteurs comme Exotec (flotte Skypod déployée chez Decathlon et Cdiscount) ou Enchanted Tools (robot Miroka) sont directement concernés par ces choix architecturaux de fond. Le papier est une préprint arXiv en version 2, non encore soumise à ICRA, IROS ou CoRL ; la prochaine étape naturelle serait une validation expérimentale sur plateforme physique réelle.

UEExotec (flotte Skypod chez Decathlon et Cdiscount) et Enchanted Tools sont explicitement identifiés comme directement concernés par ces choix d'architecture de coordination de flotte, ce qui pourrait orienter leurs décisions techniques à moyen terme.

RecherchePaper
1 source
Tests adversariaux des filtres de sécurité du robot humanoïde SPARK
370arXiv cs.RO 

Tests adversariaux des filtres de sécurité du robot humanoïde SPARK

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.19009) une étude de robustesse portant sur les filtres de sécurité SPARK pour robots humanoïdes. Le travail consiste en une réplication du cas de référence G1SportMode\D1\WG\SO\v1 dans le simulateur MuJoCo, puis en une batterie de tests adversariaux sur six méthodes de filtrage : RSSA, RSSS, SSA, CBF (Control Barrier Function), PFM et SMA. Les auteurs ont également construit un pipeline de post-traitement pour convertir les logs bruts SPARK en trois métriques exploitables, suivi d'objectif, distance minimale aux obstacles, et nombre de pas en collision. Résultat principal : certaines méthodes optimisent le suivi de trajectoire au détriment de l'évitement, tandis que d'autres réduisent les collisions sans maintenir l'efficacité de déplacement. L'importance de ce travail tient à un angle souvent négligé dans l'évaluation des humanoïdes : les benchmarks nominaux, ceux qui servent à comparer les méthodes en conditions idéales, ne capturent pas les modes d'échec qui émergent dans des environnements contraints. Trois types de perturbations ont été testés : densification des obstacles ("obstacle crowding"), estimation bruitée des distances, et information obstacle avec délai. Dans ces conditions, le comportement de sécurité de plusieurs filtres se dégrade significativement, un résultat qui contredit implicitement l'hypothèse que les scores de référence suffisent à valider une méthode avant déploiement terrain. Pour un intégrateur ou un responsable de sécurité industrielle, c'est un signal clair : la qualification d'un filtre de sécurité humanoïde doit inclure des scénarios de stress, pas seulement les cas nominaux. Le SPARK framework s'est imposé ces dernières années comme cadre de référence pour évaluer la sécurité des humanoïdes à corps complet, face à la complexité inhérente de ces systèmes : haute dimensionnalité, contraintes de collision multiples, proximité avec des opérateurs humains. Le cas répliqué ici est lié au robot Unitree G1, l'une des plateformes humanoïdes accessibles les plus répandues en recherche. Les concurrents directs dans cet espace incluent des travaux sur MPC avec CBF (MIT, CMU), les approches RoboSafe d'ETH Zurich, et les filtres embarqués dans Boston Dynamics Atlas. La suite logique de cette recherche serait un protocole de stress testing standardisé, intégrable dans les pipelines de CI/CD robotique avant déploiement en environnement semi-contrôlé.

RechercheOpinion
1 source
Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée
371arXiv cs.RO 

Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée

Key-Gram (arXiv:2605.18556, mai 2026) est un preprint qui propose un cadre de mémoire conditionnelle séparant explicitement la connaissance linguistique du raisonnement visuel dans les politiques de manipulation robotique. Là où les architectures VLA (Vision-Language-Action) actuelles fusionnent langage et vision dans un backbone partagé, Key-Gram décompose une instruction en "key-grams" (unités sémantiques propres à la tâche), récupère des priors linguistiques via un lookup déterministe O(1) dans une table externe, puis injecte ces entrées dans des couches cachées sélectionnées via gating contextuel et fusion convolutive légère. Appliqué aux modèles π₀ et π₀.₅ de Physical Intelligence, le système enregistre des gains relatifs de 29,5 %/9,9 % sur le benchmark de simulation RoboTwin2.0, de 35,8 %/4,5 % sur LIBERO-Plus en transfert sans fine-tuning sur le domaine cible, et de 15,4 %/8,1 % sur des tâches longues en manipulation bimanuelle réelle. Ces résultats quantifient un problème structurel rarement isolé dans la littérature VLA : la compétition de modalités dans le backbone partagé, où raisonnement visuel et compréhension linguistique se disputent la capacité de calcul. Le gain de 35,8 % sur LIBERO-Plus sans réentraînement cible est la donnée la plus exploitable pour les intégrateurs industriels : il suggère qu'une mémoire externe améliore la généralisation entre tâches sans fine-tuning complet, réduisant directement le coût de déploiement sur des lignes de production variées. La table de mémoire, extensible sans mise à jour du backbone et chargeable en mémoire hôte à l'inférence, permet d'ajouter de nouveaux vocabulaires de tâches sans redéploiement de l'ensemble du modèle. Physical Intelligence (Pi), fondée en 2023 par d'anciens chercheurs de Google et de l'UC Berkeley, a développé π₀ en 2024 comme VLA généraliste pour la manipulation bimanuelle. Key-Gram s'appuie sur ce backbone sans le modifier, ce qui constitue son atout principal : la séparation de la composante linguistique est architecturalement propre et non-destructive. Sur ce créneau de la généralisation compositionnelle, Google DeepMind, Figure AI (architecture Helix) et 1X Technologies proposent des approches concurrentes à base de transformers multi-modaux. La principale limite du papier est l'absence de validation sur des backbones autres que π, ce qui laisse ouverte la question de la généricité de la méthode.

💬 35% de gain sur LIBERO-Plus sans réentraînement, c'est le chiffre à retenir. L'idée de sortir le vocabulaire de tâche dans une table externe (plutôt que de tout enfouir dans le backbone partagé), c'est architecturalement propre et ça permet d'ajouter de nouvelles tâches sans redéployer l'ensemble du modèle. Reste que pour l'instant ça n'a été validé que sur π₀, donc faut voir si ça tient sur d'autres architectures avant de crier victoire.

IA physiqueOpinion
1 source
KaRMA : une métrique cinématique pour évaluer la dextérité fine des mains robotiques
372arXiv cs.RO 

KaRMA : une métrique cinématique pour évaluer la dextérité fine des mains robotiques

Des chercheurs ont publié sur arXiv (arXiv:2605.15548) KaRMA, ou Kinematic Rolling Manipulation Ability, une nouvelle métrique cinématique destinée à évaluer la dextérité fine des mains robotiques. Contrairement aux métriques existantes, KaRMA quantifie spécifiquement la capacité d'une main à repositionner un objet sphérique en prise pince à deux doigts (precision pinch) par des mouvements de roulement continus, sans relâcher le contact. Le système rapporte trois scores distincts : KaRMA-T (couverture translationnelle), KaRMA-R (couverture rotationnelle) et KaRMA-S (sensibilité à la configuration initiale de prise). L'exploration des poses atteignables se fait par un algorithme de recherche en largeur (breadth-first search) sur des primitives de translation et de rotation, en respectant les limites articulaires, les contraintes de collision, le contact par roulement, et la faisabilité de la force antipodale. La métrique a été évaluée sur 16 mains robotiques largement utilisées dans la littérature. L'intérêt de KaRMA réside dans ce qu'elle révèle là où les métriques statiques classiques échouent. Les outils habituels, espace de travail, manipulabilité (ellipsoïdes jacobiens), stabilité de prise, sont des propriétés statiques qui ne capturent pas la dextérité au sens opérationnel : déplacer un objet dans la main sans le lâcher. Sur les 16 mains testées, KaRMA différencie des architectures que les proxies statiques classent à l'identique, et met en évidence des compromis translation-rotation jusqu'ici invisibles. Les auteurs signalent également que les métriques basées sur le jacobien peuvent induire en erreur sur certains benchmarks de tâches publiés, là où KaRMA montre une cohérence qualitative meilleure. Pour un ingénieur en robotique ou un intégrateur qui sélectionne une main pour des tâches d'assemblage fin ou de manipulation d'objets variés, cela représente un outil de comparaison plus discriminant. Cette publication s'inscrit dans un débat de fond sur l'évaluation des mains robotiques multi-doigts, un domaine où les métriques de design héritées des années 1980-90 (critères de Yoshikawa, indices de qualité de prise) restent les références par défaut malgré leurs limites reconnues. Les équipes travaillant sur des mains humanoïdes comme celles d'Agility Robotics, Figure, Sanctuary AI, ou les projets académiques type Shadow Hand et Allegro Hand, disposent désormais d'un benchmark comparatif formalisé. KaRMA est pour l'instant une métrique cinématique pure, elle n'intègre pas la dynamique ni les propriétés des surfaces de contact, ce qui constitue sa principale limite avouée. Les prochaines étapes naturelles seraient une validation expérimentale sur des tâches réelles et l'extension aux prises multi-doigts au-delà du pinch à deux doigts.

RecherchePaper
1 source
GAP : pré-entraînement par ancrage géométrique pour un apprentissage visuomoteur économe en données des tâches de manipulation
373arXiv cs.RO 

GAP : pré-entraînement par ancrage géométrique pour un apprentissage visuomoteur économe en données des tâches de manipulation

Des chercheurs ont publié sur arXiv (référence 2605.15836) une méthode baptisée GAP (Geometric Anchor Pre-training), conçue pour améliorer l'apprentissage visuomoteur en manipulation robotique à partir d'un très faible nombre de démonstrations d'experts. L'approche repose sur une étape de pré-entraînement légère et sans actions, qui régularise l'adaptateur spatial d'un modèle de vision pré-entraîné (Vision Foundation Model, VFM) avant la phase d'imitation proprement dite. Cette étape de préchauffage entraîne la couche de pooling à produire des points-clés géométriquement stables, ancrés sur les objets, couvrant leur étendue spatiale et reproductibles dans le temps, à partir de masques simulés disponibles sans coût d'annotation. Le VFM reste gelé tout au long du processus. Évaluée sur les benchmarks RoboMimic et ManiSkill dans des conditions de pénurie sévère de données (15 à 50 démonstrations), GAP atteint 62 % de taux de réussite sur la tâche RoboMimic Can avec seulement 15 démonstrations (soit +16 points par rapport à la méthode AFA), 63 % sur la tâche longue et haute précision Tool Hang avec 50 démonstrations, et 61 % sur ManiSkill StackCube avec 30 démonstrations (+11 points face au fine-tuning complet). L'enjeu est considérable pour le déploiement industriel des robots manipulateurs : collecter des milliers de démonstrations humaines reste coûteux et difficile à mettre à l'échelle. GAP cible explicitement le régime peu de données (few-shot imitation learning) en corrigeant un défaut structurel des pipelines actuels. L'adaptateur spatial, censé extraire les caractéristiques pertinentes pour le contrôle depuis des représentations visuelles génériques, tend à s'accrocher à des raccourcis visuels non pertinents lorsqu'il est entraîné avec peu d'exemples, et perd son ancrage géométrique au moindre changement de scène. En forçant cet adaptateur à produire des ancres stables via une tâche proxy simulée, GAP améliore la robustesse aux perturbations de domaine, un problème bien documenté dans la littérature VLA. L'étape de pré-entraînement est entièrement découplée des tâches en aval, ce qui signifie qu'elle peut être réutilisée sans modification pour différentes compétences de manipulation, réduisant le coût marginal d'adaptation à de nouveaux environnements. Ce travail s'inscrit dans la dynamique récente d'intégration des Vision Foundation Models (tels que DINOv2 ou SigLIP) dans les pipelines de robotique, où le gel du backbone et l'adaptation légère par pooling spatial sont devenus une pratique courante pour limiter le besoin en données. GAP se positionne directement face aux poolers à base d'attention comme AFA (Attention Feature Aggregation), qu'il surpasse sur l'ensemble des benchmarks testés, ainsi que contre le fine-tuning bout-en-bout. Point de vigilance : toutes les expériences sont conduites en simulation, et aucune validation sur hardware physique n'est reportée, ce qui laisse ouverte la question du transfert sim-to-real à grande échelle. Aucun calendrier de déploiement ni partenariat industriel n'est mentionné. Les équipes européennes travaillant sur la manipulation à faibles données, notamment autour de l'INRIA ou des laboratoires de robotique cognitive, pourraient intégrer directement cette approche plug-and-play dans leurs pipelines d'imitation existants.

UELes équipes françaises et européennes travaillant sur la manipulation robotique (notamment autour de l'INRIA et des labos de robotique cognitive) pourraient intégrer directement cette approche plug-and-play dans leurs pipelines d'imitation existants pour réduire drastiquement le coût de collecte de démonstrations.

💬 15 démonstrations pour apprendre une tâche de manipulation, là où les pipelines classiques en réclament des milliers, c'est le chiffre qui compte. La méthode est légère, réutilisable entre tâches, et ça se branche directement sur les modèles de vision déjà en place. Tout se passe en simulation pour l'instant, et le transfert sur du vrai hardware reste la question sans réponse.

IA physiqueOpinion
1 source
Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils
374arXiv cs.RO 

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate. Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier. π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

💬 +23 points sur RoboTwin, c'est du solide. Séparer planificateur haut-niveau et exécuteurs VLA spécialisés, l'intuition était là depuis un moment, mais VLAs-as-Tools est le premier à boucler le pipeline complet avec les chiffres qui justifient. Bon, c'est de la simulation pure : aucune manip sur hardware réel dans le papier, et c'est là que les gains ont tendance à fondre.

IA physiqueOpinion
1 source
L'expression émotionnelle des robots à faibles degrés de liberté : évaluation de la perception avec Reachy Mini
375arXiv cs.RO 

L'expression émotionnelle des robots à faibles degrés de liberté : évaluation de la perception avec Reachy Mini

Une étude parue sur arXiv (2605.12786) analyse comment des humains interprètent les expressions émotionnelles du Reachy Mini, robot à faible nombre de degrés de liberté (low-DoF) développé par Pollen Robotics et Hugging Face. Le protocole, mené en ligne avec 100 participants en design intra-sujets, exposait chacun à 10 clips vidéo du robot exprimant différentes émotions ; les participants devaient identifier l'émotion perçue, évaluer sa valence et son éveil (arousal), et noter le robot sur des traits de perception sociale. La reconnaissance exacte s'est révélée globalement modeste : la colère, la tristesse et l'intérêt ont été identifiées de façon fiable, tandis que l'amour, le plaisir, la honte et le dégoût ont été bien moins reconnus. En revanche, les participants ont mieux capté le sens affectif global, sur les axes valence et arousal, que l'étiquette émotionnelle précise. Ces résultats interrogent un postulat courant en robotique sociale : faut-il de nombreux degrés de liberté pour communiquer une émotion crédible ? La réponse est nuancée. Si la finesse expressive reste hors de portée d'un robot low-DoF, le signal affectif général, positif ou négatif, calme ou activé, passe suffisamment pour influencer la perception sociale : les expressions positives ont été perçues comme plus chaleureuses et sociables que les négatives. Pour les intégrateurs de robots de service ou d'assistance, cela suggère qu'un design expressif minimaliste peut produire des effets relationnels mesurables, sans nécessiter une tête animatronique à haute complexité mécanique. Pollen Robotics, startup française basée à Bordeaux, a conçu Reachy Mini comme plateforme ouverte pour la recherche en interaction homme-robot (HRI). Son partenariat avec Hugging Face, acteur français de l'IA open-source, vise à connecter le robot à des modèles de perception et de langage accessibles. Dans le paysage concurrentiel, Reachy Mini se positionne face à NAO et Pepper (SoftBank Robotics) sur le segment recherche/éducation, avec un ancrage open-source plus marqué, et s'écarte des androïdes expressifs à haute fidélité comme ceux de Hanson Robotics. Les auteurs proposent d'établir Reachy Mini comme benchmark standardisé pour la communication affective sur robots contraints, et identifient l'interaction physique directe (versus vidéo seule) comme prochaine étape expérimentale.

UEL'étude positionne Reachy Mini de Pollen Robotics (Bordeaux) et Hugging Face comme références en recherche HRI open-source en Europe, avec une preuve empirique qu'un design expressif minimaliste suffit pour des robots de service à moindre complexité mécanique.

FR/EU ecosystemePaper
1 source
TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques
376arXiv cs.RO 

TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques

Une équipe du Weird Lab de l'Université de Washington a publié en mai 2026, sur arXiv (2605.12236), un cadre unifié baptisé TMRL (Timestep-Modulated Reinforcement Learning) pour accélérer le fine-tuning par apprentissage par renforcement (RL) de politiques robotiques pré-entraînées. Le système repose sur deux composantes : Context-Smoothed Pre-training (CSP), qui injecte du bruit de diffusion directe dans les entrées de la politique lors du pré-entraînement, et TMRL lui-même, qui apprend à moduler dynamiquement le pas de temps de diffusion pour contrôler explicitement l'exploration lors du fine-tuning. Les résultats présentés incluent des tâches de manipulation réelle complexes, avec un fine-tuning en conditions réelles achevé en moins d'une heure. Le cadre est compatible avec des entrées hétérogènes : états proprioceptifs, nuages de points 3D ou politiques VLA (Vision-Language-Action) basées sur des images. Le verrou technique adressé est structurel : le pré-entraînement par clonage comportemental (BC), dominant dans la robotique d'apprentissage, produit des distributions d'actions étroites centrées sur les démonstrations existantes, ce qui prive le RL aval de la couverture nécessaire pour explorer efficacement l'espace d'états. TMRL casse ce goulot en faisant du niveau de bruit de diffusion un paramètre entraînable : à fort timestep, la politique explore largement ; à faible timestep, elle exploite avec précision. Le résultat annoncé est une amélioration de l'efficacité en données lors du fine-tuning RL, ce qui est critique pour les déploiements réels où chaque essai coûte du temps machine et de l'usure mécanique. Les métriques précises de sample efficiency et les benchmarks utilisés ne sont pas détaillés dans l'abstract, ce qui rend l'évaluation indépendante difficile sans consulter l'article complet. Ce travail s'inscrit dans une dynamique active autour des politiques de diffusion pour la robotique, popularisées par π0 de Physical Intelligence et les travaux GR00T N2 de NVIDIA. Le problème exploration-exploitation en RL robotique réel reste un obstacle majeur à la commercialisation : les approches existantes comme la perturbation d'action aléatoire ou l'exploration guidée par curiosité peinent à passer à l'échelle sur du matériel réel. TMRL propose une solution intégrée au pipeline de diffusion existant, sans modifier l'architecture de la politique. Le code et les vidéos sont disponibles en open source, ce qui facilitera l'évaluation par la communauté ; les prochaines étapes probables incluent des évaluations sur plateformes humanoïdes et une intégration dans des frameworks comme LeRobot ou OpenVLA.

UELe cadre TMRL, open-source et compatible avec LeRobot (Hugging Face, France), pourrait directement accélérer le fine-tuning RL de politiques robotiques dans les labos et startups européens.

RechercheOpinion
1 source
IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel
377arXiv cs.RO 

IA incarnée en action : retour du congrès SAE World 2026 sur la sécurité, la confiance, la robotique et le déploiement réel

Lors du SAE World Congress 2026, un panel intitulé "Embodied AI in Action" a réuni des experts issus de l'automobile, de la robotique, de l'intelligence artificielle et de l'ingénierie de la sécurité pour faire le point sur le déploiement réel des systèmes d'IA incarnée. Le compte rendu de cette session, publié sous forme de livre blanc (arXiv:2605.10653), couvre trois grandes familles de systèmes : les véhicules autonomes, les robots mobiles et les machines industrielles autonomes. Contrairement à une annonce produit, ce document n'avance pas de métriques de performance spécifiques, payload, cycle time, taux de déploiement, mais synthétise le consensus d'experts sur les conditions nécessaires à un déploiement industriel fiable. Le message central est explicite : l'IA incarnée quitte les labos et entre dans des environnements opérationnels réels, avec toutes les contraintes que cela implique. Ce changement de statut, du prototype au système déployé, est précisément ce qui rend ce document pertinent pour les intégrateurs et les décideurs B2B. Le panel souligne que l'IA incarnée doit être traitée comme un défi systémique complet : rigueur d'ingénierie, gouvernance du cycle de vie, conception centrée utilisateur, et standards réglementaires encore en construction. Ce n'est pas une position nouvelle, mais le fait qu'elle émerge d'un consensus d'acteurs industriels, et non d'un seul laboratoire de recherche, signale que le secteur commence à s'aligner sur un cadre commun. La question de la confiance (trust) et de la sûreté opérationnelle est présentée comme aussi déterminante pour le succès long terme que les avancées techniques en elles-mêmes, ce qui tranche avec les discours purement axés sur les capacités des modèles. Le SAE (Society of Automotive Engineers) est l'organisation qui a défini les niveaux d'autonomie (L0 à L5) devenus la référence industrielle mondiale, son implication dans le cadrage de l'IA incarnée n'est donc pas anodine. Ce livre blanc s'inscrit dans une série d'initiatives de standardisation qui se multiplient depuis 2024, portées aussi par l'ISO, l'IEEE et l'UE dans le cadre de l'AI Act. Sur le plan concurrentiel, les géants du secteur, Boston Dynamics (Spot, Atlas), Figure AI (Figure 03), Tesla (Optimus), Agility Robotics (Digit), avancent chacun leur propre cadre de certification. Des acteurs européens comme Enchanted Tools ou Wandercraft sont concernés par ces évolutions réglementaires. Les prochaines étapes probables : la formalisation de standards sectoriels et des exigences de validation formelle pour les systèmes déployés en environnement humain partagé.

UELes acteurs européens comme Enchanted Tools et Wandercraft seront directement soumis aux standards de sécurité et de validation formelle qui émergent de ces initiatives SAE/ISO/IEEE, en convergence avec les exigences de l'AI Act pour les systèmes d'IA incarnée déployés en environnement humain partagé.

RegulationReglementation
1 source
Maquette low-cost pour simuler la découpe laser robotique dans le démantèlement nucléaire
378arXiv cs.RO 

Maquette low-cost pour simuler la découpe laser robotique dans le démantèlement nucléaire

Des chercheurs ont publié sur arXiv (ref. 2605.08947) un banc d'essai bas coût destiné à simuler la découpe laser de conteneurs dans le cadre du démantèlement nucléaire. Le dispositif se compose d'une table à trois axes supportant un conteneur cuboïde dont les faces sont recouvertes d'un matériau sensible aux ultraviolets, d'un manipulateur série à six degrés de liberté (6-DOF) portant une torche UV qui joue le rôle du laser, et d'un système de vision basé sur des caméras et des marqueurs fiduciels. La précision de suivi de trajectoire atteint 3,9 mm en moyenne (écart-type 2,5 mm) lorsque la pose complète de l'effecteur est contrôlée, et 2,4 mm (écart-type 1,3 mm) lorsque seul le faisceau UV est commandé, ce qui réduit le problème à quatre degrés de liberté au lieu de six. L'intérêt technique central de cette approche réside dans le contrôleur de mouvement adaptatif en espace des tâches avec contraintes, qui compense les incertitudes paramétriques sans nécessiter de calibration préalable du système. Autrement dit, un intégrateur peut déployer ce type de cellule robotique sans phase de mise au point métrologique coûteuse, ce qui est décisif en milieu nucléaire où l'accès humain est limité et où toute intervention de recalibrage génère des doses supplémentaires. Le contrôleur gère également de façon réactive l'évitement de collisions avec les obstacles géométriques de l'environnement, une capacité critique dans des enceintes encombrées. La réduction volontaire à 4-DOF pour le suivi du faisceau, plutôt que le contrôle de la pose complète 6-DOF, constitue un choix de conception qui améliore la précision de 38 % selon les chiffres rapportés, bien que les conditions expérimentales exactes ne soient pas détaillées dans le résumé. Le démantèlement nucléaire représente un des rares secteurs où la robotique de manipulation est soumise à des contraintes simultanées de précision millimétrique, d'autonomie réactive et d'impossibilité de présence humaine prolongée, ce qui en fait un terrain d'évaluation exigeant pour les architectures de contrôle adaptatif. Ce type de maquette bas coût s'inscrit dans une tendance plus large de simulation physique abordable avant déploiement en environnement réel radioactif, en complément des approches sim-to-real purement numériques. Parmi les acteurs actifs sur la robotique pour le nucléaire en Europe, on peut citer les travaux menés autour du CEA-List en France ainsi que des projets européens comme ROBOMINERS ou les initiatives de l'ITER Organization. Les prochaines étapes naturelles seraient la validation avec un vrai laser de découpe et des matériaux représentatifs des conteneurs de déchets, ainsi que des tests en conditions d'irradiation pour évaluer la robustesse de l'électronique embarquée.

UEL'approche de contrôle adaptatif sans calibration préalable est directement pertinente pour les programmes de démantèlement nucléaire européens portés par le CEA-List et l'ITER Organization, où chaque intervention humaine de recalibrage génère des doses supplémentaires.

RecherchePaper
1 source
GATO : optimisation de trajectoire accélérée par GPU et par lots pour la commande prédictive par modèle embarquée et évolutive
379arXiv cs.RO 

GATO : optimisation de trajectoire accélérée par GPU et par lots pour la commande prédictive par modèle embarquée et évolutive

Une équipe de chercheurs a publié sur arXiv (identifiant 2510.07625v2) GATO, un solveur open source conçu pour accélérer massivement les calculs de trajectoire en temps réel dans les systèmes de contrôle prédictif par modèle (MPC). Concrètement, GATO cible le régime de lots modérés, soit des dizaines à quelques centaines de problèmes d'optimisation de trajectoires non linéaires résolus simultanément à chaque cycle de contrôle. Les benchmarks sur simulateur affichent des gains de 18 à 21 fois par rapport aux solveurs CPU de référence, et de 1,4 à 16 fois par rapport aux approches GPU existantes selon la taille des lots. Le solveur a été validé sur matériel réel via un bras manipulateur industriel, ce qui dépasse le stade de la démonstration purement simulée. Ce résultat comble un angle mort persistant dans l'écosystème MPC pour la robotique : les approches GPU actuelles parallélisent efficacement une seule résolution, ou traitent de très grands lots à des cadences sous temps réel, mais aucune ne couvre bien le régime intermédiaire où opèrent de nombreuses applications avancées, notamment la planification de mouvement pour bras industriels, la locomotion d'humanoïdes ou la navigation d'AMR en environnement dynamique. GATO co-conçoit l'algorithme, le logiciel et l'architecture matérielle en exploitant le parallélisme à trois niveaux : bloc, warp et thread CUDA. Les études de cas montrent une meilleure rejection des perturbations et une convergence accélérée, deux métriques directement pertinentes pour les intégrateurs industriels et les équipes de contrôle embarqué. Le MPC est un standard de facto en robotique et en contrôle de procédés, mais son coût computationnel a longtemps limité son usage aux systèmes à dynamique lente ou aux architectures avec CPU puissants dédiés. Les GPU embarqués, désormais présents sur les plateformes robotiques modernes (Jetson, Orin), rendent ce type de co-design pertinent pour le déploiement edge. Aucun acteur industriel nommé n'est associé à ce travail, qui reste pour l'instant une contribution académique ouverte, sans annonce de commercialisation ni partenariat industriel déclaré. La mise à disposition en open source vise à favoriser la reproductibilité et l'adoption par les équipes de recherche et développement, avec un potentiel d'intégration dans des frameworks MPC existants comme Crocoddyl ou ALTRO.

UECrocoddyl, l'un des frameworks MPC cibles d'intégration mentionnés, est développé au LAAS-CNRS (Toulouse, France), ce qui rend GATO directement pertinent pour les équipes de recherche françaises en contrôle de robots.

RecherchePaper
1 source
Reconstruction ou sémantique ? Ce qui rend un espace latent utile pour les modèles du monde en robotique
380arXiv cs.RO 

Reconstruction ou sémantique ? Ce qui rend un espace latent utile pour les modèles du monde en robotique

Une étude soumise sur arXiv le 8 mai 2025 (arXiv:2605.06388) remet en question le choix dominant des espaces latents dans les modèles de monde pour la robotique. Les auteurs comparent six encodeurs, répartis en deux familles, selon un protocole d'évaluation commun sur le dataset BridgeV2, référence de manipulation robotique généraliste. Les encodeurs de reconstruction testés sont VAE (standard actuel) et Cosmos (NVIDIA) ; les encodeurs sémantiques incluent V-JEPA 2.1 (Meta), Web-DINO et SigLIP 2 (Google). Le cadre évalué est celui des modèles de diffusion latente conditionnés par l'action (LDM), utilisés comme proxy de simulation pour tester des politiques de contrôle robot sans déploiement physique. L'évaluation repose sur trois axes : fidélité visuelle pixel-level, performance en planification et évaluation de politiques en aval, et qualité intrinsèque des représentations latentes. Les résultats invalident une hypothèse implicite courante dans le domaine : une bonne reconstruction pixel ne suffit pas à produire un bon modèle de monde opérationnel. VAE et Cosmos atteignent les meilleurs scores de fidélité visuelle, mais V-JEPA 2.1 domine sur l'axe le plus critique, la performance des politiques, tandis que Web-DINO et SigLIP 2 excellent sur les deux axes restants, et ce à toutes les échelles de modèles testées. Pour un intégrateur ou un labo qui construit des pipelines sim-to-real, cela implique que le choix de l'encodeur dans la stack LDM n'est pas un détail d'implémentation : il conditionne directement la qualité des politiques apprises. La fidélité visuelle, souvent retenue comme métrique de validation principale, s'avère un indicateur trompeur du potentiel d'un modèle de monde pour le contrôle robotique. Ce travail s'inscrit dans une course de fond autour des modèles de monde pour la robotique, impliquant des acteurs comme Physical Intelligence (pi-0), Figure AI et des équipes académiques autour des RoboVLMs. L'adoption des LDMs comme infrastructure d'évaluation de politiques s'est accélérée depuis 2023 avec l'essor des VLAs (Vision-Language-Action models). Le VAE reste l'encodeur par défaut dans la majorité des implémentations ouvertes, héritage direct des pipelines de diffusion image (Stable Diffusion, LDM de Rombach et al., 2022). Ce preprint, non encore évalué par des pairs, plaide pour un pivot vers les encodeurs à représentations sémantiques, une direction qui converge avec les travaux de Meta sur V-JEPA 2 et de Google sur SigLIP. Les étapes suivantes naturelles incluraient une validation sur des datasets robotiques plus diversifiés et des expériences en déploiement physique réel pour confirmer le transfert sim-to-real.

RechercheOpinion
1 source
Contrôle à sûreté critique sous observabilité partielle : POMDP d'atteinte-évitement et contrôle dans l'espace des croyances
381arXiv cs.RO 

Contrôle à sûreté critique sous observabilité partielle : POMDP d'atteinte-évitement et contrôle dans l'espace des croyances

Des chercheurs ont publié sur arXiv (référence 2503.10572v2) une architecture de contrôle en temps réel pour robots évoluant dans des environnements partiellement observables, c'est-à-dire des situations où le robot ne perçoit qu'une fraction de son état réel. Le problème traité est celui des POMDP reach-avoid (Partially Observable Markov Decision Processes) : comment guider un robot vers un objectif tout en évitant des obstacles, quand ses capteurs sont bruités ou incomplets. L'approche proposée découple ce problème en trois composants modulaires opérant dans l'espace des croyances (belief space), soit l'ensemble des distributions de probabilité sur les états possibles. Les auteurs introduisent deux outils formels : les Belief Control Lyapunov Functions (BCLFs), qui formalisent la collecte active d'information comme un problème de convergence Lyapunov, et les Belief Control Barrier Functions (BCBFs), qui fournissent des garanties de sécurité probabilistes à horizon fini via la prédiction conforme. La synthèse de commande se réduit à des programmes quadratiques légers, résolus en temps réel même pour des représentations de croyances non gaussiennes de dimension supérieure à 10 000. Les expériences couvrent la simulation et une plateforme réelle de robotique spatiale. L'apport principal est architectural : plutôt que de tout résoudre dans un arbre de recherche unifié, ce qui souffre de conflits entre échelles de temps (sécurité immédiate vs. planification à long terme), l'architecture en couches permet à chaque composant de fonctionner à son propre rythme. Pour les intégrateurs robotiques et les équipes R&D, c'est une avancée concrète sur le sim-to-real gap dans des contextes à observabilité partielle. La garantie probabiliste de sécurité via prédiction conforme est particulièrement notable : elle s'applique sans hypothèse gaussienne, ce qui élargit le domaine d'application à des scénarios industriels réels où les distributions d'incertitude sont complexes. Les performances annoncées sur la plateforme spatiale suggèrent une applicabilité au-delà du laboratoire, même si les conditions exactes des tests restent à détailler. L'article s'inscrit dans un courant actif de recherche sur le contrôle certifié (Control Barrier Functions, Control Lyapunov Functions) appliqué à la prise de décision probabiliste. Les travaux antérieurs comme DESPOT, POMCP ou les POMDP contraints (C-POMDP) tentaient d'intégrer sécurité et planification dans un seul solveur, souvent au prix de temps de calcul prohibitifs. L'utilisation de la prédiction conforme pour les garanties de sécurité rapproche cette ligne de travail des approches émergentes en apprentissage machine certifié. La plateforme spatiale mentionnée évoque des applications dans l'inspection et la maintenance orbitale, un secteur où acteurs comme Airbus Defence, Thales Alenia Space ou des startups comme ClearSpace développent des capacités d'opération autonome. Les prochaines étapes naturelles seraient une validation sur des robots mobiles ou manipulateurs en environnement industriel, et une publication des hyperparamètres permettant la reproductibilité.

UELes méthodes de contrôle certifié pour observabilité partielle sont directement applicables aux projets d'opération autonome orbitale développés par des acteurs européens comme Airbus Defence, Thales Alenia Space et ClearSpace.

RecherchePaper
1 source
Apprendre à oublier : mémoire épisodique hiérarchique pour le déploiement à long terme des robots
382arXiv cs.RO 

Apprendre à oublier : mémoire épisodique hiérarchique pour le déploiement à long terme des robots

Des chercheurs ont publié H²-EMV, un cadre logiciel permettant aux robots humanoïdes de gérer sélectivement leur mémoire épisodique sur le long terme. Le problème adressé est concret : lorsqu'un utilisateur demande « Où as-tu mis mes clés ? » ou « Pourquoi la tâche a-t-elle échoué ? », le robot doit interroger un historique d'expériences captées en continu depuis des capteurs multimodaux. Sans filtrage, ce volume dépasse rapidement les capacités de stockage et rend les requêtes en temps réel impraticables. H²-EMV construit une mémoire hiérarchique de manière incrémentale, applique un oubli sélectif via un modèle de langage qui évalue la pertinence de chaque événement selon des règles en langage naturel, puis affine ces règles à partir des retours utilisateur. Testé sur des simulations de tâches domestiques et sur 20,5 heures d'enregistrements réels collectés avec le robot humanoïde ARMAR-7, le système réduit la taille mémoire de 45 % et le temps de calcul des requêtes de 35 %, tout en maintenant la précision des réponses. En deuxième session, cette précision progresse de 70 % grâce à l'adaptation aux priorités individuelles de l'utilisateur. Pour les déploiements longs de robots de service, ce résultat lève un frein non résolu. La mémoire épisodique est un point de friction majeur : un robot qui efface tout entre deux sessions est inutilisable sur la durée, mais stocker sans discrimination devient ingérable sur plusieurs semaines ou plusieurs mois. H²-EMV démontre qu'un oubli structuré et appris ne dégrade pas les performances de question-réponse, et que celles-ci s'améliorent avec l'usage, propriété rare dans les systèmes robotiques actuels. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des assistants humanoïdes capables de dialogue contextuel persistant sans infrastructure de stockage surdimensionnée, condition nécessaire à un déploiement viable en environnement réel. ARMAR-7 est un humanoïde développé à l'Institut für Anthropomatik und Robotik du Karlsruhe Institute of Technology (KIT), en Allemagne, dont les recherches en interaction homme-robot figurent parmi les plus avancées en Europe. La gestion de mémoire long terme en robotique est un champ actif : des approches comme MemoryBank ou les bases vectorielles couplées à des grands modèles de langage ciblent des problèmes comparables, mais rarement sur des horizons temporels aussi longs ni sur des données réelles aussi volumineuses. L'article (arXiv:2604.11306v2) reste un preprint non encore évalué en conférence à comité de lecture ; les résultats annoncés attendent une confirmation indépendante. Les prochaines étapes naturelles sont une validation sur d'autres plateformes humanoïdes et des horizons de déploiement encore plus étendus pour confirmer la stabilité de l'apprentissage des règles d'oubli.

UEH²-EMV est développé et validé sur ARMAR-7, humanoïde du KIT (Allemagne), positionnant un laboratoire européen à la pointe de la gestion mémoire long terme pour robots de service.

RecherchePaper
1 source
Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage
383arXiv cs.RO 

Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage

Une équipe de chercheurs a publié début mai 2025 sur arXiv (2605.01434) une architecture de lecture de capteurs analogiques scalable pour mains robotiques dextres. Le système repose sur un registre à décalage série-vers-parallèle (SIPO) qui permet de connecter des modules de capteurs hétérogènes via seulement trois lignes de signal entre chaque module. La validation porte sur une main robotique à tendons équipée de 16 modules articulaires et d'un module tactile à quatre canaux, soit 20 canaux échantillonnés à 1 kHz en mode plein balayage, avec une stabilité confirmée jusqu'à 1,5 kHz. Les capteurs articulaires atteignent une erreur maximale de pente (APE) de 0,446 % et une estimation angulaire inférieure au degré. Pour la perception tactile, des modèles LSTM déployés en inférence temps réel à 1 kHz obtiennent un RMSE de 0,125 N pour l'estimation de force et 93,4 % de précision pour la classification en cinq catégories de localisation de contact. L'apport principal est la dissociation entre nombre de capteurs, complexité du câblage et bande passante d'échantillonnage, un compromis qui freine depuis longtemps le développement de mains densément captées. Limiter l'interconnexion à trois fils réduit la complexité mécanique et électrique de façon significative, un point critique pour les intégrations en espace contraint. La démonstration à 1 kHz sur 20 canaux simultanés avec inférence LSTM embarquée prouve que la chaîne capteur-modèle peut tenir le rythme d'une boucle de contrôle temps réel sans matériel dédié coûteux. Les performances tactiles sont solides sur banc de test, mais l'article ne précise pas les conditions en manipulation libre, un élément à vérifier avant toute extrapolation industrielle. La dextérité robotique reste un verrou majeur pour la manipulation non structurée, et la densification des capteurs dans les mains mécaniques est un axe actif chez des acteurs comme Sanctuary AI, Figure, Apptronik ou 1X, dont les humanoïdes commerciaux peinent encore à atteindre la densité sensorielle des prototypes académiques. L'architecture SIPO présentée est suffisamment générique pour s'adapter à d'autres géométries de main ou d'autres types de capteurs comme la pression, la température ou la proximité, et constitue une base crédible pour des intégrations sur plateformes humanoïdes en cours de commercialisation. Du côté européen, ni Wandercraft ni Enchanted Tools n'ont publié d'approches comparables pour les effecteurs distaux, laissant ce créneau ouvert à de prochains travaux.

UEL'architecture SIPO publiée en open access sur arXiv constitue une base technique directement exploitable pour les équipes R&D européennes travaillant sur les effecteurs distaux d'humanoïdes, un créneau où Wandercraft et Enchanted Tools n'ont pas encore publié d'approches comparables.

RecherchePaper
1 source
VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique
384arXiv cs.RO 

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VILAS (arXiv 2605.02037) est une plateforme de manipulation robotique modulaire à faible coût conçue pour déployer des modèles vision-language-action (VLA) sur du matériel accessible. Le système associe un bras collaboratif Fairino FR5, un préhenseur électrique Jodell RG52-50 et un module de perception à deux caméras, coordonnés via une architecture ZMQ unifiant téleopération, collecte de données et exécution de politiques dans un pipeline unique. Pour saisir des objets fragiles sans capteur de force dédié, les auteurs ont développé une extension de préhenseur souple fondée sur le kirigami, une technique de découpe structurée qui induit une déformation contrôlée sous charge compressive, garantissant un contact doux et répétable. Trois modèles VLA ont été comparés sur cette plateforme : pi0 et pi0.5 de Physical Intelligence, et GR00T N1.6 de NVIDIA, chacun fine-tuné depuis des checkpoints publics sur un jeu de démonstrations identique collecté via le pipeline de téleopération. La tâche de validation retenue est la saisie de raisins, cas représentatif de la manipulation d'objets déformables et fragiles. Ce préprint de recherche démontre que des politiques VLA compétitives peuvent être entraînées et déployées sur du matériel grand public, sans infrastructure coûteuse ni retour d'effort. Pour les intégrateurs et les équipes de R&D à budget contraint, c'est un signal clair : le goulot d'étranglement n'est plus le hardware mais le pipeline de données et le fine-tuning. La comparaison des trois modèles dans des conditions strictement identiques (même bras, même dataset, même tâche) constitue un benchmark pratique rare, la littérature évaluant généralement les VLA sur des plateformes propriétaires difficilement reproductibles. Le fait que GR00T N1.6, conçu initialement pour les humanoïdes de NVIDIA, soit ici testé sur un cobot bas de gamme éclaire aussi la portabilité réelle de ces modèles généralistes, au-delà des démonstrations sur hardware maison. Ce travail s'inscrit dans le mouvement de démocratisation de la robotique apprenante porté notamment par LeRobot de Hugging Face ou les travaux autour d'ACT (Action Chunking with Transformers). Le Fairino FR5 se positionne dans la gamme des cobots abordables, face au Lite6 d'UFactory ou au CR5 de Dobot. Pi0 et pi0.5 sont issus de Physical Intelligence (Pi), startup californienne fondée en 2023 et financée entre autres par Bezos Expeditions, tandis que GR00T N1.6 est le modèle de fondation robotique de NVIDIA présenté en 2025 pour ses partenaires humanoïdes. Les suites naturelles de cette plateforme incluent l'extension à des tâches bi-manuelles, l'élargissement du catalogue d'objets, et potentiellement la publication du dataset de démonstrations pour faciliter la reproductibilité.

IA physiqueOpinion
1 source
VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative
385arXiv cs.RO 

VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative

Une équipe de chercheurs a publié en mai 2026, via arXiv (2605.01194), VLA-ATTC, un framework visant à doter les modèles Vision-Language-Action (VLA) d'un mécanisme de délibération adaptatif à l'inférence. Les VLA, qui couplent perception visuelle, langage et génération d'actions pour piloter des robots manipulateurs, reposent jusqu'ici sur un mode d'exécution réflexif : rapide, mais aveugle face à l'ambiguïté. VLA-ATTC introduit un "embrayage cognitif" basé sur l'incertitude : lorsque le modèle détecte une situation complexe, il bascule vers une phase de calcul délibératif (test-time compute, TTC) dans laquelle un composant inédit, le Relative Action Critic (RAC), évalue des candidats d'actions par comparaisons par paires plutôt que par estimation absolue de valeur. Un pipeline automatisé génère les paires de préférence sans annotation manuelle. Sur le benchmark LIBERO-LONG, VLA-ATTC réduit le taux d'échec du modèle SOTA PI0.5 de Physical Intelligence de plus de 50 %. Le code et les poids seront publiés en open source. Ce résultat cible directement le "demo-to-reality gap" : les VLA actuels performent bien en conditions contrôlées mais échouent sur des tâches longues et ambiguës. Diviser par deux le taux d'échec sur LIBERO-LONG, un benchmark de manipulation séquentielle longue portée, sans retrainer le modèle de base est un gain concret pour les intégrateurs industriels. Le choix du RAC est également instructif : abandonner l'estimation de valeur absolue, instable en pratique, au profit d'un mécanisme relatif plus simple à apprendre suggère que la fiabilité des VLA peut progresser via du compute supplémentaire à l'inférence plutôt que par des cycles de fine-tuning coûteux. Les VLA constituent la ligne de front actuelle en robotique de manipulation. Pi-0 et Pi-0.5 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA (UC Berkeley) ont établi une course à la généralisation zero-shot, mais partagent le même défaut structurel : une inférence déterministe et non délibérative. L'approche TTC appliquée aux VLA s'inscrit dans un mouvement plus large, déjà visible chez les LLM avec o1, o3 et DeepSeek R1, qui cherche à "acheter" de la qualité de décision via du compute d'inférence supplémentaire. Pour les déploiements industriels en temps réel, la question restante sera de quantifier le surcoût de latence du mode TTC dans des environnements contraints, comme les lignes d'assemblage ou les cellules de picking à cadence élevée.

UEL'open-source annoncé pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur la manipulation VLA, mais aucune institution ou entreprise FR/EU n'est directement impliquée.

IA physiqueOpinion
1 source
Un jumeau numérique haute-fidélité pour la manipulation robotique basé sur le splattage gaussien 3D
386arXiv cs.RO 

Un jumeau numérique haute-fidélité pour la manipulation robotique basé sur le splattage gaussien 3D

Une équipe de chercheurs a publié sur arXiv (identifiant 2601.03200, version 2) un cadre logiciel permettant de construire des jumeaux numériques haute fidélité pour la manipulation robotique en quelques minutes à partir d'un ensemble réduit d'images RGB. Le système repose sur la technique de reconstruction 3D Gaussian Splatting (3DGS), qui modélise une scène comme un nuage de gaussiennes colorées et orientées, offrant un rendu photoréaliste nettement plus rapide que les approches NeRF classiques. À cela s'ajoute une fusion sémantique tenant compte de la visibilité des objets, pour un étiquetage précis des éléments de la scène en 3D, ainsi qu'une méthode de conversion géométrique par filtrage produisant des maillages prêts pour la détection de collisions. L'ensemble s'intègre directement dans la chaîne Unity-ROS2-MoveIt et a été validé expérimentalement sur un bras Franka Emika Panda effectuant des tâches de pick-and-place dans des environnements non structurés. L'intérêt industriel de cette approche réside dans sa capacité à compresser drastiquement le temps de mise en place d'un pipeline sim-to-real : là où la création d'un jumeau numérique exploitable pour la planification de mouvements demande habituellement des heures de scan, de nettoyage de maillage et de paramétrage de collision, le framework proposé vise à produire un environnement simulé cohérent géométriquement et sémantiquement en quelques minutes. Pour un intégrateur ou un responsable de ligne industrielle, cela signifie un déploiement potentiellement plus rapide de cellules robotisées dans des contextes où la scène évolue fréquemment. Le papier démontre aussi que la qualité géométrique des jumeaux 3DGS, souvent critiquée pour ses artefacts aux bords d'objets, peut être suffisante pour piloter une manipulation robuste, ce qui contredit partiellement l'idée que ces reconstructions restent cantonnées à la visualisation. Le contexte est celui d'une compétition intense autour de la représentation de scènes pour la robotique. Le 3DGS, introduit par Kerbl et al. en 2023, s'est imposé comme alternative aux NeRF grâce à sa vitesse de rendu en temps réel, et plusieurs groupes l'ont depuis adapté à la robotique (SplaTAM, Gaussian Grouping, GaussianWorld). Ce travail se distingue par son focus applicatif sur le pipeline complet perception-planification-exécution, en ciblant explicitement MoveIt et ROS2, les standards de facto en robotique industrielle open-source. Il s'agit néanmoins d'un preprint sans revue par les pairs, et les résultats de pick-and-place sont présentés sur un seul type de bras dans un environnement de laboratoire contrôlé, ce qui laisse ouverte la question de la robustesse à plus grande échelle.

UELe framework est validé sur un bras Franka Emika Panda (fabricant allemand) et s'intègre nativement avec ROS2/MoveIt, standards ouverts très utilisés par les intégrateurs industriels européens, ce qui le rend directement pertinent pour réduire les délais de déploiement de cellules robotisées en Europe.

RecherchePaper
1 source
Génération de démarche adaptative pour exosquelettes multi-terrains via des primitives de mouvement à noyau contraint
387arXiv cs.RO 

Génération de démarche adaptative pour exosquelettes multi-terrains via des primitives de mouvement à noyau contraint

Des chercheurs ont publié le 5 mai 2026 sur arXiv (preprint, non encore évalué par les pairs) un framework baptisé AGG (Adaptive Gait Generation), basé sur les Kernelized Movement Primitives (KMP), conçu pour permettre aux exosquelettes de membres inférieurs (Lower Limb Exoskeletons, LLEs) de marcher sur plusieurs types de terrains intérieurs en temps réel. Le système apprend une représentation probabiliste de la marche humaine à partir d'un nombre limité de démonstrations, dans les espaces articulaires et cartésiens, pour garantir la cohérence physiologique et la faisabilité cinématique. Une caméra RGB-D embarquée extrait des informations environnementales qui sont injectées comme contraintes linéaires dans un problème d'optimisation via des via-points. La méthode a été validée en simulation sur quatre scénarios, marche à plat, pentes, escaliers et franchissement d'obstacles, puis testée physiquement sur un LLE commercial dans des conditions réelles. L'enjeu principal est de combler le fossé entre laboratoire et terrain pour les exosquelettes de rééducation et d'assistance, qui restent aujourd'hui cantonnés aux surfaces planes et uniformes. L'approche KMP permet d'adapter la trajectoire de marche sans recalibration manuelle, ce qui représente une avancée opérationnelle concrète pour les cliniciens et les intégrateurs industriels. La capacité à générer des trajectoires cohérentes à partir de peu de démonstrations humaines réduit significativement le coût de déploiement, un verrou majeur pour la commercialisation. Les résultats sur le LLE commercial valident le passage du sim-to-real, même si la robustesse à long terme et la diversité des profils utilisateurs restent à démontrer sur des cohortes plus larges. Les exosquelettes de membres inférieurs sont un segment en pleine structuration : des acteurs comme Wandercraft (Paris), avec son Atalante X, ou Ekso Bionics et ReWalk côté américain, s'affrontent sur la question de l'autonomie locomotrice en environnement non contrôlé. La plupart des systèmes existants imposent encore une supervision clinique ou des réglages manuels par terrain. Ce travail s'inscrit dans une vague de recherches cherchant à coupler perception embarquée et planification adaptive, un axe également exploré par des équipes à l'ETH Zurich et au MIT. Les prochaines étapes naturelles seraient une validation sur des populations de patients avec des pathologies variées et une intégration dans un pipeline de contrôle adaptatif complet incluant la détection d'intention de l'utilisateur.

UEWandercraft (Paris) et son Atalante X sont directement concernés par cette avancée, qui ouvre la voie à une autonomie locomotrice en environnements non contrôlés sans recalibration manuelle, un verrou clé pour la commercialisation clinique en Europe.

ExosquelettesPaper
1 source
Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA
388arXiv cs.RO 

Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA

Début mai 2026, une équipe de chercheurs a publié (arXiv:2605.02757) un framework d'augmentation de données pour les modèles vision-language-action (VLA), visant le fossé visuel persistant entre simulation et données réelles. Le pipeline, nommé "Seeing Realism from Simulation", convertit des vidéos simulées en séquences d'apparence réaliste via trois étapes: segmentation sémantique vidéo pour extraire des conditions structurées, réécriture de légendes pour diversifier les environnements, puis application d'un modèle de transfert vidéo conditionnel. Pour rendre l'approche scalable, les auteurs introduisent un mécanisme de réutilisation de features de diffusion (recycler les tokens vidéo entre timesteps adjacents) et un coreset sampling qui sélectionne un sous-ensemble compact sous contrainte computationnelle. Sur les benchmarks Robotwin 2.0 et LIBERO-Plus, le framework améliore RDT-1B de 8% et le modèle pi-0 de Physical Intelligence de 5,1%. Le code est disponible en open source sur GitHub. Ces gains pointent un goulot d'étranglement réel de l'industrie: collecter des vidéos de manipulation réelles à grande échelle est coûteux et lent, alors que la simulation offre une scalabilité quasi-illimitée mais dégrade systématiquement les performances en déploiement. Si l'on peut transformer des données simulées en données visuellement réalistes en préservant les labels d'action, on dispose d'un levier de scaling à faible coût. Le fait que pi-0, déjà entraîné sur des millions de trajectoires réelles, gagne encore 5,1% indique une complémentarité avec les pipelines de collecte existants plutôt qu'une substitution. Cela dit, les auteurs ne publient aucun chiffre concret sur la réduction du temps de génération, ce qui laisse ouverte la question de viabilité à l'échelle industrielle. Ce travail s'inscrit dans la course aux modèles fondation pour la robotique, où Physical Intelligence (pi-0, pi-0.5) et les équipes derrière RDT-1B font figure de références. LIBERO et Robotwin 2.0 sont devenus les benchmarks standard pour comparer ces architectures VLA en conditions contrôlées. Contrairement aux approches de domain randomization ou au style transfer image par image, l'utilisation d'un modèle vidéo diffusion-based préserve la cohérence temporelle, critique pour les tâches de manipulation multi-étapes. Les prochaines étapes naturelles incluent l'extension à des environnements moins structurés et des horizons de tâche plus longs, là où le fossé sim-to-real reste le plus prononcé et où la diversité des légendes réécrites sera la plus déterminante.

IA physiqueOpinion
1 source
Simulation de l'expérience sensorimotrice du nourrisson par transfert de mouvements vers des humanoïdes
389arXiv cs.RO 

Simulation de l'expérience sensorimotrice du nourrisson par transfert de mouvements vers des humanoïdes

Une équipe de recherche a déposé sur arXiv (référence 2604.27583) un framework permettant de simuler l'expérience sensorimotrice multimodale de nourrissons en retransférant leurs mouvements sur des robots humanoïdes physiques et virtuels. À partir d'une seule vidéo, la méthode extrait le squelette de l'enfant et estime sa pose 3D complète image par image, puis mappe ces trajectoires sur quatre plateformes : le robot physique iCub et trois simulateurs virtuels, pyCub, EMFANT et MIMo. La relecture de ces mouvements retransférés génère des flux multisensoriels synthétiques couvrant la proprioception (articulations et muscles), le sens du toucher et la vision. Pour l'embodiment le mieux adapté morphologiquement, la précision de retargeting atteint moins d'un centimètre, ce qui permet une annotation automatisée fine des comportements moteurs. L'intérêt de ce travail dépasse la robotique développementale stricte. La plupart des approches de motion retargeting existantes se limitent à reproduire la cinématique, ignorant la richesse sensorielle associée au mouvement humain. Ce framework produit des streams proprioceptifs et tactiles synchronisés avec la vision, un type de donnée rare susceptible d'alimenter l'entraînement de modèles VLA (Vision-Language-Action) qui peinent encore à généraliser hors du domaine simulé. Sur le plan médical, la capacité à annoter automatiquement des comportements moteurs depuis une simple vidéo, puis à les comparer quantitativement à un avatar robot, ouvre une voie crédible pour la détection précoce de troubles du neurodéveloppement, autisme, paralysie cérébrale, sans recourir à une instrumentation directe de l'enfant. Le robot iCub, développé par l'IIT (Istituto Italiano di Tecnologia, Gênes) depuis 2004 et déployé dans plus de 30 laboratoires mondiaux, constitue la plateforme physique de référence de l'étude, sa morphologie proche d'un enfant de 3-4 ans en faisant un candidat naturel. La précision sub-centimétrique annoncée vaut pour les séquences les mieux alignées morphologiquement : les auteurs ne publient pas de métriques globales sur corpus complet, ce qui invite à une lecture prudente de la performance générale. Dans l'espace concurrent, des équipes comme Meta AI (SAPIENS) ou ETH Zurich (SMPL-X) travaillent sur la reconstruction posturale dense, mais sans l'orientation développementale ni la multimodalité sensorielle de cette approche. Le code est publié en open source sur GitHub sous le dépôt ctu-vras/motion-retargeting.

UEL'IIT (Gênes, Italie), créateur de la plateforme iCub utilisée comme référence physique de l'étude, consolide le positionnement européen dans la robotique développementale et la génération de données multimodales pour l'entraînement de modèles VLA.

💬 Ce qui m'a accroché, c'est pas le robot qui rejoue les gestes d'un nourrisson, c'est la donnée synthétique que ça produit : proprio, toucher et vision synchronisés depuis une simple vidéo, c'est rare et c'est exactement ce dont les VLA ont besoin pour généraliser hors labo. L'application médicale (détection précoce de troubles moteurs sans coller des capteurs partout sur un bébé) est probablement le cas d'usage le plus sérieux à court terme. Reste à voir les métriques sur corpus complet, les auteurs ne les publient pas pour l'instant.

RecherchePaper
1 source
Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse
390arXiv cs.RO 

Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse

Une étude publiée sur arXiv (référence 2603.22078) compare les performances de deux familles d'architectures pour la planification d'actions robotiques : les modèles vision-langage-action (VLA), aujourd'hui dominants dans la recherche, et les world action models (WAM), une approche plus récente fondée sur la prédiction d'états futurs. Les chercheurs ont soumis plusieurs systèmes à des perturbations visuelles et linguistiques sur deux bancs d'essai standardisés, LIBERO-Plus et RoboTwin 2.0-Plus. Les résultats chiffrés montrent que LingBot-VA, un WAM, atteint 74,2 % de taux de succès sur RoboTwin 2.0-Plus, tandis que Cosmos-Policy, développé dans l'écosystème NVIDIA, obtient 82,2 % sur LIBERO-Plus. Le VLA pi-0.5, produit par Physical Intelligence, parvient à des niveaux de robustesse comparables sur certaines tâches, mais au prix d'un entraînement sur des jeux de données robotiques très diversifiés et avec des objectifs d'apprentissage multiples. L'enjeu central de cette comparaison est la généralisation hors distribution : les systèmes robotiques déployés en environnement industriel réel rencontrent des variations d'éclairage, de fond visuel et de formulations d'instructions que leurs données d'entraînement ne couvrent pas. Les WAM tirent leur robustesse de préentraînements massifs sur des vidéos web, qui leur confèrent des priors spatiotemporels sur la dynamique du monde physique. L'étude confirme que cette capacité de prédiction explicite des états futurs améliore effectivement la tenue aux perturbations, sans nécessiter autant de données de démonstration robotique que les VLA. Elle identifie également une classe intermédiaire, les approches hybrides qui intègrent partiellement la prédiction vidéo, et montre qu'elles obtiennent une robustesse intermédiaire, soulignant que la manière d'intégrer ces priors vidéo est aussi importante que leur présence. Les VLA comme pi-0 et pi-0.5 (Physical Intelligence), OpenVLA ou RoboVLMs ont dominé la recherche en manipulation robotique depuis 2023, profitant de la maturité des grands modèles vision-langage. Les WAM s'inscrivent dans un courant plus récent, porté notamment par NVIDIA avec sa famille Cosmos et par plusieurs laboratoires académiques, qui revisitent les world models comme substrat d'action plutôt que comme outil de simulation. Cette étude apporte une validation empirique contrôlée à une hypothèse jusqu'ici surtout théorique, et devrait peser dans les choix d'architecture pour les prochaines générations de systèmes robotiques polyvalents, notamment dans les contextes industriels où la robustesse aux variations non anticipées est un critère de qualification prioritaire.

IA physiqueOpinion
1 source
FalconApp : déploiement rapide sur iPhone d'un système de perception bout-en-bout via données synthétiques labellisées automatiquement
391arXiv cs.RO 

FalconApp : déploiement rapide sur iPhone d'un système de perception bout-en-bout via données synthétiques labellisées automatiquement

FalconApp, présentée dans un preprint arXiv publié fin avril 2026 (arXiv:2604.25949), est une application iPhone couplée à un pipeline backend qui transforme une courte vidéo capturée à la main en un module de perception opérationnel pour la robotique, capable de détection de masque et d'estimation de pose à 6 degrés de liberté (6-DoF). Le pipeline complet fonctionne ainsi : l'utilisateur filme un objet rigide, l'application reconstruit un asset 3D au format GSplat (Gaussian Splatting), le composite sur des fonds photorealistes variés, génère des images synthétiques avec masques et poses de vérité terrain en étiquetage automatique, entraîne le module de perception, puis le redéploie sur l'iPhone. Sur cinq objets de géométries et textures diverses, le système atteint en moyenne 20 minutes de génération de données synthétiques et d'entraînement par objet, une latence bout-en-bout d'environ 30 ms sur l'appareil, et surpasse un algorithme de référence PnP (Perspective-n-Point) sur 4 objets sur 5, tant en simulation qu'en évaluation réelle. L'intérêt industriel est direct : le goulot d'étranglement classique de la perception en robotique est l'annotation manuelle de données réelles, coûteuse et chronophage. Ramener ce délai à 20 minutes via de la donnée synthétique auto-étiquetée représente un changement de paradigme pour les intégrateurs robotiques qui doivent adapter rapidement des systèmes de préhension ou de localisation à de nouveaux objets sans pipeline MLOps lourd. La latence de 30 ms sur smartphone est compatible avec un usage temps réel embarqué. Cela dit, la validation reste modeste : cinq objets rigides seulement, sans test sur des surfaces réfléchissantes, des objets partiellement occultés ou des scènes encombrées, ce qui laisse ouverte la question de la robustesse en conditions industrielles réelles. Le Gaussian Splatting (3DGS) est devenu un outil central de reconstruction 3D depuis son introduction au SIGGRAPH 2023, et plusieurs équipes l'exploitent désormais pour générer de la donnée d'entraînement synthétique en robotique. Sur le terrain de la donnée synthétique pour la pose 6-DoF, FalconApp s'inscrit dans la lignée de travaux académiques comme MegaPose, développé notamment par des chercheurs de l'INRIA en France. La différence revendiquée ici est l'intégration verticale mobile-to-deployment en moins de 30 minutes, sans infrastructure cloud spécialisée. L'étape suivante logique serait d'élargir la validation à des objets déformables ou semi-rigides, et de tester le pipeline dans des environnements à éclairage variable, deux conditions fréquentes en atelier.

UEL'INRIA française est co-auteur de MegaPose, travail de référence dont FalconApp s'inspire directement, mais le pipeline lui-même n'émane pas d'une institution européenne et aucun déploiement en France ou en UE n'est identifié.

IA physiquePaper
1 source
Vulnérabilité des politiques de clonage comportemental aux attaques adversariales universelles
392arXiv cs.RO 

Vulnérabilité des politiques de clonage comportemental aux attaques adversariales universelles

Une équipe de chercheurs a publié sur arXiv (2502.03698) la première étude systématique, selon les auteurs, de la vulnérabilité des politiques d'imitation learning aux attaques adversariales. Cinq algorithmes représentatifs ont été évalués : le Behavior Cloning classique (Vanilla BC), LSTM-GMM, l'Implicit Behavior Cloning (IBC), la Diffusion Policy (DP) et le Vector-Quantized Behavior Transformer (VQ-BET), toutes des méthodes au coeur des systèmes robotiques actuels entraînés par démonstration. Chaque modèle a été soumis à trois catégories d'attaques : en boîte blanche (accès complet aux paramètres du modèle), en boîte grise, et en boîte noire (accès limité aux entrées-sorties). Les résultats sont sans appel : la quasi-totalité des algorithmes testés sont fortement vulnérables, y compris aux attaques en transfert inter-algorithmes, où une perturbation conçue pour un modèle reste efficace contre un modèle différent. Ce résultat préoccupe directement les intégrateurs et responsables de sécurité industrielle. Les politiques issues du behavior cloning sont de plus en plus déployées sur des manipulateurs industriels pilotés par vision, sensibles à des perturbations visuelles imperceptibles à l'oeil humain. La propriété de transfert en boîte noire implique qu'un attaquant n'a pas besoin de connaître l'architecture exacte du modèle cible pour le compromettre, abaissant considérablement la barre pour une exploitation malveillante. Cela pose une question de sécurité concrète dans les cellules de production autonomes et les entrepôts logistiques où ces politiques opèrent sans supervision humaine continue. La Diffusion Policy et le VQ-BET, deux des approches les plus citées dans la communauté robotique ces dernières années, n'offrent pas de robustesse adversariale supérieure aux méthodes classiques selon ces résultats. L'étude intervient alors que l'imitation learning structure de plus en plus l'entraînement des VLA (Visual Language Action models) et des foundation models robotiques, rendant la robustesse critique avant tout déploiement à grande échelle. Plusieurs équipes avaient déjà documenté le sim-to-real gap comme obstacle majeur ; cette publication ajoute la fragilité adversariale comme second vecteur de risque structurel. Le code et les vidéos de démonstration sont disponibles publiquement, facilitant les futurs travaux sur les mécanismes de défense, encore très peu explorés pour ces architectures.

UELes intégrateurs robotiques européens déployant des manipulateurs industriels pilotés par vision avec des politiques d'imitation learning (BC, Diffusion Policy, VQ-BET) sont exposés à des attaques adversariales visuelles transférables, sans défenses éprouvées disponibles à ce stade.

RechercheOpinion
1 source
Un joint de poignet à abduction-adduction entraîné par tendons améliore les performances d'un exosquelette de membre supérieur à 5 degrés de liberté
393arXiv cs.RO 

Un joint de poignet à abduction-adduction entraîné par tendons améliore les performances d'un exosquelette de membre supérieur à 5 degrés de liberté

Une équipe de chercheurs a publié sur arXiv (preprint arXiv:2504.20898) une évaluation expérimentale de l'exosquelette de membre supérieur EXOTIC2, enrichi d'un sixième degré de liberté actif au niveau du poignet : le mouvement d'abduction-adduction (Ab-Ad). Le module intégré est compact et léger, utilisant une transmission par tendons pour l'abduction et un rappel par ressort pour l'adduction. Le protocole a impliqué huit adultes sans déficit moteur, soumis à deux tâches fonctionnelles de la vie quotidienne (boire dans un verre, gratter une surface) dans deux conditions randomisées : poignet actif vs. poignet bloqué. Un test de faisabilité préliminaire a également été conduit sur une personne atteinte de sclérose latérale amyotrophique (SLA). Les résultats quantitatifs sont nets : avec le DoF Ab-Ad activé, le taux de renversement lors de la tâche de boisson chute de 56 % à 3 %, et le taux de succès pour le nivellement lors de la tâche de grattage passe de 28 % à 75 %. Aucune dégradation du temps d'exécution n'a été observée. Ces chiffres apportent une preuve expérimentale directe d'un point souvent débattu dans la communauté exosquelette : l'ajout d'un DoF au poignet est fréquemment évité pour des raisons de complexité mécanique et de poids, sans que son bénéfice fonctionnel réel soit bien documenté. Cette étude comble ce vide pour les tâches de préhension et de transport d'objets. L'exosquelette EXOTIC (dont EXOTIC2 est la seconde génération) est développé dans un contexte de rééducation pour personnes à mobilité réduite sévère, notamment les patients SLA. Le domaine des exosquelettes de membre supérieur à vocation clinique reste dominé par quelques acteurs européens et nord-américains : Hocoma, Tyromotion, ou encore le français Wandercraft côté membre inférieur. Pour le membre supérieur, les solutions commerciales disponibles (Armeo, REAplan) intègrent rarement un contrôle actif du poignet en Ab-Ad. Ce travail, encore au stade de preprint, devra être validé sur une cohorte de patients avec déficits moteurs avant toute perspective de commercialisation, mais il pose une base expérimentale solide pour les prochaines itérations de conception.

UECette recherche sur EXOTIC2 renforce la base expérimentale des exosquelettes de membre supérieur cliniques, un segment dominé par des acteurs européens (Hocoma, Tyromotion) et où ce bénéfice documenté du DoF de poignet Ab-Ad peut orienter les prochaines générations de dispositifs de rééducation.

ExosquelettesPaper
1 source
Navigation autonome d'un robot par apprentissage structurel en ligne et planification par inférence active
394arXiv cs.RO 

Navigation autonome d'un robot par apprentissage structurel en ligne et planification par inférence active

Des chercheurs de l'université de Gand ont publié sur arXiv un système de navigation robotique autonome baptisé AIMAPP (Active Inference MAPping and Planning), capable d'explorer des environnements inconnus sans carte préalable ni phase d'entraînement. Le robot construit en temps réel une carte topologique sparse, apprend dynamiquement les transitions d'états et planifie ses actions en minimisant ce que les auteurs appellent l'Énergie Libre Attendue (Expected Free Energy), un principe emprunté à la théorie de l'inférence active. Le système est compatible avec ROS, indépendant du type de capteurs utilisés et fonctionne en mode entièrement auto-supervisé, sans aucune intervention humaine préalable. L'intérêt principal d'AIMAPP réside dans sa robustesse face aux conditions réelles d'opération : il continue de fonctionner même en cas de défaillance partielle des capteurs ou de dérive odométrique cumulative, deux problèmes qui paralysent souvent les systèmes classiques de navigation SLAM. Contrairement aux approches par apprentissage profond qui nécessitent d'importants volumes de données annotées, AIMAPP s'adapte en ligne à des environnements changeants et à des observations ambiguës. Dans des évaluations conduites à grande échelle, en environnements réels et simulés, le système surpasse ou égale les planificateurs de référence actuels, ouvrant la voie à des robots déployables dans des contextes non structurés comme des entrepôts, des zones sinistrées ou des espaces extérieurs. L'inférence active est un cadre théorique issu des neurosciences computationnelles, initialement développé pour modéliser la perception et l'action chez les êtres vivants. Son application à la robotique est encore émergente, mais AIMAPP représente une des implémentations les plus complètes à ce jour, combinant cartographie, localisation et prise de décision dans un modèle génératif unifié. Le code est disponible publiquement sur GitHub (decide-ugent/aimapp), ce qui pourrait accélérer son adoption dans la communauté robotique. La prochaine étape naturelle sera de tester le système sur des flottes de robots opérant en parallèle, ainsi que dans des environnements dynamiques peuplés d'humains.

UERecherche conduite par l'Université de Gand (Belgique), le code open-source publié sur GitHub est directement exploitable par les laboratoires et industriels européens actifs en robotique autonome.

💬 Pas de données annotées, pas de carte préalable, et ça tient quand les capteurs flanchent, là où SLAM se plante souvent. C'est le problème qu'on n'arrivait pas à régler proprement depuis des années en robotique mobile. Le code est sur GitHub et compatible ROS, donc les labos n'ont pas besoin de repartir de zéro.

RecherchePaper
1 source
Vers un MAPF réaliste : SMART, un banc de test multi-agents extensible pour le monde réel
395arXiv cs.RO 

Vers un MAPF réaliste : SMART, un banc de test multi-agents extensible pour le monde réel

Une équipe de chercheurs a publié SMART (Scalable Multi-Agent Realistic Testbed), un environnement de simulation open-source destiné à l'évaluation des algorithmes MAPF (Multi-Agent Path Finding), c'est-à-dire la planification de trajectoires sans collision pour des flottes de robots. Le papier, référencé arXiv:2503.04798, présente un outil capable de simuler jusqu'à plusieurs milliers de robots simultanément, en intégrant un moteur physique complet qui modélise la kinodynamique des robots et les incertitudes d'exécution réelles. SMART s'appuie sur un cadre de supervision d'exécution basé sur l'Action Dependency Graph (ADG), ce qui permet une intégration modulaire avec différents planificateurs MAPF et modèles de robots. Le code est disponible publiquement sur GitHub, accompagné d'un service de démonstration en ligne. L'enjeu industriel est direct : les meilleurs planificateurs MAPF actuels sont capables de calculer des trajectoires pour des centaines de robots en quelques secondes, mais ils reposent presque tous sur des modèles de robots simplifiés, ignorant la dynamique réelle, les glissements, les délais de démarrage ou les imprécisions de positionnement. Ce fossé entre simulation idéalisée et comportement terrain est un frein majeur au déploiement en entrepôt ou en atelier. SMART propose de combler ce gap en permettant aux intégrateurs et aux équipes R&D de tester leurs algorithmes dans des conditions proches de la réalité sans avoir besoin de dizaines ou de centaines de robots physiques, ressource quasi-inaccessible en laboratoire. Pour un COO industriel qui évalue des solutions AMR (Autonomous Mobile Robots), disposer d'un simulateur crédible et open-source réduit significativement le risque d'un déploiement raté. Le problème du sim-to-real gap dans le MAPF est documenté depuis plusieurs années, et des acteurs comme Amazon Robotics, Geek+ ou Exotec en Europe ont développé leurs propres outils internes. SMART vise à démocratiser cet accès, notamment pour les équipes académiques et les intégrateurs de taille intermédiaire. Le framework ADG n'est pas nouveau, il était déjà central dans les travaux antérieurs sur l'exécution robuste de MAPF, mais son intégration dans un simulateur à physique réaliste et passant à l'échelle représente une avancée méthodologique. Les prochaines étapes probables incluent la validation sur des cas industriels concrets et l'ajout de modèles de robots commerciaux comme les AMR à différentiel ou les AGV à guidage magnétique.

UEExotec, acteur français des AMR d'entrepôt, est cité parmi les rares industriels disposant d'outils internes similaires ; SMART pourrait réduire la barrière à l'entrée pour les équipes R&D et intégrateurs européens de taille intermédiaire souhaitant valider des algorithmes MAPF sans flotte physique.

RecherchePaper
1 source
Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)
396arXiv cs.RO 

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

Des chercheurs ont publié le 21 avril 2026 un article sur arXiv (2604.14732) présentant le modèle WAV (World-Value-Action), une architecture unifiée destinée à améliorer les capacités de planification des systèmes Vision-Language-Action (VLA). Les VLA sont des modèles qui ancrent la perception visuelle et les instructions en langage naturel dans des commandes motrices directes, une approche devenue centrale dans la robotique généraliste ces deux dernières années. Le problème ciblé par WAV est précis : la majorité des VLA actuels prédisent les actions de manière directe (un état visuel + une instruction = une action), sans modéliser les conséquences à long terme de leurs décisions. Le modèle WAV introduit à la place une représentation latente structurée des trajectoires futures, conditionnée sur les observations visuelles et les instructions. Un modèle de monde (world model) prédit les états futurs, tandis qu'une fonction de valeur de trajectoire (trajectory value function) évalue leur utilité à horizon long. La génération d'action est ensuite formulée comme une inférence dans cet espace latent, où le modèle concentre progressivement la masse de probabilité sur les trajectoires à haute valeur et dynamiquement réalisables. L'apport théorique central est démontré formellement : planifier directement dans l'espace des actions entraîne une décroissance exponentielle de la probabilité de trajectoires réalisables à mesure que l'horizon s'allonge, un obstacle fondamental pour toute tâche nécessitant plusieurs étapes enchaînées. L'inférence dans l'espace latent restructure la distribution de recherche vers des régions réalisables, ce qui rend la planification à long horizon tractable. En pratique, WAV surpasse les méthodes de l'état de l'art en simulation et dans des expériences réelles, avec des gains mesurables sur le taux de succès des tâches, la capacité de généralisation et la robustesse, notamment dans les scénarios compositionnels et à horizon long. Pour les intégrateurs industriels et les équipes de robotique, cela signifie potentiellement un meilleur comportement dans les tâches en plusieurs étapes, assemblage, manipulation séquentielle, sans avoir à pré-programmer des graphes de tâches explicites. Les VLA ont connu une accélération notable depuis fin 2023, avec des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) qui ont validé l'approche d'un modèle fondationnel pour la manipulation robotique. La plupart de ces architectures partagent le défaut que WAV cherche à corriger : l'absence de raisonnement causal sur les conséquences des actions. Des approches concurrentes comme SWIM (Sequential World Inference Models) ou les travaux de Dreamer appliqués à la robotique explorent des pistes similaires via des world models explicites, mais WAV tente d'intégrer planning implicite et génération d'action dans un seul cadre d'entraînement. Le code est disponible publiquement sur GitHub (Win-commit/WAV). Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, il s'agit pour l'instant d'une publication académique, sans produit shipped ni pilote annoncé.

RechercheActu
1 source
Panorama des représentations de mémoire spatiale pour la navigation robotique efficace
397arXiv cs.RO 

Panorama des représentations de mémoire spatiale pour la navigation robotique efficace

Une étude publiée sur arXiv (2604.16482) recense 88 travaux couvrant 52 systèmes de navigation robotique entre 1989 et 2025, des grilles d'occupation classiques jusqu'aux représentations neurales implicites. Le problème central : à mesure qu'un robot explore de grands espaces, sa mémoire spatiale croît sans borne, épuisant les ressources des plateformes embarquées typiques (8 à 16 Go de mémoire partagée, moins de 30 W de consommation). Les auteurs introduisent un coefficient α, défini comme le rapport entre la mémoire RAM ou GPU consommée en opération (Mpeak) et la taille de la carte sauvegardée sur disque (Mmap). Un profilage indépendant sur GPU NVIDIA A100 révèle que α varie de deux ordres de grandeur selon les méthodes neurales seules : Point-SLAM affiche α = 2,3, tandis que NICE-SLAM atteint α = 215, sa carte de 47 Mo réclamant 10 Go à l'exécution. Les méthodes 3DGS (Gaussian Splatting 3D) obtiennent la meilleure précision absolue pour des cartes de 90 à 254 Mo sur le benchmark Replica, et les graphes de scènes offrent une abstraction sémantique à coût prévisible. Ce résultat remet en cause une hypothèse courante dans la communauté SLAM : la taille de la carte publiée dans un papier n'est pas un indicateur fiable de la faisabilité réelle sur matériel cible. Un système qui semble léger au sens du checkpoint disque peut exiger des ressources mémoire prohibitives au runtime, rendant son déploiement impossible sur une unité de calcul edge standard. L'absence de métrique unifiée sur la consommation mémoire dynamique explique en partie pourquoi des méthodes prometteuses en laboratoire peinent à franchir le seuil de la mise en production industrielle, notamment sur les robots mobiles autonomes (AMR) ou les manipulateurs avec vision embarquée. L'étude propose un protocole standardisé articulé autour du taux de croissance mémoire, de la latence de requête, des courbes mémoire-complétude et de la dégradation du débit, quatre indicateurs absents des benchmarks actuels. Le champ de la mémoire spatiale pour la navigation autonome a connu une accélération avec l'arrivée des représentations neurales implicites (NeRF, 3DGS) autour de 2020-2022, qui ont amélioré la qualité de reconstruction mais ignoré la contrainte mémoire runtime. Des acteurs comme iSLAM, Point-SLAM ou NICE-SLAM ont publié des cartes compactes sans fournir de mesures de consommation dynamique, créant un angle mort dans l'évaluation comparative. Sur le plan concurrentiel, les intégrateurs industriels qui évaluent des solutions SLAM pour des environnements larges (entrepôts, usines) devront désormais exiger le coefficient α comme critère de qualification, en plus du RMSE de localisation. La prochaine étape logique annoncée par les auteurs est un algorithme de budgétisation α-aware permettant d'évaluer la faisabilité de déploiement sur hardware cible avant toute implémentation, un outil directement actionnable pour les équipes d'intégration.

RecherchePaper
1 source
Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert
398arXiv cs.RO 

Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.15814) un framework d'étalonnage main-oeil continu (continual hand-eye calibration) destiné aux robots manipulateurs déployés dans des environnements ouverts et changeants. Le problème adressé est précis : les modèles de calibration basés sur le deep learning perdent leur précision sur les scènes précédemment apprises dès qu'ils s'adaptent à un nouvel environnement, un phénomène connu sous le nom d'oubli catastrophique (catastrophic forgetting). Le framework proposé repose sur deux composants distincts. Le premier, SARS (Spatial-Aware Replay Strategy), construit un buffer de rejeu géométriquement uniforme qui couvre l'espace de poses de chaque scène sans redondance, en sélectionnant les points de vue les plus informatifs plutôt que les frames adjacentes. Le second, SPDD (Structure-Preserving Dual Distillation), décompose la connaissance de localisation en deux niveaux, la structure grossière de la scène et la précision fine de pose, puis applique une distillation séparée pour préserver les deux dimensions lors des adaptations successives. Les expériences sur plusieurs datasets publics confirment que le modèle maintient la précision sur les scènes passées tout en s'adaptant aux nouvelles. L'enjeu industriel est réel : un bras manipulateur recalibré pour une nouvelle cellule de production ne devrait pas perdre sa précision sur les postes précédents. C'est le problème quotidien des intégrateurs qui déploient des robots dans des lignes flexibles ou multi-produits. La plupart des approches actuelles imposent soit un recalibrage complet à chaque changement de scène, soit acceptent une dégradation progressive des performances sur les configurations antérieures. Ce travail propose une voie intermédiaire via l'apprentissage continu structuré, sans recourir à un replay naïf qui ne suffit pas à enrayer l'oubli. L'approche par distillation duale est notamment pertinente car elle distingue deux types d'erreur, positionnement global et précision locale, ce que les méthodes monolithiques ne font pas. Ce travail s'inscrit dans un champ de recherche en forte activité depuis 2022, où la robustesse de la calibration visuelle en conditions réelles est identifiée comme l'un des goulots d'étranglement pour le passage à l'échelle des manipulateurs autonomes. La localisation visuelle pour la calibration main-oeil emprunte aux techniques de Visual Place Recognition (VPR) et de relocalisation utilisées en navigation mobile, mais les contraintes de précision sous-millimétrique propres à la manipulation y ajoutent une difficulté spécifique. Parmi les acteurs qui travaillent sur des problèmes adjacents figurent des équipes comme Physical Intelligence (pi) avec Pi-0, ou des laboratoires comme le Stanford AI Lab et ETH Zurich sur la sim-to-real calibration. En France, des acteurs comme Enchanted Tools et Pollen Robotics, qui développent des plateformes d'interaction physique, sont directement concernés par ce type de verrou. La prochaine étape naturelle pour ce framework serait une validation sur des données industrielles réelles et une intégration dans des pipelines de déploiement multi-cellules, que les auteurs n'ont pas encore annoncée.

UEEnchanted Tools et Pollen Robotics, qui développent des plateformes de manipulation physique en France, sont directement concernés par ce verrou de calibration continue, susceptible de réduire les coûts de redéploiement en production flexible.

RecherchePaper
1 source
Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives
399arXiv cs.RO 

Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives

Une revue systématique publiée sur arXiv (2604.15395) recense l'état de l'art des modèles de fondation appliqués à la robotique, couvrant l'ensemble du spectre allant des grands modèles de langage (LLM) aux architectures vision-langage-action (VLA). Les auteurs structurent leur analyse en cinq phases historiques distinctes, depuis les premières intégrations de modèles NLP et vision par ordinateur jusqu'aux déploiements multi-sensoriels en environnement réel. La taxonomie proposée examine six axes : les types de modèles employés (LLM, VFM, VLM, VLA), les architectures de réseaux de neurones sous-jacentes, les paradigmes d'apprentissage, les stades d'incorporation des connaissances, les tâches robotiques ciblées, et les domaines applicatifs industriels. L'étude recense également les datasets publics utilisés pour l'entraînement et l'évaluation sur ces différentes tâches. L'intérêt de ce travail pour les intégrateurs et les décideurs industriels réside dans sa cartographie des capacités réelles versus annoncées des VLA en déploiement. Le passage d'agents mono-tâche et spécialisés vers des agents adaptatifs multi-fonctions à usage général constitue le fil directeur de l'analyse. Les auteurs traitent explicitement du gap simulation-réalité (sim-to-real), de la généralisation inter-embodiment (cross-embodiment), et de la planification à horizon long, trois verrous techniques qui conditionnent la commercialisation à grande échelle. La revue identifie aussi les défis ouverts et les directions de recherche prometteuses, utiles pour orienter des feuilles de route R&D. Ce survey s'inscrit dans une accélération documentée depuis 2022, portée par des laboratoires comme Google DeepMind (RT-2, π0), Physical Intelligence, Figure AI, et Unitree, qui ont tous misé sur les VLA comme colonne vertébrale de leurs systèmes. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'apparaissent pas dans ce corpus, ce qui reflète un déséquilibre de publication favorable aux équipes nord-américaines et asiatiques. La revue ne constitue pas un benchmark expérimental indépendant mais une synthèse bibliographique, ce qui en fait un point d'entrée solide pour un ingénieur robotique cherchant à situer une technologie ou comparer des approches, sans remplacer une évaluation terrain des solutions commerciales disponibles.

UELe déséquilibre de publication constaté, acteurs FR/EU (Enchanted Tools, Wandercraft) absents du corpus, souligne un déficit de visibilité des équipes européennes dans la recherche VLA, ce qui peut biaiser les benchmarks de référence utilisés par les industriels pour orienter leurs feuilles de route R&D.

RecherchePaper
1 source
CLAW : génération de mouvements corps entier composables et annotés en langage naturel
400arXiv cs.RO 

CLAW : génération de mouvements corps entier composables et annotés en langage naturel

Une équipe de chercheurs a publié CLAW (Composable Language-Annotated Whole-body Motion Generation), un pipeline open source conçu pour générer à grande échelle des données de mouvement annoté en langage naturel pour robots humanoïdes, appliqué ici au Unitree G1. Le système compose des primitives de mouvement paramétrées par six variables, type de déplacement, cap, vitesse, hauteur du bassin (pelvis height) et durée, et les exécute dans le simulateur MuJoCo pour produire des trajectoires physiquement cohérentes. Deux interfaces navigateur sont proposées : un mode clavier en temps réel pour l'exploration, et un éditeur de séquences en timeline pour la collecte de données en batch. En parallèle, un moteur de génération d'annotations basé sur des templates produit des descriptions en langage naturel à deux niveaux de granularité : segment individuel et trajectoire complète. Le code est disponible publiquement sur GitHub sous la référence arXiv:2604.11251. L'enjeu central est le goulot d'étranglement des données pour entraîner des contrôleurs whole-body conditionnés au langage (VLA, Vision-Language-Action). La capture de mouvement réelle est coûteuse, peu scalable et limitée en diversité ; les modèles génératifs text-to-motion existants produisent des sorties purement cinématiques, sans garantie de faisabilité physique, un écueil critique pour le déploiement réel. CLAW apporte une réponse intermédiaire : la simulation MuJoCo ancre les trajectoires dans la physique, tandis que la composition modulaire de primitives permet une diversité combinatoire élevée. C'est une approche sim-to-real pragmatique qui vise à réduire le fossé entre données d'entraînement et comportement robot en conditions réelles, sans le coût d'un studio de mocap. Le Unitree G1, robot humanoïde chinois positionné sur le segment accessible (prix catalogue autour de 16 000 USD), est une plateforme de recherche de plus en plus utilisée dans la communauté académique, notamment face aux plateformes fermées comme Figure 02 ou Apptronik Apollo. CLAW s'inscrit dans une dynamique plus large de démocratisation des pipelines de données pour la robotique humanoïde, aux côtés de travaux comme le dataset HumanoidBench ou les approches de Physical Animation de Berkeley. La mise à disposition publique du système est son principal atout différenciant : elle permet aux laboratoires sans ressources de mocap de constituer des jeux de données whole-body annotés pour leurs propres expériences de contrôle en langage. Les prochaines étapes attendues, non annoncées dans ce papier, concernent le transfert réel sur G1 et la validation des politiques entraînées sur ces données synthétiques.

UELes laboratoires européens de recherche en robotique humanoïde peuvent exploiter ce pipeline open source pour constituer des jeux de données whole-body annotés sans infrastructure de mocap coûteuse.

IA physiqueOpinion
1 source