Aller au contenu principal

Dossier arXiv cs.RO — page 3

1607 articles · page 3 sur 33

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

IA multimodale et multi-agents pour l'alignement cognitif robotique via interface cerveau-ordinateur non invasive : exploration de concept
101arXiv cs.RO RecherchePaper

IA multimodale et multi-agents pour l'alignement cognitif robotique via interface cerveau-ordinateur non invasive : exploration de concept

Une équipe de recherche a publié en juin 2026 sur arXiv (réf. 2606.13190) un framework en preuve de concept pour synchroniser les communications de systèmes multi-agents robotiques avec l'état cognitif en temps réel de l'opérateur. L'architecture repose sur un casque EEG grand public (interface cerveau-ordinateur non invasive) qui surveille en continu les puissances spectrales des bandes EEG, indicateurs de charge mentale et d'engagement. Lorsqu'un engagement élevé est détecté, un mécanisme de signalisation HTTP place les entrées sensorielles et les sorties audio de l'agent principal en file d'attente, pendant que des agents secondaires traitent des tâches déléguées en arrière-plan. Dès que la charge cognitive revient à un niveau basal, les messages sont libérés. Le démonstrateur couple LLMs et robots physiques dans cette boucle fermée, sans que la publication ne précise les modèles utilisés ni ne fournisse de métriques quantifiées de performance. Le problème ciblé est réel dans les déploiements multi-agents : les systèmes proactifs interrompent fréquemment les opérateurs à des moments inopportuns, engendrant surcharge cognitive et baisse de performance. En conditionnant les interruptions robotiques à l'état neurophysiologique mesuré, ce framework propose une alternative aux approches classiques basées sur les pauses vocales, les gestes ou les patterns d'interaction. Pour un intégrateur de cobots ou un responsable d'atelier automatisé, l'enjeu concret est de limiter les erreurs liées aux changements de contexte forcés. Les auteurs revendiquent la "faisabilité" du concept, terme qui signale une exploration préliminaire, pas une validation industrielle. La recherche BCI est longtemps restée confinée aux applications médicales et aux laboratoires de pointe. L'usage de casques EEG grand public, comme ceux d'Emotiv, ouvre une piste de scalabilité sans équipement clinique, bien que les conditions de bruit EEG en milieu industriel restent un défi que le papier ne traite pas. Des approches concurrentes détectent la charge cognitive par vision (eye tracking, micro-expressions) ou capteurs physiologiques (GSR, fréquence cardiaque). En HRI, des groupes académiques nord-américains et européens explorent des problématiques voisines, notamment autour des conférences IEEE RAS et de labos de robotique cognitive en Allemagne, au Royaume-Uni et en France. Les prochaines étapes logiques incluent des expérimentations sur cohortes élargies, des benchmarks en conditions de bruit réel, et une intégration avec des plateformes robotiques industrielles identifiées.

UEDes laboratoires de robotique cognitive en Allemagne, au Royaume-Uni et en France travaillent sur des problématiques HRI similaires ; ce concept BCI pourrait alimenter leurs travaux, mais sans déploiement ni partenariat européen identifié à ce stade.

1 source
Y-BotFrame : un cadre extensible d'agents incarnés pour robots quadrupèdes assistants
102arXiv cs.RO 

Y-BotFrame : un cadre extensible d'agents incarnés pour robots quadrupèdes assistants

Des chercheurs du groupe XDEI ont publié en juin 2026, via arXiv (2606.13049), les spécifications de Y-BotFrame, un framework open-source conçu pour transformer un robot quadrupède générique en assistant mobile autonome piloté par le langage naturel. L'architecture intègre trois modalités de perception en parallèle, microphone (commandes vocales), caméra RGB-D (vision) et LiDAR (cartographie 3D), et repose sur un grand modèle de langage (LLM) comme noyau cognitif central. Ce LLM prend en charge la compréhension de l'environnement, le raisonnement contextuel et la planification de tâches, puis convertit les instructions en langage naturel en unités d'action exécutables par le robot. Le système supprime le besoin d'une télécommande physique, remplacée par une interface voix et un retour visuel temps réel. Il s'agit pour l'instant d'une annonce académique accompagnée d'une vidéo de démonstration, pas d'un produit commercialisé. L'intérêt industriel de Y-BotFrame réside dans son architecture modulaire dite "plug-and-play" : chaque sous-système (navigation, perception, interaction) peut être remplacé ou mis à niveau indépendamment, ce qui abaisse le coût d'intégration pour des déploiements sectoriels spécifiques (inspection, logistique d'entrepôt, assistance en environnement structuré). La chaîne voix-vers-action sans contrôleur dédié réduit la barrière de qualification opérateur, un argument concret pour les déployeurs B2B. Reste que les métriques de performance concrètes, latence de la boucle LLM, robustesse en conditions dégradées, autonomie, sont absentes du résumé publié, ce qui est typique des papiers arXiv en phase préliminaire. Les robots quadrupèdes à LLM embarqué forment un segment en effervescence : Unitree (Go2, H1) et Boston Dynamics (Spot) dominent le hardware, tandis que des frameworks comme LeRobot (HuggingFace), Open-X Embodiment ou π₀ (Physical Intelligence) se disputent la couche logicielle d'apprentissage généraliste. Y-BotFrame se positionne non pas comme un modèle VLA entraîné, mais comme une couche d'orchestration système, plus proche de ROS 2 avec un LLM que d'un modèle de politique end-to-end. La prochaine étape logique pour l'équipe XDEI sera de publier des benchmarks sur un hardware cible identifié et des résultats de déploiement réel hors laboratoire.

RecherchePaper
1 source
EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon
103arXiv cs.RO 

EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon

Des chercheurs ont soumis EA-WM (Event-Aware World Model) sur arXiv le 12 juin 2026 (arXiv:2606.13053), un cadre de planification robotique pour la manipulation à long horizon. Le système articule deux couches : une dynamique en espace de caractéristiques visuelles gelée (pretrained visual features) sur laquelle vient se greffer un module de prédiction et vérification d'événements ancré dans la spécification de tâche. EA-WM déroule des futurs candidats dans cet espace, les décode en états d'événements structurés (objet déplacé, état de contact changé, prédicat de placement satisfait), puis les score selon quatre critères : progression de la tâche, cohérence sémantique, faisabilité physique et incertitude. Le vérificateur guide l'exploration par échantillonnage et filtre les actions candidates. Dans le benchmark LIBERO, scénario wine-rack sensible aux contacts, il sélectionne parmi des propositions générées par PPO (Proximal Policy Optimization). Les évaluations couvrent navigation, manipulation d'objets déformables, contraintes murales et instructions en langage naturel. L'apport principal est de combler un angle mort structurel des modèles du monde visuels : prédire un futur visuellement plausible ne garantit pas qu'il satisfasse des conditions relationnelles de tâche (prédicats du type "le tiroir est ouvert", "l'objet est posé à l'emplacement cible"). En ajoutant une vérification explicite au niveau événementiel, EA-WM rend les modèles du monde en espace latent à la fois plus interprétables et mieux alignés avec la progression réelle des tâches, sans exiger de nouvelles données de démonstration massives. Pour un intégrateur ou un ingénieur robotique, cela ouvre un potentiel de planification robuste sans dépendre exclusivement de politiques bout-en-bout coûteuses à entraîner. Les modèles du monde en robotique connaissent une accélération depuis DreamerV3 (Google DeepMind) et les architectures VLA comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA. EA-WM se positionne dans un créneau intermédiaire : il ne remplace pas les politiques d'action mais renforce la phase de planification amont, en s'appuyant sur LIBERO comme benchmark multi-tâches désormais standard dans la communauté. À noter que ces résultats restent entièrement en simulation ; la validation sur du matériel réel et le sim-to-real transfer, points encore ouverts dans le domaine, constitueraient l'étape suivante naturelle pour démontrer une applicabilité industrielle effective.

RechercheOpinion
1 source
Préhension dextérique sans vision par apprentissage tactile Real2Sim2Real
104arXiv cs.RO 

Préhension dextérique sans vision par apprentissage tactile Real2Sim2Real

Des chercheurs ont publié en juin 2026 sur arXiv (réf. 2606.11767) un framework Real2Sim2Real pour la saisie aveugle par main dextre, sans aucune entrée visuelle, en s'appuyant exclusivement sur des capteurs tactiles distribués. Déployé sur une LEAP Hand quatre-doigts équipée de capteurs tactiles sur chaque phalange, le système atteint 27 % de taux de succès en conditions réelles sur 20 objets (10 vus à l'entraînement, 10 inédits), sans démonstration humaine ni caméra. L'architecture combine trois composants : un pipeline de calibration Real2Sim construisant un simulateur jumeau numérique fidèle aux signaux tactiles physiques ; un encodeur tactile layout-aware intégrant la géométrie des capteurs via préentraînement auto-supervisé, pour compenser la faible expressivité des signaux épars ; et une Diffusion Policy agrégant les trajectoires réussies d'experts en apprentissage par renforcement, spécialisés par objet dans le simulateur calibré. Le 27 % de taux de succès reste modeste opérationnellement, mais l'enjeu réel est la fermeture du tactile sim-to-real gap, l'un des obstacles les plus tenaces à la généralisation des mains dextres hors laboratoire. La plupart des systèmes antérieurs substituent la vision au toucher ou se limitent à des capteurs de force simples. Ici, la calibration contact-level du simulateur permet d'entraîner des politiques qui transfèrent sur le hardware sans fine-tuning en monde réel, résultat que les ablations confirment sur la cohérence des événements de contact sim-à-hardware. Pour un intégrateur ou un responsable industriel, c'est une preuve de concept que la manipulation en environnement occlus ou non éclairé devient accessible via simulation, sans collecter de données réelles coûteuses. Ce travail s'inscrit dans un écosystème en rapide structuration autour de la manipulation tactile dextre. La LEAP Hand, développée à Carnegie Mellon et commercialisée à bas coût pour la recherche, est devenu un banc de test de référence dans ce domaine. La Diffusion Policy, popularisée par Columbia University dès 2023, continue de s'imposer comme backbone standard pour l'imitation learning dextre. L'écosystème de capteurs reste fragmenté entre XELA Robotics, GelSight et diverses peaux tactiles propriétaires. Aucun partenaire industriel ni déploiement en production n'est annoncé, positionnant clairement ce preprint comme contribution académique ; les prochaines étapes probables passent par une taxonomie d'objets plus large et une densité de capteurs accrue pour dépasser ce premier seuil de 27 %.

RecherchePaper
1 source
Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts
105arXiv cs.RO 

Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.11826) un framework de conception pour mains robotiques anthropomorphiques dextres, fondé sur une approche modulaire de sélection des doigts. Le principe : évaluer quantitativement des prototypes de doigts de manière indépendante, via une batterie de benchmarks, avant leur intégration dans une main complète téléopérée. Les variations testées portent sur le type d'articulation, la structure osseuse, les matériaux de peau et le placement des capteurs. Le framework a été validé sur deux tâches concrètes : la saisie simultanée de plusieurs objets et le vissage d'une ampoule, deux exercices représentatifs de la manipulation dextre à contraintes mécaniques variables. Ce travail s'attaque à un verrou structurel du domaine : la conception de mains dextres souffre d'un espace de design trop vaste, où morphologie, actuation et capteurs interagissent de façon non-linéaire. Les méthodes d'optimisation existantes traitent rarement plus d'un critère à la fois, ce qui rend les comparaisons inter-prototypes difficiles et les itérations coûteuses. En découplant l'optimisation des doigts de la validation au niveau de la main entière, le framework proposé réduit potentiellement le temps de screening et établit un lien quantitatif entre les métriques composant et la performance globale en tâche. Pour les équipes d'ingénierie et les intégrateurs, c'est une promesse de pipeline de développement plus prédictif, moins dépendant de l'empirisme. À noter : l'article est un preprint arXiv, sans peer review encore validé, et les gains de performance sur les deux tâches choisies restent difficiles à extrapoler à des scénarios industriels réels. La conception de mains dextres est un enjeu central pour les robots humanoïdes actuels : Figure AI, 1X, Apptronik, et Agility Robotics dépendent toutes de mains capables d'alimenter des pipelines de téléopération et d'apprentissage par imitation pour entraîner des modèles VLA. Côté académique, des groupes à Stanford, CMU et au MIT travaillent sur des architectures similaires, tandis que Shadow Robotics (UK) reste la référence commerciale en matière de main dextre à actuation tendon. En Europe, Pollen Robotics (Bordeaux) intègre des mains articulées dans sa plateforme Reachy, et Enchanted Tools (Paris) développe des mains expressives pour ses robots Miroka. Ce preprint ne s'accompagne pas d'annonce commerciale ni de calendrier de déploiement, mais la méthodologie de benchmarking modulaire pourrait être adoptée comme standard de facto dans les équipes hardware des startups d'humanoïdes, où la vitesse d'itération sur les effecteurs est aujourd'hui un facteur différenciant clé.

UEPollen Robotics (Bordeaux) et Enchanted Tools (Paris) sont directement mentionnés comme bénéficiaires potentiels de cette méthodologie de benchmarking modulaire, qui pourrait accélérer leurs cycles d'itération sur les effecteurs.

RecherchePaper
1 source
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
106arXiv cs.RO 

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

IA physiqueOpinion
1 source
CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA
107arXiv cs.RO 

CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA

Des chercheurs ont publié en juin 2026 un preprint (arXiv:2606.12352) présentant CHORUS, un cadre de coordination multi-robots qui s'appuie sur un unique backbone VLA (vision-language-action) pour piloter des équipes hétérogènes de robots mobiles. Le principe est radical dans sa simplicité : à l'inférence, chaque robot exécute une copie indépendante de CHORUS, conditionnée uniquement par ses propres observations et un prompt identifiant son rôle dans l'équipe -- aucune communication inter-robots n'est requise à l'exécution. Les expériences en conditions réelles portent sur trois tâches collaboratives : mesure de distance avec ruban mobile, transfert de livres en bibliothèque, et soulèvement de paniers de linge. Sur ces scénarios, CHORUS affiche un gain de 64 points de pourcentage par rapport à des modèles décentralisés entraînés de zéro, et améliore la réactivité aux comportements des partenaires de 40 points, tout en surpassant les approches centralisées classiques. Ce résultat bouscule une hypothèse structurante du domaine : pour coordonner plusieurs robots, il fallait soit centraliser les observations (coûteux en communication, ne passe pas à l'échelle avec la taille de l'équipe), soit entraîner une politique par robot avec des procédures d'alignement explicites ou des échanges d'état à l'inférence. CHORUS démontre que les priors visuomoteurs acquis lors du préentraînement VLA sont suffisants pour surmonter l'observabilité partielle sans aucune communication réseau entre robots au moment de l'exécution. C'est une validation concrète, en conditions réelles, de la thèse que les VLA généralisent au-delà de la manipulation single-agent -- un point encore contesté dans la littérature. Pour les intégrateurs industriels, l'implication pratique est directe : une flotte hétérogène peut partager un seul modèle déployé, ce qui simplifie drastiquement la gestion des mises à jour et réduit les coûts d'infrastructure d'inférence. Les VLA connaissent une montée en puissance rapide depuis 2024, avec des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou Helix de Figure Robotics, chacun ciblant principalement la manipulation monobras ou bimanuelle sur un seul robot. La coordination multi-robots reste un chantier ouvert : les travaux existants (MOMA, SMART) imposent généralement des canaux de communication ou des architectures centralisées. CHORUS s'inscrit dans ce manque, mais reste à ce stade un preprint académique -- les tâches testées sont volontairement contraintes et il n'existe pas de déploiement industriel annoncé. Les prochaines étapes naturelles porteront sur le passage à l'échelle (équipes de plus de deux robots), la robustesse aux perturbations dynamiques, et l'intégration dans des stacks de planification existants.

UEAucun acteur français ou européen n'est impliqué, mais la possibilité de piloter une flotte hétérogène avec un seul modèle VLA partagé représente un avantage de coût et de gestion potentiellement pertinent pour les intégrateurs industriels européens si CHORUS atteint la maturité déploiement.

IA physiqueOpinion
1 source
TacCoRL : intégration du retour tactile dans les modèles VLA par simulation
108arXiv cs.RO 

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Des chercheurs ont publié sur arXiv (2606.11743) TacCoRL, un framework destiné à intégrer le retour tactile dans les modèles vision-langage-action (VLA) pour la manipulation robotique. L'approche combine un co-entraînement simulation-réel et de l'apprentissage par renforcement (RL) en simulation, sans nécessiter de pré-entraînement tactile à grande échelle ni d'exploration extensive sur hardware réel. Évalué sur quatre tâches bimanuelles à riche contact (insertion, assemblage, manipulation d'objets déformables), le système atteint un taux de succès moyen de 72,5 % contre 50,0 % pour la baseline VLA visuelle seule, soit un gain relatif de 45 % sur ces benchmarks spécifiques. L'apport technique central n'est pas simplement d'ajouter la touche comme entrée supplémentaire, mais d'apprendre comment les lectures de contact doivent moduler la réponse motrice dans les états de quasi-échec, états rares dans les démonstrations humaines et risqués à collecter sur robot physique. TacCoRL utilise un simulateur aligné sur le réel comme environnement fermé pour les interactions de contact : des trajectoires mixtes (simulées et réelles) initialisent d'abord les actions conditionnées au tactile dans la politique pré-entraînée, puis le RL avec récompenses vérifiables optimise la politique sur des rollouts simulés, tandis qu'un objectif supervisé sur trajectoires réelles ancre la distribution visuelle, tactile et d'action au domaine de déploiement. Le résultat se transfère directement sur robot réel, sans état simulé privilégié ni RL en ligne. C'est une réponse directe au "demo gap" des VLA actuels : les politiques vision-seule échouent précisément sur les phases de contact que la caméra ne résout pas. Le contexte est celui d'une compétition intense autour des VLA polyvalents : Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses dérivés, ainsi que les efforts de génération suivante (GR00T N2 de NVIDIA, OpenVLA). Tous partagent la même limitation structurelle : l'observation visuelle reste insuffisante pour les tâches à fort contact. La piste tactile est explorée depuis plusieurs années (capteurs GelSight, SynTouch, Digit de Meta), mais son intégration dans des architectures VLA de grande taille restait un verrou de scalabilité. TacCoRL propose une voie pragmatique sans dataset tactile massif, ce qui abaisse la barrière d'adoption pour les laboratoires et intégrateurs. Les prochaines étapes logiques seraient l'extension à des capteurs tactiles commerciaux standardisés et des évaluations sur des tâches industrielles réelles, hors conditions de laboratoire contrôlées.

RechercheOpinion
1 source
Pilotage du comportement multi-robots par édition affine des activations en boucle fermée
109arXiv cs.RO 

Pilotage du comportement multi-robots par édition affine des activations en boucle fermée

Une équipe de chercheurs a publié le 11 juin 2026 (arXiv:2606.11489) une méthode baptisée CLAE (Closed-Loop Affine Activation Editing), permettant de piloter le comportement d'une flotte de robots sans modifier les poids du modèle de base. Plutôt que de recourir au fine-tuning ou au réentraînement complet de la politique, CLAE intervient à l'inférence en éditant directement les activations intermédiaires du réseau neuronal. Concrètement, la méthode entraîne d'abord un auto-encodeur sparse sur les activations d'une politique gelée, identifie les features latentes pertinentes pour le comportement visé via sondage post-hoc, puis apprend une politique de pilotage légère par renforcement qui applique des transformations affines sur ces latents en temps réel. Les validations portent sur une flotte de quadrotors en simulation et en tests physiques, naviguant vers des positions objectif tout en évitant des obstacles. CLAE y démontre trois capacités distinctes : contrôle du profil de vitesse individuel de chaque appareil, maintien d'une formation configurable entre plusieurs robots, et émergence d'un comportement entièrement nouveau consistant à minimiser l'exposition aux caméras de surveillance présentes dans l'environnement. Ce que cette approche prouve, c'est qu'il est possible de découpler l'adaptation comportementale du cycle de réentraînement, un point structurant pour les intégrateurs industriels et les équipes de déploiement en production. Le risque d'oubli catastrophique, bien documenté lors du fine-tuning de politiques obtenues après des milliers d'heures de simulation, est écarté puisque les poids de base restent intacts. La couche de pilotage est légère et s'adapte en boucle fermée à l'état courant du robot et au contexte multi-agents, ce qui la distingue des approches d'activation patching offline utilisées dans les LLMs. La diversité des comportements obtenus sur une même architecture gelée, de la gestion de formation à l'esquive de surveillance, suggère une généralité de la méthode au-delà des tâches de navigation. Les résultats restent cependant limités aux quadrotors pour l'instant, et la transférabilité à des robots manipulateurs ou humanoïdes n'est pas encore démontrée. CLAE s'inscrit dans un courant de recherche actif autour du steering de réseaux de neurones via sparse autoencoders, popularisé par les travaux d'Anthropic sur l'interpretabilité des LLMs et les techniques d'activation patching dans les transformers. Appliqué à la robotique incarnée, ce paradigme impose une contrainte supplémentaire : la boucle fermée exige des corrections adaptées en temps réel à la dynamique du système, contrairement à l'édition statique en NLP. Parmi les approches concurrentes figurent les méthodes de parameter-efficient fine-tuning (LoRA, adaptateurs), le meta-learning de type MAML et les residual policies. La prochaine étape naturelle serait une validation sur des architectures VLA (Vision-Language-Action), où le coût prohibitif de réentraînement rend encore plus pertinente une solution d'édition à l'inférence, notamment pour les déploiements industriels à grande échelle.

RecherchePaper
1 source
Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques
110arXiv cs.RO 

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion
1 source
Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA
111arXiv cs.RO 

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

Une équipe de chercheurs a publié en juin 2026 sur arXiv (arXiv:2606.10366) une étude systématique visant à quantifier et améliorer la corrélation entre évaluation en simulation et déploiement réel pour les politiques de type VLA (Vision-Language-Action). Ces politiques, qui combinent perception visuelle, compréhension du langage naturel et génération d'actions motrices, sont au coeur des robots généralistes actuels. L'étude couvre plusieurs plateformes de simulation, plusieurs politiques VLA, plusieurs familles de tâches manipulatoires, et plusieurs facteurs de perturbation contrôlés. Les métriques retenues sont la cohérence du classement des politiques entre simulation et réel, la corrélation de performance absolue, et les patterns d'échec induits par perturbation. Les auteurs examinent également à quel moment le fine-tuning d'une politique sur données simulées améliore réellement les performances en monde réel, et comment le volume de données post-entraînement influence cet alignement. Ce travail s'attaque à un verrou identifié de longue date dans la robotique apprise : les benchmarks en simulation, malgré des progrès significatifs en réalisme et diversité ces deux dernières années, ne sont pas encore adoptés comme proxies fiables pour l'évaluation hors-lab. En pratique, cela signifie que les équipes d'intégration et les labs reproduisent des évaluations coûteuses en monde réel à chaque itération de politique, faute de pouvoir faire confiance aux scores simulés. L'étude identifie quels signaux simulés restent alignés avec le déploiement réel et lesquels divergent, donnant aux praticiens une grille de lecture concrète pour calibrer leur utilisation de la simulation dans le pipeline de développement. Le problème du sim-to-real gap accompagne la robotique apprise depuis les travaux fondateurs sur le domain randomization (OpenAI, 2017-2019), mais il devient critique à mesure que les VLA cherchent à passer à l'échelle industrielle. Des acteurs comme Physical Intelligence (Pi-0), Google DeepMind (RT-X, GR00T N2 côté Nvidia), ou encore Figure AI avec Figure 03 s'appuient tous sur des pipelines simulation-réel pour accélérer l'entraînement. En proposant un cadre unifié pour mesurer, interpréter et améliorer l'utilité de la simulation pour les VLA, ce papier vise à fournir une référence méthodologique commune, à la fois pour les concepteurs de simulateurs et pour les praticiens. Les prochaines étapes logiques incluent l'intégration de ces recommandations dans des benchmarks publics existants tels que RoboVerse ou LIBERO.

UEImpact indirect : ce cadre méthodologique pourrait réduire les coûts d'évaluation réelle répétée pour les équipes R&D européennes travaillant sur des politiques VLA.

RechercheOpinion
1 source
AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique
112arXiv cs.RO 

AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique

Une équipe de recherche a publié en juin 2026 sur arXiv (référence 2606.10903) un framework de navigation locale appelé AgniNav, conçu pour permettre à des robots de morphologies radicalement différentes de naviguer en autonomie à partir d'une unique caméra RGB, sans recourir à un capteur de profondeur actif et sans réentraînement du modèle. Le système repose sur une enveloppe de sécurité définie par quatre paramètres mesurables : hauteur critique pour la détection de collisions, longueur avant, longueur arrière, demi-largeur. Ces paramètres conditionnent simultanément un réseau image-vers-scan qui prédit un pseudo-laserscan 1D à partir d'une image couleur monoculaire, et un planificateur local qui adapte la vérification de collisions au gabarit du robot. Les expérimentations ont été conduites sur trois plateformes réelles : le Turtlebot2 (base à roues), l'Unitree Go2 (quadrupède), et l'Accelerated Evolution K1 (humanoïde). Les taux de succès sont respectivement de 39/40, 18/20 et 18/20, avec 0, 1 et 2 collisions sur l'ensemble des essais, le tout tournant à 30 Hz sur un Jetson Orin. Ce qui distingue AgniNav des travaux existants est précisément l'absence de retraining par plateforme. La quasi-totalité des politiques de navigation visuelle actuelles sont entraînées pour un couple caméra/gabarit fixe, ce qui rend leur transfert d'un robot à un autre coûteux en données et en temps. Ici, le même réseau, entraîné une fois sur des paires couleur-profondeur supervisées par des labels de scan générés à la volée, se déploie sans adaptation sur des morphologies aussi différentes qu'un rover plat et un humanoïde. Pour un intégrateur gérant une flotte hétérogène, ou pour un OEM souhaitant embarquer la navigation sur plusieurs SKUs avec un seul modèle, c'est un changement d'économie non négligeable. La navigation cross-embodiment est un problème ouvert depuis plusieurs années dans la communauté robotique : les approches concurrentes, comme celles mobilisant des politiques VLA (vision-language-action) ou des pipelines basés sur la simulation, exigent généralement soit du matériel dédié (LiDAR, caméra de profondeur RGB-D), soit des cycles de fine-tuning par plateforme. AgniNav s'inscrit dans un courant de travaux cherchant à normaliser la couche de perception au niveau de l'enveloppe physique plutôt que du modèle de robot complet. Le résultat présenté reste à ce stade une contribution de recherche, pas un produit ou un SDK distribué. Les prochaines étapes naturelles incluent la validation sur des environnements dynamiques et des densités d'obstacles plus élevées, ainsi que l'extension à des architectures d'enveloppe plus complexes pour les humanoïdes à forte variation de posture.

RecherchePaper
1 source
Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines
113arXiv cs.RO 

Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines

Une équipe de recherche a déposé le 10 juin 2026 sur arXiv (réf. 2606.10614) un framework baptisé Dexterous Point Policy (DPP), capable d'apprendre des politiques de manipulation dextère directement à partir de vidéos humaines, sans aucune démonstration sur robot. Le système extrait des points-clés 3D (keypoints) des objets de la tâche et des mains humaines, en ciblant spécifiquement les poignets et les bouts de doigts, puis entraîne un transformer autorégressif sur ces représentations unifiées. Sur un banc d'essai réel couvrant la saisie-dépôt (pick-and-place) et la manipulation d'outils, DPP atteint 75,0 % de succès, contre seulement 1,0 % pour le meilleur baseline de type VLA (Vision-Language-Action model) disponible. La méthode généralise également à des scénarios non vus pendant l'entraînement, notamment des environnements multi-objets et de nouvelles catégories d'objets. L'apport principal est d'éliminer le goulet d'étranglement le plus coûteux du cycle d'apprentissage robotique: la collecte de données en téléopération. Les auteurs rappellent que téléopérer une main multi-doigts pour une seule tâche atomique peut mobiliser plusieurs jours de travail humain, ce qui rend le fine-tuning classique des modèles de fondation sur données robotiques particulièrement onéreux à l'échelle. L'intuition centrale de DPP est que, au niveau des keypoints (poignets et bouts de doigts), les comportements humains et robotiques s'alignent suffisamment pour permettre un transfert direct de politique sans adaptation supplémentaire. Avec un écart de performance de 75x par rapport au baseline VLA, le résultat contredit l'idée selon laquelle combler l'embodiment gap entre humain et robot exige obligatoirement des données proprioceptives ou d'actionnement robotique. Ce travail s'inscrit dans le courant des modèles de fondation robotiques pré-entraînés sur vidéos humaines, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA sont des représentants récents, qui butaient tous sur ce même problème de transfert au déploiement réel. DPP propose une réponse architecturale en choisissant une représentation intermédiaire qui abstrait la morphologie spécifique de chaque effecteur, rendant la politique agnostique à la géométrie exacte de la main robotique. Il s'agit pour l'instant d'un preprint non relu par les pairs, sans affiliation institutionnelle précisée dans le résumé public, et les tests restent limités à des tâches de complexité modérée. Les étapes naturelles seraient une validation sur des mains multi-doigts plus variées et des manipulations de plus haute complexité, comme l'assemblage de précision ou la manipulation d'outils déformables, pour confirmer la scalabilité réelle de l'approche.

RecherchePaper
1 source
GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique
114arXiv cs.RO 

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

Des chercheurs ont publié le 10 juin 2026 un preprint arXiv (2606.10025) présentant GHOST, un framework pour politiques visuomotrices de manipulation robotique capables de généraliser au-delà de leur distribution d'entraînement. L'architecture repose sur une factorisation hiérarchique en deux niveaux : une politique haut niveau qui prédit le prochain sous-objectif sous forme de distribution sur les poses 3D de l'effecteur terminal à partir d'observations RGB-D multi-vues, et un contrôleur bas niveau conditionné sur ces objectifs qui génère les actions spécifiques à l'embodiment physique du robot. Pour relier les deux niveaux, les auteurs introduisent une interface spatiale qui projette les sous-objectifs 3D prédits dans le plan image sous forme de heatmaps de l'effecteur, une représentation volontairement simple mais compatible avec les pipelines d'entraînement existants. La politique haut niveau est entraînée sur des vidéos de démonstrations humaines brutes, sans retargeting d'actions, tandis que la politique bas niveau reste entraînée exclusivement sur des données robot. Le résultat central est que cette décomposition hiérarchique améliore systématiquement les performances et la robustesse par rapport à une Diffusion Policy plate (architecture de référence populaire depuis les travaux de Chi et al. en 2023) sur une suite de tâches de manipulation. L'insight clé est que les sous-objectifs en espace cartésien de l'effecteur sont largement "embodiment-agnostic" : la même politique haut niveau peut s'appliquer à différentes architectures de robots sans réentraînement complet. Cela contourne un goulot d'étranglement majeur dans le domaine, le retargeting d'actions depuis les démonstrations humaines, qui introduit habituellement un bruit significatif et limite la qualité des données d'entraînement. GHOST s'inscrit dans un courant actif de recherche sur l'utilisation des vidéos humaines comme source de supervision low-cost pour la robotique de manipulation, aux côtés d'approches comme pi-0 de Physical Intelligence ou des travaux sur les VLA (Visual-Language-Action models) de Google DeepMind avec RT-2 et GR00T N2 de NVIDIA. La principale limitation à noter : il s'agit d'un preprint non encore peer-reviewed, sans données de déploiement réel ni métriques de cycle time en contexte industriel. Les résultats concernent une suite de tâches de laboratoire ; la tenue à l'échelle dans des environnements moins contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de commercialisation n'est annoncé.

RecherchePaper
1 source
Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation
115arXiv cs.RO 

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

Une équipe de recherche présente Efficient-WAM, un World-Action Model (WAM) d'un milliard de paramètres conçu pour la manipulation robotique en temps réel, dont les résultats sont publiés sur arXiv (2606.10040) en juin 2026. Les WAMs constituent une classe de modèles qui couplent la prédiction visuelle du futur avec la génération d'actions motrices : le robot "imagine" ce que va ressembler la scène dans quelques instants avant de décider quoi faire. Efficient-WAM ramène la latence d'inférence à environ 100 ms par chunk lors du déploiement physique, soit un gain de 30x par rapport aux WAMs existants. Pour y parvenir, trois leviers techniques sont combinés : un expert vidéo compact distillé depuis WAN-2.2-5B (modèle de génération vidéo à 5 milliards de paramètres), des représentations vidéo token-sparse, et un débruitage asymétrique qui alloue moins d'étapes d'échantillonnage à la branche vidéo qu'à la branche action. Les évaluations portent sur le benchmark RoboTwin 2.0 et des tâches de manipulation en conditions réelles. Le résultat central est contre-intuitif : Efficient-WAM maintient des performances d'action compétitives même si ses prédictions visuelles sont visiblement grossières, ce qui invalide l'hypothèse implicite que la fidélité photorealiste de l'imagination future est nécessaire au contrôle. Pour un intégrateur ou un responsable robotique, cela signifie que le goulot d'étranglement computationnel des WAMs n'est pas une fatalité architecturale mais un problème de design résolu ici par une re-priorisation : la vidéo future n'est plus un objectif visuel mais un signal de guidage compact pour la génération d'actions. À 100 ms par chunk, le modèle entre dans la fenêtre de faisabilité pour des boucles de contrôle sur manipulateurs industriels ou cobots, là où les WAMs précédents restaient confinés à la démonstration labo. Les WAMs s'inscrivent dans une compétition dense avec les Vision-Language-Action models (VLAs) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, qui traitent directement la génération d'actions sans passer par la prédiction vidéo explicite. L'argument des WAMs est que l'imagination du futur améliore la robustesse en dehors de la distribution d'entraînement, mais leur coût computationnel a jusqu'ici limité leur adoption. Efficient-WAM rééquilibre ce trade-off. La distillation depuis WAN-2.2-5B, un modèle de génération vidéo généraliste, suggère une stratégie de transfer learning inter-domaine qui pourrait s'étendre à d'autres architectures. Les prochaines étapes naturelles sont l'évaluation sur des plateformes humanoïdes complètes et des déploiements en environnements semi-structurés, deux dimensions absentes de ce papier.

IA physiqueActu
1 source
Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert
116arXiv cs.RO 

Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert

Des chercheurs ont publié sur arXiv (arXiv:2606.10743, juin 2026) HOWTransfer, un cadre algorithmique centré sur la main pour transférer des démonstrations humaines filmées en trajectoires exécutables par un bras robotique. Le système fonctionne en trois étapes : reconstruction 3D temporellement cohérente du mouvement du poignet humain, localisation automatique des intervalles de contact main-objet à partir de cues visuels d'interaction, puis génération d'hypothèses de saisie en pince parallèle (parallel-jaw grasp) propagées le long de la trajectoire du poignet. Une phase finale d'édition raffine l'alignement de contact et produit plusieurs variantes exécutables depuis une seule vidéo de démonstration. Sur un ensemble de tâches de manipulation variées, le système atteint 86 % de taux de succès et est préféré aux trajectoires téléopérées dans une étude comparative en aveugle. Ce résultat mérite attention parce qu'il attaque directement le goulot d'étranglement principal du learning from demonstration (LfD) : collecter suffisamment de données de qualité. La téléopération reste coûteuse, lente et non scalable en industrie ; si un système peut extraire des trajectoires robotes directement depuis des vidéos de travailleurs humains filmés sur une chaîne d'assemblage ou en entrepôt, le coût d'entrée pour déployer de la manipulation apprise s'effondre. Fait notable : HOWTransfer ne s'appuie pas sur des descripteurs d'objets prédéfinis ni sur un tracking d'état explicite, ce qui le rend potentiellement généraliste sur des objets non vus. Le 86 % de succès annoncé est encourageant, mais les conditions expérimentales exactes (diversité des objets, profondeur de la caméra, nombre de tâches, robot cible) ne sont pas précisées dans le résumé, ce qui justifie une lecture du papier complet avant toute intégration industrielle. Le transfert de démonstration humaine vers robot via vidéo est un domaine en pleine effervescence depuis 2022-2023, porté par des travaux comme DROID, RoboAgent ou les approches VLA (Vision-Language-Action) de Google DeepMind et Physical Intelligence (Pi-0). HOWTransfer se distingue en adoptant une approche sans modèle de langage ni segmentation objet, ce qui le rend plus léger mais aussi plus fragile sur les scènes encombrées. Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit pour l'instant d'un preprint académique, pas d'un produit. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (Franka, UR, ou humanoïdes comme Figure 03 ou Unitree G1) et une évaluation sur des benchmarks standardisés comme RLBench ou LIBERO pour situer la performance par rapport à l'état de l'art.

RecherchePaper
1 source
AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel
117arXiv cs.RO 

AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel

Des chercheurs ont publié sur arXiv (réf. 2606.10927) AllDayNav, un système de navigation robotique lifelong capable d'évoluer indéfiniment dans des environnements dynamiques sans carte explicite. Son architecture combine un grand modèle d'un milliard de paramètres, entraîné par apprentissage par renforcement directement en conditions réelles, et une mémoire multimodale auto-évolutive qui agrège images-clés visuelles, descriptions sémantiques et contexte temporel. Ce mécanisme permet au robot de générer automatiquement des instructions en vocabulaire ouvert, des objectifs visuels et des récompenses structurées, sans annotation humaine à chaque nouvelle tâche. Évalué sur des scénarios de navigation inter-pièces, inter-épisodes et inter-tâches, AllDayNav atteint des taux de succès proches de 100 % et surpasse des baselines de type SLAM, VLM et RL classique en efficacité de trajectoire et en robustesse, aussi bien en simulation qu'en environnement physique. Ce travail remet en question une hypothèse structurante du domaine : la navigation autonome fiable nécessiterait une représentation spatiale explicite de l'environnement (cartes métriques, graphes de scènes). AllDayNav montre qu'un modèle suffisamment large, affiné en continu par RL avec une mémoire implicite, peut dépasser ces approches y compris hors contextes contrôlés. Pour les intégrateurs de robots mobiles (AMR en logistique, robots de service en espaces publics), cela préfigure des systèmes adaptables aux modifications d'environnement sans reconfiguration manuelle. La prudence reste de mise : les chiffres de "100 % de succès" proviennent d'un preprint non encore évalué par les pairs, sans détail complet sur les conditions exactes d'évaluation ni sur la variabilité entre scènes. AllDayNav s'inscrit dans une tendance de fond visant à remplacer les pipelines modulaires perception-cartographie-planification par des modèles de fondation entraînés de bout en bout. Google DeepMind (travaux NavIRL, SayCan), CMU et Berkeley explorent des directions similaires pour la navigation mobile généraliste, tandis que des acteurs comme Boston Dynamics et ANYbotics continuent de s'appuyer sur des approches hybrides métriques. Soumis le 10 juin 2026, ce papier reste une contribution académique : aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

UEImpact indirect pour les intégrateurs européens d'AMR logistique : si les résultats se confirment après peer review, cette approche pourrait réduire les coûts de reconfiguration dans des entrepôts et espaces publics dynamiques.

IA physiquePaper
1 source
Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée
118arXiv cs.RO 

Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée

Un groupe de chercheurs a publié sur arXiv (réf. 2505.01458, version 2, mai 2025) un état de l'art sur l'utilisation des simulateurs physiques pour entraîner des robots à la navigation et à la manipulation dans le cadre de l'IA incarnée (Embodied AI). L'étude analyse comment les moteurs de simulation réduisent le "sim-to-real gap", c'est-à-dire l'écart de performance constaté quand un agent entraîné en simulation est déployé dans le monde réel. Le survey passe en revue les caractéristiques des principaux simulateurs, leurs contraintes matérielles, et propose un inventaire structuré de datasets de référence, métriques d'évaluation et méthodes existantes. Aucun code ou outil nouveau n'est publié: il s'agit d'une contribution bibliographique et méthodologique. Cette revue intervient alors que le sim-to-real gap demeure l'obstacle principal au déploiement industriel de robots humanoïdes et de bras manipulateurs. Entraîner directement sur du matériel réel est coûteux, lent et risqué, ce qui place la simulation au cœur des pipelines de développement des VLA (Vision-Language-Action models) et des systèmes de navigation autonome. En consolidant des propriétés peu documentées des simulateurs, le survey aide ingénieurs et chercheurs à sélectionner l'outil adapté à leurs contraintes hardware sans avoir à faire une veille exhaustive de la littérature. Les simulateurs en compétition dans cet espace incluent Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google), PyBullet, Webots et Genesis, un moteur GPU-natif récent. L'intérêt pour ce type de synthèse est alimenté par l'accélération du secteur: Figure AI, Physical Intelligence (pi zero), Boston Dynamics, Unitree et Agility Robotics multiplient les annonces de déploiements en environnements industriels réels. Ce survey constitue un point d'entrée structuré pour les équipes qui montent leur pipeline sim-to-real en 2025, à condition de ne pas attendre de benchmarks neutres et indépendants: l'évaluation des simulateurs reste largement conduite par leurs propres éditeurs.

RecherchePaper
1 source
UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI
119arXiv cs.RO 

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

Une équipe de recherche a déposé le 10 juin 2026 le preprint arXiv 2606.10382 décrivant UMI-Bench 1.0, présenté comme le premier benchmark entièrement dédié à l'évaluation en conditions réelles de politiques de manipulation robotique entraînées via l'Universal Manipulation Interface (UMI). Le benchmark cible la manipulation d'objets sur table (tabletop manipulation) et couvre l'intégralité de la chaîne de validation : collecte de données, réinitialisation de scène entre essais, exécution de politique, journalisation des résultats et analyse par facteurs de tâche. Il opère en mode "local-first", c'est-à-dire que les évaluations tournent directement sur robot réel, sans couche de simulation intermédiaire. L'UMI couple observations depuis une caméra montée au poignet, représentation des actions, collecte de démonstrations humaines et déploiement physique, une architecture dont les performances dépendent de la cohérence de chaque maillon. Ce benchmark répond à un problème structurel de l'apprentissage par imitation : l'absence de protocole standardisé conduit chaque équipe à évaluer ses politiques dans des conditions non comparables, ce qui rend la littérature difficile à arbitrer pour un intégrateur ou un décideur industriel. En rendant le processus reproductible et auditable, UMI-Bench permet de mesurer concrètement dans quelle mesure une politique entraînée sur des démonstrations généralise à des configurations physiques inédites, ce que les chercheurs appellent la sim-to-real (ici demo-to-real) generalization. C'est un enjeu central pour les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models), dont les performances en démonstration sélectionnée restent difficiles à quantifier sans infrastructure de test commune. L'UMI a été introduit en 2023-2024 par Cheng Chi et al. (Columbia University) comme interface portable de collecte de démonstrations : un opérateur guide un gripper équipé d'une caméra et d'un module de localisation, et les trajectoires servent directement à entraîner des politiques. Le paysage concurrent des benchmarks comprend LIBERO, DROID et le framework LeRobot de Hugging Face, qui proposent leurs propres protocoles mais sans calibration spécifique pour le pipeline UMI. L'étape logique suivante serait l'intégration de modèles fondationnels comme pi-0 (Physical Intelligence) ou OpenVLA dans ce protocole de référence, et l'extension à des tâches multi-étapes.

RecherchePaper
1 source
Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?
120arXiv cs.RO 

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Une équipe de chercheurs publie sur arXiv (2510.06492v2) une étude systématique des défaillances des modèles du monde latents face à des contraintes de sécurité partiellement observables. Appliquée à un bras manipulateur Franka Research 3 sur des tâches de cuisine, la recherche identifie deux modes de défaillance distincts. Le premier, appelé "estimation gap", survient quand l'observation courante ne révèle pas une grandeur critique pour la sécurité : la température d'une surface de cuisson, invisible en RGB seul, en est l'exemple central. Le second, le "prediction gap", désigne les situations où la défaillance devient observable dès qu'elle se produit, mais ne peut être anticipée à partir des observations disponibles. Les auteurs proposent deux diagnostics quantitatifs associés : une mesure d'observabilité de sécurité basée sur l'information mutuelle, et une mesure de prédictibilité future fondée sur des rollouts simulés. Deux stratégies de mitigation sont ensuite validées en hardware : la supervision multimodale privilégiée (ajout de capteurs thermiques ou tactiles au flux RGB) pour combler les estimation gaps, et la calibration de risque conforme (conformal risk calibration) pour les prediction gaps, avec des résultats mesurés sur le robot réel. Ces résultats posent une question structurante pour le secteur : les représentations latentes produites par un world model entraîné sur observations RGB sont-elles suffisantes pour garantir un contrôle fiable en environnement industriel ? La réponse empirique ici est non, et ce constat a des implications directes pour les intégrateurs qui déploient des bras robotisés sur des lignes de production où des variables non-visuelles (température, force de contact, couple) conditionnent la sécurité. La calibration conforme, issue de la théorie statistique de la prédiction, permet de borner le risque de violation de contrainte sans retrainer le modèle, ce qui représente un avantage pratique pour les déploiements existants. La contrepartie documentée est une conservatisme accru du contrôleur, se traduisant par une réduction du taux de complétion des tâches : la sécurité est améliorée, mais au prix d'une productivité moindre, un arbitrage classique que les COO devront quantifier pour leur contexte. Le travail s'inscrit dans la lignée des world models de type Dreamer et RSSM (Recurrent State Space Model), popularisés par DeepMind, qui apprennent une représentation compressée de l'état du monde pour planifier en espace latent. Cette approche gagne du terrain face aux politiques purement réactives, notamment dans les architectures VLA (Vision-Language-Action) portées par des équipes comme Physical Intelligence (Pi-0), Google DeepMind (GR00T) ou Figure AI. La plupart de ces modèles s'appuient sur des flux RGB ou RGBD, ignorant les modalités thermiques ou haptiques, ce que cette étude remet en cause sur des tâches à risque. Le Franka Research 3 est le banc d'essai standard de la communauté, ce qui facilite la reproductibilité. Les prochaines étapes probables incluent l'extension à des configurations multi-bras, l'intégration dans des pipelines VLA de production, et la question ouverte de savoir comment sélectionner automatiquement les modalités nécessaires à la sécurité pour une tâche donnée.

RechercheActu
1 source
Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés
121arXiv cs.RO 

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Des chercheurs proposent une méthode de récupération après chute pour robots humanoïdes sur terrains variés, publiée en juin 2026 sur arXiv (identifiant 2606.08922). Baptisée PTDL (Phase-Terrain Decoupled Learning), elle cible un problème concret : un humanoïde tombé sur du gravier, une pente ou un sol inégal doit non seulement se relever, mais reprendre immédiatement une marche dirigée par commande de vitesse, sans capteurs externes ni étiquettes de terrain fournies au moment de l'exécution. La validation porte sur le Unitree G1, humanoïde commercial de 29 degrés de liberté, testé en simulation et sur robot réel, sur sol plat, gravier et inclinaisons allant jusqu'à 20 degrés. L'architecture de PTDL repose sur une double décorrélation. Sur l'axe des phases, des discriminateurs de mouvement à double prior conditionnés par la gravité projetée lient la récupération post-chute à la reprise de locomotion normale. Sur l'axe des terrains, un façonnage de récompense stratifié par surface applique des supervisions d'entraînement spécifiques à chaque sol, labels qui sont ensuite retirés à la politique au déploiement : le robot développe des comportements de lever implicitement adaptés à chaque surface, sans qu'on lui indique sur quoi il repose. Les méthodes antérieures s'arrêtaient généralement au lever quasi-statique ou entraînaient une politique de compromis dégradée face à la diversité des terrains. PTDL enchaîne récupération et reprise de marche sous une seule politique proprioceptive unifiée, ce qui est directement pertinent pour tout déploiement en environnement industriel non structuré où la chute n'est pas une exception mais une probabilité réelle. Le G1 de Unitree Robotics (Shenzhen) est devenu en 2024-2025 une plateforme de référence pour la recherche en locomotion humanoïde, notamment grâce à son accessibilité tarifaire (environ 16 000 USD). La récupération après chute reste un angle mort notoire dans la course humanoïde actuelle : Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus) se concentrent principalement sur les démonstrations de marche et de manipulation, peu sur les protocoles de résilience post-chute. Ce preprint arXiv n'annonce pas de déploiement industriel immédiat et n'a pas encore subi de révision par les pairs, mais il ouvre une piste méthodologique solide : entraîner sur des terrains stratifiés tout en maintenant une politique unifiée à l'inférence, une approche transposable à d'autres défis de robustesse en conditions réelles.

RecherchePaper
1 source
Avatar androïde cybernétique Yui : intégration système, déploiement terrain et évaluation
122arXiv cs.RO 

Avatar androïde cybernétique Yui : intégration système, déploiement terrain et évaluation

Yui est un avatar androïde téléopéré à corps entier, développé par une équipe de recherche japonaise et présenté dans un article soumis à arXiv (2606.08099) en juin 2026. Le système embarque 55 degrés de liberté répartis sur l'ensemble du corps, combinant une tête androïde préexistante avec un contrôle des expressions faciales, du regard, de la mobilité des bras et des mains, et une plateforme mobile. Deux modes de pilotage sont disponibles : un mode immersif via casque de réalité mixte (HMD), et un mode bureau utilisant une simple webcam. Le système a été déployé dans trois configurations réelles : une exposition longue durée à l'Expo 2025 d'Osaka (Kansai, Japon), un échange pédagogique à distance entre écoliers, et une étude d'interaction avec le grand public. Sur le seul site de l'Expo, deux unités ont cumulé environ 1 131 heures d'opération, ce qui constitue un volume de terrain significatif pour ce type de plateforme. Ce chiffre de 1 131 heures dépasse la plupart des évaluations publiées sur les avatars androïdes, généralement limitées à des sessions de laboratoire contrôlées. Il permet d'identifier des enjeux de maintenance réels et de valider l'exploitabilité opérationnelle dans des conditions d'usage non maîtrisées. Les retours recueillis auprès des opérateurs et des interlocuteurs sont globalement positifs sur la sensation de co-présence et la transmission des émotions et intentions. Toutefois, les auteurs reconnaissent explicitement des lacunes en termes de contrôlabilité fine, notamment pour les gestes précis, ce qui est cohérent avec les défis connus de la téléopération à haute fidélité sensorielle. Le projet s'inscrit dans la continuité des travaux d'Hiroshi Ishiguro (Osaka University) sur les androïdes téléopérés, dont les systèmes Geminoid et Telenoid ont posé les bases de cette discipline depuis les années 2000. Dans l'espace commercial, des acteurs comme Engineered Arts (Ameca, Royaume-Uni) ou des projets de téléprésence incarnée comme ceux de l'entreprise californienne Embodied restent sur des périmètres plus restreints. Yui se distingue par son déploiement public massif à l'Expo 2025, qui a accueilli plusieurs millions de visiteurs, fournissant un terrain d'évaluation rare. Les prochaines étapes identifiées portent sur l'amélioration de la précision de contrôle et l'élargissement des scénarios d'usage sociaux, avec des implications de conception pour les futures générations d'avatars androïdes déployables en contexte ouvert.

HumanoïdesPaper
1 source
Coordination continue de robots quadrupèdes par découverte de compétences sémantiques
123arXiv cs.RO 

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Des chercheurs ont publié sur arXiv (réf. 2606.08102) un framework appelé Conquer, conçu pour coordonner des équipes de robots quadrupèdes en apprentissage continu, c'est-à-dire sans avoir à réentraîner le système à chaque nouvelle tâche. L'approche repose sur une bibliothèque de compétences sémantiques organisée autour d'un cycle récupérer-adapter-mettre à jour : avant d'exécuter une tâche inconnue, le système construit un descripteur sémantique à partir des informations pré-exécution, retrouve la compétence la plus proche dans la bibliothèque, l'adapte, puis intègre les trajectoires réelles pour enrichir la base. Le backbone SAG (Self-Allies-Goal) permet de gérer des équipes de taille variable en modélisant explicitement l'état propre de chaque robot, le contexte de ses coéquipiers et l'objectif de la tâche. En simulation, Conquer atteint un taux de succès moyen final de 95,6 %, avec un transfert positif démontré vers de nouvelles tâches et un oubli catastrophique qualifié de négligeable. Des essais en conditions réelles ont été conduits sur des équipes de Unitree Go2, le quadrupède commercial d'Unitree Robotics. Ce résultat compte parce qu'il s'attaque à l'un des verrous fondamentaux de la robotique multi-agents : les méthodes de type MARL (apprentissage par renforcement multi-agents) existantes entraînent des politiques spécifiques à une famille de tâches fermée, ce qui les rend inutilisables dans des environnements industriels où les missions évoluent en permanence. Conquer propose une alternative où de nouvelles compétences de coordination s'accumulent sans effacer les précédentes, un prérequis pour tout déploiement réel dans des entrepôts ou sur des lignes de production à géométrie variable. La capacité à gérer des équipes de taille arbitraire est également non triviale : la plupart des approches supposent un nombre fixe d'agents. À noter cependant que les métriques de succès sont issues de simulation, et que les vidéos de déploiement sur Go2 restent des démonstrations sélectionnées, sans données quantifiées sur les taux d'échec terrain ni sur les temps de cycle réels. La coordination multi-quadrupèdes s'est intensifiée avec la disponibilité de robots comme le Go2 d'Unitree (lancé à moins de 2 700 dollars en version grand public), qui abaisse le coût d'expérimentation en laboratoire. La problématique de l'apprentissage continu en robotique est partagée par plusieurs groupes de recherche, notamment autour des architectures VLA (Vision-Language-Action) qui cherchent elles aussi à éviter la réinitialisation à chaque nouvelle tâche. Conquer se positionne dans un espace encore peu industrialisé, entre les approches MARL classiques et les frameworks généralistes de type foundation model. Les prochaines étapes logiques seraient des évaluations en entrepôt réel sur des tâches de manutention collaboratives, domaine où des acteurs comme Exotec (France) ou Boston Dynamics investissent sur des flottes mixtes humanoïdes et quadrupèdes.

RecherchePaper
1 source
PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée
124arXiv cs.RO 

PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée

Une équipe de chercheurs publie PACT (Physical safety Alignment for Constrained Trajectories), un cadre d'alignement post-entraînement destiné à rendre les politiques de diffusion robotique conformes à des contraintes physiques strictes, sans accéder aux données de démonstration ni aux récompenses de tâche (arXiv:2606.08414). Les politiques de diffusion, qui génèrent des trajectoires motrices par débruitage itératif, ont connu des succès notables en manipulation robotique mais peinent à satisfaire des contraintes de sécurité fermes en déploiement réel. PACT projette les politiques pré-entraînées dans des régions faisables en distillant des gradients de contrainte via un objectif KL inverse, avec supervision dense à chaque pas de temps du processus de débruitage. Un curriculum progressif resserre graduellement les contraintes tout en maintenant un écart théoriquement borné par rapport à la politique d'origine, limitant l'oubli catastrophique. Sur des benchmarks de manipulation simulée et réelle, PACT réduit les violations de sécurité de 31,0% en moyenne et améliore simultanément le taux de réussite des tâches de 30,7%. Ces résultats interpellent directement les intégrateurs : sécuriser une politique robotique impliquait jusqu'ici soit de contraindre l'entraînement dès le départ, au prix de l'expressivité, soit d'ajouter des garde-fous externes à l'inférence, nuisant à la scalabilité. PACT propose une troisième voie, post-entraînement et sans données supplémentaires, qui permettrait en théorie d'aligner n'importe quelle politique de diffusion existante. Le fait que sécurité et performance progressent conjointement contredit l'hypothèse d'un compromis structurel entre les deux, pourtant largement admise dans le secteur. À noter : l'article ne précise pas les configurations matérielles ni les volumes de données des tests réels, ce qui limite la portée des comparaisons directes. Les politiques de diffusion ont connu une montée en puissance récente, portée notamment par Pi-0 (Physical Intelligence) et d'autres architectures VLA de grands laboratoires. PACT s'inspire des techniques d'alignement post-entraînement développées pour les LLM, de type RLHF, adaptées aux contraintes physiques plutôt qu'aux préférences humaines, et se positionne face aux approches par apprentissage par renforcement contraint et aux filtres CBF (Control Barrier Functions). Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit d'un résultat purement académique, sans pilote industriel annoncé. La validation sur des plateformes humanoïdes complètes et l'intégration dans des pipelines VLA de production restent à démontrer.

RecherchePaper
1 source
Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes
125arXiv cs.RO 

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08725) une méthode de planification de trajectoire en temps réel pour la téleopération sans collision de bras manipulateurs. Le problème central : en téleopération, l'opérateur ne contrôle que la pose de l'effecteur terminal (position et orientation de l'outil), sans piloter individuellement les articulations. Cela provoque régulièrement des auto-collisions du bras sur lui-même ou des collisions avec les obstacles de l'environnement de travail. L'approche proposée reformule les contraintes d'évitement de collision en les rendant différentiables via la dualité en optimisation convexe, une formulation récente adaptée ici au contexte de la téleopération. Le robot est représenté géométriquement par des capsules (cylindres à extrémités hémisphériques), l'environnement par des polytopes. La méthode a été validée en simulation sur des scénarios à nombre variable d'obstacles, puis testée physiquement sur un bras UR5e de Universal Robots dans une session de téleopération réelle. Les résultats indiquent des temps de calcul inférieurs aux méthodes de référence, tout en autorisant une modélisation géométrique plus fidèle, produisant des trajectoires plus lisses et garantissant l'absence de collision. L'enjeu industriel est direct : les approches existantes contraignent les développeurs à choisir entre précision géométrique et performance de calcul. Approximer robot et obstacles par des sphères simplifie la différentiabilité mais introduit des marges de sécurité artificiellement larges, restreignant l'espace de travail utile. À l'inverse, approximer les dérivées dégrade la convergence du solveur et augmente la latence, incompatible avec les exigences temps réel de la téleopération. En utilisant la dualité convexe, ce travail contourne les deux compromis simultanément. Pour un intégrateur déployant des cellules robotisées téléopérées, cela représente potentiellement moins de zones interdites inutiles et une meilleure réactivité du système. La téleopération connaît un regain d'intérêt important depuis 2023, portée par les besoins en collecte de données pour l'apprentissage par imitation dans les robots humanoïdes et par les applications en environnements dangereux ou médicaux. Les méthodes concurrentes incluent les contrôleurs réactifs basés sur des champs de potentiel, les planificateurs par échantillonnage (RRT, CHOMP) et les approches de contrôle optimal à horizon glissant avec modèles en sphères. L'approche ici, fondée sur la programmation différentiable et les contraintes duales convexes, s'inscrit dans une tendance plus large d'intégration des outils d'optimisation différentiable dans la robotique de manipulation. Le travail est un preprint non encore évalué par les pairs ; les prochaines étapes probables concernent l'extension à des configurations à plus grand nombre de degrés de liberté et à des environnements dynamiques.

UEApplicable aux intégrateurs européens déployant des cellules téléopérées (chirurgie, environnements dangereux), mais aucun acteur FR/EU n'est directement impliqué dans ce preprint.

RecherchePaper
1 source
PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement
126arXiv cs.RO 

PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement

Une équipe de recherche a publié PhysGraph en juin 2026 sur arXiv (référence 2606.08655), un cadre algorithmique qui construit des graphes de scène 3D physiquement ancrés à partir d'images RGB-D, caméras couleur couplées à un capteur de profondeur. Là où la plupart des systèmes de perception 3D se limitent à identifier sémantiquement les objets (reconnaissance, segmentation, récupération), PhysGraph modélise simultanément leurs propriétés physiques et cinématiques : masse, matériaux, et articulations (degrés de liberté, points de pivot). Le pipeline décompose chaque objet en parties fonctionnelles distinctes, associe les instances d'objets entre plusieurs prises de vue, puis infère via un raisonnement visuel les propriétés mécaniques de chaque composant. Évalué sur des jeux de données synthétiques et réels, le système revendique des résultats state-of-the-art en segmentation sémantique, en estimation de masse multi-objet, et en prédiction d'articulations. L'enjeu dépasse la taxonomie académique. Pour la manipulation robotique en environnement industriel ou domestique, savoir qu'un objet est « un tiroir » n'est pas suffisant, le robot doit connaître son axe de rotation, la force nécessaire à son ouverture, et la localisation des poignées préhensibles. PhysGraph cible précisément ce gap en produisant des représentations exploitables pour la planification de tâches et la prédiction d'affordances sous contraintes physiques. L'application de transfert réel-vers-simulation (real-to-sim) est stratégiquement critique : convertir automatiquement une scène réelle en environnement simulé fidèle réduit le coût de génération de données d'entraînement pour les robots apprenants. Il convient cependant de nuancer : l'abstract ne précise ni les latences de traitement ni les conditions opérationnelles testées, ce qui rend difficile l'évaluation de la viabilité temps-réel. Ce travail s'inscrit dans un espace de recherche dense autour des graphes de scène 3D ouverts, ConceptGraphs, OpenMask3D, et les travaux sur la manipulation d'objets articulés alimentés par les datasets PartNet et SAPIEN font figure de références directes. La prédiction d'articulations reste l'un des problèmes les plus ouverts de la robotique incarnée, aux côtés du fossé sim-to-real. Aucun partenaire industriel ni déploiement pilote n'est mentionné : PhysGraph en est au stade de contribution de recherche, sans timeline de productisation annoncée. Les prochaines étapes naturelles seraient la validation sur des manipulateurs réels en boucle fermée et la publication du code.

RecherchePaper
1 source
ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives
127arXiv cs.RO 

ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives

Des chercheurs ont publié ActProbe (arXiv:2606.08508), un détecteur de défaillances léger pour les politiques robotiques génératives, ces systèmes qui produisent des séquences d'actions continues comme les politiques de diffusion ou les architectures ACT déployées sur des robots tels que Figure 03 ou entraînés avec pi-0. Plutôt que d'accéder aux états internes du modèle ou d'introduire un rééchantillonnage coûteux à l'exécution, ActProbe opère exclusivement sur les chunks d'actions émis lors d'un seul passage avant (forward pass). Deux signaux suffisent : l'erreur de cohérence temporelle (TCE), qui mesure l'incohérence entre deux chunks consécutifs, et l'amplitude du chunk courant (ACM). Ces métriques alimentent une architecture LSTM-MLP légère conditionnée par la tâche, produisant une probabilité de défaillance par étape. Sur un ensemble diversifié de benchmarks, ActProbe améliore le front de Pareto précision (F1)/précocité d'un gain en hypervolume de +12,7 % par rapport aux méthodes existantes, et affiche un avantage de +9,0 % en ROC-AUC sur des tâches non vues à l'entraînement. L'intérêt opérationnel tient à une contrainte réelle : les politiques commerciales comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ne donnent pas accès à leurs états internes. Un détecteur purement black-box est donc la seule option viable en déploiement industriel. ActProbe émet ses alertes avant que la défaillance ne soit visuellement reconnaissable, ce qui est critique pour interrompre une action irréversible avant qu'elle ne soit engagée. Côté fine-tuning par renforcement (PPO), le système réduit de 2,9 fois le nombre d'interactions nécessaires avec l'environnement, un gain direct lorsque chaque interaction implique un robot physique. Le transfert sur des tâches de saisie réelles non vues lors de l'entraînement valide la généralisation hors simulateur. ActProbe s'inscrit dans les travaux ciblant le fossé entre démonstration en laboratoire et déploiement à l'échelle, l'obstacle central à la commercialisation des robots généralistes depuis 2023. Les approches concurrentes, qu'elles reposent sur le monitoring d'incertitude interne ou sur des signaux côté observation, souffrent d'un manque d'accès aux internals ou d'une latence incompatible avec le temps réel. La prochaine étape logique serait l'intégration dans des boucles de contrôle réactives pour robots humanoïdes industriels, terrain où Figure AI, Apptronik et Agility Robotics accélèrent leurs déploiements en entrepôt en 2026. ActProbe reste à ce stade une publication académique préliminaire, sans produit ni partenariat industriel annoncé.

RechercheOpinion
1 source
SynManDex : génération de saisies dextériques de type humain à partir de pré-saisies synthétiques
128arXiv cs.RO 

SynManDex : génération de saisies dextériques de type humain à partir de pré-saisies synthétiques

Des chercheurs ont publié SynManDex (arXiv:2606.09798), un pipeline synthétique conçu pour générer des saisies dextres robotiques imitant les interactions naturelles de la main humaine. La méthode fonctionne en quatre étapes : échantillonnage de pré-saisies humaines numériques conditionnées par l'objet, retargeting de ces postures vers une main robotique dextre, optimisation des contacts par fermeture de force sur l'effecteur cible, puis filtrage par vérification à chaque étape. Les keyframes résultantes alimentent des démonstrations de saisie-levée mais aussi des tâches de manipulation complexes : versement de thé, prise de photos, jeu de flûte, toutes conçues via des agents VLM (Vision-Language Model). Sur une plateforme bimane à 36 degrés de liberté, SynManDex atteint 86,4 % de stabilité de saisie, un score de naturalité humaine de 4,67/5 (soit 93,4 %), 80,7 % de succès en simulation et 83,3 % en conditions réelles (25 succès sur 30 essais). Ce résultat est notable parce que le transfert des interactions main-objet humaines vers les mains robotiques échoue généralement face aux contraintes de morphologie, de contact et d'atteignabilité. SynManDex attaque ce "morphology gap" en traitant les pré-saisies humaines comme des propositions affordance-aware, puis en délégant la résolution de contact à une optimisation native au robot. L'écart quasi nul entre simulation (80,7 %) et réel (83,3 %) suggère un sim-to-real solve solide, un résultat qui contredit l'hypothèse courante selon laquelle les pipelines synthétiques se dégradent significativement au passage au monde physique. Pour un intégrateur ou un responsable R&D en manipulation, cela ouvre la voie à la génération automatique de données de démonstration sans télé-opération humaine coûteuse. La manipulation dextre reste l'un des verrous majeurs de la robotique humanoïde et de la cobotique industrielle, aux côtés de travaux comme DexGrasp, UniDexGrasp ou les approches par imitation diffusion. SynManDex se distingue en exploitant explicitement la posture pré-saisie humaine comme prior fonctionnel plutôt que de partir d'un espace de configurations robotiques brut. Le papier est une soumission académique (pas un produit commercialisé), et les tâches testées restent des démonstrateurs de laboratoire. Les prochaines étapes probables incluent l'extension à des objets déformables, à des environnements encombrés et à des architectures de mains plus variées.

RecherchePaper
1 source
EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet
129arXiv cs.RO 

EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet

Des chercheurs ont publié en juin 2026 sur arXiv un framework baptisé EgoAERO, capable d'apprendre la manipulation dextre à partir d'une unique démonstration vidéo RGB-D égocentrique humaine, sans recourir à aucun asset 3D de l'objet manipulé. Le pipeline enchaîne trois modules : un tracking et une reconstruction de l'objet sans asset préalable, une compensation du mouvement égocentrique de la caméra, et une optimisation adaptative des contacts main-objet. Les trajectoires cohérentes obtenues sont ensuite converties en politiques robotiques via un apprentissage résiduel en deux étapes. Les auteurs introduisent également un mécanisme d'évaluation de qualité en ligne et publient EgoDex-R, un dataset de 4,3 millions de frames RGB-D pour l'entraînement de politiques dextres. En simulation comme en conditions réelles, EgoAERO atteint des performances proches des reconstructions assistées par modèles CAD sur le benchmark HOI4D, référence standard pour l'interaction main-objet. Le verrou technique levé ici est structurant pour la robotique dextre : jusqu'ici, les méthodes d'imitation à partir de vidéo humaine exigeaient soit des scans 3D préalables des objets, soit plusieurs démonstrations, soit des marqueurs visuels. Or, scanner chaque objet d'un environnement industriel ou domestique est un frein majeur à la scalabilité des systèmes. EgoAERO suggère qu'une caméra RGB-D standard (de type Intel RealSense ou intégrée à des lunettes connectées) et une seule prise vidéo suffisent pour bootstrapper une politique robotique fonctionnelle. C'est un signal fort en faveur d'une démocratisation de la collecte de données dextres, potentiellement réalisable par des opérateurs non spécialisés plutôt que par des sessions de télé-opération coûteuses. Ce travail s'inscrit dans une vague de recherche visant à exploiter les corpus vidéo égocentrique à grande échelle (Ego4D, HOI4D, EPIC-Kitchens), jusqu'ici sous-utilisés pour le robot learning faute de géométrie objet exploitable. Les approches concurrentes en manipulation dextre reposent encore largement sur la télé-opération avec gants haptiques (Physical Intelligence avec pi0, Dexterous Manipulation Lab de CMU) ou sur des assets CAD (DITTO, DexMV). EgoAERO n'est à ce stade qu'un preprint, sans déploiement industriel annoncé ni validation sur une large variété d'objets du monde réel : les expériences rapportées restent sur des scènes contrôlées du benchmark HOI4D, et la robustesse à des objets déformables ou transparents reste à démontrer.

RecherchePaper
1 source
HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents
130arXiv cs.RO 

HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08610) HARBOR, un framework agentique conçu pour automatiser les pipelines d'apprentissage par renforcement (RL) appliqués à la robotique. Partant d'une spécification de tâche et d'une base de code simulateur, le système prend en charge l'ensemble du workflow : configuration de l'environnement, conception des fonctions de récompense, entraînement de la politique et tuning des hyperparamètres. HARBOR décompose ces objectifs de haut niveau en étapes bornées confiées à des agents spécialisés, coordonnés via des commandes standardisées, des artefacts persistants et des portes d'exécution vérifiables. Il scale l'itération par essais parallèles décentralisés et capitalise sur l'expérience accumulée entre les runs. Le framework a été évalué sur 6 benchmarks couvrant 16 tâches de manipulation, locomotion et contrôle bimanuel dextère. Les politiques entraînées en simulation ont ensuite été transférées sur de vrais robots. L'intérêt principal de HARBOR tient à ce qu'il attaque directement le principal frein à l'adoption du RL en robotique industrielle : la charge d'ingénierie experte requise pour chaque nouvelle tâche. Reward shaping, sélection d'algorithmes, tuning fin des hyperparamètres représentent aujourd'hui des semaines de travail spécialisé avant d'obtenir une politique viable. En automatisant ce cycle de bout en bout à un coût pratique en tokens et en temps de calcul, HARBOR abaisse concrètement la barrière d'entrée pour les intégrateurs et les équipes R&D industrielles. Le fait que les politiques se transfèrent au robot réel adresse le "sim-to-real gap", un verrou persistant du secteur. Les résultats publiés indiquent que le framework égale ou surpasse les configurations par défaut sur les benchmarks testés, bien que les conditions exactes d'évaluation méritent d'être examinées dans le papier complet avant d'en tirer des conclusions généralisées. HARBOR s'inscrit dans une tendance émergente qui consiste à utiliser des LLMs comme orchestrateurs de pipelines ML complexes, dans la lignée de travaux comme Eureka (NVIDIA, 2023), qui utilisait GPT-4 pour générer automatiquement des reward functions via evolutionary search, ou des approches AutoRL de Berkeley et Google DeepMind. HARBOR semble aller plus loin en couvrant l'intégralité du workflow plutôt que le seul reward design. Les auteurs ne sont pas identifiés dans l'abstract disponible, et aucune affiliation institutionnelle ni application industrielle spécifique n'est mentionnée : il s'agit d'un preprint de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles concerneront l'intégration avec des simulateurs standards (Isaac Sim, MuJoCo), des validations sur des plateformes humanoïdes complexes, et une éventuelle ouverture du code.

RecherchePaper
1 source
Génération et exécution de mouvements sûrs, fluides et acceptables pour l'interaction humain-robot en milieu industriel
131arXiv cs.RO 

Génération et exécution de mouvements sûrs, fluides et acceptables pour l'interaction humain-robot en milieu industriel

Des chercheurs ont publié sur arXiv (preprint 2606.08741, juin 2026) une étude portant sur la génération de mouvements pour robots collaboratifs en environnements manufacturiers partagés avec des opérateurs humains. L'équipe propose un cadre de contrôle prédictif par modèle (MPC, Model Predictive Control) capable de produire quatre comportements distincts intégrant des contraintes sociales, au-delà des seules garanties de sécurité physique. Ces comportements varient selon des paramètres de mouvement identifiés comme influençant la perception humaine : fluidité de trajectoire, vitesse d'approche, lisibilité de l'intention, et niveau de confort perçu par l'opérateur. Une étude utilisateur a ensuite été menée auprès de participants non-experts pour évaluer et valider chaque mode comportemental et mesurer leur impact social. Le résultat central est que les variations de comportement du robot affectent significativement son acceptabilité sociale perçue, indépendamment des critères de sécurité technique. Ce constat a des implications directes pour les intégrateurs de cobots en milieu industriel : une cellule de travail conforme aux normes ISO/TS 15066 (vitesse et séparation) peut malgré tout générer friction, inconfort ou méfiance chez les opérateurs, réduisant l'adoption réelle. L'étude apporte une validation empirique à l'hypothèse que la dimension psycho-cognitive doit être traitée comme une contrainte de conception à part entière, et non comme un ajustement cosmétique post-déploiement. C'est un argument concret pour les décideurs B2B qui peinent à justifier le passage de robots en cage à la collaboration directe. Ce travail s'inscrit dans un champ de recherche en pleine expansion autour de l'interaction humain-robot (HRI) socialement intelligente, porté notamment par des laboratoires européens actifs sur la thématique cobot-manufacturing. Le MPC est une approche mature en robotique industrielle, mais son application explicite à des objectifs de confort social reste peu documentée à cette échelle. Des acteurs comme Universal Robots, Franka Robotics ou, côté français, Pollen Robotics travaillent sur des cobots à vocation collaborative, mais sans encore intégrer formellement ce type de métriques comportementales dans leurs pipelines de contrôle. Les prochaines étapes naturelles seraient des validations en conditions réelles de production et une quantification du retour sur investissement lié à l'amélioration de l'acceptabilité.

UELes résultats concernent directement des fabricants européens comme Franka Robotics et Pollen Robotics (FR), dont les pipelines de contrôle cobot pourraient intégrer ces métriques comportementales pour réduire la friction opérateur et accélérer la transition vers la collaboration directe en usine.

RecherchePaper
1 source
ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration
132arXiv cs.RO 

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration

Des chercheurs présentent ReGIL (Retrieval-Guided Imitation Learning), un framework d'apprentissage par imitation capable d'entraîner un robot manipulateur à partir d'une seule démonstration. La méthode traite cette démonstration unique comme une mémoire externe statique, interrogée en continu durant l'entraînement pour guider simultanément l'exploration, générer un buffer de régularisation et construire les récompenses. Le calcul de récompense repose sur un alignement temporel local entre la trajectoire courante et le segment récupéré, fournissant un feedback pas-à-pas plutôt qu'un signal binaire succès/échec. Évalué sur les benchmarks LIBERO et Meta-World, ReGIL surpasse les baselines antérieures en taux de réussite et en efficacité d'entraînement. Sur robot réel, avec une seule démonstration et moins d'une heure d'entraînement en ligne, le système atteint plus de 75 % de taux de réussite sur trois tâches de manipulation avec randomisation à la fois de la pose initiale du robot et de la position cible. Ces résultats sont issus d'un preprint arXiv (2606.09381) et n'ont pas encore été soumis à revue par les pairs. Le principal défi que ReGIL cherche à résoudre est connu sous le nom de "compounding error" : en imitation learning classique (behavior cloning), les petites déviations par rapport à la trajectoire démontrée s'accumulent et mènent rapidement à l'échec, ce qui oblige généralement à collecter des centaines, voire des milliers de démonstrations. Ramener ce seuil à une seule démonstration plus moins d'une heure d'interaction en ligne représente un gain opérationnel significatif pour le déploiement industriel, où la collecte de données est coûteuse. Le taux de 75 % obtenu avec randomisation de pose et de cible est un indicateur de robustesse plus solide qu'une démonstration en conditions fixes, même si l'absence de détails sur les tâches spécifiques et la complexité des scènes limite l'interprétation. L'apprentissage par imitation à faible nombre de démonstrations est un axe de recherche très actif, concurrencé notamment par les modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou les politiques de diffusion (Diffusion Policy, ACT). Ces approches misent sur des grandes quantités de données préentraînées pour compenser la rareté des démos spécifiques à une tâche, là où ReGIL propose une alternative radicalement data-light. Le benchmark LIBERO est devenu un standard de fait pour comparer ces méthodes en simulation, et Meta-World permet d'évaluer la généralisation multi-tâches. La prochaine étape logique serait une validation sur des tâches de manipulation plus complexes et une publication dans une conférence de robotique (ICRA, CoRL, RSS) pour valider les claims de manière indépendante.

RecherchePaper
1 source
Apprentissage de la représentation du contact pour l'odométrie des jambes
133arXiv cs.RO 

Apprentissage de la représentation du contact pour l'odométrie des jambes

Une équipe de chercheurs a publié sur arXiv (référence 2606.05501) une approche d'apprentissage de représentation auto-supervisée pour la détection de contact dans les robots à pattes, visant à améliorer l'odométrie locomotrice sans recourir à des capteurs de force aux extrémités. Le système repose exclusivement sur les encodeurs articulaires standard, présents sur la quasi-totalité des plateformes commerciales existantes. En modélisant les phases d'appui et de vol (stance et swing) de façon probabiliste, le framework permet d'estimer la vitesse du corps principal à partir de la chaîne cinématique des membres, en s'appuyant sur l'hypothèse classique que la vitesse du pied par rapport au monde est nulle en phase d'appui. Les résultats expérimentaux indiquent des performances supérieures aux méthodes supervisées nécessitant des capteurs additionnels et aux approches probabilistes de référence. Le code est publié en open source. L'enjeu est concret : l'odométrie par jambes est une brique fondamentale pour la navigation autonome des robots quadrupèdes et bipèdes, notamment lorsque le GNSS ou la vision sont dégradés. Or, les capteurs de réaction au sol (GRF sensors) alourdissent les pieds, augmentent la complexité mécanique et sont souvent aveugles aux glissements en contact, ce qui produit des dérives d'estimation même lorsque le pied est techniquement "posé". En éliminant cette dépendance sensorielle, cette approche ouvre la voie à un déploiement sur des plateformes à budget contraint, et surtout améliore la robustesse sur surfaces glissantes ou irrégulières, scénario typique des environnements industriels ou d'inspection. La nature auto-supervisée supprime également le coût d'annotation de données, un frein classique dans les pipelines de locomotion. Le problème de la détection fiable de la phase d'appui est étudié depuis l'essor des robots quadrupèdes comme ANYmal (ANYbotics) et Go1/Go2 (Unitree), ainsi que des bipèdes comme Spot (Boston Dynamics) ou Atlas. La majorité des stacks d'odométrie actuels, y compris ceux utilisés dans des frameworks open source comme Legged Gym ou OCS2, conservent une dépendance aux GRF sensors ou à des heuristiques de seuillage. Cette contribution s'inscrit dans une tendance plus large visant à rendre la locomotion avancée accessible sur des plateformes sans instrumentation de pointe, une direction également explorée par des labos européens comme le DLR ou l'INRIA. La prochaine étape naturelle sera la validation sur plusieurs morphologies de robots et dans des conditions de terrain dégradé, un benchmark que les auteurs n'ont pas encore publié.

UEL'approche intéresse directement des équipes comme l'INRIA qui travaillent sur la locomotion avancée, et pourrait être intégrée sans modification matérielle sur des plateformes européennes à budget contraint.

RecherchePaper
1 source
Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation
134arXiv cs.RO 

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

Une étude soumise sur arXiv (arXiv:2606.05588, juin 2026) audit sept métriques de curation de démonstrations robotiques utilisées en apprentissage par imitation. Les chercheurs ont construit un banc d'essai contrôlé dans lequel des défauts sont injectés avec un type connu, puis évalué chaque métrique selon deux axes : sa capacité à séparer démonstrations défectueuses et saines, et son impact réel sur le taux de succès d'une politique de behavior cloning entraînée sur le sous-ensemble filtré. Les perturbations subtiles (bruit d'action corrélé, tremblements, troncatures) sont détectées par scoring outlier multivarié ; leur suppression restaure l'intégralité de l'écart de performance en aval. Les erreurs structurelles, en revanche, où une action incorrecte est exécutée à un moment décisif, restent invisibles à toutes les métriques action-only testées. Deux d'entre elles sont même inversées : elles notent ces démonstrations défectueuses comme étant de meilleure qualité et laissent la politique au niveau ou en dessous de la baseline non filtrée. Seules les métriques examinant la trajectoire d'état détectent ces erreurs, mais même la meilleure ne récupère qu'un tiers de l'écart de performance downstream. Ce résultat interpelle directement les équipes qui entraînent des politiques robotiques à partir de données de téléopération. Le filtrage standard par métriques d'action seules s'avère insuffisant dès que les défauts sont de nature structurelle, précisément les cas les plus difficiles à labelliser manuellement : ceux qu'un opérateur humain commet lors d'une hésitation ou d'un mauvais geste à un instant clé. L'étude établit également que haute précision de détection ne garantit pas d'amélioration downstream, une nuance critique pour toute pipeline industrielle de curation automatique prétendant améliorer la qualité des données à l'échelle. La course à la donnée de démonstration s'est accélérée avec des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques d'Optimus (Tesla), dont les performances en déploiement dépendent directement de la qualité des corpus téléopérés. Avec la multiplication des infrastructures de collecte, la curation automatique est devenue un noeud critique dans les pipelines de formation. Les chercheurs publient le banc d'essai et les implémentations en open source, offrant à la communauté un outil de référence pour auditer rigoureusement tout système de filtrage. Leurs conclusions confirment que la trajectoire d'état doit être intégrée à tout scoring sérieux, et que l'erreur structurelle reste le talon d'Achille des approches action-only.

RecherchePaper
1 source
RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines
135arXiv cs.RO 

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

Une équipe de chercheurs a publié début juin 2026 RobotValues (arXiv:2606.03312), un benchmark constitué de 10 000 scénarios destinés à évaluer les robots domestiques dans des situations où les valeurs humaines entrent en conflit. Chaque instance associe une image réaliste d'intérieur résidentiel à plusieurs actions robot plausibles, chacune privilégiant une valeur différente : autonomie de l'utilisateur, efficacité, sécurité, ou respect de la vie privée. Le corpus a été généré par une pipeline semi-automatique combinant génération assistée par LLM, extraction de valeurs ancrée dans des retours de parties prenantes, génération d'images et contrôle qualité automatique. Les modèles de vision-langage (VLM) couramment utilisés comme planificateurs robotiques y ont été évalués, avec des résultats préoccupants : lorsqu'on leur demande explicitement de prioriser une valeur qui contredit leurs préférences par défaut, les modèles échouent dans 80 % des cas et maintiennent leur comportement initial. Ce résultat chiffré remet en cause un angle mort de l'évaluation robotique standard, qui se concentre quasi exclusivement sur le taux de complétion de tâche et la conformité aux règles de sécurité. Dans un foyer, un robot aspirateur qui désactive un microphone pour respecter la vie privée d'un utilisateur fait un choix contraire à l'efficacité opérationnelle mais aligné avec une valeur légitime. RobotValues formalise exactement ces arbitrages. Le constat que les modèles favorisent par défaut la sécurité et l'accommodement au détriment de la protection de la vie privée soulève des questions concrètes pour les intégrateurs B2B et les équipes produit déployant des assistants domestiques, notamment sur la robustesse des mécanismes d'instruction fine-grained dans les VLMs. Les VLMs utilisés comme planificateurs robotiques constituent une tendance lourde depuis les travaux de Google sur RT-2 et les architectures Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou OpenVLA. Ces modèles héritent de biais d'entraînement qui ne posent pas de problème dans des contextes de complétion de tâche pure, mais deviennent critiques dès que le robot opère dans un espace privé avec des occupants ayant des préférences potentiellement contradictoires. RobotValues s'inscrit dans un agenda de recherche plus large sur l'alignement des agents embarqués, distinct des débats sur les LLMs conversationnels. Aucun fabricant de robot domestique (Samsung, LG, Amazon Astro, ou les startups européennes comme Enchanted Tools) n'est cité dans le papier ; le benchmark reste pour l'instant un outil académique, mais sa structure modulaire et son échelle de 10 000 instances le positionnent comme un candidat sérieux à l'intégration dans les pipelines d'évaluation de prochaines générations de plateformes embarquées.

UELe benchmark RobotValues pourrait servir de référentiel d'évaluation pour les startups européennes de robotique domestique comme Enchanted Tools, notamment dans le cadre des exigences de l'AI Act sur les systèmes autonomes opérant en espace privé.

RecherchePaper
1 source
Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique
136arXiv cs.RO 

Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique

Des chercheurs ont publié début juin 2026 une étude (arXiv:2606.03556) démontrant la vulnérabilité des modèles Vision-Language-Action (VLA) à des attaques adversariales par patch dans des conditions partiellement observables. Contrairement aux travaux antérieurs qui supposaient un accès complet à l'intégralité de la trajectoire d'exécution du robot, cette équipe formule un modèle de menace plus réaliste : l'adversaire ne dispose que d'un court préfixe de trajectoire pour générer un patch visuel fixe, ensuite appliqué à toutes les trames suivantes. Leur framework en deux phases consiste d'abord à localiser la zone optimale du patch en exploitant les cartes d'attention du modèle pour identifier les régions visuellement critiques liées à l'instruction en cours, puis à optimiser ce patch pour simultanément perturber l'ancrage sémantique des objets cibles et augmenter la courbure des trajectoires d'action planifiées. Les expériences menées en simulation et en environnements robotiques réels montrent une réduction significative des taux de succès sur des tâches longues. Ce résultat est important car les VLA sont de plus en plus intégrés dans des bras manipulateurs et des robots mobiles déployés en environnements industriels et logistiques, précisément parce qu'ils promettent une généralisation robuste à partir d'instructions en langage naturel. Prouver qu'un patch physique imprimable, placé dans le champ de vision du robot, peut dégrader durablement ses performances de contrôle sans accès complet à son état interne remet en question les hypothèses de sécurité des déploiements actuels. Cela soulève un gap réel entre robustesse en démo contrôlée et résilience en production, particulièrement pour des intégrateurs qui s'appuient sur des modèles comme OpenVLA, pi-0 (Physical Intelligence) ou RT-2 (Google DeepMind) sans auditer leur surface d'attaque perceptive. Les VLA connaissent une montée en puissance depuis 2023 avec RT-2 de Google, suivi de pi-0 de Physical Intelligence et des travaux d'Embodied Intelligence. La sécurité adversariale de ces modèles reste un angle quasi-inexploré dans la littérature par rapport à leur homologues LLM ou vision-langage purs. Cette publication s'inscrit dans un effort émergent pour caractériser les vecteurs d'attaque physiques sur les systèmes robotiques autonomes, un enjeu croissant alors que Figure AI, Agility Robotics et 1X Technologies accélèrent leurs déploiements en entrepôt. Les prochaines étapes probables incluent des défenses basées sur l'augmentation adversariale à l'entraînement et des mécanismes de détection d'anomalie sur les cartes d'attention, domaine dans lequel des équipes européennes comme celles du LAAS-CNRS et du DLR commencent également à publier.

UELes équipes du LAAS-CNRS et du DLR commencent à publier sur la défense adversariale des VLA, positionnant l'Europe comme contributrice émergente à la sécurisation des déploiements robotiques industriels.

RechercheOpinion
1 source
RoboBenchMart : évaluation comparative des robots en environnement commercial
137arXiv cs.RO 

RoboBenchMart : évaluation comparative des robots en environnement commercial

Une équipe de chercheurs publie RoboBenchMart (arXiv:2511.10276), un environnement de simulation open source conçu pour évaluer les robots manipulateurs dans les dark stores de la grande distribution, ces entrepôts automatisés où des systèmes robotiques préparent des commandes e-commerce sans présence humaine. Le benchmark met en scène un manipulateur mobile face à des tâches de manipulation complexes sur des articles d'épicerie variés : saisie en milieu encombré, objets positionnés à hauteurs et profondeurs différentes, configurations spatiales changeantes à chaque évaluation. Plusieurs modèles VLA (Vision-Language-Action) de référence sont évalués dans ce cadre, après fine-tuning sur des trajectoires générées de manière procédurale reproduisant des scénarios réalistes de picking en rayon. Les résultats indiquent que les VLAs généralistes actuels, malgré leurs performances sur les benchmarks classiques de manipulation en environnement domestique ou de bureau, échouent de manière significative sur des tâches de commerce de détail pourtant courantes. Ce constat valide empiriquement ce que beaucoup soupçonnaient : la généralisation inter-domaines des VLAs reste un problème non résolu. La géométrie des rayonnages, la sémantique des produits emballés et les workflows logistiques sont suffisamment différents des environnements d'entraînement habituels pour mettre en défaut même les modèles les plus avancés. Pour les intégrateurs industriels et les opérateurs de dark stores, cela signifie que les solutions VLA prêtes à déployer dans le retail ne sont pas encore disponibles, malgré les démonstrations convaincantes en laboratoire. La quasi-totalité des benchmarks robotiques de référence, RLBench, ManiSkill ou LIBERO, ciblent des scénarios domestiques ou de table rase, laissant le domaine du retail largement inexploré côté évaluation standardisée. Des acteurs comme Exotec (FR), pionnier des systèmes Skypod pour entrepôts, ou Ocado Technology (UK) avancent sur l'automatisation des dark stores, mais sans benchmark public partagé. RoboBenchMart comble partiellement ce vide en publiant l'ensemble de la suite : générateur procédural de plans de magasin, pipeline de génération de trajectoires, outils d'évaluation et modèles de base fine-tunés. Les prochaines étapes naturelles incluent l'intégration de robots physiques pour valider le sim-to-real, ainsi que l'extension à des tâches de réassort ou de gestion d'inventaire.

UEExotec (FR) et les opérateurs de dark stores européens disposent désormais d'un benchmark open source pour objectiver l'écart de performance des VLAs sur le picking retail, ce qui permet de calibrer les décisions d'investissement avant tout déploiement industriel.

RecherchePaper
1 source
Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF
138arXiv cs.RO 

Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF

Des chercheurs ont publié le 1er juin 2026 sur arXiv une étude portant sur le fine-tuning de modèles Vision-Language-Action (VLA) pour manipulateurs mobiles à 11 degrés de liberté (DoF), en l'occurrence le Toyota HSR. Ils ont comparé SmolVLA (450 millions de paramètres, entraînement sur la tête d'action uniquement) et π0.5 de Physical Intelligence (3,3 milliards de paramètres), évalués sur 60 essais réels (20 par variante). Le résultat central : le checkpoint affichant la meilleure erreur quadratique moyenne (MSE) agrégée n'est pas celui qui performe le mieux sur le robot physique. π0.5 à 80 000 étapes obtient un score de 4,0/4, devançant la variante expert-only à 3 000 étapes (3,75/4) et HSR-SmolVLA (3,5/4), avec une significativité statistique confirmée (Mann-Whitney p ≤ 0,010), malgré une MSE totale plus élevée pour le modèle gagnant. L'enjeu est méthodologique autant que pratique. Sur un robot hétérogène comme le HSR, les articulations faciles à prédire (tête, base) tirent la MSE agrégée vers le bas et masquent les joints critiques (bras) qui continuent d'échouer. Dans la variante expert-only de π0.5, geler le backbone et n'entraîner que la tête d'action fait chuter la MSE totale sous la baseline, mais dégrade précisément la précision du bras. L'analyse par groupe (bras, pince, tête, base roulante) révèle que c'est l'erreur du groupe bras hors ligne, et non la MSE totale ni l'erreur de la base, qui corrèle le plus fidèlement avec la performance réelle. Ce constat remet en question une pratique courante dans le déploiement de VLA sur robots multi-segments. Le Toyota HSR est une plateforme de référence en manipulation domestique et en recherche académique. Les modèles VLA s'imposent comme paradigme dominant depuis les travaux RT-2 de Google DeepMind (2023), suivis de π0 et π0.5 de Physical Intelligence (San Francisco), SmolVLA de HuggingFace (Paris), ou encore OpenVLA de Stanford. Le problème de la sélection de checkpoint par MSE agrégée était jusqu'ici peu documenté pour les espaces d'action hétérogènes. Le code de cette étude est publié en open source sur GitHub, ce qui permet une réplication directe. Prochaine étape logique : valider cette approche per-group sur d'autres plateformes humanoïdes à espace d'action encore plus fragmenté.

UESmolVLA de HuggingFace (Paris) est l'un des deux modèles centralement évalués, et les résultats méthodologiques (sélection de checkpoint par groupe d'articulations) guident directement les équipes européennes déployant des VLA sur manipulateurs mobiles hétérogènes.

💬 Évaluer un checkpoint VLA par la MSE totale sur un robot à 11 DOF, c'est se raconter des histoires. Les articulations simples, tête et base roulante, tirent le score agrégé vers le bas et cachent que le bras, lui, continue de foirer : le modèle gagnant sur la métrique standard n'est pas celui qui tient en conditions réelles. Ce papier le prouve proprement avec 60 essais physiques, et avec SmolVLA de HuggingFace dans le lot, c'est pas juste un résultat académique.

IA physiqueOpinion
1 source
Modèles du monde pour la manipulation robotique : une synthèse de la littérature
139arXiv cs.RO 

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

Une revue de littérature publiée sur arXiv (2606.00113) cartographie l'état de l'art des modèles du monde (world models) appliqués à la manipulation robotique. Les auteurs recensent cinq familles de représentations prédictives : modèles de dynamique latente, générateurs vidéo conditionnés par l'action, prédicteurs de scène 3D et 4D, simulateurs à contraintes physiques, et modules prédictifs embarqués dans les systèmes vision-langage-action (VLA). La revue couvre 34 jeux de données de manipulation et propose une taxonomie fonctionnelle distinguant les modèles intégrant prédiction et action de ceux servant de planificateurs explicites. Trois axes structurent l'analyse : quelle représentation future est prédite, comment la prédiction se connecte à l'action, et à quel moment du pipeline d'apprentissage robotique elle intervient. Cette synthèse répond à un besoin concret : le terme "world model" recouvre des réalités très hétérogènes, ce qui brouille les comparaisons et ralentit les transferts technologiques entre laboratoires. En posant une définition opérationnelle stricte (un world model est un système prédictif conditionné par l'action, distinct des modules de perception, des politiques ou des fonctions de valeur), les auteurs établissent un cadre commun dont manquait le secteur. La revue confirme que ces systèmes évoluent d'outils de simulation spécialisés vers une infrastructure générique pour l'apprentissage robotique : génération d'expériences synthétiques, filtrage de candidats, vérification de résultats. Ce glissement architectural touche directement les pipelines de pré-entraînement, de post-entraînement et d'adaptation à l'inférence, trois phases critiques pour quiconque industrialise un robot manipulateur. Le domaine a accéléré avec l'essor des VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), et l'adoption des architectures Transformer en robotique, mais sans convergence méthodologique. La fragmentation reflète une course entre grands labs (Google DeepMind, MIT, Stanford, Berkeley) et startups qui ne partagent ni benchmarks ni protocoles d'évaluation communs. Les défis ouverts identifiés par les auteurs, notamment la modélisation des contacts, le contrôle des hallucinations, l'alignement action-prédiction et le benchmarking en boucle fermée, tracent un agenda de recherche pour les prochaines années. Pour les équipes travaillant sur la manipulation industrielle ou les bras collaboratifs, cette revue constitue une feuille de route pour choisir quelle classe de world model intégrer selon le cas d'usage : data augmentation, planification prédictive ou vérification de trajectoires.

UELes équipes européennes (INRIA, CEA-List, labos collaboratifs) travaillant sur la manipulation robotique peuvent s'appuyer sur cette taxonomie pour structurer leurs choix d'architecture world model, mais aucun acteur ni financement européen n'est impliqué directement.

RecherchePaper
1 source
Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot
140arXiv cs.RO 

Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot

Une équipe de chercheurs propose dans un article publié sur arXiv (2606.00459) un contrôleur proportionnel-dérivé (PD) adaptatif capable de limiter l'énergie mécanique d'un robot humanoïde lors d'interactions physiques avec des humains. Le système agit sur les deux composantes énergétiques du robot, énergie cinétique et énergie potentielle, sans nécessiter de capteurs de force externes ni d'estimation de couple articulaire. Les gains du contrôleur sont paramétrables : l'opérateur peut définir précisément le seuil d'énergie limite et la "sharpness", c'est-à-dire la brutalité de la transition entre comportement nominal et comportement contraint. Le contrôleur a été validé sur le robot humanoïde TALOS de PAL Robotics (1,75 m, 95 kg, 32 degrés de liberté), d'abord en simulation, puis sur le hardware réel, confirmant le comportement souple attendu et le respect des limites énergétiques définies. L'intérêt de cette approche réside dans son applicabilité large : la majorité des robots industriels et de service ne disposent pas de capteurs de force six axes ou de couple articulaire, conditions requises par les approches classiques de contrôle d'impédance ou de couple. Un contrôleur basé sur l'énergie, implémentable avec des encodeurs standards et un modèle cinématique, ouvre la voie à une couche de sécurité pHRI sur des plateformes à bas coût ou à architecture fermée. Les auteurs fournissent également une preuve formelle de stabilité avec une condition explicite, ce qui distingue cette contribution des schémas énergétiques antérieurs souvent sans garanties théoriques complètes, un point critique pour toute certification industrielle. PAL Robotics, entreprise barcelonaise spécialisée dans les robots de service et de recherche, fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens, notamment dans le cadre de projets H2020 et Horizon Europe. Le contrôle compliant pour la pHRI est un champ en compétition directe avec les approches à apprentissage par renforcement (RL) et les contrôleurs de type whole-body control (WBC) développés par des équipes comme le DLR, ETH Zurich ou Boston Dynamics. Ce travail s'inscrit dans une tendance plus large visant à sécuriser les humanoïdes sans alourdir leur architecture sensorielle, une contrainte clé pour le déploiement en milieu industriel partagé. La prochaine étape logique serait une validation en scénario de collaboration réelle, avec des humains non prévenus, pour éprouver la robustesse du seuil énergétique face à des contacts imprévus.

UEPAL Robotics (Barcelone) fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens financés par H2020/Horizon Europe ; cette couche de sécurité pHRI sans capteurs de force pourrait être directement intégrée dans les projets de collaboration humain-robot en cours au sein de l'écosystème de recherche européen.

RecherchePaper
1 source
Les interactions structurées améliorent la coordination distribuée mieux que le passage à l'échelle des modèles dans un système multi-robots réel
141arXiv cs.RO 

Les interactions structurées améliorent la coordination distribuée mieux que le passage à l'échelle des modèles dans un système multi-robots réel

Une étude déposée sur arXiv (ref. 2605.30383) compare, dans un système multi-robots réel, deux leviers d'amélioration des performances collectives : restructurer la topologie de communication entre robots, ou augmenter la taille des modèles d'apprentissage embarqués. Le protocole mobilise 10 robots physiques sur une tâche combinée de transport et de cartographie, soit 60 runs au total (5 par condition expérimentale). Résultat principal : passer d'une architecture entièrement connectée à une hiérarchie modulaire améliore la performance normalisée de 47 points sur une échelle 0 à 100, contre au maximum 9 points gagnés en doublant la taille des couches cachées du réseau de neurones. Des modèles mixtes à effets imbriqués confirment que la topologie de communication explique une variance bien plus importante que la taille du modèle. Une saturation des gains est observée au-delà de 1 024 unités cachées, mais uniquement en extrapolation calibrée par simulation, et non directement sur le matériel testé - une nuance importante pour interpréter ce chiffre. Pour les intégrateurs de flottes robotiques, le message est immédiatement opérationnel : revoir l'architecture de coordination peut offrir un gain de performance cinq fois supérieur à l'ajout de puissance de calcul embarquée par robot, à budget matériel constant. Dans un contexte où les flottes d'AMR (autonomous mobile robots) se densifient dans la logistique et l'industrie manufacturière, l'arbitrage entre intelligence individuelle et structure collective du système devient un choix de conception concret. L'étude questionne une hypothèse largement répandue dans le secteur : que scaler les capacités unitaires de chaque robot est le levier dominant du progrès en robotique collaborative - un biais coûteux si les gains réels se trouvent ailleurs. Cette publication s'inscrit dans le champ du MARL (multi-agent reinforcement learning) déployé sur plateforme physique, un gap encore peu comblé entre benchmark simulé et terrain. Les résultats sont répliqués sur le benchmark SMAC, complétés par des analyses de benchmarks hétérogènes que les auteurs qualifient eux-mêmes de preuves secondaires. Le périmètre reste étroit : une seule tâche, 10 robots, une architecture. La généralisation quantitative à d'autres systèmes et d'autres échelles reste à établir. Les acteurs qui déploient des flottes denses, Exotec en France, Locus Robotics ou 6 River Systems aux États-Unis, opèrent précisément dans ce domaine où l'arbitrage topologie-modèle pourrait peser sur les prochaines roadmaps produit.

UEExotec (France), acteur majeur des flottes AMR logistiques, est explicitement cité comme potentiellement concerné par ces résultats, qui pourraient réorienter les choix d'architecture de coordination dans ses prochaines roadmaps produit.

RecherchePaper
1 source
Contrôle des robots humanoïdes avec conscience de la force pour les mains multidoigts
142arXiv cs.RO 

Contrôle des robots humanoïdes avec conscience de la force pour les mains multidoigts

Des chercheurs de l'Istituto Italiano di Tecnologia (IIT, Gênes) ont publié sur arXiv (2603.08142v2) un framework de contrôle force-aware pour mains multi-doigts sur robots humanoïdes. Le système exploite cinq capteurs magnétiques Xela pour estimer les forces de contact en temps réel, sans recourir aux signaux tactiles bruts. Un dataset de signaux tactiles couplés à des mesures de force ground-truth a été constitué via des interactions avec des indenters calibrés, puis utilisé pour entraîner des estimateurs de force. Le contrôleur résultant coordonne simultanément le torse, le bras, le poignet et les doigts pour redistribuer les forces de contact et maintenir une prise stable sur des objets à distribution de masse variable. Sur une tâche d'équilibrage impliquant cinq objets distincts, le framework atteint 82,7 % de taux de succès, et 80 % de précision dans des scénarios multi-objets. L'approche est notable car elle s'appuie sur des forces estimées plutôt que sur des signaux capteurs spécifiques, ce qui la rend théoriquement transférable à tout capteur capable de produire une estimation de force, sans recalibration du contrôleur. Le noeud technique central est la minimisation de la distance entre le Centre de Pression (CoP) et le centroïde du polygone de contact des doigts, un critère classique de stabilité de prise en mécanique du contact. Ce choix de critère explicite, couplé à un schéma de contrôle model-based, contraste avec les approches purement apprentissage (VLA, imitation learning) dominantes dans les humanoïdes commerciaux actuels, où l'interprétabilité de la commande reste limitée. Pour les intégrateurs industriels, c'est un signal que le sim-to-real pour la manipulation dextre peut passer par des architectures hybrides capteur-modèle plutôt que par du bout-en-bout. L'IIT est l'un des laboratoires européens les plus actifs en robotique humanoïde, connu notamment pour le robot iCub et ses travaux fondateurs sur la manipulation dextre et la peau artificielle. Ce travail s'inscrit dans la lignée de recherches sur le contrôle de contact multi-doigts, un domaine où des acteurs comme Shadow Robot (UK), Sanctuary AI (Canada) ou Agility Robotics (USA) progressent également, mais via des stacks propriétaires moins publiés. Le code et les données sont disponibles en open source sur GitHub (hsp-iit/multifingered-force-aware-control), ce qui facilite la reproduction et l'adaptation. Les prochaines étapes naturelles seraient une validation sur des scénarios d'assemblage réels et une intégration avec des politiques de plus haut niveau pour la planification de saisie.

UEL'IIT (Gênes) publie en open source un framework de contrôle dextre pour humanoïdes avec métriques concrètes, offrant aux laboratoires et industriels européens un outil directement reproductible pour la manipulation multi-doigts sans dépendance à des capteurs propriétaires.

FR/EU ecosystemePaper
1 source
Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire
143arXiv cs.RO 

Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire

Une étude publiée sur arXiv en mai 2026 (réf. 2605.28726) remet en question une hypothèse largement répandue dans le déploiement des politiques robotiques VLA : le contrôle de vitesse constituerait un indicateur fiable de défaillance motrice. Les chercheurs ont soumis trois architectures VLA majeures, VQ-BeT (tokens discrets), Diffusion Policy et ACT (architectures continues), à un protocole unifié de 450 épisodes sur deux plateformes : PushT et ALOHA, ce dernier couvrant la manipulation bimane à 14 degrés de liberté. Premier résultat : le taux d'inversion de direction est le seul prédicteur universel de défaillance, avec des AUROC de 0,93, 0,79 et 0,91 selon l'architecture (p < 0,001). Le monitoring des à-coups (jerk) se révèle prédictif uniquement pour les architectures à tokens discrets, avec un gradient décroissant de 0,88 à 0,41 en passant aux architectures continues. Le contrôle de vitesse, lui, affiche des AUROC entre 0,41 et 0,52 sur les architectures continues, soit un niveau proche du hasard. Ces résultats ont une portée directe pour les équipes de déploiement : le contrôle de vitesse est actuellement le mécanisme de sécurité le plus répandu dans les bases de code VLA en production, et il s'avère inefficace pour détecter une défaillance imminente sur les architectures continues (AUROC 0,52 sur ACT, 0,41 sur Diffusion Policy). L'étude établit que les familles discrètes et continues produisent des signatures de défaillance qualitativement différentes, et qu'aucun moniteur unique ne peut couvrir les deux. Pour un intégrateur ou un COO déployant un humanoïde ou un bras collaboratif en cellule de production, un indicateur de sécurité mal calibré représente un risque opérationnel concret, pas une nuance académique. La distinction discret/continu dans les VLA est connue depuis les travaux fondateurs sur ACT (Zhao et al., 2023) et Diffusion Policy (Chi et al., 2023), mais ses implications sur le monitoring n'avaient pas été quantifiées à cette échelle. L'étude repose sur SafeContract, un toolkit open source de surveillance en boîte noire sans réentraînement, avec calibration conforme, accessible sur GitHub (krishnam94/vla-edge). Les acteurs déployant aujourd'hui des architectures continues, notamment Figure AI avec Figure 03, Physical Intelligence avec son modèle π0, ou Boston Dynamics, sont directement concernés par ces résultats. La prochaine étape logique est l'intégration de moniteurs architecture-spécifiques dans les pipelines de validation sim-to-real, en amont de toute mise en production sur site.

UELes intégrateurs et équipes R&D européens déployant des architectures VLA continues (ACT, Diffusion Policy) doivent auditer leurs mécanismes de surveillance de sécurité, le contrôle de vitesse, mécanisme dominant en production, s'avérant quasi-aléatoire pour détecter les défaillances sur ces architectures.

💬 Le contrôle de vitesse comme indicateur de sécurité sur les VLA continus, c'est à peu près aussi fiable que tirer à pile ou face. Ce n'est pas une petite subtilité académique : c'est le mécanisme le plus déployé en production aujourd'hui, et il détecte les défaillances imminentes avec un AUROC de 0,41 sur Diffusion Policy. Reste à voir combien d'intégrateurs vont vraiment auditer leurs pipelines après ça, mais l'étude arrive au bon moment, avec un toolkit open source en bonus.

IA physiqueOpinion
1 source
Propagation d'actions dangereuses dans une collaboration multi-robots pilotée par LLM via un seul robot compromis
144arXiv cs.RO 

Propagation d'actions dangereuses dans une collaboration multi-robots pilotée par LLM via un seul robot compromis

Des chercheurs ont publié sur arXiv (arXiv:2605.15641, mai 2026) un nouveau paradigme d'attaque ciblant les systèmes multi-robots pilotés par des grands modèles de langage (LLM). Le principe : compromettre un seul robot d'un essaim suffit à propager des instructions malveillantes à l'ensemble du système via la communication inter-robots. L'équipe a évalué l'attaque sur trois dimensions à haut risque, abandon de mission, compromission de données privées, et mise en danger de la sécurité publique, en la quantifiant avec trois métriques : obéissance (taux d'exécution des instructions malveillantes), infectiosité (proportion de robots compromis), et furtivité. Les résultats sont nets : le score d'obéissance atteint 1,00 dans les cas les plus défavorables, l'infectiosité monte à 0,90, et l'attaque complète la propagation en seulement 3,0 rounds en moyenne, tout en maintenant un score de furtivité de 0,81. Le code est disponible publiquement sur GitHub (InfectBot). Ce travail met en évidence un angle mort majeur dans la sécurité des flottes robotiques industrielles et logistiques pilotées par LLM : jusqu'ici, la recherche en sécurité s'était concentrée sur les robots isolés. Or, les architectures multi-robots en production, entrepôts automatisés, chantiers collaboratifs, environnements hospitaliers, reposent précisément sur la communication pair-à-pair pour la coordination. Le mécanisme de consensus qui rend ces systèmes efficaces devient ici un vecteur d'amplification : dans les situations critiques (urgences, conflits de priorité), les instructions adversariales peuvent supplanter les garde-fous de sécurité sans déclencher d'alerte. La persistance du contrôle attaquant (obéissance à 1,00) indique que les alignements de sécurité actuels des planificateurs LLM ne sont pas conçus pour résister à une pression latérale venant d'un pair de confiance. Les LLM comme planificateurs embarqués sont une tendance lourde : des entreprises comme Figure AI, Physical Intelligence (pi0), Boston Dynamics et Agility Robotics intègrent des couches de raisonnement à haut niveau dans leurs architectures. NVIDIA GR00T N2 et les frameworks VLA (Vision-Language-Action) poussent dans la même direction. Ce paper s'inscrit dans un corpus émergent qui questionne la robustesse de ces systèmes face à des attaques adversariales physiquement concrètes, non plus des jailbreaks textuels, mais des actions dans le monde réel. Les prochaines étapes probables incluent des défenses basées sur la vérification cryptographique des instructions inter-robots et des mécanismes de consensus multi-signatures, pistes déjà explorées dans la robotique en essaim mais rarement couplées aux LLM.

UELes flottes robotiques LLM déployées en Europe (entrepôts automatisés, industrie, hôpitaux) sont exposées à ce vecteur d'attaque latérale, et l'AI Act impose aux fournisseurs de systèmes à haut risque de documenter et tester leurs mécanismes de sécurité face à ce type de compromission pair-à-pair.

RechercheOpinion
1 source
SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données
145arXiv cs.RO 

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

Des chercheurs publient sur arXiv (arXiv:2605.11114, mai 2025) une méthode baptisée SEVO (Semantic-Enhanced Virtual Observation) visant à résoudre l'un des problèmes les plus documentés des politiques VLA (Vision-Language-Action) et d'apprentissage par imitation : leur effondrement dès qu'elles quittent l'environnement d'entraînement. Sans modification de l'architecture du modèle, SEVO agit sur le flux caméra RGB brut via trois mécanismes combinés : des caméras fixes sur le corps du robot dont les champs de vision couvrent l'intégralité de l'espace de manipulation, un éclairage actif en spectre rouge qui normalise physiquement l'apparence des objets, et une segmentation YOLO en temps réel qui produit une représentation sémantique invariante au fond. Les tests portent sur des bouteilles d'eau transparentes -- objets délibérément difficiles car ils se confondent visuellement avec leur environnement -- dans une tâche de pick-and-place répétée sur deux plateformes mobiles. Avec SEVO, la politique ACT atteint 95 % de succès en environnement d'entraînement et 85 % en environnement inédit ; SmolVLA atteint 83 % et 75 % respectivement. Sans SEVO, ces mêmes politiques plafonnent à 75 %/70 % en entraînement et s'effondrent à 30-35 % hors contexte. Ces résultats remettent directement en cause le paradigme dominant qui consiste à compenser le manque de robustesse par une mise à l'échelle des modèles. Les praticiens de la communauté open source rapportaient déjà des taux de transfert quasi nuls avec les benchmarks ACT et SmolVLA standards, pourtant affichant des scores élevés en laboratoire. SEVO démontre que la conception de l'observation -- ce que le robot "voit" et comment -- combinée à une diversification systématique des données de téléopération (variations d'éclairage, de fond, d'objets distracteurs) constitue le levier de généralisation le plus efficace, bien devant le choix du modèle. Pour un intégrateur ou un COO industriel, l'implication est directe : un robot à bas coût bien "observé" et entraîné sur des données variées surpasse un modèle plus sophistiqué entraîné dans des conditions homogènes. Le contexte est celui de l'essor des toolchains communautaires autour des VLA, notamment les frameworks lekiwi et SO-101 sur lesquels ACT et SmolVLA sont régulièrement évalués. La "sim-to-real gap" et le "domain shift" sont des problèmes ouverts depuis des années dans la manipulation robotique ; des approches comme domain randomization ou data augmentation tentaient déjà d'y répondre par le calcul. SEVO prend le parti inverse : agir sur le hardware d'observation et le protocole de collecte plutôt que sur l'architecture ou la puissance de calcul. Les suites logiques de ces travaux incluent l'extension à des tâches multi-étapes, à des objets plus variés, et potentiellement à des bases mobiles commerciales -- un terrain sur lequel des acteurs comme Boston Dynamics (Spot), AgileX ou les startups européennes de manipulation à coût réduit sont directement concernés.

UESmolVLA, développé par HuggingFace (entreprise franco-américaine), est directement évalué dans cette étude, les équipes européennes travaillant sur la manipulation VLA disposent d'un levier hardware-protocole immédiatement applicable pour multiplier leurs taux de succès hors environnement d'entraînement, sans changer d'architecture ni investir dans des modèles plus lourds.

💬 J'attendais quelqu'un pour le montrer proprement : le domain shift, c'est pas un problème de modèle, c'est un problème d'observation. SEVO passe de 30 à 85 % de succès hors environnement d'entraînement en contrôlant l'éclairage, les angles de caméra et la segmentation temps réel, sans changer une ligne d'architecture. Un robot bas coût bien observé bat un modèle sophistiqué entraîné dans une bulle.

IA physiqueOpinion
1 source
Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)
146arXiv cs.RO 

Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, raisonnement linguistique et génération d'actions motrices, souffrent d'un défaut opérationnel central : leur latence d'inférence crée une désynchronisation entre l'observation capturée et l'action exécutée, phénomène désigné sous le terme de "staleness". Quatre approches ont émergé quasi-simultanément pour y remédier : IT-RTC (correction par inpainting à l'inférence), TT-RTC (simulation de délai à l'entraînement), VLASH (conditionnement sur état futur estimé) et A2C2 (correction résiduelle légère à chaque pas de contrôle). Publiée le 12 mai 2025 sous la référence arXiv:2605.08168, une étude systématique compare ces quatre méthodes sous conditions contrôlées via deux codebases unifiées, évaluées sur la suite Kinetix avec des politiques MLPMixer et sur le benchmark LIBERO de manipulation avec SmolVLA, en faisant varier les délais jusqu'à d = 20 pas de contrôle. Les résultats établissent une hiérarchie claire selon le régime de délai. A2C2 domine sur Kinetix avec un taux de résolution supérieur à 90 % jusqu'à d = 8, et prend la tête sur LIBERO à partir de d = 4 ; c'est la méthode la plus efficace pour des délais modérés à élevés. TT-RTC s'impose comme la plus robuste des approches basées sur l'entraînement : elle généralise au-delà de la distribution de délais vue en phase d'entraînement et n'ajoute aucun overhead à l'inférence, ce qui la rend attractive pour des déploiements contraints en calcul. IT-RTC reste compétitif à faibles délais mais se dégrade nettement avec des chunks longs (H = 30) ou des délais importants. VLASH affiche un compromis explicite entre régimes : son efficacité dépend directement de la plage de fine-tuning [0, d\_max] choisie, imposant un calibrage préalable en fonction du délai attendu en production. Ce travail répond à un besoin criant de la communauté VLA, dont les modèles emblématiques, pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et SmolVLA de Hugging Face, visent un déploiement sur robots réels soumis à des contraintes temps-réel strictes. L'absence de benchmark commun rendait jusqu'ici les comparaisons entre méthodes impossibles et freinait l'adoption industrielle, chaque équipe évaluant sa solution sur son propre protocole. En publiant deux codebases reproductibles (github.com/TheAyos/async-vla-inference), les auteurs offrent aux équipes robotiques un cadre de référence pour choisir leur stratégie de correction selon leur architecture et leurs contraintes de latence. Les prochaines étapes naturelles incluent la validation sur robots physiques et l'extension à des VLA de plus grande taille, où les délais d'inférence sont encore plus prononcés.

UEHuggingFace (entreprise d'origine française) est directement impliquée via SmolVLA, utilisé comme benchmark de référence dans cette étude comparative, ce qui renforce son positionnement central dans l'écosystème VLA mondial.

💬 Le staleness dans les VLA, tout le monde savait que c'était un problème, mais sans benchmark commun on naviguait à vue, chaque équipe évaluant sa solution sur son propre protocole. Ce papier établit enfin une hiérarchie claire : A2C2 pour la majorité des cas d'usage, TT-RTC si tu es contraint en calcul et que tu veux zéro overhead à l'inférence. Le fait que SmolVLA de HuggingFace soit la référence de manipulation, c'est pas anodin pour la visibilité européenne dans la course aux robots.

IA physiqueOpinion
1 source
Formulation sur les groupes de Lie pour les algorithmes de dynamique récursive d'ordre supérieur des robots à base flottante
147arXiv cs.RO 

Formulation sur les groupes de Lie pour les algorithmes de dynamique récursive d'ordre supérieur des robots à base flottante

Des chercheurs ont publié en mai 2026 sur arXiv (réf. 2605.06498) une formulation unifiée basée sur les groupes de Lie permettant de calculer les dérivées temporelles d'ordre supérieur des principaux algorithmes de dynamique pour robots à base flottante. Les méthodes couvertes incluent l'algorithme de Newton-Euler récursif, l'inertie du corps articulé (ABI) et la dynamique hybride, dans un cadre où la base évolue sur SE(3) et le mécanisme attaché est une arborescence cinématique ouverte de configuration sur T^n1 x R^n2. Appliqués à un manipulateur aérien à 12 degrés de liberté (DoF), les algorithmes produisent des expressions analytiques closes pour la dynamique directe et inverse géométrique ainsi que leurs premières dérivées temporelles, avec des simulations numériques validant la méthode jusqu'au 5e ordre de dérivation. L'apport central de ce travail est d'ordre computationnel : les auteurs montrent que le coût de calcul de leurs récursions scale quadratiquement avec l'ordre de dérivation, là où la différentiation automatique (AD) mise en oeuvre via des frameworks courants comme JAX, PyTorch ou CasADi exhibe un scaling exponentiel. Pour les équipes travaillant en commande prédictive (MPC) ou en optimisation de trajectoire pour robots articulés à base libre (drones manipulateurs, humanoïdes sans appui fixe), cette différence de scaling devient critique dès le 3e ou 4e ordre. Les auteurs identifient également une matrice de Coriolis admissible satisfaisant la propriété de passivité, garantie importante pour la synthèse de lois de commande stables, et établissent que le tenseur d'inertie articulé reste invariant à travers toutes les dérivées temporelles, résultat géométriquement non trivial. Ce papier s'inscrit dans une tradition de dynamique spatiale initiée par Featherstone et prolongée notamment par la librairie Pinocchio, développée au LAAS-CNRS (équipe Gepetto, Toulouse), qui implémente déjà des dérivées du premier et second ordre via représentation de Lie. Cette contribution étend explicitement ce cadre aux ordres arbitraires, ouvrant des perspectives pour les méthodes de shooting multiple d'ordre élevé et les approches de sensibilité paramétrique en co-optimisation robot/contrôleur. Les applications directes visées concernent la planification de mouvement pour drones à bras articulés, un segment en croissance rapide dans la logistique et l'inspection industrielle, ainsi que potentiellement les humanoïdes à base flottante dont la dynamique est formellement identique.

UECette contribution étend directement le cadre de la bibliothèque Pinocchio, développée par l'équipe Gepetto du LAAS-CNRS (Toulouse), renforçant le leadership de la recherche française en dynamique robotique différentiable et ouvrant des perspectives concrètes pour les équipes R&D européennes travaillant sur le MPC et l'optimisation de trajectoire pour humanoïdes et drones manipulateurs.

RecherchePaper
1 source
RedVLA : l'attaque physique des modèles vision-langage-action (VLA)
148arXiv cs.RO 

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié RedVLA (arXiv:2604.22591), présenté comme le premier framework de red teaming physique dédié aux modèles VLA (Vision-Language-Action), ces architectures multimodales qui pilotent des robots physiques en interprétant simultanément des instructions visuelles et textuelles. Le framework opère en deux étapes : une phase de "Risk Scenario Synthesis" qui identifie automatiquement les régions d'interaction critiques dans des trajectoires normales pour y insérer des facteurs de risque entremêlés au flux d'exécution du modèle, suivie d'un "Risk Amplification" qui raffine itérativement la position et l'état du facteur de risque via une optimisation sans gradient guidée par des caractéristiques de trajectoire. Testé sur six modèles VLA représentatifs, RedVLA atteint un taux de succès d'attaque (Attack Success Rate) de 95,5 % en seulement 10 itérations d'optimisation. Les chercheurs proposent en parallèle SimpleVLA-Guard, un module de sécurité léger entraîné sur les données générées par RedVLA, dont le code et les assets sont disponibles publiquement. Un ASR de 95,5 % signifie que dans quasiment tous les scénarios testés, le framework a réussi à provoquer des comportements dangereux dans des modèles VLA avant déploiement. C'est un résultat préoccupant pour les intégrateurs industriels : contrairement aux attaques sur systèmes purement logiciels, les comportements physiques incorrects (collisions, chutes d'objets, dommages environnementaux) sont souvent irréversibles. RedVLA démontre qu'il est possible de cartographier ces risques de façon systématique avant mise en production, ce qui comble un vide méthodologique réel. Pour les équipes chargées de qualifier des robots manipulateurs ou des humanoïdes, ce type d'outil d'évaluation adversariale pourrait devenir une exigence de certification, à l'image des standards de sécurité fonctionnelle (IEC 61508) dans l'automatisation industrielle. Les modèles VLA ont connu une accélération marquée depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), chacun visant à généraliser les capacités de manipulation via de grandes architectures multimodales pré-entraînées. La sécurité physique de ces systèmes est restée largement sous-étudiée, la recherche en robustesse IA se concentrant surtout sur les attaques adversariales textuelles ou visuelles en contexte numérique. RedVLA adapte les méthodologies de red teaming issues des LLMs au domaine physique, un glissement de paradigme qui devrait intéresser aussi bien les acteurs américains (Figure AI, Agility Robotics, Boston Dynamics) que les startups européennes déployant des robots en environnement humain, comme Enchanted Tools (Mirokaï, France) ou Wandercraft. Les prochaines étapes naturelles seraient des validations sur hardware réel et l'intégration de SimpleVLA-Guard dans des pipelines de déploiement industriels.

UELes startups françaises déployant des robots en environnement humain (Enchanted Tools, Wandercraft) sont directement concernées par ces vulnérabilités VLA, et SimpleVLA-Guard pourrait s'imposer comme exigence dans les pipelines de qualification sous réglementation européenne (AI Act, certification IEC 61508).

RechercheOpinion
1 source
CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses
149arXiv cs.RO 

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Une équipe de chercheurs propose CorridorVLA (arXiv 2504.21241), une méthode visant à améliorer la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le principe : prédire des ancres spatiales éparses exprimées comme des variations incrémentales de position (delta-positions), qui définissent une zone de tolérance explicite, un "couloir", dans l'objectif d'entraînement de la tête d'action générative. Les trajectoires sortant de ce couloir reçoivent des gradients correctifs ; les petits écarts liés au bruit d'exécution ou aux contacts restent tolérés. Sur le benchmark LIBERO-Plus, CorridorVLA améliore le taux de succès de 3,4 % à 12,4 % selon les configurations testées : appliqué à GR00T de NVIDIA, le variant GR00T-Corr atteint 83,21 % de taux de succès absolu, contre moins de 71 % pour la baseline ; appliqué à SmolVLA de HuggingFace, les gains sont comparables. Le code est publié sur GitHub (corridorVLA). Ce travail touche à un problème structurel des VLA actuels : la guidance spatiale y est injectée implicitement via des représentations latentes, ce qui rend les trajectoires générées difficiles à auditer ou à contraindre géométriquement. C'est l'une des causes principales pour lesquelles les VLA peinent au passage sim-to-real en manipulation précise. En rendant ces contraintes explicites et interprétables, CorridorVLA offre un levier concret aux intégrateurs robotiques : comprendre et potentiellement déboguer pourquoi une trajectoire est corrigée. La tête d'action par flow-matching, technique de modélisation générative continue, bénéficie ainsi d'un signal de supervision géométrique direct, sans recourir à des démonstrations denses ni à une supervision pixel à pixel. Ce résultat s'inscrit dans une tendance qui cherche à structurer l'espace de sortie des VLA plutôt qu'à augmenter la puissance brute du backbone multimodal. LIBERO-Plus est une extension plus exigeante de LIBERO, suite standard d'évaluation en manipulation tabletop. GR00T, annoncé par NVIDIA en 2024 comme modèle fondation pour robots humanoïdes, et SmolVLA, publié par HuggingFace en 2025 comme alternative compacte et accessible, constituent les deux familles de baselines retenues, ce qui renforce la portée des résultats. Pi-0 de Physical Intelligence et OpenVLA restent les principaux concurrents directs dans ce segment des VLA généralistes. Ce travail demeure un preprint non évalué par les pairs, sans déploiement sur robot physique annoncé ; les prochaines étapes probables incluent une validation sur manipulateurs réels (type Franka ou UR) et une soumission à CoRL ou IROS 2025.

UEHuggingFace (entreprise française) voit son modèle SmolVLA directement amélioré par CorridorVLA avec des gains comparables à GR00T ; le code open-source est immédiatement exploitable par les équipes R&D européennes travaillant sur la manipulation robotique précise.

💬 Ce qui m'intéresse là-dedans, c'est pas les +12% sur LIBERO-Plus, c'est que CorridorVLA rend enfin les trajectoires VLA auditables. En manipulation précise, l'opacité des sorties génératives, c'est le vrai mur sim-to-real depuis le début. Code open-source, SmolVLA embarqué, reste à voir si ça tient sur un vrai Franka.

IA physiqueOpinion
1 source
ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites
150arXiv cs.RO 

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

Des chercheurs ont publié ROBOGATE (arXiv:2603.22126), un framework open-source de validation pré-déploiement pour les politiques de manipulation robotique, conçu pour identifier les zones de défaillance avant mise en production industrielle. Le système repose sur un échantillonnage adaptatif en deux étapes dans un espace de paramètres à huit dimensions : une première phase par Latin Hypercube Sampling (LHS) couvre l'espace global, puis une seconde phase concentre l'effort sur la zone de transition critique entre 30 % et 70 % de taux de réussite, là où les échecs sont les plus révélateurs. Le tout est exécuté dans NVIDIA Isaac Sim avec le moteur physique Newton, sur quatre morphologies robotiques : Franka Panda (7-DOF), UR3e, UR5e et UR10e (tous 6-DOF). Au total, plus de 50 000 expériences ont été simulées, produisant un modèle de régression logistique avec une AUC de 0,780 et une équation analytique fermée de la frontière de défaillance. Le framework a également benchmarké huit politiques VLA, dont une version fine-tunée de NVIDIA GR00T N1.6 (3 milliards de paramètres), entraînée sur LIBERO-Spatial pendant 20 000 étapes. Le chiffre le plus frappant de l'étude est un écart de 97,65 points de pourcentage entre les environnements de simulation : le même checkpoint GR00T N1.6 atteint 97,65 % de réussite sur le benchmark LIBERO sous MuJoCo, mais tombe à 0 % sur les 68 scénarios industriels de ROBOGATE sous Isaac Sim. Ce résultat met en lumière un problème structurel du déploiement des VLA : les scores de benchmark en simulation ne prédisent pas le comportement dans un simulateur différent, a fortiori dans le monde réel. Pour les intégrateurs et les décideurs industriels, cela signifie qu'un modèle validé sur benchmark standard peut être totalement non opérationnel dans leur environnement cible. ROBOGATE propose une couche de validation intermédiaire, inspirée du paradigme que NVIDIA a formalisé pour le calcul quantique avec Ising, transposé ici à l'IA physique. Le gap sim-to-real reste l'un des verrous majeurs de la robotique manipulatrice apprise, et la plupart des acteurs du secteur, de Figure AI (Figure 03) à Physical Intelligence (Pi-0) en passant par Boston Dynamics ou les équipes internes de NVIDIA, travaillent à le réduire via des pipelines sim-to-real renforcés ou de la synthèse de données domain-randomisée. ROBOGATE ne prétend pas résoudre ce gap mais fournit un outil de diagnostic structuré : cartographier les frontières d'échec avant déploiement, ce qui est précisément ce qui manque dans les workflows industriels actuels. Le framework est publié en open-source, ce qui devrait faciliter son adoption par les équipes de validation, en particulier celles qui travaillent sur des cellules pick-and-place standardisées avec des bras industriels UR ou Franka. Les prochaines étapes naturelles seraient l'extension à des morphologies mobiles-manipulatrices et l'intégration dans des pipelines CI/CD robotiques, un domaine encore embryonnaire mais en progression rapide chez des acteurs comme Intrinsic (Alphabet) ou Covariant.

UELes équipes R&D européennes travaillant sur des cellules robotiques avec bras UR (Universal Robots, Danemark) ou Franka Panda peuvent adopter ce framework open-source pour structurer leur validation pré-déploiement et éviter des échecs coûteux en production.

IA physiqueActu
1 source