Aller au contenu principal

Recherche — page 8

1617 articles · page 8 sur 33

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Fourier Features permet aux agents d'apprendre des politiques haute précision par apprentissage par imitation
351arXiv cs.RO RechercheOpinion

Fourier Features permet aux agents d'apprendre des politiques haute précision par apprentissage par imitation

Un article soumis sur arXiv (2606.12334, juin 2026) présente une méthode simple mais efficace pour améliorer la précision des politiques de manipulation robotique par apprentissage par imitation : projeter les nuages de points 3D dans un espace de Fourier haute dimension avant de les passer à l'encodeur neuronal. L'idée part d'un diagnostic connu en apprentissage automatique : les réseaux de neurones souffrent d'un biais spectral qui les pousse à privilégier les fonctions basse fréquence, ce qui pénalise les architectures conditionnées sur des coordonnées cartésiennes lentes et peu discriminantes. En remplaçant ces coordonnées brutes par leurs projections sinusoïdales haute fréquence, les chercheurs donnent à l'encodeur un accès direct aux détails géométriques fins, là où se jouent les contraintes d'assemblage ou d'insertion. Les expériences couvrent les benchmarks RoboCasa et ManiSkill3, ainsi qu'un banc de test en robotique réelle, et montrent des gains consistants sur des tâches de manipulation à haute précision. L'apport principal n'est pas tant algorithmique que diagnostique : les politiques basées sur nuages de points surpassent théoriquement les approches RGB-only (qui souffrent d'ambiguïté de profondeur et de problèmes d'échelle en perspective), mais leurs performances restent fortement dépendantes de la tâche. Ce papier identifie le biais spectral comme mécanisme explicatif de cet écart et propose un correctif robuste aux hyperparamètres, agnostique à l'architecture d'encodeur. Pour les équipes qui développent des politiques VLA (Vision-Language-Action) ou des contrôleurs d'imitation pour manipulation fine (vissage, assemblage, tri de pièces), cette couche de Fourier s'intègre sans refonte majeure du pipeline. C'est le type de contribution "multiplicateur silencieux" qui peut débloquer des cas d'usage industriels où le gap sim-to-real reste un obstacle pratique. Ce travail s'inscrit dans un contexte de recherche actif sur les représentations 3D pour la robotique apprenante, en concurrence avec des approches comme les encodeurs PointNet et PointTransformer, les champs de distances signées ou les représentations implicites neuronales. Les benchmarks RoboCasa (Berkeley) et ManiSkill3 (UCSD/Carnegie Mellon) sont devenus des standards d'évaluation pour la manipulation simulée, bien que le vrai test reste le transfert sim-to-real en conditions industrielles non structurées. Les auteurs mettent à disposition le code source et des vidéos sur fourier-il.github.io, ce qui facilite la reproduction et l'adoption. La prochaine étape naturelle serait d'évaluer la technique sur des manipulateurs industriels en production et de tester sa compatibilité avec les architectures Diffusion Policy et ACT, actuellement dominantes dans le domaine.

1 source
PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper
352arXiv cs.RO 

PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12112v1) les spécifications de PEBRE, un module matériel et logiciel open-source conçu pour augmenter les capacités du robot Pepper. Le module intègre une carte Jetson Orin Nano de NVIDIA pour le calcul embarqué, une caméra RGB Logitech BRIO 4K, une caméra de profondeur Intel RealSense D435i pour la perception 3D, un microphone USB Samson UB1 et un micro directionnel RØDE VideoMicro II pour la capture audio. L'ensemble forme un add-on modulaire, conçu pour s'intégrer physiquement sur Pepper sans modifier son architecture d'origine. Les auteurs rapportent des améliorations mesurables en capacités de perception et en puissance de calcul, sans toutefois publier de benchmarks chiffrés comparatifs dans le résumé disponible. L'intérêt concret de PEBRE pour la communauté académique et les intégrateurs tient à une problématique bien réelle : Pepper approche ou dépasse sa durée de vie commerciale prévue, et SoftBank Robotics a progressivement réduit son support. Des dizaines de labos de recherche mondiaux disposent de plateformes Pepper dont la chaîne logicielle devient obsolète et dont le matériel interne (processeur Intel Atom, caméras grand-angle basiques) ne permet plus d'exécuter des modèles modernes de vision ou de traitement du langage en local. En proposant une solution open-hardware, les auteurs cherchent à mutualiser l'effort de mise à niveau, évitant à chaque labo de réinventer sa propre solution de retrofitting. C'est une approche pragmatique face à l'abandon progressif d'une plateforme encore présente dans de nombreux établissements. Pepper a été conçu à l'origine par Aldebaran Robotics, entreprise française rachetée par SoftBank en 2012, puis commercialisé à partir de 2014 comme robot d'accueil et d'interaction sociale. Malgré l'arrêt de sa production pour le marché grand public annoncé en 2021, Pepper reste présent dans plusieurs centaines de laboratoires et sites industriels en Europe et en Asie. Côté concurrence sur le segment des plateformes académiques humanoïdes légères, Pepper fait face à des alternatives comme le NAO (lui aussi Aldebaran/SoftBank), le Furhat ou des plateformes bras-et-torse comme Hello Robot Stretch. PEBRE ne repositionne pas Pepper dans la course aux humanoïdes mobiles de nouvelle génération, mais tente de lui donner une seconde vie utile dans des contextes de recherche appliquée en HRI (Human-Robot Interaction), là où le coût d'acquisition d'une nouvelle plateforme reste prohibitif.

UELes laboratoires européens équipés de robots Pepper, nombreux en France et en Europe, héritiers du rachat d'Aldebaran Robotics, peuvent bénéficier directement de ce module open-source pour prolonger la durée de vie de leurs plateformes et exécuter des modèles modernes de perception et de traitement du langage sans investissement dans une nouvelle plateforme.

RecherchePaper
1 source
Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires
353arXiv cs.RO 

Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires

Une équipe de chercheurs publie sur arXiv (référence 2606.12027) ILD, pour Invertible Latent Decomposition, un framework de planification de trajectoires sans collision dans des espaces de configuration encombrés. ILD apprend conjointement un mapping inversible et un ensemble de polytopes convexes explicites dans l'espace latent correspondant : la planification s'effectue sur ces convexes latents, et le mapping inversible retraduit les chemins vers l'espace d'origine en préservant la faisabilité vis-à-vis des régions sûres explicites. Le framework intègre également VGS (Visibility-Guided Sampling), une méthode d'échantillonnage guidée par la visibilité conçue pour maintenir la connectivité entre ensembles convexes lors de la planification. Les évaluations couvrent la navigation 2D, un manipulateur à 6 degrés de liberté (DOF) et un bras bimanuel à 14-DOF. Sur ce dernier, les auteurs démontrent une planification temps réel avec un affinement à l'exécution (test-time refinement) s'adaptant aux changements de géométrie de scène, confirmé sur un bras 6-DOF réel. Zéro faux positif n'est observé après cet affinement, contre des taux non nuls pour les méthodes de référence testées. L'enjeu industriel est la résolution d'un arbitrage fondamental en robotique de manipulation : les représentations explicites comme les unions de polytopes convexes s'intègrent directement dans les planificateurs à base d'optimisation comme contraintes dures, garantissant l'absence de collision, mais leur complexité de paramétrage explose avec la dimension de l'espace de configuration. Les représentations implicites passent mieux à l'échelle géométrique mais n'offrent pas ces garanties formelles. ILD combine les deux avantages. Pour un intégrateur ou un responsable de production, la planification temps réel sur 14-DOF avec adaptation dynamique à la scène représente un seuil d'utilisabilité concret en environnement industriel, à condition que les performances tiennent hors des conditions contrôlées de laboratoire, point sur lequel les auteurs restent prudemment ouverts. La planification sous contraintes de collision est un problème adressé depuis des décennies par des planificateurs probabilistes (RRT, PRM) et des méthodes d'optimisation convexe comme IRIS et GCS (Graph of Convex Sets), issus en particulier des travaux de Russ Tedrake au MIT CSAIL. ILD s'inscrit dans la tendance récente qui hybride apprentissage profond et garanties formelles plutôt que d'opposer les deux approches. Le preprint ne mentionne ni partenaire industriel ni calendrier de commercialisation, restant au stade académique. Les extensions attendues concernent la robustesse sur des scènes plus dynamiques et le passage à des espaces de configuration supérieurs à 14-DOF, en vue des manipulateurs humanoïdes à bras multiples dont les architectures dépassent souvent 28-DOF.

RecherchePaper
1 source
Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur
354arXiv cs.RO 

Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur

Des chercheurs ont publié le 11 juin 2026 sur arXiv (référence 2606.11464) un cadre basé sur des transformeurs pour prédire l'état d'une balle de ping-pong en conditions réelles, dans le but d'améliorer le contrôle en boucle fermée d'un robot de tennis de table. Le système modélise les corrélations temporelles longue portée à partir de séquences d'observations historiques, sans recourir à des équations physiques de vol ou de rebond. Pour l'entraînement, l'équipe a constitué un jeu de données réel à grande échelle, collecté auprès de joueurs de niveaux variés et avec des configurations différentes de canons à balles, afin de maximiser la diversité des trajectoires. La pièce centrale de la contribution est SPAD (Swap Predictor at Deployment) : une stratégie de transfert sim-to-real qui consiste simplement à substituer, au moment du déploiement, le simulateur physique utilisé pendant l'entraînement par le prédicteur entraîné sur données réelles, sans nécessiter de réentraînement de la politique de contrôle. Ce résultat est significatif car il s'attaque directement au problème du sim-to-real gap, l'un des verrous majeurs de la robotique dynamique à haute vitesse. La plupart des approches existantes soit dépendent d'une identification précise des paramètres physiques (masse de la balle, coefficient de rebond, spin), soit peinent à généraliser hors distribution simulée. SPAD propose une alternative modulaire : le prédicteur est un composant interchangeable, ce qui permet de conserver l'efficacité de l'entraînement en simulation tout en bénéficiant de la fidélité des données réelles uniquement à l'inférence. C'est un paradigme "plug-and-play" qui pourrait s'étendre à d'autres tâches de manipulation rapide où la simulation reste incomplète. Le tennis de table robotique est un banc de test établi pour le contrôle haute vitesse, utilisé notamment par des équipes de Google DeepMind (qui ont démontré des robots capables de battre des joueurs amateurs en 2023) et par plusieurs laboratoires universitaires en Chine et en Europe. La spécificité de cette approche est d'éviter toute hypothèse sur le modèle physique du vol de balle, là où des systèmes comme celui de DeepMind intègrent encore des composantes analytiques explicites. La prochaine étape naturelle serait de valider SPAD sur des politiques de contrôle plus complexes, notamment face au spin variable et aux échanges multi-rebonds, qui restent les cas limites non résolus du domaine.

RecherchePaper
1 source
Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques
355arXiv cs.RO 

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion
1 source
Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments
356arXiv cs.RO 

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.11408) une méthode baptisée DEHP, Dynamic Execution Horizon Prediction, conçue pour résoudre un goulot d'étranglement structurel des politiques robotiques modernes : l'horizon d'exécution fixe. Dans les architectures à "action chunking" aujourd'hui omniprésentes, politiques de diffusion, politiques de flux, modèles vision-langage-action (VLA) comme pi-0 ou OpenVLA, le robot prédit un bloc de N actions et les exécute en boucle ouverte, sans percevoir l'environnement à chaque pas. Cet horizon N est actuellement choisi par tuning empirique, tâche par tâche. DEHP entraîne une branche légère de prédiction d'horizon via du reinforcement learning en ligne, tout en gardant la politique chunk sous-jacente entièrement gelée, ce qui la rend compatible avec n'importe quelle politique existante traitée comme boîte noire. Sur des tâches de manipulation haute précision et longue durée, les auteurs rapportent une amélioration "significative" du taux de succès, sans chiffres absolus précis dans l'abstract, un point à vérifier dans les résultats complets. L'enjeu est concret pour quiconque déploie des bras manipulateurs en production : la boucle ouverte est efficace sur les mouvements de transit (déplacements dans l'espace libre), mais devient un frein sur les phases fines, insertion, saisie d'objet délicat, assemblage à tolérance serrée. DEHP adapte dynamiquement l'horizon : court pendant les phases critiques (comportement proche d'un contrôle pas-à-pas), long pendant les phases de déplacement libre. Cela revient à réconcilier l'efficacité computationnelle du chunking avec la réactivité du contrôle fermé, sans réentraîner le modèle de base. Pour les intégrateurs industriels, cela signifie potentiellement récupérer de la robustesse sur des cellules existantes sans toucher au pipeline d'entraînement. L'action chunking a été popularisée par ACT (Action Chunked Transformer, Stanford 2023), puis repris dans les diffusion policies de Chi et al. et intégré dans des VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La tension entre horizon long (efficacité) et horizon court (réactivité) est un problème ouvert bien identifié dans la communauté. Plusieurs travaux concurrents explorent le receding horizon ou le replanning conditionnel, mais DEHP se distingue par sa compatibilité boîte noire et son entraînement RL en ligne. La page projet est accessible sur dehp-chunking.github.io ; aucune timeline de déploiement industriel n'est annoncée à ce stade.

RecherchePaper
1 source
PLUME : modélisation probabiliste unifiée du monde et estimation de paramètres pour la manipulation multi-doigts
357arXiv cs.RO 

PLUME : modélisation probabiliste unifiée du monde et estimation de paramètres pour la manipulation multi-doigts

Une équipe de recherche présente PLUME (Probabilistic Latent Unified World Modeling and Parameter Estimation), une architecture de modèle du monde conçue pour la manipulation dextre avec des mains multi-doigts. L'article, déposé sur arXiv en juin 2026, s'attaque à un obstacle bien documenté en robotique : les politiques entraînées en simulation échouent souvent en déploiement réel parce que des paramètres physiques clés, forme des objets, pose initiale, coefficients de friction, sont inconnus au moment de l'exécution. PLUME apprend conjointement un espace latent représentant plusieurs paramètres physiques hétérogènes et un modèle de dynamique conditionné sur ces paramètres, permettant une inférence en ligne sans ré-entraînement ni fine-tuning. Le système est évalué sur quatre tâches en simulation (vissage de tournevis, rotation de vanne, levage de seau, projection de disque) puis validé sur une tâche de vissage réelle en zéro-shot, surpassant les baselines de référence en apprentissage par renforcement offline et en imitation augmentée par modèle du monde. Ce résultat conteste l'hypothèse que la randomisation de domaine suffit pour les tâches de précision. Visser un tournevis avec une friction faible ou élevée ne demande pas la même stratégie motrice : la politique doit changer qualitativement, pas simplement se robustifier. PLUME répond à cela via une mise à jour bayésienne de la croyance sur les paramètres au fil de l'exécution, fonctionnant comme un système d'adaptation en temps réel sans accès aux vrais paramètres. Le transfert zéro-shot sur hardware est le point fort concret de l'article, même si les conditions exactes du banc d'essai (matériau des objets, tolérances mécaniques de la main utilisée) ne sont pas précisées dans le résumé public, ce qui limite la reproductibilité immédiate. La manipulation dextre multi-doigts reste un problème ouvert depuis plusieurs décennies, avec des tentatives notables chez OpenAI (Dactyl, arrêté en 2021) ou ETH Zurich. PLUME s'inscrit dans une tendance récente couplant modèles du monde et inférence de paramètres, approche complémentaire aux VLA (Vision-Language-Action models) mais plus ciblée sur l'incertitude physique. Les travaux concurrents les plus proches incluent DreamerV3, TD-MPC2 et des méthodes d'inférence contextuelle comme PEARL. La prochaine étape naturelle serait l'extension à des tâches bi-manuelles ou impliquant des objets déformables, domaines où l'incertitude sur les paramètres est encore plus sévère.

RecherchePaper
1 source
Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts
358arXiv cs.RO 

Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.11826) un framework de conception pour mains robotiques anthropomorphiques dextres, fondé sur une approche modulaire de sélection des doigts. Le principe : évaluer quantitativement des prototypes de doigts de manière indépendante, via une batterie de benchmarks, avant leur intégration dans une main complète téléopérée. Les variations testées portent sur le type d'articulation, la structure osseuse, les matériaux de peau et le placement des capteurs. Le framework a été validé sur deux tâches concrètes : la saisie simultanée de plusieurs objets et le vissage d'une ampoule, deux exercices représentatifs de la manipulation dextre à contraintes mécaniques variables. Ce travail s'attaque à un verrou structurel du domaine : la conception de mains dextres souffre d'un espace de design trop vaste, où morphologie, actuation et capteurs interagissent de façon non-linéaire. Les méthodes d'optimisation existantes traitent rarement plus d'un critère à la fois, ce qui rend les comparaisons inter-prototypes difficiles et les itérations coûteuses. En découplant l'optimisation des doigts de la validation au niveau de la main entière, le framework proposé réduit potentiellement le temps de screening et établit un lien quantitatif entre les métriques composant et la performance globale en tâche. Pour les équipes d'ingénierie et les intégrateurs, c'est une promesse de pipeline de développement plus prédictif, moins dépendant de l'empirisme. À noter : l'article est un preprint arXiv, sans peer review encore validé, et les gains de performance sur les deux tâches choisies restent difficiles à extrapoler à des scénarios industriels réels. La conception de mains dextres est un enjeu central pour les robots humanoïdes actuels : Figure AI, 1X, Apptronik, et Agility Robotics dépendent toutes de mains capables d'alimenter des pipelines de téléopération et d'apprentissage par imitation pour entraîner des modèles VLA. Côté académique, des groupes à Stanford, CMU et au MIT travaillent sur des architectures similaires, tandis que Shadow Robotics (UK) reste la référence commerciale en matière de main dextre à actuation tendon. En Europe, Pollen Robotics (Bordeaux) intègre des mains articulées dans sa plateforme Reachy, et Enchanted Tools (Paris) développe des mains expressives pour ses robots Miroka. Ce preprint ne s'accompagne pas d'annonce commerciale ni de calendrier de déploiement, mais la méthodologie de benchmarking modulaire pourrait être adoptée comme standard de facto dans les équipes hardware des startups d'humanoïdes, où la vitesse d'itération sur les effecteurs est aujourd'hui un facteur différenciant clé.

UEPollen Robotics (Bordeaux) et Enchanted Tools (Paris) sont directement mentionnés comme bénéficiaires potentiels de cette méthodologie de benchmarking modulaire, qui pourrait accélérer leurs cycles d'itération sur les effecteurs.

RecherchePaper
1 source
TacCoRL : intégration du retour tactile dans les modèles VLA par simulation
359arXiv cs.RO 

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Des chercheurs ont publié sur arXiv (2606.11743) TacCoRL, un framework destiné à intégrer le retour tactile dans les modèles vision-langage-action (VLA) pour la manipulation robotique. L'approche combine un co-entraînement simulation-réel et de l'apprentissage par renforcement (RL) en simulation, sans nécessiter de pré-entraînement tactile à grande échelle ni d'exploration extensive sur hardware réel. Évalué sur quatre tâches bimanuelles à riche contact (insertion, assemblage, manipulation d'objets déformables), le système atteint un taux de succès moyen de 72,5 % contre 50,0 % pour la baseline VLA visuelle seule, soit un gain relatif de 45 % sur ces benchmarks spécifiques. L'apport technique central n'est pas simplement d'ajouter la touche comme entrée supplémentaire, mais d'apprendre comment les lectures de contact doivent moduler la réponse motrice dans les états de quasi-échec, états rares dans les démonstrations humaines et risqués à collecter sur robot physique. TacCoRL utilise un simulateur aligné sur le réel comme environnement fermé pour les interactions de contact : des trajectoires mixtes (simulées et réelles) initialisent d'abord les actions conditionnées au tactile dans la politique pré-entraînée, puis le RL avec récompenses vérifiables optimise la politique sur des rollouts simulés, tandis qu'un objectif supervisé sur trajectoires réelles ancre la distribution visuelle, tactile et d'action au domaine de déploiement. Le résultat se transfère directement sur robot réel, sans état simulé privilégié ni RL en ligne. C'est une réponse directe au "demo gap" des VLA actuels : les politiques vision-seule échouent précisément sur les phases de contact que la caméra ne résout pas. Le contexte est celui d'une compétition intense autour des VLA polyvalents : Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses dérivés, ainsi que les efforts de génération suivante (GR00T N2 de NVIDIA, OpenVLA). Tous partagent la même limitation structurelle : l'observation visuelle reste insuffisante pour les tâches à fort contact. La piste tactile est explorée depuis plusieurs années (capteurs GelSight, SynTouch, Digit de Meta), mais son intégration dans des architectures VLA de grande taille restait un verrou de scalabilité. TacCoRL propose une voie pragmatique sans dataset tactile massif, ce qui abaisse la barrière d'adoption pour les laboratoires et intégrateurs. Les prochaines étapes logiques seraient l'extension à des capteurs tactiles commerciaux standardisés et des évaluations sur des tâches industrielles réelles, hors conditions de laboratoire contrôlées.

RechercheOpinion
1 source
Préhension dextérique sans vision par apprentissage tactile Real2Sim2Real
360arXiv cs.RO 

Préhension dextérique sans vision par apprentissage tactile Real2Sim2Real

Des chercheurs ont publié en juin 2026 sur arXiv (réf. 2606.11767) un framework Real2Sim2Real pour la saisie aveugle par main dextre, sans aucune entrée visuelle, en s'appuyant exclusivement sur des capteurs tactiles distribués. Déployé sur une LEAP Hand quatre-doigts équipée de capteurs tactiles sur chaque phalange, le système atteint 27 % de taux de succès en conditions réelles sur 20 objets (10 vus à l'entraînement, 10 inédits), sans démonstration humaine ni caméra. L'architecture combine trois composants : un pipeline de calibration Real2Sim construisant un simulateur jumeau numérique fidèle aux signaux tactiles physiques ; un encodeur tactile layout-aware intégrant la géométrie des capteurs via préentraînement auto-supervisé, pour compenser la faible expressivité des signaux épars ; et une Diffusion Policy agrégant les trajectoires réussies d'experts en apprentissage par renforcement, spécialisés par objet dans le simulateur calibré. Le 27 % de taux de succès reste modeste opérationnellement, mais l'enjeu réel est la fermeture du tactile sim-to-real gap, l'un des obstacles les plus tenaces à la généralisation des mains dextres hors laboratoire. La plupart des systèmes antérieurs substituent la vision au toucher ou se limitent à des capteurs de force simples. Ici, la calibration contact-level du simulateur permet d'entraîner des politiques qui transfèrent sur le hardware sans fine-tuning en monde réel, résultat que les ablations confirment sur la cohérence des événements de contact sim-à-hardware. Pour un intégrateur ou un responsable industriel, c'est une preuve de concept que la manipulation en environnement occlus ou non éclairé devient accessible via simulation, sans collecter de données réelles coûteuses. Ce travail s'inscrit dans un écosystème en rapide structuration autour de la manipulation tactile dextre. La LEAP Hand, développée à Carnegie Mellon et commercialisée à bas coût pour la recherche, est devenu un banc de test de référence dans ce domaine. La Diffusion Policy, popularisée par Columbia University dès 2023, continue de s'imposer comme backbone standard pour l'imitation learning dextre. L'écosystème de capteurs reste fragmenté entre XELA Robotics, GelSight et diverses peaux tactiles propriétaires. Aucun partenaire industriel ni déploiement en production n'est annoncé, positionnant clairement ce preprint comme contribution académique ; les prochaines étapes probables passent par une taxonomie d'objets plus large et une densité de capteurs accrue pour dépasser ce premier seuil de 27 %.

RecherchePaper
1 source
PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt
361arXiv cs.RO 

PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt

Des chercheurs ont publié PIGEON (Point of Interest Guided Exploration for Object Navigation), un cadre de navigation robotique pour localiser des objets dans des espaces intérieurs inconnus. L'approche repose sur des modèles vision-langage (VLM), mais résout leur principal obstacle opérationnel : l'inférence dense image par image est trop coûteuse pour un usage embarqué temps réel. PIGEON introduit des Points d'Intérêt (PoI), unités de décision visuelles couplant waypoints géométriques et observations égocentriques brutes, que le VLM utilise pour sélectionner parmi des destinations candidates : frontières d'exploration, objets suspectés, escaliers franchissables, résumés de niveau sol. Un planificateur bas niveau exécute les trajectoires continues entre ces points. Le système intègre un pipeline RLVR (Reinforcement Learning with Verifiable Rewards) permettant d'affiner des VLM locaux sans annotations Chain-of-Thought manuelles. Sur le benchmark Habitat ObjectNav, référence standard en navigation simulée, PIGEON affiche les meilleures performances zero-shot publiées à ce jour et se transfère à la tâche Active Embodied Question Answering par simple modification du prompt. Des déploiements sur robots physiques sont documentés dans le papier (arXiv 2511.13207). L'enjeu central est l'efficacité computationnelle des VLM dans des boucles de contrôle robotique. Les approches concurrentes utilisent soit les VLM comme contrôleurs denses (coûteux), soit pour un simple ranking de frontières d'exploration (sémantiquement appauvri). PIGEON propose un compromis : décisions rares mais ancrées dans les observations brutes, rendant chaque choix vérifiable et compatible avec l'apprentissage par renforcement sans supervision humaine. La réduction de la dépendance aux données annotées est un avantage concret pour des équipes robotiques sans large budget d'annotation. La progression des performances avec la taille du modèle de fondation (scaling) indique une architecture alignée avec les tendances génératives actuelles. La navigation d'objets en environnement inconnu est un benchmark actif en robotique cognitive, avec des systèmes concurrents comme ESC, SG-Nav ou OpenFMNav exploitant également des LLM pour la planification sémantique. PIGEON se différencie par son mode zero-shot strict, sans réentraînement spécifique à l'environnement cible. Habitat, le simulateur d'intérieur de Meta AI Research, reste la plateforme d'évaluation de référence pour ce type de tâche. Ce résultat est académique : aucun partenariat commercial ni déploiement industriel n'est mentionné, et la robustesse en environnements réels dynamiques non contrôlés reste à valider à plus grande échelle. Les prochaines étapes naturelles incluent des tests en milieux variés et l'adaptation à des VLM embarqués contraints en ressources.

RechercheOpinion
1 source
Pilotage du comportement multi-robots par édition affine des activations en boucle fermée
362arXiv cs.RO 

Pilotage du comportement multi-robots par édition affine des activations en boucle fermée

Une équipe de chercheurs a publié le 11 juin 2026 (arXiv:2606.11489) une méthode baptisée CLAE (Closed-Loop Affine Activation Editing), permettant de piloter le comportement d'une flotte de robots sans modifier les poids du modèle de base. Plutôt que de recourir au fine-tuning ou au réentraînement complet de la politique, CLAE intervient à l'inférence en éditant directement les activations intermédiaires du réseau neuronal. Concrètement, la méthode entraîne d'abord un auto-encodeur sparse sur les activations d'une politique gelée, identifie les features latentes pertinentes pour le comportement visé via sondage post-hoc, puis apprend une politique de pilotage légère par renforcement qui applique des transformations affines sur ces latents en temps réel. Les validations portent sur une flotte de quadrotors en simulation et en tests physiques, naviguant vers des positions objectif tout en évitant des obstacles. CLAE y démontre trois capacités distinctes : contrôle du profil de vitesse individuel de chaque appareil, maintien d'une formation configurable entre plusieurs robots, et émergence d'un comportement entièrement nouveau consistant à minimiser l'exposition aux caméras de surveillance présentes dans l'environnement. Ce que cette approche prouve, c'est qu'il est possible de découpler l'adaptation comportementale du cycle de réentraînement, un point structurant pour les intégrateurs industriels et les équipes de déploiement en production. Le risque d'oubli catastrophique, bien documenté lors du fine-tuning de politiques obtenues après des milliers d'heures de simulation, est écarté puisque les poids de base restent intacts. La couche de pilotage est légère et s'adapte en boucle fermée à l'état courant du robot et au contexte multi-agents, ce qui la distingue des approches d'activation patching offline utilisées dans les LLMs. La diversité des comportements obtenus sur une même architecture gelée, de la gestion de formation à l'esquive de surveillance, suggère une généralité de la méthode au-delà des tâches de navigation. Les résultats restent cependant limités aux quadrotors pour l'instant, et la transférabilité à des robots manipulateurs ou humanoïdes n'est pas encore démontrée. CLAE s'inscrit dans un courant de recherche actif autour du steering de réseaux de neurones via sparse autoencoders, popularisé par les travaux d'Anthropic sur l'interpretabilité des LLMs et les techniques d'activation patching dans les transformers. Appliqué à la robotique incarnée, ce paradigme impose une contrainte supplémentaire : la boucle fermée exige des corrections adaptées en temps réel à la dynamique du système, contrairement à l'édition statique en NLP. Parmi les approches concurrentes figurent les méthodes de parameter-efficient fine-tuning (LoRA, adaptateurs), le meta-learning de type MAML et les residual policies. La prochaine étape naturelle serait une validation sur des architectures VLA (Vision-Language-Action), où le coût prohibitif de réentraînement rend encore plus pertinente une solution d'édition à l'inférence, notamment pour les déploiements industriels à grande échelle.

RecherchePaper
1 source
Apprentissage par imitation robuste aux distorsions pour le routage autonome de câbles
363arXiv cs.RO 

Apprentissage par imitation robuste aux distorsions pour le routage autonome de câbles

Une équipe de chercheurs a publié en juin 2026 sur arXiv (ref. 2606.11577) un framework d'apprentissage par imitation robuste aux dégradations d'image, appliqué au câblage robotisé. La tâche visée, le routage de câbles, consiste à faire passer et connecter des câbles à travers des cheminements prédéfinis dans un environnement industriel, une opération qui exige à la fois dextérité fine et prise de décision séquentielle sur plusieurs étapes. Le système proposé s'articule autour de trois modules couplés : un module d'évaluation de la qualité d'image (IQA), un mécanisme d'apprentissage pondéré par la confiance, et un module de décision capable de produire aussi bien des actions discrètes (sélection de compétences) que continues (commandes moteur). L'abstract ne communique pas de métriques chiffrées précises, taux de succès, temps de cycle, nombre de démonstrations, ce qui limite l'évaluation indépendante des résultats annoncés. L'intérêt technique réside dans l'identification d'un angle mort réel des systèmes de contrôle intelligent en milieu industriel : les perturbations optiques. Reflets, poussière, vibrations des caméras embarquées ou éclairage variable génèrent couramment des observations dégradées qui faussent l'entraînement des modèles et réduisent leur fiabilité à l'inférence. La contribution centrale est l'intégration d'un score de qualité d'image directement dans la boucle d'apprentissage, via un mécanisme de pondération qui donne priorité aux échantillons difficiles plutôt que de les ignorer ou de les traiter uniformément. C'est une approche pragmatique face au reality gap, plus proche d'un correctif de robustesse que d'une rupture architecturale. Le câblage robotisé reste l'un des derniers bastions de l'assemblage manuel dans l'industrie automobile et électronique, faute de solutions fiables à l'échelle. Des acteurs comme Schunk, Franka Robotics ou des startups spécialisées en manipulation déformable (Cobot, Pollen Robotics côté européen) cherchent des approches généralisables. Ce travail s'inscrit dans le courant de l'imitation learning pour la manipulation, après les avancées de Pi-0 (Physical Intelligence) et des méthodes de type Diffusion Policy. La prochaine étape naturelle serait une validation sur un benchmark standardisé, RoboSuite, DROID ou un dataset industriel, pour confirmer les gains annoncés face aux méthodes de l'état de l'art.

UEPollen Robotics (France) et Franka Robotics (Allemagne) sont cités comme acteurs européens cherchant des solutions au câblage automatisé ; ce travail pourrait informer leurs feuilles de route en manipulation déformable, mais sans validation benchmark, l'impact reste hypothétique.

RecherchePaper
1 source
Automatisation intelligente pour la construction de benchmarks en IA incarnée : pipelines, morphologies, simulateurs et tendances
364arXiv cs.RO 

Automatisation intelligente pour la construction de benchmarks en IA incarnée : pipelines, morphologies, simulateurs et tendances

Un article de synthèse déposé sur arXiv (identifiant 2606.12207) en juin 2026 cartographie les méthodes de construction de benchmarks pour l'intelligence incarnée, un domaine couvrant désormais la navigation, l'assistance domestique, la manipulation robotique, la conduite autonome, les agents aériens et le contrôle par grands modèles multimodaux. Les auteurs structurent leur analyse autour d'un pipeline en cinq étapes : définition des exigences et des tâches, acquisition des données, nettoyage et annotation, génération de la suite d'évaluation avec définition des métriques, puis exécution avec retour diagnostique. Pour chaque étape, l'étude compare la curation manuelle, l'automatisation traditionnelle, l'assistance par modèles de fondation et les workflows en boucle fermée pilotés par agents. Les coûts de construction sont analysés selon six axes : main-d'oeuvre humaine, acquisition de données et d'assets, calcul et simulation, validation et débogage, gouvernance et maintenance, et risque de rework. La conclusion centrale remet en cause l'hypothèse selon laquelle automatiser la construction de benchmarks réduirait mécaniquement les coûts. Les auteurs montrent qu'elle déplace les dépenses vers la validation, l'auditabilité, la gestion de versions et la gouvernance à long terme. Pour les équipes de recherche et les industriels qui s'appuient sur ces benchmarks pour comparer des systèmes (bras manipulateurs, humanoïdes, AMR), cela signifie qu'un benchmark peu coûteux à générer peut devenir onéreux à maintenir. Le risque de rework, souvent sous-estimé, est identifié comme le poste de coût le plus variable selon la stratégie de construction choisie. Ce survey s'inscrit dans un contexte de prolifération rapide des systèmes incarnés où les évaluations sur jeux de données statiques ne suffisent plus à capturer la complexité d'environnements dynamiques réels. La question est directement pertinente pour les VLA (Vision-Language-Action models) en cours de déploiement chez Figure, 1X, Agility ou Physical Intelligence (Pi-0), dont les performances dépendent de benchmarks robustes et maintenables. Le cadre d'analyse proposé s'applique aux initiatives de benchmarking publiées par Google DeepMind, Meta FAIR ou le Stanford HAI. La thèse centrale : les progrès en évaluation robotique dépendront autant de la qualité des pipelines de construction, auditables et actualisables, que de la taille des suites de tests elles-mêmes.

RecherchePaper
1 source
HiPi : des capteurs piézorésistifs haute fidélité et reproductibles pour la manipulation robotique
365arXiv cs.RO 

HiPi : des capteurs piézorésistifs haute fidélité et reproductibles pour la manipulation robotique

Une équipe de recherche a publié en juin 2026 sur arXiv (arXiv:2606.11372) HiPi, un système de capteurs tactiles piézorésistifs conçu pour la manipulation robotique. Le dispositif atteint une fréquence d'acquisition de 220 Hz dans une configuration bimanuelles comprenant quatre matrices tactiles denses, soit 2 048 taxels au total. La carte de lecture est compatible avec les services de fabrication et d'assemblage PCB commerciaux, ce qui supprime le soudage manuel, point de friction majeur dans les déploiements laboratoire. Le microcontrôleur retenu est un module STM32 compact et peu coûteux, et les couches conductrices reposent sur des PCB flexibles (FPCB) qui simplifient la fabrication et l'empilement des capteurs. Dans des expériences avec des motifs de contact structurés imprimés en 3D, HiPi améliore l'IoU moyen de 0,428 à 0,797 et le score Dice moyen de 0,539 à 0,886 par rapport à une baseline reproductible de référence. Ces résultats pointent vers un verrou concret dans la robotique dextère: les capteurs tactiles piézorésistifs sont minces, légers et théoriquement scalables, mais les systèmes existants forçaient jusqu'ici un arbitrage entre facilité de reproduction et fidélité de lecture. Un capteur facile à fabriquer livrait des images de contact dégradées; un capteur haute fidélité restait difficile à assembler hors d'un environnement spécialisé. HiPi prétend lever cet arbitrage en standardisant l'ensemble de la pile matérielle autour de composants accessibles. Pour un intégrateur ou un laboratoire voulant instrumenter des mains robotiques bimanuelles ou multidoigts, cela réduit significativement le coût d'entrée et le temps de mise en oeuvre. Le domaine de la perception tactile pour robots est aujourd'hui fragmenté entre approches optiques (GelSight de MIT, Digit de Meta/CMU), capacitives (XELA Robotics, TACTAXIS) et piézorésistives. HiPi se positionne dans cette dernière catégorie en ciblant spécifiquement la scalabilité vers les grandes surfaces et les configurations multi-capteurs. Il convient de souligner qu'il s'agit d'un preprint académique sans déploiement industriel annoncé, et que les métriques de performance ont été mesurées sur des motifs de contact contrôlés en laboratoire. Aucune timeline de commercialisation ni partenaire industriel n'est mentionné. Les prochaines étapes naturelles seraient une validation sur tâches de manipulation réelles et une intégration dans des plateformes humanoïdes ou bimanuelles commerciales comme celles d'Agility, Figure ou Dexterous Robotics.

RecherchePaper
1 source
Capteur tactile déformable en main avec détection intégrée du glissement, de la vitesse, force/couple et carte de pression
366arXiv cs.RO 

Capteur tactile déformable en main avec détection intégrée du glissement, de la vitesse, force/couple et carte de pression

Une équipe de chercheurs présente sur arXiv (preprint 2606.11952, juin 2026) un capteur tactile compact pour la manipulation en main, capable d'intégrer simultanément trois modalités : mesure de vitesse de glissement, force/couple et cartographie de pression, dans un seul dispositif à surface de contact déformable. Le capteur fonctionne sur des géométries planes et courbées pour une large gamme de matériaux. Sa fabrication combine des circuits imprimés standard (PCB) et du prototypage rapide, visant un coût de production bas. Réunir détection de glissement (slip-aware), force/couple et carte de pression dans une seule structure compliante simplifie l'intégration pour les grippers industriels et les mains humanoïdes, qui recourent aujourd'hui à plusieurs capteurs distincts. Cette consolidation réduit la complexité mécanique, les points de défaillance et le câblage embarqué, trois obstacles courants à la commercialisation des robots manipulateurs. Les auteurs affirment être les premiers à combiner ces modalités dans une structure unique ; cette revendication de priorité, portée par un preprint non encore relu par les pairs, reste à confirmer. Le champ des capteurs tactiles souples est animé depuis une décennie par des travaux comme GelSight (MIT), DIGIT (Meta AI Research) et les solutions commerciales de Xela Robotics ou Touchlab. La détection de glissement reste un défi ouvert, directement lié à la fiabilité des saisies en manipulation dynamique. Ce preprint ne documente pas encore d'intégration sur un robot réel ni de tests en conditions industrielles. Les prochaines étapes naturelles seraient une validation sur gripper ou main humanoïde, suivie d'une soumission en conférence robotique (ICRA, IROS ou RSS).

RecherchePaper
1 source
Manipulation Collaborative de Plis en Fibre de Carbone Guidée par l'Humain
367arXiv cs.RO 

Manipulation Collaborative de Plis en Fibre de Carbone Guidée par l'Humain

Des chercheurs ont publié sur arXiv (référence 2606.11818) une étude portant sur la co-manipulation humain-robot de plis en fibre de carbone, un processus central dans la fabrication de pièces composites pour l'aéronautique et l'automobile. Le travail évalue plusieurs modalités de contrôle dans un environnement contrôlé : commandes vocales, suivi du poignet opérateur par vision, et contrôle en effort avec compliance mécanique. L'objectif est de permettre à un opérateur humain de guider le robot lors du drapage de matériaux souples, sans avoir à programmer des trajectoires rigides incapables de s'adapter aux déformations imprévisibles du matériau. L'enjeu industriel est réel : la manipulation de matériaux flexibles comme les préimprégnés carbone reste l'un des derniers verrous de l'automatisation en fabrication composite. Contrairement aux pièces rigides, les plis se déforment, glissent, et réagissent différemment selon la température, l'humidité ou la tension appliquée, rendant une automatisation complète économiquement et techniquement difficile à justifier pour les séries courtes ou les géométries complexes. L'approche co-manipulation présentée ici évite ce blocage en conservant le jugement humain dans la boucle, tout en déchargeant l'opérateur des efforts physiques répétitifs. Les auteurs concluent qu'une combinaison multimodale des trois méthodes offre le meilleur compromis entre intuitivité et complétude du contrôle, résultat qui reste toutefois à valider hors du cadre expérimental contrôlé décrit dans le papier. Ce travail s'inscrit dans un champ de recherche actif autour de la fabrication composite automatisée, où des acteurs comme Cevotec (Allemagne), Electroimpact (États-Unis) ou Coriolis Composites (France) développent des solutions de placement automatique de fibres, mais principalement pour des géométries prévisibles en grande série. La co-manipulation humain-robot cible un créneau différent : les petites séries, les pièces à forte valeur ajoutée, et les environnements où la flexibilité prime sur le débit. Le papier ne mentionne pas de partenariat industriel ni de calendrier de déploiement, ce qui le situe clairement au stade de la recherche amont plutôt que d'un produit opérationnel.

UEPertinent pour les acteurs français de la fabrication composite (ex. Coriolis Composites) qui cherchent à automatiser les petites séries, mais la recherche reste au stade amont sans transfert industriel annoncé.

RecherchePaper
1 source
Reconnaissance sémantique des activités de plongeurs pour une collaboration sous-marine humain-robot efficace
368arXiv cs.RO 

Reconnaissance sémantique des activités de plongeurs pour une collaboration sous-marine humain-robot efficace

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12374v1) DAR-Net, un framework basé sur des transformers conçu pour reconnaître automatiquement les activités de plongeurs en milieu sous-marin. Le système classifie six catégories d'activités distinctes à partir de séquences vidéo, en combinant un raisonnement temporel global avec une supervision sémantique au niveau pixel. Pour entraîner et évaluer ce modèle, les auteurs ont constitué le premier jeu de données dédié à cette tâche : l'Underwater Diver Activity (UDA) dataset, qui comprend plus de 2 600 images annotées avec des masques de segmentation pixel-level. Les expériences sont réalisées en environnement contrôlé, et DAR-Net surpasse les modèles de référence actuels sur ce benchmark maison. Aucun déploiement opérationnel n'est rapporté à ce stade. L'enjeu industriel est réel : les véhicules sous-marins autonomes (AUV) sont de plus en plus utilisés pour assister les plongeurs dans des opérations à risque élevé, de l'inspection d'infrastructures offshore à la maintenance de câbles sous-marins. Pour qu'un AUV soit un véritable coéquipier et non un simple observateur, il doit interpréter les gestes et postures d'un humain en temps réel, dans des conditions de faible visibilité et de bruit visuel important. L'approche multi-loss de DAR-Net, qui couple la reconnaissance d'activité globale à la compréhension locale des interactions humain-robot via des contraintes de segmentation sémantique, adresse précisément ce gap. C'est une piste prometteuse, mais les validations restent en bassin contrôlé, loin des conditions réelles d'une inspection sous-marine à 30 mètres de profondeur avec turbidité variable. La reconnaissance d'activité humaine sous-marine est un domaine de niche mais en croissance, porté par l'essor des AUV commerciaux de sociétés comme Saab (BlueZone), Kongsberg, ou l'Ifremer en France. L'absence historique de datasets annotés a freiné les approches deep learning dans ce secteur, là où la robotique terrestre bénéficie de corpus massifs. La contribution principale de ce travail est précisément cette ressource de données fondatrice. Les auteurs positionnent explicitement DAR-Net comme une première brique, destinée à servir de baseline pour des travaux futurs sur la collaboration humain-robot en milieu subaquatique. Des extensions vers des environnements non contrôlés et des AUV réels constitueront le vrai test de généralisation du modèle.

UELe dataset UDA et le framework DAR-Net constituent une ressource de référence pour les acteurs européens de l'inspection sous-marine autonome (Ifremer, Kongsberg, Saab BlueZone), mais la validation en conditions réelles reste à démontrer.

RecherchePaper
1 source
Arbres de fibration : une approche unifiée pour la planification de mouvement multi-robots
369arXiv cs.RO 

Arbres de fibration : une approche unifiée pour la planification de mouvement multi-robots

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (2606.12070) un framework mathématique baptisé "fibration trees" visant à unifier les méthodes de planification de mouvement pour des équipes de robots multiples. Le système repose sur une structure en arbre où chaque noeud représente un espace d'états et chaque arête une fibration, c'est-à-dire une projection d'un espace de haute dimension vers un espace simplifié de dimension inférieure. Sur cette base formelle, les chercheurs ont développé un planificateur d'échantillonnage appelé Fibration-RRT (Rapidly-Exploring Random Fibration Trees), validé sur 32 scénarios impliquant des équipes de robots atteignant jusqu'à 96 degrés de liberté (DOF). L'implémentation est publiée en open source, et le planificateur est prouvé probabilistiquement complet. L'enjeu est la fameuse "malédiction de la dimensionnalité" : dès que l'on coordonne plusieurs robots, l'espace de configuration combiné explose exponentiellement, rendant la planification classique intractable. Les approches existantes répondaient à ce problème soit par la priorisation séquentielle (planifier les robots un par un), soit par la décomposition parallèle (sous-espaces indépendants), soit par des projections dans l'espace des tâches, mais sans framework commun capable de combiner ces stratégies. Fibration-RRT généralise à la fois le quotient-space RRT et le discrete RRT sous un formalisme unique, ce qui permet en théorie à un intégrateur de définir sa propre structure d'arbre selon la topologie du problème plutôt que de choisir entre des outils incompatibles. La robustesse sur 96 DOF est un signal technique solide, même si l'article ne fournit pas de comparaison de temps de cycle sur des benchmarks standardisés industrie. La planification de mouvement multi-robot est un domaine mature sur le plan académique, porté depuis la fin des années 1990 par les algorithmes RRT de Steven LaValle et leurs variantes (RRT*, BiRRT, quotient-space RRT de Orthey et al.). Le besoin d'unification se fait sentir à mesure que les déploiements AMR (autonomous mobile robots) et les cellules robotisées industrielles complexifient les interdépendances entre agents. Aucun acteur industriel n'est mentionné dans ce préprint, qui reste pour l'instant une contribution théorique. Les prochaines étapes naturelles seraient une validation sur des plateformes physiques et une intégration dans des middlewares standards comme ROS 2 MoveIt, qui constitue aujourd'hui la référence dans les projets d'intégration multi-bras.

RecherchePaper
1 source
KinematicRL : framework d'apprentissage par renforcement sim-vers-réel pour la navigation sociale à faisabilité cinodynamique
370arXiv cs.RO 

KinematicRL : framework d'apprentissage par renforcement sim-vers-réel pour la navigation sociale à faisabilité cinodynamique

Des chercheurs ont présenté KinematicRL, un cadre de navigation sociale par apprentissage par renforcement profond (DRL) conçu pour combler l'écart sim-to-real freinant le déploiement des robots mobiles en environnements humains, publié sur arXiv en juin 2026 (arXiv:2606.12042). Ciblant les robots à entraînement différentiel, architecture répandue dans les AGV et robots de service, le framework combine trois composants : un espace d'action DRL au second ordre plutôt qu'au premier ordre habituel, un régulateur LQR itératif stochastique (iLQR) pré-entraînant la politique par minimisation de divergence, et un pipeline de suivi humain fonctionnant uniquement sur LiDAR 2D, sans fusion caméra. Un bloc de gating résiduel non biaisé complète le système pour équilibrer comportements réactifs et mémoriels selon la taille variable des foules détectées, les auteurs rapportant un déploiement sur robot réel avec modifications minimales. L'apport théorique central est la démonstration formelle que l'erreur de suivi entre position simulée et réelle décroît exponentiellement avec l'ordre de contrôle, justifiant rigoureusement l'adoption du second ordre pour les politiques DRL. En pratique, cela renforce le transfert simulation-vers-réel sans calibration complexe. En associant les détections humaines par proximité spatiale et similarité de vitesse, le pipeline LiDAR maintient une estimation de vélocité stable par agrégation temporelle, différenciant fiablement les piétons proches sans recourir à une caméra RGB. Pour les intégrateurs, ces deux choix réduisent sensiblement la dette d'ingénierie liée au déploiement terrain. La navigation sociale reste l'un des problèmes ouverts les plus difficiles de la robotique mobile, face aux méthodes analytiques comme ORCA ou le modèle de force sociale, et aux politiques DRL end-to-end. Les récents travaux en Vision-Language-Action (VLA) ont relancé l'ambition du domaine mais peinent à garantir la faisabilité cinématique en temps réel. KinematicRL adopte une posture plus conservatrice et formellement motivée, mieux adaptée aux déploiements en milieux contraints tels qu'entrepôts, hôpitaux ou aéroports. Les auteurs ne précisent ni le modèle de robot ni les durées de test, ce qui invite à interpréter les résultats avec prudence avant tout passage à l'échelle industrielle.

RecherchePaper
1 source
Optimisation par consensus (CBO) : vers une optimalité globale en robotique
371arXiv cs.RO 

Optimisation par consensus (CBO) : vers une optimalité globale en robotique

Une équipe de chercheurs a publié sur arXiv (référence 2602.06868v2) une adaptation de l'optimisation par consensus, CBO, pour Consensus-Based Optimization, aux problèmes de trajectoires et de politiques de contrôle en robotique. Contrairement aux méthodes zéro-ordre dominantes dans le domaine, notamment MPPI (Model Predictive Path Integral), CEM (Cross-Entropy Method) et CMA-ES (Covariance Matrix Adaptation Evolution Strategy), le CBO dispose d'une garantie formelle de convergence vers un optimum global sous des hypothèses dites légères. Les auteurs l'ont évalué sur trois scénarios représentatifs : un problème à horizon long pour un système simple, un problème d'équilibre dynamique pour un système fortement sous-actionné, et un problème à haute dimension avec uniquement un coût terminal. Sur ces trois configurations, CBO obtient des coûts inférieurs à ceux des méthodes existantes. L'enjeu est significatif pour l'ingénierie robotique avancée. Les méthodes zéro-ordre actuelles sont prisées précisément parce qu'elles évitent le calcul de gradients analytiques, coûteux ou impossibles en présence de contacts discontinus. Mais leur défaut structurel est d'estimer ce gradient localement, les rendant vulnérables aux optima locaux dès que le paysage de coût est non convexe. Ce phénomène se manifeste concrètement pour les robots à pattes, les manipulateurs en espaces encombrés, ou tout système à dynamiques hybrides. Un optimiseur offrant une garantie d'optimalité globale pourrait renforcer la robustesse des planificateurs de trajectoires, en particulier dans les boucles MPC (Model Predictive Control) embarquées. Il faut cependant noter que les résultats présentés sont exclusivement issus de simulations : aucune validation sur matériel réel n'est rapportée dans cette version de l'article. Le CBO est issu de la littérature mathématique sur les systèmes de particules en interaction, développé initialement pour l'optimisation en finance et en apprentissage automatique. Son introduction en robotique s'inscrit dans une tendance plus large : après que MPPI a prouvé sa viabilité sur plateformes réelles, notamment en manipulation chez Google DeepMind et en locomotion chez ANYbotics, la communauté cherche des variantes offrant de meilleures garanties de convergence. Les prochaines étapes naturelles concernent l'intégration dans des frameworks MPC temps-réel et la validation sur hardware, conditionnée à la compatibilité des temps de calcul du CBO avec les fréquences de contrôle embarquées, typiquement supérieures à 100 Hz sur les systèmes à pattes.

RecherchePaper
1 source
LEMON-Mapping : fusion et optimisation multi-session de nuages de points à grande échelle pour une cartographie globalement cohérente
372arXiv cs.RO 

LEMON-Mapping : fusion et optimisation multi-session de nuages de points à grande échelle pour une cartographie globalement cohérente

LEMON-Mapping (Loop-Enhanced Large-Scale Multi-Session Point Cloud Merging and Optimization) est un framework de cartographie collaborative multi-robots présenté dans un preprint arXiv (2505.10018, version 4). Le système vise à fusionner des nuages de points 3D issus de plusieurs robots opérant en sessions distinctes pour produire une carte globalement cohérente à grande échelle. Trois innovations structurent la contribution: un mécanisme de traitement des fermetures de boucles (loop closures) intégrant le rejet d'outliers et une stratégie de rappel pour récupérer des boucles valides erronément filtrées; un bundle adjustment spatial adapté aux cartes multi-robots, qui réduit divergence et flou dans les zones de recouvrement; et une optimisation de graphe de poses (PGO) propageant la précision locale à l'ensemble de la carte via des contraintes de bundle adjustment raffinées. L'intérêt tient à une limitation bien documentée des méthodes PGO classiques: celles-ci traitent les loop closures uniquement comme des contraintes entre noeuds de pose, ignorant la structure géométrique du nuage de points, ce qui produit des trajectoires divergentes et des zones floues dans les régions de chevauchement entre robots. En intégrant un bundle adjustment spatial dans la boucle d'optimisation, LEMON-Mapping montre qu'il est possible de corriger ces défauts de manière structurelle. Les auteurs valident leur approche sur plusieurs benchmarks publics et un dataset propriétaire, avec des résultats supérieurs aux méthodes de fusion traditionnelles en termes de précision et de cohérence globale. Des tests de scalabilité confirment que le framework supporte des flottes de robots nombreuses. La cartographie collaborative multi-robots est un verrou actif pour les AMR d'entrepôt, les drones d'inspection industrielle et la robotique de construction. Le domaine dispose déjà de frameworks comparables: DiSCo-SLAM, Swarm-SLAM ou CoLRIO explorent des approches distribuées avec différentes architectures de communication. LEMON-Mapping se positionne dans la lignée des travaux combinant PGO et bundle adjustment inspiré du structure-from-motion, appliqué aux nuages de points LiDAR multi-sessions. Le preprint en est à sa quatrième révision, signe d'un travail en cours de maturation; aucune disponibilité open-source ni déploiement pilote n'est mentionné à ce stade.

RecherchePaper
1 source
Apprentissage de la manipulation d'objets depuis zéro par interaction contrastive
373arXiv cs.RO 

Apprentissage de la manipulation d'objets depuis zéro par interaction contrastive

Une équipe de chercheurs propose sur arXiv (réf. 2606.11525, juin 2025) une méthode baptisée Interaction-weighted Resampling (IWR) pour améliorer l'apprentissage par renforcement contrastif (CRL) appliqué à la manipulation robotique. Le CRL apprend des représentations structurées des dynamiques pour résoudre des tâches conditionnées par objectif, mais peinait à gérer les contacts et les saisies. L'article formalise ce problème en modélisant la dynamique de manipulation comme un processus de Markov lisse par morceaux : les changements de mode induits par les contacts créent des structures d'accessibilité non linéaires que les fonctions d'énergie CRL standard ne représentent pas correctement. L'IWR rééchantillonne de manière pondérée autour des trois phases clés (avant, pendant et après le contact) pour que la représentation apprise préserve ces frontières de mode. En simulation, la méthode améliore de 19,8 % en moyenne les performances par rapport aux méthodes CRL existantes sur plusieurs environnements (contrôle 2D dynamique, manipulation, hockey sur table). En transfert sim-to-real, un agent de hockey sur table conditionné par objectif voit son taux de réussite passer de 25 % à 60 %. Ce résultat est notable pour les équipes qui misent sur le RL pur pour la manipulation, un domaine dominé depuis 2023 par l'imitation learning et les politiques de diffusion comme ACT, Diffusion Policy ou pi-0. Le principal obstacle, la discontinuité dynamique liée aux contacts, était jusqu'ici contourné par des démonstrations humaines ou des curricula manuels ; IWR propose une approche mathématiquement fondée pour l'attaquer sans supervision. La progression de 25 % à 60 % en conditions réelles reste cependant modeste, et le domaine de test (hockey sur table planaire, tâche répétitive et bien contrainte) est éloigné de la dextérité multidimensionnelle requise en milieu industriel. Aucune comparaison directe avec des architectures VLA ou diffusion policy sur des benchmarks communs n'est fournie dans le preprint. Le CRL pour la manipulation avait été porté par des travaux issus de Berkeley et de Google DeepMind (GCRL, QuaSAR), sans jamais franchir le verrou du contact-rich. Ce preprint arXiv de juin 2025, non encore soumis à peer-review, s'inscrit dans un effort académique plus large face à la montée en puissance des VLA comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné ; le projet reste à un stade de recherche fondamentale. Le code et les démonstrations vidéo sont disponibles sur la page projet IWR-arxiv.github.io.

RecherchePaper
1 source
SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage
374arXiv cs.RO 

SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage

Des chercheurs ont publié sur arXiv (2511.05203v3) SIL (Symbiotic Interactive Learning), un framework de co-adaptation bidirectionnelle pour l'interaction humain-agent. Contrairement aux systèmes actuels où l'agent exécute passivement des commandes en langage naturel, SIL maintient un espace latent partagé dans lequel humain et agent font évoluer conjointement leurs états de croyance (belief states) au fil des échanges. L'architecture repose sur des foundation models pour la perception spatiale et le raisonnement, un encodeur neuronal entraîné par triplet-loss qui ancre ces sorties dans des représentations spécifiques à la tâche, et des mémoires épisodique et sémantique régularisées via Elastic Weight Consolidation (EWC) pour prévenir l'oubli catastrophique. Sur des tâches simulées et réelles, suivi d'instructions, recherche d'information, raisonnement orienté requêtes et dialogue interactif, SIL atteint un taux de complétion de 90,4% et un score d'alignement de croyances ρ ≈ 0,83, soit un gain absolu d'environ 20 points de pourcentage sur les meilleures ablations. L'enjeu est conceptuellement notable : presque tous les systèmes HRI (human-robot interaction) actuels fonctionnent en mode maître-apprenti unidirectionnel, l'agent n'apprenant rien de l'opérateur en cours d'interaction. SIL propose à l'inverse une co-adaptation mutuelle permettant des clarifications proactives, des suggestions de plan adaptées et un affinement continu de la compréhension de la tâche. Pour les intégrateurs de cobots ou les décideurs industriels, cela adresse un point de friction concret : gérer l'ambiguïté opérationnelle sans sollicitations humaines répétées. La régularisation EWC répond aussi à un problème récurrent des VLA (Vision-Language-Action models) : la dégradation des performances lors du fine-tuning continu sur des tâches évolutives. Ce travail s'inscrit dans le courant d'intégration des foundation models dans la couche de contrôle robotique, aux côtés de RT-2 (Google DeepMind) et OpenVLA. La particularité de SIL réside dans sa boucle interactive bidirectionnelle plutôt que dans la seule généralisation task-to-task. Il s'agit à ce stade d'une preprint arXiv, sans revue par les pairs confirmée ni déploiement industriel annoncé ; les résultats sur tâches "réelles" méritent un examen attentif des protocoles expérimentaux, absents du résumé disponible. Les prochaines étapes naturelles sont une soumission en conférence (CoRL, ICRA) et une éventuelle intégration dans des plateformes d'agents embarqués pilotés par LLM.

RechercheOpinion
1 source
MIT développe un bracelet à ultrasons pour apprendre aux robots humanoïdes la dextérité des mains humaines
375Interesting Engineering 

MIT développe un bracelet à ultrasons pour apprendre aux robots humanoïdes la dextérité des mains humaines

Des chercheurs du Massachusetts Institute of Technology, dirigés par Xuanhe Zhao, ont présenté un bracelet ultrasonique portable capable de capturer les mouvements de muscles, tendons et ligaments sous la peau du poignet. Le dispositif intègre un système d'imagerie sans fil à 256 canaux couplé à un modèle d'IA hybride Transformer-ResNet qui interprète en temps réel l'activité musculaire subtile. Il suit en continu les 22 degrés de liberté de la main humaine, couvrant l'ensemble des mouvements de flexion, rotation et coordination des doigts et de la paume, avec une latence mesurée à 120 millisecondes. Lors de tests en laboratoire impliquant huit volontaires, le bracelet a reproduit des gestes avec une précision suffisante pour reconnaître les 26 lettres de l'alphabet américain des signes (ASL). Opérant sans fil, il permet de piloter des systèmes robotiques à distance sans connexion physique directe. L'objectif affiché par l'équipe : utiliser les données collectées pour entraîner des robots humanoïdes à reproduire les tâches manuelles délicates que les humains réalisent naturellement. Ce travail adresse l'un des goulots d'étranglement les plus persistants de la robotique : la capture précise et non intrusive de la dextérité manuelle. Les solutions actuelles souffrent de limites connues, les systèmes à caméra étant sensibles aux occlusions et aux angles de vue, tandis que l'électromyographie (EMG), les capteurs inertiels ou les jauges de déformation manquent souvent de résolution pour les mouvements continus des doigts ou contraignent les gestes. En se positionnant sous la peau par imagerie ultrasonique, le bracelet MIT contourne ces contraintes tout en atteignant une couverture complète des 22 degrés de liberté. Pour les équipes qui collectent des données de téléopération destinées à l'apprentissage par imitation, notamment pour alimenter des pipelines VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), un tel dispositif pourrait enrichir significativement la qualité des démonstrations humaines utilisées à l'entraînement. Il reste cependant à valider ces performances hors laboratoire, sur des populations plus larges et dans des conditions de bruit musculaire réel, un point que la publication initiale n'aborde pas. Cette recherche s'inscrit dans une progression rapide des ultrasons portables amorcée au MIT et dans d'autres laboratoires. Depuis 2022, des équipes ont successivement démontré la surveillance multi-organes en continu, l'imagerie cardiaque portable et des patchs à résolution sub-millimétrique ; en 2024, l'Université de Californie à San Diego avait présenté un système comparable basé sur l'IA pour l'interprétation des gestes du bras, fonctionnel même en conditions dynamiques (course, véhicule en mouvement, mer agitée). Sur le plan concurrentiel, des acteurs comme CTRL-Labs (acquis par Meta en 2019) ou les fournisseurs d'EMG avancé tels que Delsys et Noraxon explorent des espaces adjacents, mais l'approche ultrasonique revendique une résolution spatiale potentiellement supérieure pour les structures profondes. L'équipe MIT n'a pas encore annoncé de partenariats industriels ni de calendrier de commercialisation : le dispositif reste aujourd'hui au stade de démonstration de laboratoire.

RechercheOpinion
1 source
Rider-Bot établit un record mondial : premier robot à vélo à réaliser un salto avant sans assistance
376Interesting Engineering 

Rider-Bot établit un record mondial : premier robot à vélo à réaliser un salto avant sans assistance

Le laboratoire JSK Robotics de l'Université de Tokyo a présenté Rider-Bot, un robot cycliste autonome qui aurait réalisé le premier salto avant non assisté au monde pour ce type de machine. La démonstration a eu lieu sur surface plane, sans rampe, câble ni support extérieur : le robot a accéléré, décollé, effectué une rotation avant complète de 360 degrés et atterri en position verticale, de manière entièrement autonome. Le système embarque des gyroscopes, des boucles de rétroaction en temps réel et des algorithmes d'apprentissage automatique. Le projet est piloté par le Dr Yuta Sato, chercheur principal. À noter : aucune spécification technique détaillée (nombre de degrés de liberté, charge utile, taux de réussite sur séries de tentatives) n'a été publiée, ce qui situe cette annonce davantage comme une démonstration de faisabilité que comme un résultat reproductible et documenté dans la littérature scientifique. Sur le plan technique, la performance illustre la capacité d'un système de contrôle embarqué à anticiper et compenser les transferts de momentum pendant une manoeuvre acrobatique extrême, problème classique de la locomotion dynamique sur plateformes à équilibre instable. L'intérêt pour les intégrateurs et décideurs industriels réside moins dans le salto lui-même que dans ce qu'il révèle sur la maturité des boucles de contrôle temps réel embarquées. Si les algorithmes développés pour Rider-Bot se généralisent, ils pourraient informer la conception de robots de livraison autonomes, de véhicules navigant sur terrain accidenté, ou de machines d'intervention en environnements dégradés où la stabilité ne peut être garantie a priori. Le fossé entre démonstration contrôlée en laboratoire et déploiement en conditions réelles reste néanmoins non documenté à ce stade. Le laboratoire JSK, actif depuis plusieurs décennies à l'Université de Tokyo dans la recherche en humanoïdes et locomotion dynamique, s'inscrit dans un écosystème japonais dense sur ces thématiques, aux côtés d'AIST (série HRP) et de Honda (ASIMO). Dans le paysage concurrentiel, la démonstration répond indirectement aux exploits acrobatiques de Boston Dynamics, dont le robot Atlas enchaîne saltos arrière et séquences de parkour depuis 2017, et aux travaux sur la locomotion robuste d'ETH Zurich avec ANYmal, mais sur une plateforme cycliste encore peu explorée par les grands acteurs. L'équipe annonce comme prochaines étapes des tests en extérieur et en environnements à obstacles, ainsi qu'un travail d'amélioration de la consistance des réceptions. Aucune collaboration industrielle ni timeline de commercialisation n'a été communiquée.

RecherchePaper
1 source
BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique
377arXiv cs.RO 

BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique

Des chercheurs ont publié BadRobot (arXiv:2407.20242, juillet 2024, v5), un cadre d'attaque ciblant les agents IA incarnés (embodied AI) : des robots et systèmes physiques dont la planification de tâches est pilotée par un grand modèle de langage. L'attaque exploite trois vecteurs distincts : la manipulation du LLM embarqué via des interactions vocales standard, le désalignement structurel entre les sorties linguistiques du modèle et les actions physiques réellement exécutées, et les comportements dangereux involontaires causés par des lacunes dans les connaissances du monde encodées dans le modèle. Pour évaluer la menace, les auteurs ont constitué un benchmark de requêtes d'actions physiques malveillantes, testé contre trois frameworks embodied AI de référence : VoxPoser, Code as Policies et ProgPrompt. Les expériences montrent que ces trois systèmes peuvent être amenés à exécuter des comportements nuisibles dans le monde physique, sans nécessiter de modification matérielle ni d'accès privilégié au système. Ce travail pointe un angle mort structurel : les techniques de jailbreaking, jusqu'à présent évaluées sur des sorties textuelles, produisent des conséquences physiques irréversibles lorsque le LLM pilote un effecteur. Le désalignement documenté est systémique, car les guardrails de sécurité sont appliqués à la couche linguistique sans validation cohérente lors de la planification motrice ou de l'exécution de tâches. Pour un intégrateur industriel déployant un robot manipulateur ou un AMR guidé par LLM, cela signifie que les mécanismes de conformité conçus pour les chatbots sont insuffisants en contexte physique. La démonstration sur trois frameworks activement utilisés en recherche et en prototypage industriel renforce la portée opérationnelle de l'alerte. VoxPoser (2023) et Code as Policies (Google, 2022) ont popularisé l'utilisation des LLM comme planificateurs de tâches haut niveau en robotique, tandis que ProgPrompt (2022) ciblait les robots de service autonomes. BadRobot paraît alors que des systèmes commerciaux comme Figure 02, l'Optimus de Tesla ou les robots Agility déployés chez Amazon commencent à intégrer des pipelines LLM en production réelle, rendant la surface d'attaque concrète. Aucun acteur français ou européen n'est directement mentionné dans l'étude, mais des entreprises comme Enchanted Tools (Mirokaï) ou Pollen Robotics (Reachy), qui explorent l'intégration de LLM dans leurs plateformes, sont exposées aux mêmes vecteurs. Les auteurs ont mis leur code en accès libre sur GitHub, ouvrant la voie à des reproductions indépendantes et au développement de contre-mesures architecturales spécifiques à l'embodied AI.

UEEnchanted Tools (Mirokaï) et Pollen Robotics (Reachy), deux acteurs français intégrant des LLM dans leurs plateformes robotiques, sont explicitement cités comme exposés aux mêmes vecteurs d'attaque documentés par BadRobot.

RechercheOpinion
1 source
Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées
378arXiv cs.RO 

Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.10208) une analyse de synthèse portant sur l'intégration des modèles de fondation dans les robots de soin aux personnes âgées et aux patients. L'article, classé comme Perspective, passe en revue l'état de l'art sur trois axes : les caractéristiques de conception, l'expérience utilisateur mesurée, et les preuves d'impact sur les soins. Le constat central est que les architectures dominantes utilisent les modèles de fondation comme couche de conversation et de raisonnement au sein d'incarnations socioassistives centrées sur la voix, des agents qui parlent et écoutent mais dont l'autonomie physique et la compréhension multimodale restent fortement limitées. Les évaluations empiriques rapportent des bénéfices positifs en termes d'utilisabilité et d'engagement, mais des défaillances de fiabilité persistent : hallucinations, ruptures conversationnelles et pannes dans le pipeline d'interaction. L'enjeu pour les intégrateurs et décideurs du secteur santé est précisément là : les métriques actuellement rapportées portent sur des résultats proximaux comme l'engagement cognitif ou la participation, et non sur des indicateurs cliniques validés. Les robots sociaux conversationnels améliorent peut-être le ressenti ou l'interaction, mais aucun système décrit dans la littérature ne démontre d'impact mesurable sur des outcomes de santé standardisés. Cette lacune est critique pour tout déploiement en EHPAD ou à l'hôpital, où la responsabilité médicale exige traçabilité et supervision humaine explicite. Les auteurs soulignent que les benchmarks génériques importés du NLP ou de la robotique généraliste ne sont pas adaptés aux contraintes des environnements de soin. Le contexte est celui d'une accélération massive des modèles de fondation en robotique, de PaLM-E à Pi-0 de Physical Intelligence en passant par GR00T N2 de NVIDIA, qui creuse un écart croissant entre capacités techniques et readiness clinique. Du côté des plateformes établies, Pepper (SoftBank) et PARO (AIST, Japon) restent les références les plus documentées en milieu de soin. Des acteurs européens comme Enchanted Tools avec Mirokaï, ou des projets portés par l'Inria, s'inscrivent dans cette dynamique. Les auteurs appellent à une transition vers des standards d'évaluation spécifiques aux soins, une autonomie avec supervision humaine intégrée dès la conception, et une intégration réelle dans les flux de travail cliniques, trois conditions encore largement non remplies par les systèmes actuels.

UEEnchanted Tools (Mirokaï) et l'Inria sont explicitement cités comme acteurs européens engagés dans la robotique de soin, et les lacunes identifiées (absence de standards d'évaluation cliniques, supervision humaine insuffisante) concernent directement les déploiements en EHPAD et hôpitaux français soumis à la réglementation médicale.

RecherchePaper
1 source
Prise de contrôle adversariale en temps réel des politiques de diffusion robotique
379arXiv cs.RO 

Prise de contrôle adversariale en temps réel des politiques de diffusion robotique

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (réf. 2606.10371) une attaque baptisée TAKO (Test-time Adversarial Takeover), qui permet de prendre le contrôle en temps réel d'un robot opérant sous une politique de diffusion visuomotrice, sans modifier le modèle cible. La méthode repose sur un vocabulaire restreint de patches adversariaux universels et réutilisables, appris hors ligne via inférence de diffusion différentiable. À l'exécution, un opérateur humain injecte ces patches dans le flux caméra du robot et les commute dynamiquement pour composer des trajectoires de son choix. Sur quatre tâches évaluées (manipulation 2D, livraison aérienne simulée, navigation sol simulée et navigation sol en environnement physique réel), deux encodeurs visuels (ResNet-18 et EfficientNet-B0 + Transformer) et trois familles d'inférence générative (DDPM, DDIM et flow matching), les opérateurs attaquants ont atteint 100 % de succès de détournement dans l'ensemble des scénarios testés. Ce résultat interpelle directement les intégrateurs robotiques et les équipes de sécurité industrielle qui déploient des systèmes pilotés par des politiques de diffusion ou des VLA (Vision-Language-Action models). Jusqu'ici, la quasi-totalité des attaques adversariales sur robots visaient la dégradation des performances, induire un échec de tâche ou un comportement erratique. TAKO introduit une menace qualitativement différente : le robot ne s'arrête pas, il obéit à un attaquant distant. La perturbation agit sur le chemin de conditionnement visuel de la politique, et le biais introduit se propage à travers le processus de génération itératif propre aux modèles de diffusion, ce qui le rend difficile à détecter par supervision classique. Les auteurs démontrent aussi que la baseline naturelle "target-policy matching" échoue, car la politique victime ne peut pas se superviser fiablement sur des shifts hors distribution, invalidant une hypothèse de défense couramment avancée. Les politiques de diffusion pour la robotique se sont imposées comme paradigme dominant depuis 2023, portées par Diffusion Policy (Chi et al.) et intégrées dans des systèmes tels que pi0 de Physical Intelligence, les pipelines de Figure AI ou les robots de 1X Technologies. Ces architectures conditionnent l'action sur une observation visuelle, ce qui les rend structurellement vulnérables aux perturbations du flux caméra. Les pistes de défense habituelles, détection d'anomalies ou purification adversariale, restent largement expérimentales à cette échelle. L'évaluation demeure dans un cadre académique contrôlé, sans partenaire industriel ni calendrier de déploiement annoncé. Pour les équipes préparant des déploiements en logistique, livraison autonome ou manipulation industrielle, TAKO pose une question de sécurité concrète à laquelle le secteur n'a pas encore de réponse standardisée.

UELes intégrateurs robotiques européens déployant des systèmes à politiques de diffusion en logistique ou industrie doivent intégrer ce vecteur d'attaque dans leur modèle de menace, en l'absence de défense standardisée disponible.

RechercheActu
1 source
YUBI : interface bidigitale universelle pour la manipulation dextérique bimanuelle à grande échelle
380arXiv cs.RO 

YUBI : interface bidigitale universelle pour la manipulation dextérique bimanuelle à grande échelle

Des chercheurs ont publié le 10 juin 2026 YUBI (Yielding Universal Bidigital Interface), un préhenseur bi-digital conçu pour la collecte de données bimanuelle dextère à grande échelle. Contrairement aux systèmes pistol-grip comme l'UMI (Universal Manipulation Interface), YUBI adopte un principe d'actionnement dit "yielding" : les mouvements des doigts de l'opérateur sont transcrits directement en mouvement des mâchoires du préhenseur, sans intermédiaire mécanique rigide. Le système intègre un tracking 6 DOF basé sur la réalité virtuelle pour une acquisition de trajectoires haute fidélité. L'équipe a constitué un dataset d'une ampleur inédite dans la littérature : 8 434 heures de démonstrations, 1,20 million d'épisodes répartis sur 119 tâches. Un politique unique entraîné sur ce corpus a été validée sur trois plateformes robotiques bimanuelle distinctes : UR, Franka et ELEY, via simple montage du préhenseur. Ce résultat a une portée directe pour quiconque travaille sur les fondation models robotiques : le bottleneck historique n'est plus le modèle mais la donnée, et YUBI apporte une réponse concrète sur la scalabilité de la collecte. Le fait qu'une seule politique transfère sur trois robots hétérogènes confirme que l'interface impose une représentation suffisamment générique pour servir de supervision directe, sans fine-tuning plateforme-spécifique. C'est un argument fort en faveur de l'approche "data-centric" face aux pipelines sim-to-real, souvent coûteux à valider en conditions industrielles. L'ergonomie améliorée réduit aussi la fatigue opérateur sur les tâches fines, un point non-trivial pour des sessions de collecte longues et répétitives que les démonstrateurs UMI rendaient problématiques. L'UMI, développé à l'Université de Columbia et largement adopté pour sa simplicité et son coût, reste la référence low-cost pour la collecte de données manipulation, mais son grip pistolet montrait ses limites sur les tâches bimanuelle complexes. YUBI s'inscrit dans un mouvement plus large visant à démocratiser la collecte de données pour les robot foundation models, en parallèle d'initiatives comme ACT, Diffusion Policy ou les efforts open-data de Physical Intelligence (Pi-0). L'ensemble du stack est publié en open source : hardware du préhenseur, logiciel de collecte, et dataset complet, ce qui représente une contribution substantielle pour les laboratoires ne disposant pas des moyens de Unitree, Figure AI ou Boston Dynamics pour constituer leurs propres corpus propriétaires. Les prochaines étapes probables incluent l'extension du dataset et l'intégration avec des architectures VLA plus récentes.

UELes laboratoires européens (INRIA, CEA-List, universités) et PME robotiques peuvent directement exploiter le dataset open-source YUBI (8 434 h, 1,2M épisodes) et l'interface hardware pour entraîner des politiques de manipulation sans constituer de corpus propriétaire, avec validation native sur Franka (allemand) et UR (danois).

RechercheOpinion
1 source
Ce que les métriques de curation des démonstrations font à votre politique
381arXiv cs.RO 

Ce que les métriques de curation des démonstrations font à votre politique

Une étude publiée en juin 2026 (arXiv:2606.10229) révèle une décorrélation surprenante au cœur du pipeline d'imitation learning en robotique : les métriques qui détectent le mieux les épisodes de démonstration défectueux ne sont pas celles qui produisent les meilleures politiques de behavior cloning. Les chercheurs ont travaillé sur le benchmark LIBERO de pick-and-place en contact riche, en injectant un défaut structurel contrôlé, un relâchement prématuré du préhenseur pendant la phase de transport. Parmi sept métriques de curation évaluées, celle affichant le meilleur AUROC de détection de défauts (0,804) génère la pire politique downstream, avec un taux de succès de seulement 13,3 %. À l'inverse, une métrique avec un AUROC bien plus faible (0,638) produit une politique atteignant 90,0 % de réussite, contre 93,3 % pour l'oracle entraîné sur données propres vérifiées. La baseline contaminée, sans aucune curation, ne dépasse pas 3,3 % de succès. Ce résultat remet en cause un présupposé largement répandu dans la communauté robotique : l'idée qu'améliorer la détection des démonstrations défectueuses suffit à améliorer la politique apprise. L'étude montre que cinq des sept métriques testées utilisent en réalité la longueur d'épisode comme proxy trivial pour le label de défaut, un biais qui gonfle artificiellement les AUROC jusqu'à des valeurs quasi-parfaites, et qui disparaît dès lors qu'on neutralise cette variable. Pour les équipes qui construisent des systèmes de robot learning à partir de données humaines (notamment dans les approches VLA ou diffusion policy), cela signifie que les outils de curation standard peuvent induire en erreur, en sélectionnant des données qui « semblent » propres sans réellement améliorer le comportement en rollout. L'imitation learning par behavior cloning est aujourd'hui au cœur des approches de référence en manipulation robotique, des systèmes Pi-0 de Physical Intelligence aux architectures ACT et Diffusion Policy largement reproduites en recherche académique. LIBERO est un benchmark établi, utilisé précisément pour sa richesse en interactions contact. Les auteurs de cette étude vont plus loin que le constat en publiant le testbed complet, toutes les implémentations de métriques et le pipeline d'évaluation, ce qui permet à la communauté de recalibrer ses outils de curation. La recommandation centrale est méthodologique : évaluer une méthode de curation à l'aune de la politique qu'elle produit, pas des défauts qu'elle signale, et imposer un contrôle systématique de la longueur d'épisode avant toute publication de score de détection.

UELes laboratoires académiques et startups européennes travaillant sur le behavior cloning ou les politiques de diffusion peuvent recalibrer leurs pipelines de curation grâce au testbed complet publié par les auteurs.

RecherchePaper
1 source
Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA
382arXiv cs.RO 

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

Une équipe de chercheurs a publié en juin 2026 sur arXiv (arXiv:2606.10366) une étude systématique visant à quantifier et améliorer la corrélation entre évaluation en simulation et déploiement réel pour les politiques de type VLA (Vision-Language-Action). Ces politiques, qui combinent perception visuelle, compréhension du langage naturel et génération d'actions motrices, sont au coeur des robots généralistes actuels. L'étude couvre plusieurs plateformes de simulation, plusieurs politiques VLA, plusieurs familles de tâches manipulatoires, et plusieurs facteurs de perturbation contrôlés. Les métriques retenues sont la cohérence du classement des politiques entre simulation et réel, la corrélation de performance absolue, et les patterns d'échec induits par perturbation. Les auteurs examinent également à quel moment le fine-tuning d'une politique sur données simulées améliore réellement les performances en monde réel, et comment le volume de données post-entraînement influence cet alignement. Ce travail s'attaque à un verrou identifié de longue date dans la robotique apprise : les benchmarks en simulation, malgré des progrès significatifs en réalisme et diversité ces deux dernières années, ne sont pas encore adoptés comme proxies fiables pour l'évaluation hors-lab. En pratique, cela signifie que les équipes d'intégration et les labs reproduisent des évaluations coûteuses en monde réel à chaque itération de politique, faute de pouvoir faire confiance aux scores simulés. L'étude identifie quels signaux simulés restent alignés avec le déploiement réel et lesquels divergent, donnant aux praticiens une grille de lecture concrète pour calibrer leur utilisation de la simulation dans le pipeline de développement. Le problème du sim-to-real gap accompagne la robotique apprise depuis les travaux fondateurs sur le domain randomization (OpenAI, 2017-2019), mais il devient critique à mesure que les VLA cherchent à passer à l'échelle industrielle. Des acteurs comme Physical Intelligence (Pi-0), Google DeepMind (RT-X, GR00T N2 côté Nvidia), ou encore Figure AI avec Figure 03 s'appuient tous sur des pipelines simulation-réel pour accélérer l'entraînement. En proposant un cadre unifié pour mesurer, interpréter et améliorer l'utilité de la simulation pour les VLA, ce papier vise à fournir une référence méthodologique commune, à la fois pour les concepteurs de simulateurs et pour les praticiens. Les prochaines étapes logiques incluent l'intégration de ces recommandations dans des benchmarks publics existants tels que RoboVerse ou LIBERO.

UEImpact indirect : ce cadre méthodologique pourrait réduire les coûts d'évaluation réelle répétée pour les équipes R&D européennes travaillant sur des politiques VLA.

RechercheOpinion
1 source
Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes
383arXiv cs.RO 

Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes

Des chercheurs ont publié Co-GLANCE (arXiv:2606.09919), un système embarqué de perception active et de prise de décision pour équipes robotiques hétérogènes opérant en extérieur non structuré. Le problème central adressé est l'incertitude perceptuelle liée aux occlusions : selon la position d'un robot, certaines zones de la scène restent invisibles ou ambiguës, et aucun agent isolé ne dispose d'un point de vue suffisant pour une compréhension fiable. Co-GLANCE distille les capacités de raisonnement sémantique d'un vision-language model (VLM) dans un modèle embarqué end-to-end qui réalise simultanément la segmentation des occlusions et l'allocation des robots les plus adaptés pour résoudre ces zones d'incertitude. Pour quantifier cette incertitude de façon statistiquement garantie, le système combine la prédiction conforme (conformal prediction) et l'abstention sélective sur les sorties de segmentation, d'allocation et de détection. Comparé aux baselines VLM cloud, Co-GLANCE améliore la précision de segmentation des occlusions de 25% et l'allocation robotique de 36%, tout en réduisant la latence d'inférence par image d'un facteur 350. Un dataset air-sol est également publié en open source. Ce résultat est significatif pour les intégrateurs et les décideurs industriels déployant des flottes multi-robots sur des chantiers, des sites miniers ou des opérations de surveillance. L'élimination de la dépendance au cloud pour l'inférence VLM lève un verrou majeur : latence, connectivité intermittente et coûts d'API. Le gain de 350x en latence n'est pas un chiffre de laboratoire anecdotique, il rend la perception active temps-réel praticable sur du matériel embarqué contraint. La combinaison conformal prediction + abstention sélective apporte des garanties de couverture statistique, ce qui est rare dans les systèmes robotiques terrain : les incertitudes sont exploitables (elles déclenchent des actions), pas seulement affichées. Les travaux sur la coordination multi-robots hétérogènes air-sol s'inscrivent dans un champ actif depuis plusieurs années, avec des groupes comme MIT CSAIL, Stanford, ETH Zurich et CMU comme références principales. La tendance forte est le passage des VLM cloud-only vers des modèles distillés edge-capable, que l'on retrouve aussi dans des travaux comme OpenVLA ou octo. Co-GLANCE se positionne spécifiquement sur l'allocation robotique sous incertitude, un angle moins couvert que la simple navigation ou manipulation. Les prochaines étapes probables incluent des validations sur des flottes plus larges et des environnements dégradés (nuit, pluie), ainsi que l'intégration dans des stacks ROS2 existants. Le code et le dataset sont disponibles sur co-glance.github.io.

RecherchePaper
1 source
TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense
384arXiv cs.RO 

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Des chercheurs ont publié sur arXiv (référence 2606.11184) TacForeSight, un framework léger d'anticipation tactile guidée par la force pour la manipulation en contact riche. Le système repose sur deux composants : TacForceWM, un modèle du monde tactile qui prédit les dynamiques latentes tactiles à court horizon à partir de capteurs bi-doigts conditionnés par les signaux de force et de couple au poignet à haute fréquence, et une politique conditionnée par l'anticipation tactile (Predictive Tactile-Conditioned Policy) qui exploite ces prédictions comme priors de contact, modélise l'évolution tactile courante-vers-future via cross-attention, et fusionne les features visuo-tactiles via un module de gating adaptatif. Les expériences portent sur cinq tâches représentatives de manipulation sur robot réel et trois scénarios de perturbation en cours de manipulation, avec des résultats supérieurs aux baselines existantes dans tous les cas, notamment sous perturbations de contact dynamiques. Le code et les datasets seront mis à disposition publiquement sur tacforesight.github.io. L'apport technique central est de modéliser explicitement les rôles asymétriques de la force globale au poignet (basse résolution spatiale, haute fréquence) et du toucher local bi-doigts (haute résolution spatiale, dynamique plus lente), distinction que la plupart des méthodes d'imitation learning actuelles ignorent. En opérant entièrement dans un espace latent compact, le framework permet un raisonnement de contact proactif compatible avec le contrôle haute fréquence, là où les approches réactives échouent sous perturbations imprévues. Pour les intégrateurs industriels et les équipes travaillant sur l'assemblage ou le conditionnement robotisé, c'est une démonstration concrète que la fusion force+tactile dans un world model améliore la robustesse réelle sans alourdir l'inférence en temps réel. Ce travail s'inscrit dans une vague de recherche combinant world models et retour tactile pour la manipulation dextre, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur GR00T N2 de NVIDIA qui intègrent également des politiques tactile-aware. Aucun concurrent français ou européen direct n'est identifié sur ce créneau précis, bien que des acteurs comme Pollen Robotics ou Enchanted Tools s'appuient aussi sur la manipulation fine. Il s'agit ici d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenaire annoncé : les résultats, bien que prometteurs sur cinq tâches de laboratoire, devront être reproduits sur des géométries et conditions de contact plus variées avant de valider la généralisation à l'échelle industrielle.

UEImpact indirect : le code open-source prévu sur tacforesight.github.io pourrait être exploité par des équipes européennes travaillant sur la manipulation fine, comme Pollen Robotics ou les labos CEA-List, mais aucun acteur FR/EU n'est impliqué dans ce travail.

RecherchePaper
1 source
Analyse de la locomotion d'un quadrupède sur le sol granulaire lunaire
385arXiv cs.RO 

Analyse de la locomotion d'un quadrupède sur le sol granulaire lunaire

Une équipe de recherche a publié en juin 2026 sur arXiv (preprint 2606.10273) une analyse de la locomotion d'un robot quadrupède conçu pour l'exploration lunaire, avec un focus sur l'interaction avec le régolithe lunaire. Le régolithe est un matériau granulaire meuble qui recouvre la surface de la Lune et qui diffère radicalement d'un sol rigide terrestre. Les chercheurs ont intégré un modèle physique de contact entre pied de robot et régolithe dans un environnement de simulation, puis ont entraîné des politiques de locomotion par apprentissage par renforcement (RL). Deux politiques ont été comparées : l'une entraînée sur des contacts rigides, l'autre sur des contacts mous simulant le régolithe. Résultats : les contacts granulaires génèrent une allure qualitativement différente, augmentent la dépense énergétique globale et provoquent instabilité et perte de tracking. Ce résultat touche directement l'un des angles morts majeurs du RL appliqué à la robotique terrain : les algorithmes de locomotion sont quasi-systématiquement entraînés sous hypothèse de contact rigide, ce qui suffit sur des sols durs mais s'effondre dès que le sol cède sous la patte. Pour la conception mécanique d'un quadrupède lunaire, cela se traduit concrètement par un sous-dimensionnement des couples moteurs et une sous-estimation du coût énergétique de transport, deux variables critiques dans un contexte où les contraintes thermiques et énergétiques sont dimensionnantes pour toute mission. Cette étude fournit des métriques quantitatives sur le surcoût locomoteur induit par le régolithe, un élément manquant dans la majorité des papiers de robotique planétaire. Le contexte est celui d'un regain d'intérêt intense pour la robotique lunaire, porté par le programme Artemis de la NASA et par plusieurs missions commerciales prévues d'ici 2028. La question du sim-to-real sur surfaces granulaires est connue dans la communauté depuis les travaux sur le sable et la neige, mais reste peu traitée dans le cadre spécifiquement lunaire. Du côté européen, l'ESA finance plusieurs projets de robots à pattes pour surfaces extraterrestres, sans qu'un programme quadrupède lunaire opérationnel ne soit encore annoncé publiquement. Ce papier reste un preprint non relu par des pairs, et ses conclusions, bien que cohérentes avec la littérature sur les milieux granulaires, n'ont pas encore été validées sur un prototype physique en environnement simulé en laboratoire.

UEL'ESA finançant plusieurs projets de robots à pattes pour surfaces extraterrestres, les métriques quantitatives sur le surcoût locomoteur du régolithe et les limites du RL entraîné sur contact rigide pourraient directement informer les choix de simulation et de conception des équipes européennes impliquées dans ces programmes.

RecherchePaper
1 source
Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire
386arXiv cs.RO 

Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire

Une équipe de chercheurs présente un cadre neuro-symbolique de bout en bout conçu pour l'assemblage robotique multi-paires en environnements non structurés, publié sur arXiv (2606.10808). Le système fonctionne à partir d'une caméra RGB-D montée sur le bras (configuration eye-on-hand) et s'appuie sur un bras UR3 d'Universal Robots. Le pipeline traite chaque paire pièce-cible en générant un sous-graphe optimal via un grand modèle de langage (LLM), puis coordonne l'ensemble des sous-graphes en une séquence globale cohérente grâce à une étape de résolution topologique. Des arbres de comportement dynamiques intégrant des compétences atomiques pilotées par retour d'effort ferment la boucle d'exécution physique. Sur 100 scènes réelles évaluées hors ligne, le framework atteint 97 % d'exécutabilité globale, et le déploiement sur robot réel obtient un taux de succès de 90 % avec une tolérance de 0,5 mm sous forte interférence entre pièces. Ce résultat est notable parce qu'il adresse deux défauts symétriques qui bloquent l'industrialisation de la planification autonome d'assemblage. Les planificateurs classiques (recherche d'état, PDDl) explosent combinatoirement dès que le nombre de pièces augmente. Les approches purement neuronales ou LLM-only produisent des "hallucinations logiques" : séquences d'actions syntaxiquement valides mais physiquement incohérentes (conflits topologiques, collisions ignorées). Le framework proposé découple les deux niveaux : le LLM génère uniquement des actions basiques pour limiter les hallucinations, tandis qu'un discriminateur léger insère les actions de support pour les cas limites. La tolérance de 0,5 mm sous interférence forte est un indicateur concret de robustesse, même si les vidéos de démonstration disponibles ne couvrent pas l'ensemble des 100 configurations testées, ce qui limite la vérification indépendante des chiffres annoncés. Le problème de l'assemblage multi-paires est un verrou industriel identifié depuis les années 1990 dans la robotique manufacturière, avec des applications directes en électronique, aéronautique et assemblage de sous-systèmes automobiles. Les approches concurrentes actuelles incluent les planificateurs symboliques classiques (MoveIt, OpenRAVE), les politiques d'imitation learning (ACT, Diffusion Policy) et les Visual Language Action models (pi-0 de Physical Intelligence, RoboFlamingo). Ce framework se positionne entre la planification symbolique vérifiable et l'inférence neuronale généraliste. Les auteurs soulignent que l'architecture est extensible à faible coût par ajout de nouvelles paires ou actions. Les prochaines étapes logiques seraient un déploiement sur des bras à plus haute charge utile et une validation sur des lignes d'assemblage industrielles réelles, domaine où des acteurs européens comme Wandercraft ou Enchanted Tools pourraient trouver des synergies applicatives.

UELes équipes R&D robotique européennes (notamment dans l'aéronautique et l'électronique) pourraient intégrer cette architecture pour automatiser des tâches d'assemblage multi-pièces à tolérance serrée, un verrou industriel non résolu par les planificateurs classiques.

RecherchePaper
1 source
UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles
387arXiv cs.RO 

UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles

Une équipe de chercheurs a publié mi-juin 2026 sur arXiv (arXiv:2606.10683) un travail intitulé UniDexTok, proposant une représentation unifiée pour les états de mains dextres hétérogènes, humaines et robotiques. Le coeur du système est le Unified Dexterous Hand Model (UDHM), une interface sémantique partagée à 22 degrés de liberté (DoF) qui normalise les états articulaires de n'importe quelle main dans un espace commun. Sur cette base, UniDexTok est un tokenizer d'états appris exclusivement depuis des données réelles, sans recours au retargeting ni à la simulation. Les gains de précision par rapport à la baseline UniHM sont significatifs : l'erreur angulaire moyenne par articulation (MPJAE) chute de 15,63° à 0,16° (réduction de 98,98 %), et l'erreur de position par articulation (MPJPE) passe de 18,51 mm à 0,18 mm (réduction de 99,03 %), ramenant la reconstruction de l'échelle centimétrique à une précision sub-millimétrique. La portée industrielle de ce résultat tient moins aux chiffres absolus qu'à ce qu'ils rendent possible : un entraînement cross-embodiment sans pipeline de retargeting, qui a longtemps constitué un goulot d'étranglement dans la constitution de datasets pour mains dextres. Jusqu'ici, les données capturées sur une Shadow Hand, une Allegro ou une LEAP Hand étaient difficilement réutilisables pour un autre robot, faute de représentation commune. UniDexTok permet de les agréger : les expériences montrent que des données provenant d'autres embodiments améliorent la reconstruction sur l'embodiment cible, validant le principe de transfert cross-morphologie. Le système affiche également des capacités zero-shot et few-shot lors de l'introduction de nouvelles mains, ce qui réduit le coût d'intégration pour les intégrateurs qui déploient plusieurs plateformes en parallèle. La manipulation dextre reste l'un des défis les plus ouverts de la robotique humanoïde, avec une fragmentation des efforts entre labos (Dexterous Manipulation Group chez CMU, OpenAI Dactyl suspendu, Physical Intelligence avec Pi-0) et industriels (Tesla Optimus, Figure, Unitree). Les approches précédentes comme UniHM avaient posé la question de la représentation unifiée mais avec des erreurs de reconstruction trop élevées pour être exploitables en contrôle fin. UniDexTok s'inscrit dans un mouvement plus large vers des politiques robotiques génériques multi-embodiments, analogue à ce que les VLA (Vision-Language-Action models) tentent du côté de la perception. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat ; il s'agit d'une contribution de recherche fondamentale, dont l'intégration dans des pipelines de formation de politiques reste à démontrer en conditions réelles.

RecherchePaper
1 source
Modèles de tiges pour le contrôle des robots continus et souples : une revue
388arXiv cs.RO 

Modèles de tiges pour le contrôle des robots continus et souples : une revue

Une équipe de chercheurs a publié sur arXiv (référence 2407.05886, troisième révision) une revue exhaustive des modèles de tiges (rod models) appliqués à la modélisation et au contrôle des robots continus et souples. Le travail couvre les fondements mathématiques des théories de tiges, leur application à la modélisation de structures déformables, et les stratégies de contrôle dérivées, tant model-based que learning-based. Les auteurs proposent une classification des modèles selon le type de déformation pris en compte, contribution qui fait défaut dans la littérature existante. Les domaines applicatifs ciblés incluent la santé, l'agriculture, le milieu marin et l'espace, où les robots rigides conventionnels montrent leurs limites face à des environnements non structurés et à des interactions mécaniques en contact permanent. L'intérêt principal de ce survey est de structurer un sous-champ marqué par une forte fragmentation de la littérature. Les modèles de type Cosserat ou Kirchhoff proposent une approximation dimensionnellement réduite du comportement de corps élancés et déformables, offrant un meilleur équilibre que les méthodes éléments finis (FEM) entre précision et coût computationnel temps-réel. Pour les équipes R&D travaillant sur des bras flexibles endoscopiques, des cathéters guidés ou des manipulateurs agricoles, ce panorama unifié permet d'arbitrer entre approche physique et apprentissage, et de cibler les lacunes identifiées : robustesse au contact incertain, calibration en conditions réelles, et fermeture du fossé sim-to-real. Les modèles de tiges appliqués à la robotique souple se sont imposés comme cadre de référence depuis le milieu des années 2010, portés par l'essor des actionneurs à câbles, pneumatiques et à base d'élastomères. Plusieurs groupes académiques restent moteurs sur le sujet : INRIA, MIT CSAIL, IIT Gênes, Universität Stuttgart. Dans l'écosystème industriel, les applications en chirurgie mini-invasive et en manipulation agricole sont directement confrontées à ces problèmes de modélisation. Le papier identifie trois directions ouvertes : gestion du contact multi-points, intégration avec les architectures VLA (vision-langage-action), et généralisation à des morphologies hybrides rigides-souples. Ces fronts devraient alimenter le champ dans les deux à trois prochaines années.

UEINRIA figure parmi les groupes académiques moteurs du domaine ; les applications ciblées (chirurgie mini-invasive, manipulation agricole) concernent directement des acteurs industriels et projets de recherche européens.

RecherchePaper
1 source
AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique
389arXiv cs.RO 

AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique

Une équipe de recherche a publié en juin 2026 sur arXiv (référence 2606.10903) un framework de navigation locale appelé AgniNav, conçu pour permettre à des robots de morphologies radicalement différentes de naviguer en autonomie à partir d'une unique caméra RGB, sans recourir à un capteur de profondeur actif et sans réentraînement du modèle. Le système repose sur une enveloppe de sécurité définie par quatre paramètres mesurables : hauteur critique pour la détection de collisions, longueur avant, longueur arrière, demi-largeur. Ces paramètres conditionnent simultanément un réseau image-vers-scan qui prédit un pseudo-laserscan 1D à partir d'une image couleur monoculaire, et un planificateur local qui adapte la vérification de collisions au gabarit du robot. Les expérimentations ont été conduites sur trois plateformes réelles : le Turtlebot2 (base à roues), l'Unitree Go2 (quadrupède), et l'Accelerated Evolution K1 (humanoïde). Les taux de succès sont respectivement de 39/40, 18/20 et 18/20, avec 0, 1 et 2 collisions sur l'ensemble des essais, le tout tournant à 30 Hz sur un Jetson Orin. Ce qui distingue AgniNav des travaux existants est précisément l'absence de retraining par plateforme. La quasi-totalité des politiques de navigation visuelle actuelles sont entraînées pour un couple caméra/gabarit fixe, ce qui rend leur transfert d'un robot à un autre coûteux en données et en temps. Ici, le même réseau, entraîné une fois sur des paires couleur-profondeur supervisées par des labels de scan générés à la volée, se déploie sans adaptation sur des morphologies aussi différentes qu'un rover plat et un humanoïde. Pour un intégrateur gérant une flotte hétérogène, ou pour un OEM souhaitant embarquer la navigation sur plusieurs SKUs avec un seul modèle, c'est un changement d'économie non négligeable. La navigation cross-embodiment est un problème ouvert depuis plusieurs années dans la communauté robotique : les approches concurrentes, comme celles mobilisant des politiques VLA (vision-language-action) ou des pipelines basés sur la simulation, exigent généralement soit du matériel dédié (LiDAR, caméra de profondeur RGB-D), soit des cycles de fine-tuning par plateforme. AgniNav s'inscrit dans un courant de travaux cherchant à normaliser la couche de perception au niveau de l'enveloppe physique plutôt que du modèle de robot complet. Le résultat présenté reste à ce stade une contribution de recherche, pas un produit ou un SDK distribué. Les prochaines étapes naturelles incluent la validation sur des environnements dynamiques et des densités d'obstacles plus élevées, ainsi que l'extension à des architectures d'enveloppe plus complexes pour les humanoïdes à forte variation de posture.

RecherchePaper
1 source
RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement
390arXiv cs.RO 

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Des chercheurs ont publié RoboGPT-R1, un framework d'entraînement en deux étapes conçu pour améliorer la planification de tâches des agents robotiques incarnés, présenté dans un preprint arXiv (2510.14828, version 3). Le système repose sur une séquence supervisée classique, qui ancre les connaissances fondamentales via des démonstrations expertes, suivie d'un apprentissage par renforcement (RL) ciblé sur les lacunes en compréhension visuo-spatiale et en raisonnement multi-étapes. Le modèle de base choisi est Qwen2.5-VL-3B, un vision-language model open-source de 3 milliards de paramètres. Les résultats publiés sur le benchmark EmbodiedBench montrent que RoboGPT-R1 dépasse GPT-4o-mini de 21,33 points de pourcentage, et surclasse d'autres approches entraînées sur Qwen2.5-VL-7B de 20,33 points, ce dernier disposant pourtant de plus du double de paramètres. Le cœur technique du framework est une fonction de récompense basée sur des règles qui prend en compte simultanément les performances à long horizon et les contraintes d'action dans l'environnement physique simulé. Ces résultats viennent étayer une thèse qui s'impose progressivement dans la communauté robotique : le fine-tuning supervisé seul génère des agents fragiles hors distribution, en particulier pour les tâches de manipulation longue séquence dans des environnements non contrôlés. RoboGPT-R1 démontre qu'un modèle compact peut surpasser des architectures significativement plus grandes dès lors que le RL est utilisé pour affiner la compréhension physique et la cohérence des séquences d'actions. Pour les équipes d'intégration et les responsables techniques, cela pointe vers une trajectoire viable vers des solutions embarquables sur hardware contraint, sans sacrifier les capacités de planification complexe. Un écart de 21 points sur un benchmark spécialisé par rapport à GPT-4o-mini indique que la spécialisation domaine via RL compense largement le désavantage de taille brute. RoboGPT-R1 s'inscrit dans une dynamique post-SFT amplifiée depuis fin 2024, en large partie accélérée par les travaux DeepSeek-R1 qui ont popularisé le RL comme levier de raisonnement pour les LLMs. Dans le champ robotique, Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec GR00T N2 et RT-X, ou encore OpenVLA, explorent des trajectoires d'alignement vision-language-action (VLA) comparables. RoboGPT-R1 se distingue par son positionnement sur la planification symbolique de haut niveau plutôt que le contrôle moteur bas niveau, et par sa base Qwen2.5-VL open-source qui favorise la reproductibilité. Important à noter : il s'agit à ce stade exclusivement d'une validation sur EmbodiedBench, un benchmark simulé. Aucun déploiement physique n'est annoncé et le sim-to-real gap, question centrale pour tout passage en production, reste une problématique que l'article ne traite pas.

RechercheOpinion
1 source
Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines
391arXiv cs.RO 

Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines

Une équipe de recherche a déposé le 10 juin 2026 sur arXiv (réf. 2606.10614) un framework baptisé Dexterous Point Policy (DPP), capable d'apprendre des politiques de manipulation dextère directement à partir de vidéos humaines, sans aucune démonstration sur robot. Le système extrait des points-clés 3D (keypoints) des objets de la tâche et des mains humaines, en ciblant spécifiquement les poignets et les bouts de doigts, puis entraîne un transformer autorégressif sur ces représentations unifiées. Sur un banc d'essai réel couvrant la saisie-dépôt (pick-and-place) et la manipulation d'outils, DPP atteint 75,0 % de succès, contre seulement 1,0 % pour le meilleur baseline de type VLA (Vision-Language-Action model) disponible. La méthode généralise également à des scénarios non vus pendant l'entraînement, notamment des environnements multi-objets et de nouvelles catégories d'objets. L'apport principal est d'éliminer le goulet d'étranglement le plus coûteux du cycle d'apprentissage robotique: la collecte de données en téléopération. Les auteurs rappellent que téléopérer une main multi-doigts pour une seule tâche atomique peut mobiliser plusieurs jours de travail humain, ce qui rend le fine-tuning classique des modèles de fondation sur données robotiques particulièrement onéreux à l'échelle. L'intuition centrale de DPP est que, au niveau des keypoints (poignets et bouts de doigts), les comportements humains et robotiques s'alignent suffisamment pour permettre un transfert direct de politique sans adaptation supplémentaire. Avec un écart de performance de 75x par rapport au baseline VLA, le résultat contredit l'idée selon laquelle combler l'embodiment gap entre humain et robot exige obligatoirement des données proprioceptives ou d'actionnement robotique. Ce travail s'inscrit dans le courant des modèles de fondation robotiques pré-entraînés sur vidéos humaines, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA sont des représentants récents, qui butaient tous sur ce même problème de transfert au déploiement réel. DPP propose une réponse architecturale en choisissant une représentation intermédiaire qui abstrait la morphologie spécifique de chaque effecteur, rendant la politique agnostique à la géométrie exacte de la main robotique. Il s'agit pour l'instant d'un preprint non relu par les pairs, sans affiliation institutionnelle précisée dans le résumé public, et les tests restent limités à des tâches de complexité modérée. Les étapes naturelles seraient une validation sur des mains multi-doigts plus variées et des manipulations de plus haute complexité, comme l'assemblage de précision ou la manipulation d'outils déformables, pour confirmer la scalabilité réelle de l'approche.

RecherchePaper
1 source
GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique
392arXiv cs.RO 

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

Des chercheurs ont publié le 10 juin 2026 un preprint arXiv (2606.10025) présentant GHOST, un framework pour politiques visuomotrices de manipulation robotique capables de généraliser au-delà de leur distribution d'entraînement. L'architecture repose sur une factorisation hiérarchique en deux niveaux : une politique haut niveau qui prédit le prochain sous-objectif sous forme de distribution sur les poses 3D de l'effecteur terminal à partir d'observations RGB-D multi-vues, et un contrôleur bas niveau conditionné sur ces objectifs qui génère les actions spécifiques à l'embodiment physique du robot. Pour relier les deux niveaux, les auteurs introduisent une interface spatiale qui projette les sous-objectifs 3D prédits dans le plan image sous forme de heatmaps de l'effecteur, une représentation volontairement simple mais compatible avec les pipelines d'entraînement existants. La politique haut niveau est entraînée sur des vidéos de démonstrations humaines brutes, sans retargeting d'actions, tandis que la politique bas niveau reste entraînée exclusivement sur des données robot. Le résultat central est que cette décomposition hiérarchique améliore systématiquement les performances et la robustesse par rapport à une Diffusion Policy plate (architecture de référence populaire depuis les travaux de Chi et al. en 2023) sur une suite de tâches de manipulation. L'insight clé est que les sous-objectifs en espace cartésien de l'effecteur sont largement "embodiment-agnostic" : la même politique haut niveau peut s'appliquer à différentes architectures de robots sans réentraînement complet. Cela contourne un goulot d'étranglement majeur dans le domaine, le retargeting d'actions depuis les démonstrations humaines, qui introduit habituellement un bruit significatif et limite la qualité des données d'entraînement. GHOST s'inscrit dans un courant actif de recherche sur l'utilisation des vidéos humaines comme source de supervision low-cost pour la robotique de manipulation, aux côtés d'approches comme pi-0 de Physical Intelligence ou des travaux sur les VLA (Visual-Language-Action models) de Google DeepMind avec RT-2 et GR00T N2 de NVIDIA. La principale limitation à noter : il s'agit d'un preprint non encore peer-reviewed, sans données de déploiement réel ni métriques de cycle time en contexte industriel. Les résultats concernent une suite de tâches de laboratoire ; la tenue à l'échelle dans des environnements moins contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de commercialisation n'est annoncé.

RecherchePaper
1 source
Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert
393arXiv cs.RO 

Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert

Des chercheurs ont publié sur arXiv (arXiv:2606.10743, juin 2026) HOWTransfer, un cadre algorithmique centré sur la main pour transférer des démonstrations humaines filmées en trajectoires exécutables par un bras robotique. Le système fonctionne en trois étapes : reconstruction 3D temporellement cohérente du mouvement du poignet humain, localisation automatique des intervalles de contact main-objet à partir de cues visuels d'interaction, puis génération d'hypothèses de saisie en pince parallèle (parallel-jaw grasp) propagées le long de la trajectoire du poignet. Une phase finale d'édition raffine l'alignement de contact et produit plusieurs variantes exécutables depuis une seule vidéo de démonstration. Sur un ensemble de tâches de manipulation variées, le système atteint 86 % de taux de succès et est préféré aux trajectoires téléopérées dans une étude comparative en aveugle. Ce résultat mérite attention parce qu'il attaque directement le goulot d'étranglement principal du learning from demonstration (LfD) : collecter suffisamment de données de qualité. La téléopération reste coûteuse, lente et non scalable en industrie ; si un système peut extraire des trajectoires robotes directement depuis des vidéos de travailleurs humains filmés sur une chaîne d'assemblage ou en entrepôt, le coût d'entrée pour déployer de la manipulation apprise s'effondre. Fait notable : HOWTransfer ne s'appuie pas sur des descripteurs d'objets prédéfinis ni sur un tracking d'état explicite, ce qui le rend potentiellement généraliste sur des objets non vus. Le 86 % de succès annoncé est encourageant, mais les conditions expérimentales exactes (diversité des objets, profondeur de la caméra, nombre de tâches, robot cible) ne sont pas précisées dans le résumé, ce qui justifie une lecture du papier complet avant toute intégration industrielle. Le transfert de démonstration humaine vers robot via vidéo est un domaine en pleine effervescence depuis 2022-2023, porté par des travaux comme DROID, RoboAgent ou les approches VLA (Vision-Language-Action) de Google DeepMind et Physical Intelligence (Pi-0). HOWTransfer se distingue en adoptant une approche sans modèle de langage ni segmentation objet, ce qui le rend plus léger mais aussi plus fragile sur les scènes encombrées. Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit pour l'instant d'un preprint académique, pas d'un produit. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (Franka, UR, ou humanoïdes comme Figure 03 ou Unitree G1) et une évaluation sur des benchmarks standardisés comme RLBench ou LIBERO pour situer la performance par rapport à l'état de l'art.

RecherchePaper
1 source
Ce qui compte dans l'orchestration des politiques robotiques : étude systématique des agents VLA hiérarchiques
394arXiv cs.RO 

Ce qui compte dans l'orchestration des politiques robotiques : étude systématique des agents VLA hiérarchiques

Une équipe de chercheurs a publié en juin 2026 sur arXiv (réf. 2606.10267) une étude systématique des architectures hiérarchiques VLA, désignées Hi-VLA, pour la manipulation robotique. Ces systèmes couplent un planificateur de haut niveau basé sur un grand modèle vision-langage (VLM) avec un contrôleur bas niveau de type VLA (vision-language-action) : le planificateur décompose une tâche complexe en sous-objectifs formulés en langage naturel, que le contrôleur exécute séquentiellement. Les auteurs unifient plusieurs architectures Hi-VLA existantes sous un cadre commun dit « options-style » et les évaluent sur trois familles de tâches : courte horizon, longue horizon et à forte charge de raisonnement. Les expériences combinent simulation et validation physique sur un robot ALOHA, le manipulateur bimanuel développé initialement par Stanford et repris par Google DeepMind. Ce travail comble un manque réel dans la littérature : jusqu'ici, les systèmes Hi-VLA divergeaient dans leurs choix de planificateurs, de contrôleurs, de mécanismes de transition et de représentation mémoire, sans base de comparaison commune. Les résultats montrent qu'une hiérarchie bien conçue surpasse clairement le contrôle VLA plat (non-hiérarchique) ainsi qu'une hiérarchie naïve, ce qui valide empiriquement l'approche mais souligne que les gains dépendent fortement des interfaces entre niveaux et du choix des modèles. Pour les intégrateurs industriels qui explorent les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ces principes de conception fournissent un cadre d'arbitrage concret entre flexibilité de planification et précision de contrôle. L'article s'inscrit dans une dynamique de consolidation méthodologique qui suit une période d'expérimentation empirique rapide. Depuis 2023-2024, des systèmes comme SayCan (Google), RoboCat (DeepMind) ou les architectures de Physical Intelligence ont démontré la faisabilité des VLA à grande échelle, mais les recettes de design restaient opaques. Les concurrents directs sur le segment de la planification hiérarchique incluent des travaux comme Code-as-Policies ou Voyager. La prochaine étape naturelle sera l'extension de ces principes à des environnements non structurés hors laboratoire ; le site du projet (jiahenghu.github.io/hi-vla) propose des vidéos de démonstration, mais aucun déploiement industriel n'est annoncé à ce stade.

RechercheOpinion
1 source
Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée
395arXiv cs.RO 

Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée

Un groupe de chercheurs a publié sur arXiv (réf. 2505.01458, version 2, mai 2025) un état de l'art sur l'utilisation des simulateurs physiques pour entraîner des robots à la navigation et à la manipulation dans le cadre de l'IA incarnée (Embodied AI). L'étude analyse comment les moteurs de simulation réduisent le "sim-to-real gap", c'est-à-dire l'écart de performance constaté quand un agent entraîné en simulation est déployé dans le monde réel. Le survey passe en revue les caractéristiques des principaux simulateurs, leurs contraintes matérielles, et propose un inventaire structuré de datasets de référence, métriques d'évaluation et méthodes existantes. Aucun code ou outil nouveau n'est publié: il s'agit d'une contribution bibliographique et méthodologique. Cette revue intervient alors que le sim-to-real gap demeure l'obstacle principal au déploiement industriel de robots humanoïdes et de bras manipulateurs. Entraîner directement sur du matériel réel est coûteux, lent et risqué, ce qui place la simulation au cœur des pipelines de développement des VLA (Vision-Language-Action models) et des systèmes de navigation autonome. En consolidant des propriétés peu documentées des simulateurs, le survey aide ingénieurs et chercheurs à sélectionner l'outil adapté à leurs contraintes hardware sans avoir à faire une veille exhaustive de la littérature. Les simulateurs en compétition dans cet espace incluent Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google), PyBullet, Webots et Genesis, un moteur GPU-natif récent. L'intérêt pour ce type de synthèse est alimenté par l'accélération du secteur: Figure AI, Physical Intelligence (pi zero), Boston Dynamics, Unitree et Agility Robotics multiplient les annonces de déploiements en environnements industriels réels. Ce survey constitue un point d'entrée structuré pour les équipes qui montent leur pipeline sim-to-real en 2025, à condition de ne pas attendre de benchmarks neutres et indépendants: l'évaluation des simulateurs reste largement conduite par leurs propres éditeurs.

RecherchePaper
1 source
Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques
396arXiv cs.RO 

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

Des chercheurs proposent ORCHID, un cadre d'auto-entraînement présenté sur arXiv (2603.05291) qui s'attaque à un problème structurel de la manipulation robotique longue durée : la désynchronisation entre planificateur haut niveau et contrôleur bas niveau au sein des politiques hiérarchiques. Dans ces architectures, un planificateur décompose une instruction en langage naturel en sous-objectifs intermédiaires, que le contrôleur exécute physiquement. La difficulté est que les deux modules, entraînés séparément, opèrent sur des distributions de sous-objectifs incompatibles. ORCHID corrige cela en ligne : le système génère des trajectoires, les filtre selon le feedback de l'environnement (réussite ou échec de la tâche complète), puis distille les trajectoires conjointement réussies dans les deux modules via apprentissage supervisé. Il en résulte une co-adaptation bidirectionnelle : le planificateur ancre ses sous-objectifs dans les capacités réelles du contrôleur, tandis que le contrôleur se spécialise dans les structures de trajectoire que produit le planificateur. Sur le benchmark CALVIN, référence pour la manipulation séquentielle guidée par le langage, un modèle léger entraîné avec ORCHID surpasse les méthodes purement offline, y compris un modèle Vision-Language-Action (VLA) deux fois plus grand en paramètres. L'impact est notable sur deux points. En termes d'efficacité paramétrique, qu'un modèle léger dépasse un VLA deux fois plus lourd remet en question l'hypothèse courante que l'échelle seule suffit pour les tâches complexes. En termes de stabilité d'entraînement, combiner RL hiérarchique et modèles de diffusion est notoirement instable à cause de la propagation des gradients. ORCHID contourne ce problème en substituant la distillation supervisée sur échantillons filtrés au RL gradient classique, une voie potentiellement plus praticable dans les contextes industriels où la reproductibilité de l'entraînement est critique. Le mécanisme de co-adaptation proposé constitue un principe architectural plus général, transférable à d'autres familles de politiques hiérarchiques au-delà des modèles de diffusion. Le travail s'inscrit dans la dynamique actuelle autour des politiques de diffusion pour la robotique, portée par des frameworks comme Diffusion Policy (Chi et al., 2023) et π₀ de Physical Intelligence. ORCHID se distingue en ciblant non l'architecture mais la coordination inter-niveaux, un aspect souvent sous-traité par les approches VLA end-to-end qui fusionnent planification et contrôle dans un seul réseau. Le benchmark CALVIN, développé à l'Université de Freiburg, est la référence principale pour évaluer la généralisation en manipulation séquentielle sur des tâches à horizon long. Les prochaines étapes naturelles incluent une validation sur robots physiques et une extension à des horizons temporels plus longs, deux points que cet article n'aborde pas encore.

RechercheOpinion
1 source
CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA
397arXiv cs.RO 

CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2508.13446, juin 2025) une méthode appelée CAST, Counterfactual Augmentation for Semantic Tracking, qui cible l'un des angles morts majeurs des modèles VLA (Vision-Language-Action) : leur incapacité à suivre des instructions linguistiques fines. L'approche ne nécessite aucune collecte de nouvelles données robot. Elle s'appuie sur des modèles de vision-langage (VLM) pour reannoter automatiquement les trajectoires existantes avec des labels contrefactuels, c'est-à-dire des descriptions alternatives de ce qui aurait pu se passer si l'instruction avait été différente. Les modèles entraînés sur ces données augmentées sont évalués sur des tâches de navigation visuo-linguistique dans trois environnements distincts (intérieur et extérieur) ainsi que sur des tâches de manipulation avec distracteurs. Le résultat clé : doublement du taux de succès par rapport aux VLAs entraînés sur les données brutes non augmentées, avec des performances dépassant les méthodes de l'état de l'art sur des commandes référentielles complexes. Ce résultat est significatif parce qu'il attaque directement le problème du language grounding dans les datasets robotiques actuels, jugé pauvre en diversité sémantique pour des observations similaires. Le fait d'obtenir ces gains sans collecte additionnelle réduit drastiquement le coût d'amélioration des politiques robot, un levier critique pour les équipes qui opèrent avec des budgets de téléopération limités. Plus structurellement, CAST valide l'hypothèse que la qualité du signal de supervision linguistique pèse autant que le volume de données brutes, une nuance souvent sous-estimée dans la course au scaling des VLAs. Les VLAs de type généraliste ont émergé comme paradigme dominant depuis 2023-2024, portés par des systèmes comme OpenVLA (Stanford), pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou RT-2 (Google DeepMind). Tous partagent la même tension : un corpus de démonstrations robot coûteux à collecter, annotées en langage naturel souvent trop homogène. CAST s'inscrit dans un courant de recherche sur l'augmentation synthétique des annotations, concurrent des approches basées sur la simulation procédurale ou le re-labeling par LLM pur. Il s'agit d'un preprint arXiv, pas encore d'un système déployé, les résultats restent à confirmer sur des robots physiques à grande échelle.

RechercheOpinion
1 source
UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI
398arXiv cs.RO 

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

Une équipe de recherche a déposé le 10 juin 2026 le preprint arXiv 2606.10382 décrivant UMI-Bench 1.0, présenté comme le premier benchmark entièrement dédié à l'évaluation en conditions réelles de politiques de manipulation robotique entraînées via l'Universal Manipulation Interface (UMI). Le benchmark cible la manipulation d'objets sur table (tabletop manipulation) et couvre l'intégralité de la chaîne de validation : collecte de données, réinitialisation de scène entre essais, exécution de politique, journalisation des résultats et analyse par facteurs de tâche. Il opère en mode "local-first", c'est-à-dire que les évaluations tournent directement sur robot réel, sans couche de simulation intermédiaire. L'UMI couple observations depuis une caméra montée au poignet, représentation des actions, collecte de démonstrations humaines et déploiement physique, une architecture dont les performances dépendent de la cohérence de chaque maillon. Ce benchmark répond à un problème structurel de l'apprentissage par imitation : l'absence de protocole standardisé conduit chaque équipe à évaluer ses politiques dans des conditions non comparables, ce qui rend la littérature difficile à arbitrer pour un intégrateur ou un décideur industriel. En rendant le processus reproductible et auditable, UMI-Bench permet de mesurer concrètement dans quelle mesure une politique entraînée sur des démonstrations généralise à des configurations physiques inédites, ce que les chercheurs appellent la sim-to-real (ici demo-to-real) generalization. C'est un enjeu central pour les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models), dont les performances en démonstration sélectionnée restent difficiles à quantifier sans infrastructure de test commune. L'UMI a été introduit en 2023-2024 par Cheng Chi et al. (Columbia University) comme interface portable de collecte de démonstrations : un opérateur guide un gripper équipé d'une caméra et d'un module de localisation, et les trajectoires servent directement à entraîner des politiques. Le paysage concurrent des benchmarks comprend LIBERO, DROID et le framework LeRobot de Hugging Face, qui proposent leurs propres protocoles mais sans calibration spécifique pour le pipeline UMI. L'étape logique suivante serait l'intégration de modèles fondationnels comme pi-0 (Physical Intelligence) ou OpenVLA dans ce protocole de référence, et l'extension à des tâches multi-étapes.

RecherchePaper
1 source
HandCept : un cadre de fusion visuo-inertielle pour la proprioception précise des mains dextériques
399arXiv cs.RO 

HandCept : un cadre de fusion visuo-inertielle pour la proprioception précise des mains dextériques

Une équipe de chercheurs a publié sur arXiv en mai 2025 (référence 2505.08213) HandCept, un framework de proprioception visuo-inertielle pour mains dextres robotiques. Le système combine une caméra RGB-D montée au poignet et des IMU à 9 axes (accéléromètre, gyroscope, magnétomètre) pour estimer les angles articulaires en temps réel, via un filtre de Kalman étendu (EKF) sans latence ajoutée. Les erreurs d'estimation se situent entre 2° et 4° sur les angles articulaires, sans dérive observable sur la durée, surpassant selon les auteurs les approches purement visuelles ou purement inertielles. L'approche repose sur un apprentissage zero-shot, sans données réelles annotées, rendu possible par un pipeline de rendu photoréaliste haute fidélité sous Blender, publié en open-source sur GitHub. La proprioception, c'est-à-dire la capacité d'une main robotique à connaître précisément la position de ses propres doigts, reste l'un des verrous techniques de la manipulation dextre généraliste. Les encodeurs magnétiques et capteurs de force embarqués dans des mains multi-DOF imposent des contraintes de volume, de câblage et de calibration souvent incompatibles avec un déploiement à l'échelle. HandCept contourne ces limites en s'appuyant sur des capteurs déjà présents dans de nombreuses plateformes humanoïdes ou cobots, et la fusion EKF temps réel réduit le fossé sim-to-real, point critique pour accélérer le déploiement de politiques d'imitation learning ou de VLA (Vision-Language-Action) apprises en simulation. La précision annoncée de 2 à 4° reste toutefois à contextualiser: les résultats sont issus de conditions de laboratoire contrôlées et le papier n'a pas encore été évalué par les pairs. La course à la manipulation dextre s'est intensifiée en 2024-2025 avec des mains à haute densité d'actionneurs chez Figure (Figure 03), Sanctuary AI, Physical Intelligence (pi0), ou encore LEAP Hand côté recherche ouverte. La précision proprioceptive conditionne directement les performances de ces architectures. HandCept reste à ce stade un résultat de laboratoire: les auteurs n'annoncent ni partenaire industriel, ni timeline de commercialisation, ni intégration sur une plateforme humanoïde spécifique. Le pipeline Blender open-sourcé constitue néanmoins une contribution tangible pour la communauté, en facilitant la génération de données synthétiques pour d'autres équipes travaillant sur des architectures similaires sans accès à un système de capture de mouvement coûteux.

RecherchePaper
1 source
Politiques hiérarchiques à partir de signaux verbaux et égocentrés pour l'interaction naturelle homme-robot
400arXiv cs.RO 

Politiques hiérarchiques à partir de signaux verbaux et égocentrés pour l'interaction naturelle homme-robot

Des chercheurs ont présenté EDITH (Egocentric Data for Intent from The Human), un cadre de contrôle robotique qui intègre les signaux non-verbaux humains, notamment le regard et la vue égo-centrique, comme entrées directes d'une politique de robot, en complément des instructions verbales. Le système repose sur des lunettes intelligentes portées par l'opérateur, qui diffusent en temps réel un flux vidéo à la première personne, le point de regard (gaze tracking) et la parole transcrite automatiquement en texte. Une architecture hiérarchique à deux niveaux traite ces signaux : un module haut niveau infère l'intention et génère une séquence de sous-tâches, chacune représentée par une instruction textuelle fine associée à une image-clé (keyframe) ancrant l'objet cible dans la scène ; un module bas niveau exécute ensuite ces sous-tâches sur le robot physique. Les expériences sur des tâches interactives montrent qu'EDITH réagit à des signaux non-verbaux exprimés très brièvement et réduit significativement l'effort de communication par rapport à une interface purement textuelle. L'enjeu industriel est direct : les politiques robotiques actuelles reposent exclusivement sur des commandes linguistiques explicites, forçant l'opérateur à verbaliser chaque intention, une friction significative dans les environnements collaboratifs et sur les lignes d'assemblage. En capturant le geste et le regard comme canaux implicites, EDITH rapproche l'interaction humain-robot des modes naturels de collaboration entre humains et ouvre une voie vers des manipulateurs plus accessibles à des opérateurs non formés. La représentation en keyframe ancre l'intention dans la scène réelle plutôt que dans un espace de tokens abstrait, adressant partiellement le gap entre instructions ambiguës et exécution physique précise, une limitation bien documentée des approches VLA (Vision-Language-Action) à entrée textuelle seule. EDITH s'inscrit dans un mouvement plus large de politiques multimodales pour la manipulation robotique, aux côtés de travaux comme Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA, qui combinent vision et langage mais conservent le texte comme unique interface d'intention. L'originalité d'EDITH réside dans l'exploitation du gaze tracking comme signal de sélection d'objet implicite, une approche étudiée en recherche mais rarement intégrée dans une politique bout-en-bout déployée sur robot réel. Le travail, publié en preprint sur arXiv (2606.10276), inclut le code source et des vidéos de démonstration sur robot physique, mais ne mentionne aucun partenaire industriel ni timeline de déploiement commercial. Les prochaines étapes naturelles concerneront la robustesse du gaze tracking en environnement industriel bruité et la validation sur des tâches d'assemblage plus complexes.

RechercheOpinion
1 source