Aller au contenu principal

Dossier arXiv cs.RO — page 6

2027 articles · page 6 sur 41

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

KRVF : représentation du monde en voxels sémantiques sensible à la source pour la manipulation mobile embarquée
251arXiv cs.RO RecherchePaper

KRVF : représentation du monde en voxels sémantiques sensible à la source pour la manipulation mobile embarquée

Des chercheurs ont déposé sur arXiv (identifiant 2606.26321) un rapport technique décrivant KRVF, un système de représentation sémantique du monde en voxels conçu pour les manipulateurs mobiles soumis à des contraintes de calcul embarqué. L'architecture attribue à chaque voxel cinq propriétés: occupation de l'espace, couleur, évidence sémantique, fraicheur temporelle de la donnée et source d'origine de la mesure. Ce dernier attribut, la "conscience de la source", est le trait distinctif du système: il trace l'origine de chaque information, qu'elle provienne d'un capteur direct, d'une hypothèse a priori ou d'une inférence. L'implémentation repose sur ROS 2 et traite des flux RGB-D en temps réel pour construire une mémoire du robot orientée tâche, centrée sur la localisation des objets saisissables et des candidats à la préhension. L'acronyme KRVF n'est pas développé dans l'abstract disponible. L'enjeu technique central est la robustesse aux défaillances des capteurs de profondeur, problème récurrent en déploiement réel (occlusions, surfaces spéculaires, zones hors portée). Les pipelines de reconstruction classiques, optimisés pour la fidélité géométrique globale, corrompent silencieusement leur modèle persistant quand les mesures de profondeur sont absentes ou erronées. KRVF répond en séparant explicitement l'occupation mesurée des hypothèses sémantiques a priori: le robot peut raisonner sur un objet probable sans altérer la géométrie de référence. La carte existante sert également à générer une profondeur synthétique pour combler les lacunes capteur, fermant une boucle de rétroaction entre cartographie et perception. Ces choix ciblent directement les déploiements sans infrastructure cloud: la cognition spatiale s'exécute entièrement à bord du robot, sans latence réseau. Ce travail s'inscrit dans une dynamique de recherche active sur la représentation du monde pour robots mobiles, aux côtés de systèmes comme ConceptFusion ou LERF qui explorent des cartes neuronales 3D interrogeables en langage naturel. Sur le marché des manipulateurs mobiles, des acteurs comme Boston Dynamics (Spot ARM), Hello Robot (Stretch) ou des startups comme Agility Robotics et 1X Technologies cherchent précisément ce type de module de perception embarqué à faible empreinte de calcul. KRVF reste un préprint non évalué par les pairs, sans benchmark comparatif public ni annonce de mise à disposition du code: c'est une contribution architecturale cohérente, mais dont la portée industrielle dépendra d'une validation expérimentale sur des plateformes réelles et dans des scénarios adversariaux.

1 source
Humanoid-DART : loco-manipulation humanoïde par augmentation guidée par diffusion, ré-étiquetage et suivi
252arXiv cs.RO 

Humanoid-DART : loco-manipulation humanoïde par augmentation guidée par diffusion, ré-étiquetage et suivi

Une équipe de chercheurs a publié en juin 2026 sur arXiv (réf. 2606.26855) un cadre d'apprentissage baptisé Humanoid-DART, conçu pour entraîner des robots humanoïdes à des tâches combinant locomotion et manipulation d'objets (la loco-manipulation). Le système fonctionne en mode auto-supervisé : il démarre à partir d'un nombre réduit de démonstrations humaines, puis étend progressivement son répertoire comportemental sans nécessiter d'interventions expertes continues. L'architecture associe un modèle de diffusion, utilisé pour générer des trajectoires conditionnées sur un objectif, à un agent d'apprentissage par renforcement chargé de les suivre sur une gamme de tâches loco-manipulation. Les auteurs rapportent des résultats favorables lors d'ablations et de comparaisons avec des méthodes de référence, sans toutefois publier de métriques quantitatives détaillées dans ce résumé préliminaire. Ce travail s'attaque à l'un des goulots d'étranglement structurels du domaine : le coût de collecte de démonstrations diversifiées et la dépendance aux corrections humaines en cas d'échec de la politique. La combinaison diffusion + RL permet à la politique d'explorer automatiquement l'espace des objectifs, réduisant mécaniquement le volume de données d'imitation nécessaires à l'amorçage. Pour les équipes industrielles cherchant à déployer des humanoïdes sur des tâches variées (manutention, assemblage, logistique), cette piste suggère une voie vers un scaling moins linéaire en coût humain, une hypothèse que le secteur cherche activement à valider, notamment pour réduire le sim-to-real gap sur des comportements multi-étapes. Humanoid-DART s'inscrit dans un mouvement plus large qui mise sur les modèles génératifs pour contourner la rareté des données de démonstration. Des approches concurrentes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA misent également sur des architectures de type VLA (Vision-Language-Action), avec des capacités loco-manipulation partiellement annoncées mais rarement démontrées à l'échelle en environnement non contrôlé. Ce papier, soumis comme preprint sans avoir encore passé la revue par les pairs, se positionne sur le segment de l'auto-amélioration à partir de peu de données, un axe de recherche actif chez plusieurs laboratoires académiques et industriels. Aucun déploiement terrain ni partenariat industriel n'est mentionné à ce stade.

RecherchePaper
1 source
MAPL : apprentissage des préférences multi-objectifs pour la locomotion robotique
253arXiv cs.RO 

MAPL : apprentissage des préférences multi-objectifs pour la locomotion robotique

Des chercheurs présentent MAPL (Multi-Objective AI-Informed Preference Learning), un cadre d'apprentissage par renforcement pour la locomotion quadrupède qui remplace les fonctions de récompense manuelles par des préférences générées par LLM. Publié sur arXiv (réf. 2606.25398) en juin 2025, le système soumet des paires de trajectoires à un grand modèle de langage, qui les évalue selon plusieurs critères sémantiques distincts, formulés en langage naturel générique et invariants selon le terrain. Ces préférences par objectif alimentent un modèle de scoring à plusieurs têtes, dont les sorties sont agrégées en récompense scalaire pour l'optimisation de politique. Sur quatre environnements de simulation quadrupède, les auteurs rapportent des performances comparables ou supérieures à des récompenses conçues par des experts du domaine. L'intérêt de MAPL tient à sa décomposition structurée des objectifs, là où les méthodes LLM existantes se limitent à un jugement global entre comportements. En robotique industrielle, la conception de fonctions de récompense reste un goulot d'étranglement reconnu, exigeant de longues itérations entre ingénieurs RL et spécialistes métier. Substituer ce travail par des descriptions en langage naturel, réutilisables sans réécriture d'équations, réduirait le coût d'adaptation à de nouvelles tâches. La décomposition en critères distincts offre aussi une meilleure interprétabilité : il devient possible d'identifier quels objectifs sont en tension, ce qui facilite le débogage comportemental. MAPL s'inscrit dans la vague d'automatisation de la conception de récompenses via LLM, initiée notamment par EUREKA (NVIDIA, 2023), qui générait directement du code de récompense via GPT-4, et par RL-VLM-F, qui exploite des modèles vision-langage pour évaluer les comportements. La locomotion quadrupède est un benchmark standard utilisé par des projets comme ANYmal (ETH Zurich) et les plateformes Unitree. Plusieurs limites méritent d'être signalées : l'article reste un preprint non relu par les pairs, les expériences sont menées uniquement en simulation sans validation physique, et le LLM utilisé pour générer les préférences n'est pas spécifié, ce qui complique la reproductibilité. Les extensions naturelles concernent la validation sur robot réel et l'application à des morphologies plus complexes, comme les humanoïdes, où l'ingénierie de récompense est particulièrement coûteuse.

RecherchePaper
1 source
MIL-LC : architecture robuste de localisation multimodale par fusion magnétomètre-inertiel-LiDAR
254arXiv cs.RO 

MIL-LC : architecture robuste de localisation multimodale par fusion magnétomètre-inertiel-LiDAR

Une équipe de recherche publie sur arXiv (identifiant 2606.25796, juin 2026) un framework de localisation multimodale baptisé MIL-LC, qui fusionne trois sources de données : un magnétomètre, une centrale inertielle (IMU) et un LiDAR, montés sur une suite de capteurs conçue spécifiquement pour les robots mobiles autonomes (AMR). Le système cible les environnements où le GPS est absent et où les méthodes classiques échouent : parkings souterrains, hôtels, open-spaces à géométrie répétitive ou sans texture distinctive. MIL-LC est conçu pour maintenir une localisation fiable dans deux scénarios critiques : la dégénérescence géométrique du LiDAR (tunnels, couloirs uniformes), et l'évolution de la carte magnétique au fil du temps lors de déploiements longue durée. Les résultats présentés couvrent des tests en simulation et en environnement réel, sans chiffres de précision publiés dans le résumé disponible. L'intérêt industriel réside dans la promesse d'un déploiement sans infrastructure supplémentaire. Les solutions actuelles de localisation indoor pour AMR s'appuient soit sur des features géométriques ou visuelles (fragiles en environnement répétitif), soit sur des balises UWB, Wi-Fi ou QR (coût d'installation, maintenance, rigidité de déploiement). Le champ magnétique ambiant (AMF), lui, est omniprésent et ne nécessite aucun équipement terrain. L'apport de MIL-LC est de transposer cette idée, jusqu'ici explorée uniquement en contexte piéton avec des smartphones, à un AMR équipé d'une suite capteurs dédiée. Pour un intégrateur ou un COO industriel, cela signifie potentiellement réduire les prérequis d'installation dans des bâtiments complexes, un frein récurrent à l'adoption. La fusion magnétomètre-IMU pour la localisation piétonne a été explorée depuis plusieurs années par des laboratoires de robotique (notamment en Chine, en Europe et au Japon), mais son application aux AMR industriels restait largement ouverte. Les alternatives dominantes sur le marché AMR indoor incluent le SLAM LiDAR pur (Sick, Hokuyo, Livox), la vision (Boston Dynamics, Locus Robotics), et les systèmes hybrides LiDAR+vision. Côté français, des acteurs comme Exotec (logistique) ou Balyo déploient des AMR en entrepôts structurés, moins exposés aux environnements dégradés ciblés ici. MIL-LC reste pour l'instant une contribution académique en preprint, sans annonce de déploiement ni de partenariat industriel. Une soumission vers une conférence de référence (ICRA ou IROS) constituerait la prochaine étape naturelle avant toute validation à l'échelle.

UEImpact indirect pour les déployeurs français d'AMR (Exotec, Balyo) qui opèrent majoritairement en entrepôts structurés ; la contribution reste un preprint sans métriques publiées ni validation industrielle, à suivre si soumis à ICRA/IROS.

RecherchePaper
1 source
GROVE : simulation de piétons fondée sur le langage naturel pour la navigation sociale interactive de robots
255arXiv cs.RO 

GROVE : simulation de piétons fondée sur le langage naturel pour la navigation sociale interactive de robots

GROVE (Grounded Robot-Oriented Vehicle Environment), présenté dans un preprint arXiv (2606.25504) déposé fin juin 2026, est un framework de simulation de piétons piloté par langage naturel, conçu pour entraîner et évaluer des robots de navigation sociale. Le système accepte des instructions textuelles pour générer des scénarios de simulation: trois presets préconfigurés couvrent les situations d'urgence, de file d'attente et de déplacement ordinaire, mais l'utilisateur peut aussi saisir un prompt libre pour obtenir un scénario entièrement personnalisé. Trois modules distincts gèrent respectivement le comportement humain à long horizon (trajectoires et intentions globales), la navigation piétonne à moyen horizon (évitement, flots de foule), et les interactions sociales à court horizon entre robot et individus. GROVE s'intègre nativement dans Isaac Sim (NVIDIA), Gazebo et RViz. Les scènes de validation couvrent des environnements résidentiels, hospitaliers et de bureau. Le principal verrou que GROVE cherche à lever est le coût de génération manuelle de données de simulation: aujourd'hui, produire un scénario crédible (couloir d'hôpital en heure de pointe, évacuation d'urgence) exige un travail de paramétrage fastidieux, répété à chaque variante. Déléguer cette configuration au langage naturel réduit la friction pour les équipes non-spécialistes et accélère la diversification des données d'entraînement. La sélection dynamique des algorithmes de l'état de l'art par module vise explicitement à comprimer le sim-to-real gap, défaillance structurelle qui pénalise le transfert des politiques apprises en simulation vers des robots déployés en milieu réel. Sur le papier, l'architecture modulaire permet aussi de mettre à jour chaque couche indépendamment quand un nouvel algorithme de navigation ou de prédiction de trajectoire devient disponible. La navigation sociale robotique est un champ actif depuis plus d'une décennie, avec des modèles fondateurs comme le Social Force Model et des outils de simulation existants (PedSim, pedsim\_ros, SEAN) qui imposaient des paramétrages rigides et manuels. GROVE s'inscrit dans une tendance plus large d'utilisation des LLM comme interface de configuration pour les pipelines de simulation, une direction explorée parallèlement dans la génération procédurale de scènes 3D. Important à noter: la validation présentée est uniquement qualitative, sans benchmark quantitatif sur des métriques standardisées comme celles de trajnet++ ou BARN. Les affirmations sur la "haute fidélité" de simulation restent donc à vérifier sur robot réel. Le preprint ne mentionne ni déploiement en production ni partenariat industriel.

RecherchePaper
1 source
RTFF : politique de mise à plat de tissu aléatoire vers cible avec manipulateur bi-bras
256arXiv cs.RO 

RTFF : politique de mise à plat de tissu aléatoire vers cible avec manipulateur bi-bras

Des chercheurs ont publié sur arXiv (réf. 2510.00814v2) une méthode robotique pour aplatir automatiquement un tissu froissé et le repositionner dans une pose cible arbitraire définie par l'utilisateur, à l'aide d'un manipulateur bi-bras. La tâche, baptisée RTFF (Random-to-Target Fabric Flattening), va au-delà du simple froissage-défroissage : le système doit simultanément éliminer les faux plis et aligner le tissu sur une configuration précise, deux objectifs structurellement antagonistes puisque tout aplatissement déplace la pose, et tout réalignement tend à réintroduire des plis. L'approche repose sur l'ancrage de l'état courant et de l'état cible du tissu à un même maillage de référence (template mesh), ce qui permet une évaluation directe au niveau des sommets (vertex-level) sans recalage préalable. Sur cette représentation, les auteurs ont développé une politique hybride combinant imitation learning et visual servoing (IL-VS), avec un composant clé baptisé MACT (Mesh Action Chunking Transformer) : ce transformeur exploite la structure du maillage pour réaliser un alignement grossier conditionné par l'objectif à partir d'un petit nombre de démonstrations, avant qu'un étage de visual servoing assure la convergence précise vers la cible. Les expériences sont menées sur un vrai système bi-bras à téléopération, avec généralisation à des poses cibles, des types de tissus et des échelles non vus pendant l'entraînement. Ce résultat est notable pour la manipulation d'objets déformables (DOM), un sous-domaine où le sim-to-real gap reste structurellement élevé en raison de la variabilité infinie des états du tissu et des occlusions causées par les plis. L'architecture MACT est intéressante car elle extrait de l'information structurée (maillage) plutôt que des images brutes, ce qui réduit l'ambiguïté de représentation typique des approches vision-seule. Le fait que la politique généralise à des tissus non vus à partir d'un ensemble compact de démonstrations suggère une efficacité de données supérieure aux pipelines RL purs, souvent gourmands en interactions simulées. Pour les intégrateurs industriels ciblant la manipulation textile (confection, logistique, blanchisserie), c'est un signal que les approches hybrides IL+VS méritent attention ; la limite reste la validation sur un seul système de téléopération en laboratoire, sans métriques de cycle time ni de robustesse sur longue durée. La manipulation de textiles en robotique est un problème ouvert depuis plusieurs décennies, historiquement traité par des méthodes analytiques, de la vision par ordinateur classique, ou plus récemment par du reinforcement learning en simulation. Des travaux récents comme pi0 de Physical Intelligence et les approches VLA (Vision-Language-Action) ont renouvelé l'intérêt pour les politiques généralisables sur objets déformables, mais sans cibler spécifiquement le repositionnement joint. Du côté des acteurs industriels, des startups comme Apptronik, 1X ou Kepler explorent la manipulation de tissus dans des contextes de logistique ou d'assistance, mais restent sur des tâches de saisie-dépose. Aucun acteur européen ou français n'est mentionné dans ce travail académique. La prochaine étape naturelle serait l'intégration dans un pipeline plus autonome avec perception RGB-D sans marqueurs, et des tests de robustesse sur des cycles répétés en environnement non contrôlé.

RecherchePaper
1 source
ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain
257arXiv cs.RO 

ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain

Une équipe de chercheurs a publié sur arXiv (référence 2503.05226v2) un framework décisionnel baptisé Reward-Centered ReST-MCTS, conçu pour améliorer la robustesse des politiques de manipulation robotique en environnement incertain. Le système s'appuie sur la recherche arborescente Monte Carlo (MCTS) augmentée d'un mécanisme de centrage de récompense : les signaux intermédiaires sont décomposés en quatre canaux distincts (règles explicites, heuristiques, réseau neuronal optionnel, estimation de valeur), puis normalisés par rapport à des contextes de tâche comparables afin de biaiser ou corriger la recherche sans altérer l'évaluation terminale. Le résultat central porte sur le benchmark LIBERO-Spatial en mode stress, avec perturbations du canal d'action : 0 succès sur 10 sans le vérificateur, contre 9 sur 10 avec. En conditions propres, le modèle de base OpenVLA-OFT atteint 10/10 avec ou sans le module RC, confirmant que le gain est spécifique aux scénarios dégradés. Des tests complémentaires sur ManiSkill couvrent le bruit d'observation, les décalages de pose initiale et les défaillances de primitives motrices. Ce résultat intéresse les intégrateurs et décideurs industriels parce qu'il cible directement le "reality gap" : les politiques VLA (Vision-Language-Action) telles qu'OpenVLA-OFT se comportent correctement en laboratoire mais se dégradent sous perturbation réelle (éclairage variable, position des pièces, usure des actionneurs). RC ReST-MCTS ne se pose pas comme une politique de remplacement, mais comme un vérificateur à inférence (test-time verifier) capable de corriger les actions générées par un VLA existant sans réentraîner le modèle de base. Pour un architecte système ou un COO, cela signifie qu'il devient possible de renforcer une politique déployée contre la variance du monde réel sans déclencher un cycle complet de fine-tuning, ce qui réduit considérablement le coût opérationnel de la mise à l'échelle. La recherche arborescente Monte Carlo appliquée à la manipulation robotique souffrait jusqu'ici de récompenses éparses en fin de rollout et d'un coût computationnel élevé pour les arbres profonds. ReST-MCTS avait déjà proposé d'itérer sur ce problème via du self-improvement guidé ; RC ReST-MCTS ajoute la couche de centrage pour stabiliser le signal dans des domaines bruités. Le benchmark LIBERO, issu d'une collaboration académique inter-universités, reste un standard reconnu pour la manipulation multi-tâche, aux côtés de ManiSkill (Université du Maryland). Les concurrents directs incluent les approches de test-time compute scaling de Physical Intelligence (pi0), ainsi que les méthodes de distillation et DAgger. Les auteurs restreignent volontairement leurs affirmations à un cadre "same-backbone" et s'abstiennent de toute comparaison de supériorité sur des benchmarks généraux, posture méthodologiquement honnête mais qui limite la portée des conclusions à ce stade de la recherche.

RechercheOpinion
1 source
RE4 : imitation des interactions avec les objets, sensible aux transformations, via des modes de manipulation
258arXiv cs.RO 

RE4 : imitation des interactions avec les objets, sensible aux transformations, via des modes de manipulation

Une équipe de chercheurs a soumis le 24 juin 2026 sur arXiv (référence 2606.24403) RE4, un cadre d'apprentissage par imitation pour la manipulation d'objets en robotique. L'approche articule quatre étapes modulaires : estimation légère de la pose de l'objet cible par auto-supervision sur les données de démonstration disponibles, récupération d'une démonstration compatible avec le mode de manipulation identifié, transformation géométrique de cette démonstration pour correspondre à la configuration courante de la scène, puis replanification locale reliant l'état initial au point de récupération tout en respectant les contraintes de mode, avant de dérouler la séquence transformée. Le système a été évalué sur deux benchmarks de référence de la communauté : Push-T (en modalité image et état pur) et Robomimic. Un protocole adversarial spécifique a également été construit pour cibler les zones de données rares du Push-T en mode image, afin d'éprouver la robustesse de l'approche en dehors de la distribution d'entraînement. Ce travail s'attaque à une tension centrale de l'imitation learning : les méthodes de bout en bout basées sur la diffusion, comme Diffusion Policy, ou sur les flux normalisant atteignent de bonnes performances, mais sacrifient toute interprétabilité, ce qui complique le diagnostic et la validation en contexte industriel. RE4 démontre qu'il est possible de maintenir des performances compétitives en s'appuyant sur des briques théoriques issues de la manipulation planifiée, notamment la notion de mode de manipulation, qui encode des contraintes de contact et de transition de trajectoire. La robustesse observée en régime de données rares est un signal pertinent pour les intégrateurs industriels : les jeux de démonstrations terrain dépassent rarement quelques dizaines d'exemples par tâche, rendant la densité de données un critère de sélection concret. L'apprentissage par imitation pour la manipulation robotique a connu depuis 2022 une accélération portée par ACT, Diffusion Policy puis Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, architectures qui ont montré une généralisation impressionnante au prix d'une opacité croissante. RE4 s'inscrit dans un courant concurrent qui défend des approches hybrides combinant connaissance géométrique et représentations centrées objet, dans la lignée de PerAct ou RVT. Il convient de souligner qu'il s'agit d'un preprint académique sans validation sur robot physique publiée à ce stade : les résultats sont entièrement simulés ou en environnement de benchmark logiciel. Les prolongements naturels incluent une validation hardware et une extension à des tâches de manipulation multi-étapes, qui constitueront le vrai test de transférabilité de l'approche.

RecherchePaper
1 source
InSight : acquisition autonome de compétences via des VLA pilotables
259arXiv cs.RO 

InSight : acquisition autonome de compétences via des VLA pilotables

Une équipe de chercheurs présente InSight (arXiv:2606.24884, juin 2026), un cadre d'acquisition autonome de compétences pour les modèles vision-language-action (VLA). L'architecture comporte deux étapes : d'abord un pipeline de segmentation automatique qui décompose des démonstrations existantes en primitives étiquetées ("déplacer la pince vers le bol", "soulever vers le haut", "verser la bouteille") via un VLM de décomposition de plans couplé aux poses de l'effecteur terminal ; ensuite un flywheel de données guidé par VLM qui identifie les primitives manquantes pour accomplir une nouvelle tâche, tente des démonstrations autonomes via un contrôle bas niveau proposé par le VLM, et intègre automatiquement les succès dans l'ensemble d'entraînement. Le système a été validé sur cinq tâches de manipulation : retournement de blocs, fermeture de tiroir, balayage, vissage et versement, en simulation et en conditions réelles, sans aucune démonstration humaine des compétences cibles. L'enjeu central : les VLA actuels sont structurellement limités par leur corpus d'entraînement initial, et toute extension vers de nouvelles tâches impose aujourd'hui un coût élevé en téléopération humaine. InSight propose une boucle d'auto-amélioration fermée où les primitives apprises peuvent être composées pour exécuter des tâches à horizon long sans intervention humaine supplémentaire. Pour un intégrateur ou un COO industriel, cela représente une réduction potentielle du coût d'onboarding robotique. Les démonstrations publiées restent cependant relativement simples, et les auteurs ne fournissent pas de métriques de cycle time ni de taux de succès pour des scénarios de production complexes, ce qui invite à la prudence avant toute extrapolation opérationnelle. Les modèles VLA sont un terrain de compétition intense entre Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Google DeepMind (RT-2) et Figure AI (Helix pour la manipulation humanoïde). Tous partagent le même verrou : un plafond de capacités figé à l'entraînement. InSight s'inscrit dans une tendance émergente de systèmes capables de s'auto-étendre, proche des travaux sur les agents génératifs de données. Cette publication demeure un preprint académique sans déploiement annoncé ; les auteurs prévoient de rendre le code public via insight-vla.github.io. Les prochaines étapes concernent la robustesse du flywheel sur des primitives moins déterministes et la validation en environnement industriel réel sur des bras à plus de six degrés de liberté.

IA physiqueOpinion
1 source
Attribution de tâches multiples à bundle variable avec estimation sélective des coûts pour les systèmes multi-agents
260arXiv cs.RO 

Attribution de tâches multiples à bundle variable avec estimation sélective des coûts pour les systèmes multi-agents

Une équipe de chercheurs a publié le 24 juin 2026 sur arXiv (arXiv:2606.24462) un framework distribué pour l'allocation réactive de tâches dans les systèmes multi-robots. L'approche repose sur des enchères combinatoires à deux niveaux de fidélité : chaque robot explore localement l'espace des bundles de tâches via un arbre de recherche guidé par une heuristique légère (distance euclidienne), puis applique une planification de chemin haute-fidélité uniquement aux candidats les plus prometteurs, selon une stratégie best-first. Les offres raffinées sont ensuite soumises à un coordinateur central qui résout un problème de set packing pour garantir la faisabilité globale et maximiser l'utilité collective. Des simulations dans plusieurs environnements confirment que le framework améliore les performances par rapport aux enchères combinatoires conventionnelles, avec des tailles de bundles variables et sans exposer l'état interne des agents. L'obstacle que ce travail attaque est bien connu dans les flottes de robots mobiles autonomes (AMR) : les enchères combinatoires garantissent des allocations efficaces, mais la génération exhaustive de bundles croît exponentiellement avec le nombre de tâches et d'agents, rendant la méthode inutilisable en temps réel dès que la planification de chemin précise est nécessaire pour valider les coûts. Le découplage en deux étapes - exploration rapide bas-fidélité, raffinement sélectif haute-fidélité - permet de conserver les garanties théoriques tout en restant tractable pour des réallocations dynamiques en cours d'opération. Pour les intégrateurs de flottes industrielles, cela ouvre une voie concrète vers des systèmes capables de gérer des arrivées de tâches imprévues sans replanification globale, et sans exposer les modèles de coût propriétaires des agents - un point de confidentialité non négligeable dans des environnements multi-opérateurs. L'allocation multi-robot de tâches est un problème de recherche opérationnelle actif depuis les années 2000, avec des références comme le CBBA (Consensus-Based Bundle Algorithm) ou les approches de marché distribué. La complexité combinatoire reste le principal frein à la commercialisation d'un ordonnancement véritablement dynamique pour les flottes d'entrepôt, secteur où des acteurs comme Exotec (France), 6 River Systems ou Locus Robotics opèrent avec des systèmes souvent limités en réactivité. Ce papier reste toutefois au stade simulation : aucune validation sur robots physiques n'est rapportée, laissant le gap sim-to-real non résolu. Les suites naturelles incluraient des tests sur flottes réelles, la gestion des pannes d'agents en cours d'exécution, et l'extension à des environnements partiellement observables.

UEExotec (France), acteur majeur des flottes AMR d'entrepôt, est citée comme bénéficiaire potentiel de ce framework pour la réallocation dynamique de tâches, mais l'absence de validation sur robots physiques limite l'impact concret à court terme.

RecherchePaper
1 source
PDS Joint : une articulation à double spirale paramétrique pour mains dextériques
261arXiv cs.RO 

PDS Joint : une articulation à double spirale paramétrique pour mains dextériques

Des chercheurs ont publié sur arXiv (référence 2606.24377) la conception d'une articulation souple dite PDS (Parametric Double-Spiral), destinée aux mains robotiques dextères. L'articulation repose sur deux gabarits de spirales imbriquées, Archimédienne et logarithmique, qui permettent de façonner de manière indépendante la rigidité directionnelle selon trois modes de déformation : flexion/extension, abduction/adduction et pronation/supination. Un paramètre d'asymétrie ajustable contrôle la distribution de rigidité pour équilibrer stabilité de préhension et résistance à l'hyperextension. Le joint embarque également une proprioception inductive et un pipeline de calibration par apprentissage : un réseau MLP, entraîné à partir du suivi de marqueurs ArUco, réduit l'erreur d'estimation angulaire de 41,6 % par rapport aux méthodes classiques d'interpolation de courbes, en particulier sur le mouvement d'abduction/adduction, le plus difficile à instrumenter. La main open-source intégrant ces articulations a été validée sur neuf objets du quotidien et des interactions en contact direct avec des humains. Cette contribution s'attaque à un verrou bien identifié de la robotique de manipulation : la rigidité de la main doit être à la fois adaptable selon la direction pour saisir sans casser, et mesurable en temps réel pour fermer la boucle de commande. Les articulations rigides classiques ne permettent pas cette compliance directionnelle ; les solutions souples existantes peinent à combiner grande amplitude de mouvement, rigidité anisotrope calibrée et proprioception fiable. La réduction de 41,6 % de l'erreur via MLP est un résultat concret qui valide l'approche apprentissage pour la calibration de capteurs inductifs non linéaires sous grande déformation, un problème récurrent dans les mains à câbles ou tendons. La recherche sur les mains dextères a connu une accélération notable depuis 2023, tirée par la demande en manipulation fine pour les robots humanoïdes (Unitree, Figure, Agility) et les manipulateurs fixes. Des mains de référence comme la Shadow Dexterous Hand (Shadow Robot) ou la LEAP Hand (Carnegie Mellon) imposent la barre sur le nombre de degrés de liberté, mais leur proprioception reste souvent externe ou peu précise sous déformation. L'approche PDS, paramétrique et open-source, se positionne comme brique de recherche reproductible plutôt que produit commercial. Les prochaines étapes probables sont l'intégration dans un pipeline de contrôle par imitation ou par VLA (Vision-Language-Action), où la qualité de la proprioception articulaire conditionne directement les performances en manipulation contact-riche.

RecherchePaper
1 source
Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots
262arXiv cs.RO 

Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots

Une équipe de recherche a publié le 24 juin 2026 sur arXiv un article présentant GRA (Geometry-guided Representation Alignment), une méthode d'adaptation des modèles Vision-Language-Action (VLA) qui exploite des vidéos synthétiques de robots. Le problème de départ est concret : entraîner un VLA nécessite des millions de paires vidéo-action issues de téléopération réelle, une donnée rare et coûteuse à collecter. Les approches existantes contournent cette contrainte en générant des vidéos synthétiques à partir de démonstrations humaines, puis en tentant de récupérer des pseudo-actions à partir des pixels générés. GRA rompt avec cette logique : au lieu d'extraire des commandes moteur depuis des images synthétiques, la méthode identifie ce qui survit vraiment à la génération vidéo, à savoir la géométrie spatiale de la trajectoire de l'effecteur. Ces waypoints 2D sont calculés à partir de la vidéo humaine source via estimation de pose, retargeting, simulation et projection calibrée, puis injectés uniquement dans le backbone de perception visuelle du VLA via une tête auxiliaire 2D. La tête d'action, elle, reste entraînée exclusivement sur des démonstrations réelles. Sur des tâches de manipulation en environnement réel, GRA surpasse les baselines à pseudo-actions à budget de données équivalent et réduit significativement l'écart avec des politiques entraînées sur nettement plus de données réelles. Ce résultat a une portée conceptuelle directe pour quiconque développe des politiques de manipulation à grande échelle. Il formalise ce que les praticiens suspectaient : extraire des commandes moteur depuis des pixels synthétiques est une abstraction mal posée. La vidéo encode le "où" (trajectoire géométrique), pas le "comment" (signal de contrôle). En exploitant uniquement ce qui est préservé par la génération, GRA résout proprement un des obstacles centraux du sim-to-real : l'accumulation d'erreurs introduite par les pseudo-actions. Cela valide aussi l'hypothèse que les VLA peuvent tirer parti de données synthétiques sans polluer leur espace d'action, un point crucial pour les équipes cherchant à réduire le coût de la collecte de données de téléopération. Le contexte est celui d'une course intense à la scalabilité des données pour les modèles VLA : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure (Helix), et d'autres investissent massivement dans la génération de données synthétiques comme levier de passage à l'échelle. La plupart de ces pipelines souffrent précisément du problème que GRA adresse. L'approche reste à ce stade un preprint académique sans déploiement industriel annoncé, et les expériences présentées portent sur des tâches de manipulation tabletop contrôlées, ce qui laisse ouverte la question de sa robustesse sur des environnements moins structurés. Les suites naturelles incluent l'intégration de ce principe dans des pipelines de données à grande échelle et son extension à des trajectoires 3D ou à des architectures diffusion-based comme Pi-0.

IA physiqueOpinion
1 source
SlipSense : détection du glissement en temps réel pour robots à pattes par capteurs multimodaux
263arXiv cs.RO 

SlipSense : détection du glissement en temps réel pour robots à pattes par capteurs multimodaux

Des chercheurs ont publié SlipSense, un système de détection de glissement en ligne pour robots à pattes, présenté le 24 juin 2026 sur arXiv (2606.24350). Le cadre repose sur un pied sensorisé léger et personnalisé monté sur un quadrupède Unitree Go1, couplé à un modèle LSTM qui infère les forces de réaction au sol en temps réel. Le système détecte les glissements en phase initiale -- avant toute instabilité irréversible -- avec un déplacement moyen de 24,1 ± 6,4 mm, pour une précision globale de 85,9 %. Comparé à la baseline cinématique standard (vitesse du pied estimée par odométrie d'état), SlipSense offre une résolution de détection 3,3 fois plus fine et une amélioration relative de 24 % en précision. Les tests ont été réalisés sur terrains glissants en mode aveugle, c'est-à-dire sans caméra ni information extéroceptive. L'intérêt opérationnel est clair : les méthodes proprioceptives classiques ratent les micro-glissements précoces parce qu'elles mesurent des effets cinématiques qui n'apparaissent qu'une fois le glissement déjà engagé. SlipSense anticipe ce seuil en exploitant directement les forces d'interaction sol-pied, ce qui ouvre la voie à une adaptation de démarche en temps réel -- ajustement des contraintes du contrôleur, estimation du coefficient de friction local, modification de la posture avant la chute. Pour les intégrateurs qui déploient des quadrupèdes sur sols industriels humides ou extérieurs enneigés, c'est un signal précurseur exploitable là où les encodeurs seuls échouent. Le Unitree Go1 est l'un des quadrupèdes les plus accessibles du marché, ce qui confère à cette publication une portée pratique au-delà du laboratoire. Les approches concurrentes en détection de glissement s'appuient majoritairement sur des IMU, des modèles de contact analytiques ou des réseaux entraînés sur simulation -- le sim-to-real restant un obstacle connu. SlipSense fait le pari opposé : capteur physique dédié et entraînement sur données réelles. Les auteurs positionnent explicitement ces travaux comme fondation pour des contrôleurs adaptatifs force-aware à venir, avec comme prochaine étape naturelle l'estimation en ligne de la friction et l'intégration dans une boucle de commande locomotion complète.

RecherchePaper
1 source
Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences
264arXiv cs.RO 

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

Une équipe de recherche propose FAFM (Frequency-Aware Flow Matching), une méthode de génération d'actions robotiques présentée en préprint arXiv (2606.20135, juin 2026), qui reformule le problème du flow matching pour la manipulation robotique dans le domaine fréquentiel. Le principe : plutôt que de prédire directement des séquences d'actions discrètes (des "chunks"), FAFM applique une transformée en cosinus discrète (DCT) sur ces séquences pour les convertir en coefficients fréquentiels, effectue le flow matching sur ces coefficients, puis reconstruit des actions continues via expansion en base cosinus. Pour garantir la cohérence temporelle, la méthode ajoute une contrainte de type Sobolev sur la dérivée temporelle du premier ordre, ce qui pénalise les changements brusques et atténue les erreurs hautes fréquences. L'approche s'applique sans paramètres réseau supplémentaires, aussi bien aux politiques de flow matching autonomes qu'aux modèles vision-langage-action (VLA). Les résultats sont validés sur les benchmarks LapGym, LIBERO et évitement d'obstacles, ainsi qu'en déploiement réel sur un bras Franka. L'intérêt industriel est direct : la fragmentation des fréquences de contrôle est un problème concret lors de l'agrégation de données de démonstration provenant de robots différents (certains à 10 Hz, d'autres à 50 Hz), et les méthodes actuelles de diffusion policy ou de flow matching standard y sont explicitement vulnérables. Les actions temporellement incohérentes qui en résultent dégradent la stabilité du contrôle en boucle fermée, un facteur bloquant pour le déploiement en production. Le fait que FAFM améliore simultanément le taux de succès, la fluidité du mouvement, la robustesse aux biais mécaniques et la vitesse de convergence sans modifier l'architecture existante est une proposition de valeur claire pour les intégrateurs : pas de refonte du pipeline, pas de surcoût computationnel. La compatibilité avec les VLA est également notable, car ces modèles dominent les annonces récentes (pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) et souffrent précisément de ce type d'artefacts temporels à l'inférence. Le flow matching s'est imposé ces dix-huit derniers mois comme alternative crédible à la diffusion policy (Chi et al., 2023, Columbia), avec des temps d'inférence plus courts et une meilleure expressivité multimodale. Les travaux récents de Physical Intelligence (pi-0, pi-0.5) et de Figure AI ont largement adopté ce paradigme pour leurs politiques générales. FAFM s'inscrit dans une tendance de raffinement de ces fondations plutôt que de rupture : on optimise la stabilité et la généralisation inter-fréquences, deux verrous identifiés lors des premiers déploiements industriels à grande échelle. La validation sur Franka reste modeste en termes de diversité de tâches, et le code est disponible sous revue anonyme, ce qui signifie que la méthode n'est pas encore auditée par la communauté. Les prochaines étapes naturelles seraient une validation sur des plateformes humanoïdes multi-articulées et sur des datasets hétérogènes à grande échelle, là où la question des fréquences mixtes est la plus aiguë.

RecherchePaper
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
265arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

IA physiquePaper
1 source
Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?
266arXiv cs.RO 

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Une équipe de chercheurs publie sur arXiv (2510.06492v2) une étude systématique des défaillances des modèles du monde latents face à des contraintes de sécurité partiellement observables. Appliquée à un bras manipulateur Franka Research 3 sur des tâches de cuisine, la recherche identifie deux modes de défaillance distincts. Le premier, appelé "estimation gap", survient quand l'observation courante ne révèle pas une grandeur critique pour la sécurité : la température d'une surface de cuisson, invisible en RGB seul, en est l'exemple central. Le second, le "prediction gap", désigne les situations où la défaillance devient observable dès qu'elle se produit, mais ne peut être anticipée à partir des observations disponibles. Les auteurs proposent deux diagnostics quantitatifs associés : une mesure d'observabilité de sécurité basée sur l'information mutuelle, et une mesure de prédictibilité future fondée sur des rollouts simulés. Deux stratégies de mitigation sont ensuite validées en hardware : la supervision multimodale privilégiée (ajout de capteurs thermiques ou tactiles au flux RGB) pour combler les estimation gaps, et la calibration de risque conforme (conformal risk calibration) pour les prediction gaps, avec des résultats mesurés sur le robot réel. Ces résultats posent une question structurante pour le secteur : les représentations latentes produites par un world model entraîné sur observations RGB sont-elles suffisantes pour garantir un contrôle fiable en environnement industriel ? La réponse empirique ici est non, et ce constat a des implications directes pour les intégrateurs qui déploient des bras robotisés sur des lignes de production où des variables non-visuelles (température, force de contact, couple) conditionnent la sécurité. La calibration conforme, issue de la théorie statistique de la prédiction, permet de borner le risque de violation de contrainte sans retrainer le modèle, ce qui représente un avantage pratique pour les déploiements existants. La contrepartie documentée est une conservatisme accru du contrôleur, se traduisant par une réduction du taux de complétion des tâches : la sécurité est améliorée, mais au prix d'une productivité moindre, un arbitrage classique que les COO devront quantifier pour leur contexte. Le travail s'inscrit dans la lignée des world models de type Dreamer et RSSM (Recurrent State Space Model), popularisés par DeepMind, qui apprennent une représentation compressée de l'état du monde pour planifier en espace latent. Cette approche gagne du terrain face aux politiques purement réactives, notamment dans les architectures VLA (Vision-Language-Action) portées par des équipes comme Physical Intelligence (Pi-0), Google DeepMind (GR00T) ou Figure AI. La plupart de ces modèles s'appuient sur des flux RGB ou RGBD, ignorant les modalités thermiques ou haptiques, ce que cette étude remet en cause sur des tâches à risque. Le Franka Research 3 est le banc d'essai standard de la communauté, ce qui facilite la reproductibilité. Les prochaines étapes probables incluent l'extension à des configurations multi-bras, l'intégration dans des pipelines VLA de production, et la question ouverte de savoir comment sélectionner automatiquement les modalités nécessaires à la sécurité pour une tâche donnée.

RechercheActu
1 source
RAM : la portée de l'apprentissage robotique au-delà des morphologies
267arXiv cs.RO 

RAM : la portée de l'apprentissage robotique au-delà des morphologies

Une équipe de chercheurs a publié en juin 2026, via arXiv (arXiv:2606.09108), un modèle de réseau de neurones baptisé RAM (Reachability Across Morphologies), conçu pour prédire l'espace de travail atteignable d'un bras robotique en temps quasi nul. Là où les méthodes traditionnelles d'échantillonnage ou de grilles voxels opèrent à l'échelle de la milliseconde ou plus, RAM atteint un score F1 de 86 % avec un temps d'inférence réduit de trois ordres de grandeur par rapport à la baseline, soit une exécution à l'échelle de la nanoseconde. Le modèle a été entraîné sur un jeu de données de 3×10^10 échantillons, générés exclusivement à partir de la cinématique directe. Sa caractéristique centrale : il est conditionné par la morphologie du robot, lui permettant de généraliser à des configurations inédites sans réentraînement, tout en intégrant nativement la détection des auto-collisions. L'enjeu opérationnel est direct. Le calcul du workspace atteignable intervient à chaque étape du cycle de vie d'un robot, conception morphologique, planification de trajectoire, placement en cellule d'intégration. Les méthodes disponibles à ce jour sont soit lentes, soit figées sur une morphologie unique, rendant l'exploration du design-space coûteuse en calcul. RAM étant différentiable, il peut s'insérer dans des boucles d'optimisation par gradient : les auteurs rapportent des accélérations d'un ordre de grandeur pour l'optimisation morphologique et de deux ordres pour la trajectoire. Pour un intégrateur ou un OEM, cela ouvre la voie à un co-design robot-cellule significativement plus rapide. Les représentations neurales implicites (NRI), popularisées par les NeRF pour la reconstruction 3D, s'imposent progressivement en robotique depuis 2023 pour encoder des fonctions géométriques complexes. RAM applique cette logique à la cinématique, en concurrence directe avec les cartes de joignabilité sur grille (précises mais lourdes) et les surrogates appris à morphologie fixe. Aucun acteur commercial n'est cité dans la publication ; la contribution reste académique, accompagnée d'un site de démonstration. Les suites naturelles seraient l'intégration dans des pipelines de CAO robotique ou des plateformes de simulation telles qu'Isaac Lab ou MuJoCo.

RecherchePaper
1 source
Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation
268arXiv cs.RO 

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

Une étude soumise sur arXiv (arXiv:2606.05588, juin 2026) audit sept métriques de curation de démonstrations robotiques utilisées en apprentissage par imitation. Les chercheurs ont construit un banc d'essai contrôlé dans lequel des défauts sont injectés avec un type connu, puis évalué chaque métrique selon deux axes : sa capacité à séparer démonstrations défectueuses et saines, et son impact réel sur le taux de succès d'une politique de behavior cloning entraînée sur le sous-ensemble filtré. Les perturbations subtiles (bruit d'action corrélé, tremblements, troncatures) sont détectées par scoring outlier multivarié ; leur suppression restaure l'intégralité de l'écart de performance en aval. Les erreurs structurelles, en revanche, où une action incorrecte est exécutée à un moment décisif, restent invisibles à toutes les métriques action-only testées. Deux d'entre elles sont même inversées : elles notent ces démonstrations défectueuses comme étant de meilleure qualité et laissent la politique au niveau ou en dessous de la baseline non filtrée. Seules les métriques examinant la trajectoire d'état détectent ces erreurs, mais même la meilleure ne récupère qu'un tiers de l'écart de performance downstream. Ce résultat interpelle directement les équipes qui entraînent des politiques robotiques à partir de données de téléopération. Le filtrage standard par métriques d'action seules s'avère insuffisant dès que les défauts sont de nature structurelle, précisément les cas les plus difficiles à labelliser manuellement : ceux qu'un opérateur humain commet lors d'une hésitation ou d'un mauvais geste à un instant clé. L'étude établit également que haute précision de détection ne garantit pas d'amélioration downstream, une nuance critique pour toute pipeline industrielle de curation automatique prétendant améliorer la qualité des données à l'échelle. La course à la donnée de démonstration s'est accélérée avec des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques d'Optimus (Tesla), dont les performances en déploiement dépendent directement de la qualité des corpus téléopérés. Avec la multiplication des infrastructures de collecte, la curation automatique est devenue un noeud critique dans les pipelines de formation. Les chercheurs publient le banc d'essai et les implémentations en open source, offrant à la communauté un outil de référence pour auditer rigoureusement tout système de filtrage. Leurs conclusions confirment que la trajectoire d'état doit être intégrée à tout scoring sérieux, et que l'erreur structurelle reste le talon d'Achille des approches action-only.

RecherchePaper
1 source
Apprentissage de la représentation du contact pour l'odométrie des jambes
269arXiv cs.RO 

Apprentissage de la représentation du contact pour l'odométrie des jambes

Une équipe de chercheurs a publié sur arXiv (référence 2606.05501) une approche d'apprentissage de représentation auto-supervisée pour la détection de contact dans les robots à pattes, visant à améliorer l'odométrie locomotrice sans recourir à des capteurs de force aux extrémités. Le système repose exclusivement sur les encodeurs articulaires standard, présents sur la quasi-totalité des plateformes commerciales existantes. En modélisant les phases d'appui et de vol (stance et swing) de façon probabiliste, le framework permet d'estimer la vitesse du corps principal à partir de la chaîne cinématique des membres, en s'appuyant sur l'hypothèse classique que la vitesse du pied par rapport au monde est nulle en phase d'appui. Les résultats expérimentaux indiquent des performances supérieures aux méthodes supervisées nécessitant des capteurs additionnels et aux approches probabilistes de référence. Le code est publié en open source. L'enjeu est concret : l'odométrie par jambes est une brique fondamentale pour la navigation autonome des robots quadrupèdes et bipèdes, notamment lorsque le GNSS ou la vision sont dégradés. Or, les capteurs de réaction au sol (GRF sensors) alourdissent les pieds, augmentent la complexité mécanique et sont souvent aveugles aux glissements en contact, ce qui produit des dérives d'estimation même lorsque le pied est techniquement "posé". En éliminant cette dépendance sensorielle, cette approche ouvre la voie à un déploiement sur des plateformes à budget contraint, et surtout améliore la robustesse sur surfaces glissantes ou irrégulières, scénario typique des environnements industriels ou d'inspection. La nature auto-supervisée supprime également le coût d'annotation de données, un frein classique dans les pipelines de locomotion. Le problème de la détection fiable de la phase d'appui est étudié depuis l'essor des robots quadrupèdes comme ANYmal (ANYbotics) et Go1/Go2 (Unitree), ainsi que des bipèdes comme Spot (Boston Dynamics) ou Atlas. La majorité des stacks d'odométrie actuels, y compris ceux utilisés dans des frameworks open source comme Legged Gym ou OCS2, conservent une dépendance aux GRF sensors ou à des heuristiques de seuillage. Cette contribution s'inscrit dans une tendance plus large visant à rendre la locomotion avancée accessible sur des plateformes sans instrumentation de pointe, une direction également explorée par des labos européens comme le DLR ou l'INRIA. La prochaine étape naturelle sera la validation sur plusieurs morphologies de robots et dans des conditions de terrain dégradé, un benchmark que les auteurs n'ont pas encore publié.

UEL'approche intéresse directement des équipes comme l'INRIA qui travaillent sur la locomotion avancée, et pourrait être intégrée sans modification matérielle sur des plateformes européennes à budget contraint.

RecherchePaper
1 source
HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche
270arXiv cs.RO 

HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche

Une équipe de recherche a publié sur arXiv (2606.04825) HapTile, un jeu de données visuotactile destiné à l'apprentissage par imitation sur des tâches de manipulation à fort contact. Le dataset capture les interactions physiques à deux niveaux simultanément : des capteurs tactiles installés en bout d'effecteur sur les doigts du robot, et un retour haptique transmis en temps réel à l'opérateur humain lors de la télé-opération. Les tâches couvertes incluent le saisissement, le pliage de tissu, l'appui sur des boutons, l'empilement d'objets et d'autres activités courantes. Chaque séquence est associée à une instruction en langage naturel qui conditionne la politique de contrôle sur l'objectif de manipulation, avec des observations visuotactiles synchronisées et les trajectoires d'action correspondantes. Les chercheurs publient également un benchmarking avec deux modèles de base pour évaluer l'apport concret du signal tactile sur la qualité des politiques apprises. Ce travail s'attaque à un verrou bien identifié du domaine : la quasi-totalité des datasets VLA (Vision-Language-Action) existants sont purement visuels, ce qui limite les performances des politiques sur des tâches nécessitant un contrôle fin de la force ou du contact. Introduire le retour haptique côté opérateur lors de la collecte de données est particulièrement notable, les études antérieures ont montré que la qualité des démonstrations se dégrade sans ce retour, générant des trajectoires moins stables et moins reproductibles. HapTile tente de combler cette lacune en combinant dans un seul dataset la diversité des tâches, le conditionnement par le langage, les trajectoires d'action et la perception tactile, une combinaison jusqu'ici absente dans la littérature selon les auteurs. Reste à vérifier si l'amélioration mesurée sur les deux baselines se généralise à des architectures plus récentes comme Pi-0 ou OpenVLA. Ce preprint s'inscrit dans un courant de recherche actif autour de la perception multimoale pour la manipulation dextère, portée notamment par des labos comme le CMU Robotics Institute, MIT CSAIL et des groupes européens comme le LASA à l'EPFL. Du côté industriel, Apptronik, Figure et 1X investissent dans des mains instrumentées, mais les datasets publics à retour haptique restent rares. Le projet est reproductible sur un système robotique standard avec des capteurs tactiles de conception custom, ce qui peut faciliter l'adoption par d'autres équipes. Le dataset et les détails techniques sont accessibles sur haptile-dataset.github.io ; aucune timeline de publication formelle ni partenariat industriel n'est annoncé à ce stade.

UEDes groupes européens dont le LASA à l'EPFL sont cités comme acteurs du courant de recherche, mais aucune institution française ou de l'UE n'est impliquée directement dans la publication ; l'impact reste indirect via un dataset public librement réutilisable par les équipes européennes.

💬 Le truc vraiment malin ici, c'est pas le capteur tactile sur le robot, c'est le retour haptique côté opérateur pendant la collecte de démos. Ça change la qualité des trajectoires à la source, et c'est exactement ce que les autres datasets VLA n'ont jamais pris la peine de faire. Deux baselines pour le benchmark, bon, c'est un début, reste à voir si le gain tient face à Pi-0 ou OpenVLA.

IA physiqueOpinion
1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
271arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

IA physiqueOpinion
1 source
RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines
272arXiv cs.RO 

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

Une équipe de chercheurs a publié début juin 2026 RobotValues (arXiv:2606.03312), un benchmark constitué de 10 000 scénarios destinés à évaluer les robots domestiques dans des situations où les valeurs humaines entrent en conflit. Chaque instance associe une image réaliste d'intérieur résidentiel à plusieurs actions robot plausibles, chacune privilégiant une valeur différente : autonomie de l'utilisateur, efficacité, sécurité, ou respect de la vie privée. Le corpus a été généré par une pipeline semi-automatique combinant génération assistée par LLM, extraction de valeurs ancrée dans des retours de parties prenantes, génération d'images et contrôle qualité automatique. Les modèles de vision-langage (VLM) couramment utilisés comme planificateurs robotiques y ont été évalués, avec des résultats préoccupants : lorsqu'on leur demande explicitement de prioriser une valeur qui contredit leurs préférences par défaut, les modèles échouent dans 80 % des cas et maintiennent leur comportement initial. Ce résultat chiffré remet en cause un angle mort de l'évaluation robotique standard, qui se concentre quasi exclusivement sur le taux de complétion de tâche et la conformité aux règles de sécurité. Dans un foyer, un robot aspirateur qui désactive un microphone pour respecter la vie privée d'un utilisateur fait un choix contraire à l'efficacité opérationnelle mais aligné avec une valeur légitime. RobotValues formalise exactement ces arbitrages. Le constat que les modèles favorisent par défaut la sécurité et l'accommodement au détriment de la protection de la vie privée soulève des questions concrètes pour les intégrateurs B2B et les équipes produit déployant des assistants domestiques, notamment sur la robustesse des mécanismes d'instruction fine-grained dans les VLMs. Les VLMs utilisés comme planificateurs robotiques constituent une tendance lourde depuis les travaux de Google sur RT-2 et les architectures Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou OpenVLA. Ces modèles héritent de biais d'entraînement qui ne posent pas de problème dans des contextes de complétion de tâche pure, mais deviennent critiques dès que le robot opère dans un espace privé avec des occupants ayant des préférences potentiellement contradictoires. RobotValues s'inscrit dans un agenda de recherche plus large sur l'alignement des agents embarqués, distinct des débats sur les LLMs conversationnels. Aucun fabricant de robot domestique (Samsung, LG, Amazon Astro, ou les startups européennes comme Enchanted Tools) n'est cité dans le papier ; le benchmark reste pour l'instant un outil académique, mais sa structure modulaire et son échelle de 10 000 instances le positionnent comme un candidat sérieux à l'intégration dans les pipelines d'évaluation de prochaines générations de plateformes embarquées.

UELe benchmark RobotValues pourrait servir de référentiel d'évaluation pour les startups européennes de robotique domestique comme Enchanted Tools, notamment dans le cadre des exigences de l'AI Act sur les systèmes autonomes opérant en espace privé.

RecherchePaper
1 source
Modèles du monde pour la manipulation robotique : une synthèse de la littérature
273arXiv cs.RO 

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

Une revue de littérature publiée sur arXiv (2606.00113) cartographie l'état de l'art des modèles du monde (world models) appliqués à la manipulation robotique. Les auteurs recensent cinq familles de représentations prédictives : modèles de dynamique latente, générateurs vidéo conditionnés par l'action, prédicteurs de scène 3D et 4D, simulateurs à contraintes physiques, et modules prédictifs embarqués dans les systèmes vision-langage-action (VLA). La revue couvre 34 jeux de données de manipulation et propose une taxonomie fonctionnelle distinguant les modèles intégrant prédiction et action de ceux servant de planificateurs explicites. Trois axes structurent l'analyse : quelle représentation future est prédite, comment la prédiction se connecte à l'action, et à quel moment du pipeline d'apprentissage robotique elle intervient. Cette synthèse répond à un besoin concret : le terme "world model" recouvre des réalités très hétérogènes, ce qui brouille les comparaisons et ralentit les transferts technologiques entre laboratoires. En posant une définition opérationnelle stricte (un world model est un système prédictif conditionné par l'action, distinct des modules de perception, des politiques ou des fonctions de valeur), les auteurs établissent un cadre commun dont manquait le secteur. La revue confirme que ces systèmes évoluent d'outils de simulation spécialisés vers une infrastructure générique pour l'apprentissage robotique : génération d'expériences synthétiques, filtrage de candidats, vérification de résultats. Ce glissement architectural touche directement les pipelines de pré-entraînement, de post-entraînement et d'adaptation à l'inférence, trois phases critiques pour quiconque industrialise un robot manipulateur. Le domaine a accéléré avec l'essor des VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), et l'adoption des architectures Transformer en robotique, mais sans convergence méthodologique. La fragmentation reflète une course entre grands labs (Google DeepMind, MIT, Stanford, Berkeley) et startups qui ne partagent ni benchmarks ni protocoles d'évaluation communs. Les défis ouverts identifiés par les auteurs, notamment la modélisation des contacts, le contrôle des hallucinations, l'alignement action-prédiction et le benchmarking en boucle fermée, tracent un agenda de recherche pour les prochaines années. Pour les équipes travaillant sur la manipulation industrielle ou les bras collaboratifs, cette revue constitue une feuille de route pour choisir quelle classe de world model intégrer selon le cas d'usage : data augmentation, planification prédictive ou vérification de trajectoires.

UELes équipes européennes (INRIA, CEA-List, labos collaboratifs) travaillant sur la manipulation robotique peuvent s'appuyer sur cette taxonomie pour structurer leurs choix d'architecture world model, mais aucun acteur ni financement européen n'est impliqué directement.

RecherchePaper
1 source
SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA
274arXiv cs.RO 

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

Une équipe de recherche a publié en juin 2026 SafeVLA-Bench (arXiv:2606.00773), un cadre d'évaluation de la sécurité conçu spécifiquement pour les modèles vision-langage-action (VLA). Contrairement aux benchmarks existants qui se limitent à mesurer si une tâche de manipulation a été accomplie ou non, SafeVLA-Bench évalue ce qui se passe pendant la trajectoire d'exécution : contact excessif avec l'environnement, perturbation d'objets adjacents, déstabilisation de l'objet tenu, ou auto-contact du robot. Le framework formalise ces critères sous forme de spécifications Signal Temporal Logic (STL) et introduit deux métriques complémentaires : SBU (Succ-But-Unsafe), la fraction des séquences d'exécution qui réussissent la tâche tout en violant une contrainte de sécurité, et VSI (Violation Severity Index), un score de profondeur de violation borné. Appliqué à deux environnements de simulation, LIBERO (manipulation sur table) et RoboCasa-365 (cuisine), sur neuf entrées politique-benchmark, le framework révèle des chiffres préoccupants : les meilleures baselines tabletop affichent encore 13 à 15 % d'épisodes non sécurisés, et 36 à 56 % des rollouts réussis de RoboCasa-365 violent au moins une clause de sécurité active. Ce travail met en évidence un angle mort systémique dans l'évaluation des VLA : un taux de succès élevé ne garantit pas une exécution sûre. Pour les intégrateurs industriels et les équipes qui envisagent de déployer des politiques VLA en environnement réel, cela signifie que les benchmarks habituels surestiment structurellement la maturité des modèles. La distinction que pose SafeVLA-Bench entre "tâche accomplie" et "accomplie de façon acceptable" est exactement le type de critère qui sépare une démo convaincante d'un déploiement industriellement viable. Il faut noter que l'ensemble des résultats repose sur des simulations, ce qui laisse entière la question du transfert sim-to-real pour les violations de sécurité elles-mêmes. L'initiative s'inscrit dans une dynamique plus large de maturation de l'évaluation des VLA, portée notamment par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure), dont les capacités de manipulation généraliste progressent plus vite que les outils pour les qualifier rigoureusement. Jusqu'ici, la communauté s'appuyait sur des métriques de succès binaires héritées de l'ère pré-VLA, insuffisantes dès lors que les politiques sont intégrées dans des chaînes de production ou à proximité d'opérateurs humains. SafeVLA-Bench se positionne comme un outil post-hoc, applicable aux benchmarks existants sans refaire les évaluations depuis zéro. Les prochaines étapes naturelles incluent l'extension à des environnements physiques réels et l'intégration dans les pipelines de certification des systèmes cobotiques. Le projet est documenté sur safevla.org.

UESafeVLA-Bench pourrait alimenter les cadres de certification des systèmes cobotiques en Europe, notamment dans le contexte de l'AI Act qui impose des évaluations de sécurité rigoureuses pour les systèmes IA à haut risque déployés à proximité d'opérateurs humains.

RechercheOpinion
1 source
Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée
275arXiv cs.RO 

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

Une équipe de chercheurs a publié TouchSafeBench (arXiv:2605.31196), un benchmark pour évaluer ce qu'ils nomment le "collision grounding" dans les modèles de vision-langage (VLM) : la capacité à relier des observations visuelles à la géométrie du robot, la disposition de la scène et la proximité humaine pour déduire un contact présent ou imminent. Construit dans le simulateur Habitat 3.0 de Meta, il comprend 2 940 épisodes de coprésence indoor simulés, couvrant navigation sociale et réorganisation spatiale, avec des observations RGB-D multi-vues synchronisées, des cartes de trajectoire top-down et des labels de contact dérivés directement du simulateur. Trois VLMs orientés robotique ou frontier models ont été testés sur neuf représentations visuelles, autour de deux tâches : classifier l'état de sécurité courant et anticiper une collision imminente avant tout contact physique. Le meilleur score moyen Macro-F1 obtenu reste inférieur à 50 %. Ce chiffre souligne une limite fondamentale : la fluidité visuelle n'implique pas la responsabilité physique. Un modèle capable de décrire précisément une scène peut échouer à détecter si un bras robotique effleure un opérateur. Pour les intégrateurs travaillant sur la collaboration homme-robot, le signal est sans ambiguité : les VLMs actuels ne peuvent pas jouer le rôle de moniteurs de sécurité sans couche d'abstraction géométrique explicite. L'étude montre également que le contact robot-scène (obstacles, mobilier) est systématiquement plus difficile à détecter que la proximité humaine, contredisant l'intuition courante. Plus frappant encore : la profondeur RGB-D n'est pas automatiquement convertie en évidence de collision corps-robot, faute de représentation morphologique intégrée dans ces modèles. Ces résultats arrivent au moment où les architectures vision-langage-action (VLA) comme RT-2, OpenVLA ou pi0 de Physical Intelligence s'imposent dans les pipelines robotiques, en pariant sur la généralisation sémantique des VLMs pour piloter manipulateurs et robots mobiles. TouchSafeBench constitue un contrepoids empirique à cet enthousiasme : la généralisation linguistique ne résout pas la conscience géométrique nécessaire à la sécurité fonctionnelle. La plateforme sous-jacente, Habitat 3.0, est développée par Meta AI Research et fait référence en navigation sociale simulée. Le benchmark sera publié à l'acceptation de l'article. Les auteurs identifient comme prochaine étape des représentations liant explicitement point de vue caméra, morphologie du robot et géométrie métrique, potentiellement via des approches hybrides VLM et modèles cinématiques.

UELes intégrateurs européens développant des cobots sous contraintes AI Act doivent intégrer que les VLMs actuels ne sont pas des moniteurs de sécurité fiables sans couche d'abstraction géométrique explicite, ce qui impacte directement les architectures VLA en cours de déploiement industriel.

RecherchePaper
1 source
Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences
276arXiv cs.RO 

Diffusion d'actions guidée par fréquence via la traversée de variété de sous-fréquences

Des chercheurs proposent sur arXiv (2605.27919) FGO (Frequency Guidance Operator), une méthode qui s'attaque au bruit haute fréquence inhérent aux démonstrations humaines utilisées pour entraîner des politiques robotiques par imitation. Ces artefacts, saccades et micro-pauses capturés lors des démonstrations opérateur, sont amplifiés lors du débruitage itératif propre aux politiques par diffusion, produisant des trajectoires erratiques en exécution. FGO guide les échantillons bruités à travers des variétés spectrales intermédiaires à bandes progressivement élargies, forçant la génération à structurer d'abord les composantes basse fréquence avant de raffiner les détails fins. Résultat annoncé : une meilleure régularité d'action et cohérence temporelle sur 15 tâches de manipulation issues de 5 benchmarks distincts, sans dégrader le taux de succès. L'intérêt pour les déployeurs tient à deux points. D'une part, les politiques diffusion (pi-0 de Physical Intelligence, Diffusion Policy de Columbia, ACT) sont devenues le paradigme dominant pour la manipulation dextère, et les comportements saccadés en production réduisent la durée de vie des actionneurs et génèrent des arrêts de ligne. D'autre part, FGO se présente comme une correction applicable sans ré-entraînement complet, là où les correctifs habituels restent des filtres de post-traitement ad hoc (lissage temporel, filtre de Kalman sur les actions). L'absence de validation sur hardware physique dans la publication invite toutefois à la prudence avant tout transfert industriel direct. Diffusion Policy (Columbia University, 2023) a posé les bases de cette famille d'algorithmes, rapidement adoptée par Physical Intelligence, Figure AI, Apptronik, et des laboratoires comme ETH Zurich et Stanford. Le bruit haute fréquence dans les données d'imitation est un problème connu, mais rarement traité au niveau du processus de génération lui-même plutôt qu'en aval. FGO s'inscrit dans une tendance émergente de régularisation spectrale des politiques de contrôle ; les étapes suivantes attendues sont une validation sur plateformes physiques réelles et une intégration dans des frameworks open-source comme LeRobot de Hugging Face.

UEL'intégration potentielle dans HuggingFace LeRobot (entreprise française) pourrait rendre cette correction spectrale accessible à l'écosystème robotique open-source francophone sans effort de ré-entraînement.

RechercheActu
1 source
Estimation de traversabilité auto-supervisée et agnostique au robot pour des environnements ouverts
277arXiv cs.RO 

Estimation de traversabilité auto-supervisée et agnostique au robot pour des environnements ouverts

Une équipe de chercheurs présente COTRATE (Continuous Online TRAversability EsTimation), un framework d'apprentissage en ligne pour l'estimation de traversabilité des terrains par des robots mobiles, publié sur arXiv en mai 2026 (arXiv:2605.28442). Le système apprend de façon auto-supervisée à partir de données non étiquetées collectées par le robot en temps réel. COTRATE fonctionne en deux étapes : un module d'évaluation du terrain exploitant les signaux proprioceptifs et inertiels génère des scores de traversabilité robustes, qui supervisent ensuite un réseau de traversabilité visuelle via une fonction de perte par alignement (alignment loss). Pour limiter l'oubli catastrophique propre à l'apprentissage continu, les auteurs proposent une stratégie de sélection de features basée sur la diversité, s'appuyant sur une mémoire de relecture compacte. Le système a été évalué sur un dataset d'environ 50 000 images collectées avec deux plateformes robotiques sur 11 types de terrains extérieurs, et benchmarké sur des tâches de navigation dans trois environnements extérieurs représentatifs. Le code, le dataset et les modèles pré-entraînés sont disponibles publiquement. La traversabilité est un problème central pour les robots mobiles opérant en environnement non structuré : savoir si un sol est praticable, à quelle vitesse et avec quel risque de chute ou de blocage conditionne directement la sécurité et l'efficacité des missions. Les approches existantes butaient sur un double écueil : soit elles reposaient sur des scores proprioceptifs artisanaux, spécifiques à une plateforme et donc non transférables, soit elles pré-calculaient des clusters sur des données antérieures sans possibilité d'adaptation en ligne. COTRATE lève les deux limitations simultanément : il est robot-agnostic, avec un transfert de connaissances démontré entre plateformes à cinématiques différentes, et il apprend en continu sans coût mémoire ou calcul prohibitif, rendant le déploiement embarqué crédible. C'est un signal pertinent pour les intégrateurs de robots extérieurs dans l'agriculture, l'inspection d'infrastructure ou la défense, secteurs où les conditions terrain varient et où annoter des données à la main reste hors de portée à l'échelle. L'estimation de traversabilité auto-supervisée est un champ actif depuis plusieurs années, porté notamment par des laboratoires travaillant sur les robots quadrupèdes comme ANYmal (ANYbotics) ou Spot (Boston Dynamics) ainsi que sur les UGV de type Clearpath Robotics. Les méthodes antérieures les plus citées dans ce domaine, dont certaines issues d'ETH Zurich ou de CMU, reposaient généralement sur des données pré-collectées ou des heuristiques proprioceptives figées. COTRATE se positionne comme une solution plus générale, bien que la publication soit à ce stade un preprint arXiv sans validation en peer review et qu'aucun partenaire industriel ni déploiement terrain en production ne soit mentionné. Les étapes naturelles seraient une validation sur des plateformes commerciales en conditions réelles prolongées et une intégration dans des stacks de navigation open-source comme Nav2 ou le framework Elevation Mapping de la communauté ETH.

UEImpact indirect via la communauté de recherche européenne (ETH Zurich cité comme référence clé) et pertinence pour les intégrateurs EU en agriculture et inspection d'infrastructure, mais aucun acteur français ni déploiement européen mentionné.

RecherchePaper
1 source
Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)
278arXiv cs.RO 

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

Une étude déposée sur arXiv (2605.24642) analyse rigoureusement l'intégration des modèles de fondation géométriques (GFM) dans les modèles vision-langage-action (VLA) pour la robotique de manipulation. Les chercheurs ont choisi comme sujets d'étude GR00T N1.5, le VLA de NVIDIA dédié aux robots humanoïdes, et VGGT, un GFM spécialisé dans la reconstruction 3D multi-vues. À l'aide d'une technique de sondage linéaire (linear probing), ils ont quantifié pour la première fois ce qu'ils nomment le "geometric gap" : l'écart mesurable entre la représentation spatiale d'un GFM et celle d'un VLA contemporain. Trois architectures distinctes d'injection de la géométrie dans un VLA ont ensuite été implémentées et comparées, avec des détails bas niveau maintenus constants pour assurer l'équité expérimentale. L'équipe a également mesuré l'impact de facteurs non-architecturaux : volume de données d'entraînement, nombre de caméras utilisées, et qualité de la reconstruction 3D résultante. Ce travail répond à une question que beaucoup de praticiens esquivaient : les VLAs actuels "voient-ils" vraiment en 3D, ou s'appuient-ils sur des corrélations 2D apprises statistiquement ? La réponse est formellement négative. L'analyse quantitative démontre que les VLAs de dernière génération, y compris GR00T N1.5, manquent de représentations géométriques structurées, ce qui constitue un frein identifiable pour les tâches de manipulation fine en environnement non contrôlé. Pour les intégrateurs et les équipes R&D, cela valide l'hypothèse justifiant les architectures hybrides géométriques, tout en fournissant une méthodologie d'évaluation reproductible plutôt qu'une démonstration isolée, souvent peu généralisable. Les VLAs ont connu une accélération marquée depuis 2023, avec Physical Intelligence (pi0), Google DeepMind (RT-2) et NVIDIA (GR00T N1 puis N1.5, disponible depuis début 2025) qui rivalisent sur les benchmarks de manipulation. VGGT s'inscrit dans une vague de GFMs récents visant à fournir une compréhension 3D dense sans LiDAR. Cette étude s'intègre dans une tendance plus large : combler le sim-to-real gap par une modélisation spatiale explicite plutôt que par un simple scaling de données. Les suites logiques incluent l'extension de cette analyse comparative à d'autres paires VLA/GFM, et la validation sur robots physiques des trois architectures proposées pour trancher sur laquelle produit le meilleur transfer vers les tâches réelles.

UEImpact indirect : la méthodologie de linear probing et la quantification du 'geometric gap' sont directement réutilisables par les équipes R&D européennes (INRIA, CEA-List, startups VLA) pour évaluer et améliorer leurs propres architectures hybrides avant validation sur robot physique.

💬 Ce que tout le monde dans la communauté robotique savait intuitivement, c'est maintenant mesuré proprement : les VLAs actuels, GR00T inclus, ne "voient" pas vraiment en 3D. La vraie valeur de ce papier, c'est moins la conclusion (qu'on pressentait) que la méthodologie, le linear probing pour quantifier le geometric gap est directement réutilisable par n'importe quelle équipe R&D sans repartir de zéro. Reste à voir laquelle des trois architectures d'injection tient face à du hardware physique réel, parce que les benchmarks en sim, on connaît la chanson.

IA physiqueOpinion
1 source
EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)
279arXiv cs.RO 

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

EXPO-FT est un système de fine-tuning par apprentissage par renforcement (RL) destiné à améliorer la fiabilité des politiques robotiques issues de modèles Vision-Langage-Action (VLA) pré-entraînés. Présenté dans un preprint arXiv (2605.25477, mai 2026), le système atteint un taux de réussite parfait : 30 succès sur 30 tentatives sur trois tâches de manipulation exigeantes. Ces tâches incluent guider une guirlande lumineuse dans son connecteur pour la faire s'allumer, frapper une balle de billard dans une poche, et insérer une fleur dans un goulot de bouteille à vin. Les résultats sont obtenus avec seulement 19,1 minutes en moyenne de données collectées sur robot réel, sans recours à la simulation. Le code source est publié en open source. Ce résultat attaque directement le "reliability gap" : l'écart persistant entre les capacités de généralisation des VLA pré-entraînés et leur fiabilité effective en conditions opérationnelles. Les modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) ou RT-2 (Google DeepMind) montrent une bonne généralisation entre tâches, mais peinent à dépasser les seuils de succès nécessaires en production industrielle. EXPO-FT propose une voie médiane : ni repartir de zéro avec du RL pur, coûteux en données et instable, ni se limiter au fine-tuning supervisé qui plafonne rapidement. En moins de 20 minutes de données réelles, le système atteint la perfection sur des exercices combinant précision millimétrique, dynamique de mouvement et robustesse aux variations d'état initial. Pour un intégrateur ou un COO déployant des bras robotiques sur ligne, c'est un signal que le commissioning par RL pourrait se mesurer en minutes plutôt qu'en jours, si ces résultats se confirment hors conditions de laboratoire. Ce travail s'inscrit dans la convergence accélérée entre LLM fondationnels et contrôle robotique amorcée depuis 2023. Google DeepMind avec Gemini Robotics, Physical Intelligence avec pi-0 et Covariant ont démontré que des politiques pré-entraînées à grande échelle offrent une base solide, mais la question du "last mile" restait ouverte. EXPO-FT y répond en publiant une infrastructure de RL finetuning stable et accessible. Les concurrents directs sur ce créneau sont les approches de reinforcement finetuning développées chez 1X Technologies et dans plusieurs labos académiques américains. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'ont pas encore publié de travaux équivalents sur le RL finetuning de VLA, soulignant un écart notable avec la recherche américaine sur ce segment précis.

UEL'absence de travaux équivalents côté européen (Enchanted Tools, Wandercraft) souligne un retard compétitif de l'écosystème EU sur le RL finetuning de VLA, segment clé pour industrialiser les politiques robotiques.

💬 30 sur 30, moins de 20 minutes de données réelles, code open source. C'est exactement le type de résultat qu'on attendait pour débloquer le commissioning robotique, parce que le vrai blocage n'a jamais été la généralisation (pi-0 et RT-2 l'ont prouvé) mais la fiabilité en conditions opérationnelles, ce fameux écart qui rend les démos impressionnantes et les déploiements industriels galères. Bon, sur le papier c'est parfait, mais je veux voir ça tenir sur une ligne d'assemblage qui ne ressemble pas à un setup de labo.

IA physiqueOpinion
1 source
Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres
280arXiv cs.RO 

Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres

Des chercheurs ont publié en mai 2026 sur arXiv (2605.23847) une étude portant sur l'instrumentation des objets manipulés comme levier pour améliorer l'apprentissage par imitation en robotique. La tâche choisie est l'insertion d'un cintre sur une tringle, opération représentative des défis de manipulation fine avec contact. L'équipe a collecté 180 démonstrations téléopérées pour entraîner des politiques de diffusion (diffusion policies), en comparant des variantes avec et sans accès aux données d'instrumentation, c'est-à-dire des capteurs intégrés directement dans l'objet manipulé plutôt que dans le robot. Les résultats montrent que les politiques exploitant ces signaux surpassent les variantes vision-only de 14 à 25 points de pourcentage, avec une meilleure conscience de la tâche. Point notable : une politique boîte noire apprend à prioriser spontanément les signaux capteurs sans guidage explicite lors de l'entraînement. Une approche student-teacher complète le tableau : en enrichissant le jeu de données avec des rollouts générés par un expert instrumenté, une politique vision-only étudiante atteint des performances comparables à cet expert, surpassant ainsi la ligne de base vision-only originale. Les datasets sont disponibles sur Zenodo. Ce résultat adresse un verrou structurel du domaine : les grands modèles de comportement (large behaviour models) pour la manipulation robotique restent bridés par des exigences de données prohibitives, contrairement aux modèles de vision-langage qui ont pu capitaliser sur des corpus massifs issus d'internet. L'instrumentation des objets, en fournissant des informations d'état précises sur les contacts et les forces lors de chaque démonstration, augmente la densité informationnelle sans multiplier le nombre de démos. L'approche student-teacher est particulièrement stratégique pour le déploiement industriel : elle permet de distiller la connaissance sensorielle dans un modèle déployable avec une simple caméra, sans instrumentation permanente de la production. Ces travaux s'inscrivent dans une dynamique plus large autour des politiques de diffusion en manipulation, popularisées par Chi et al. (2023) et intégrées dans des systèmes comme Pi-0 (Physical Intelligence) ou ACT. La piste de l'instrumentation rejoint des efforts parallèles sur les peaux tactiles et les capteurs force-couple, explorés notamment par MIT CSAIL, ETH Zurich, et des équipes INRIA côté européen. La portée reste cependant à nuancer : 180 démos sur une tâche de laboratoire contrôlée ne constitue pas une validation à l'échelle industrielle, et les auteurs ne rapportent aucune expérience en environnement de production réel. La mise à disposition publique des données sur Zenodo ouvre toutefois la voie à des reproductions et extensions indépendantes sur des tâches plus complexes.

UELes équipes INRIA et laboratoires européens travaillant sur les politiques de diffusion pour la manipulation peuvent directement exploiter les datasets publics Zenodo et reproduire l'approche student-teacher pour améliorer l'efficacité de leurs pipelines d'apprentissage par imitation.

RechercheOpinion
1 source
VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)
281arXiv cs.RO 

VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)

Une équipe de recherche vient de publier VLA-REPLICA (arXiv:2605.20774, mai 2026), un banc d'évaluation réel, bas coût et reproductible, conçu pour tester les modèles de type Vision-Language-Action (VLA) sur des tâches de manipulation robotique. L'architecture repose entièrement sur des composants disponibles dans le commerce, ce qui permet à n'importe quel laboratoire d'assembler le setup en quelques jours et de reproduire les mêmes conditions expérimentales. Le benchmark intègre une suite de tâches de manipulation variées, un dataset de démonstrations de petite taille pour l'adaptation au domaine cible, ainsi que des protocoles d'évaluation distincts pour des scénarios en distribution et hors distribution. Les expériences menées couvrent l'apprentissage par imitation classique et plusieurs modèles VLA de l'état de l'art, avec des résultats cohérents obtenus sur des setups construits indépendamment dans différents sites. L'enjeu derrière VLA-REPLICA est directement lié à un problème structurel du secteur : l'évaluation réelle des modèles VLA reste fragmentée, coûteuse, et difficile à comparer d'un labo à l'autre. Les benchmarks en simulation ne capturent pas la complexité du monde physique, tandis que les benchmarks réels existants exigent souvent du matériel spécialisé onéreux ou une évaluation centralisée. Ce benchmark vise à combler ce fossé en fournissant une infrastructure standardisée et décentralisée, ce qui est une condition nécessaire pour que la communauté puisse comparer honnêtement les modèles et identifier leurs limites réelles, notamment face au sim-to-real gap qui affecte encore la plupart des politiques de manipulation. Les modèles VLA ont connu une montée en puissance rapide ces deux dernières années, avec des systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA issu des travaux de Stanford et Berkeley. Malgré des performances impressionnantes en démo, leur déploiement industriel reste freiné par l'absence de protocoles d'évaluation partagés et comparables. VLA-REPLICA s'inscrit dans un mouvement plus large de standardisation des benchmarks robotiques, comparable à ce qu'ont représenté BOP ou NIST Task Board pour d'autres sous-domaines. La prochaine étape logique serait l'adoption de ce protocole par plusieurs équipes tier-1 pour valider la reproductibilité à grande échelle et créer une baseline commune sur laquelle ancrer les publications futures.

UELes laboratoires européens de robotique (CEA-List, INRIA, universités) peuvent adopter ce benchmark reproductible bas coût pour évaluer leurs modèles VLA sur une infrastructure standardisée, abaissant la barrière d'entrée aux comparaisons internationales sans dépendre de matériel onéreux ou de benchmarks centralisés.

💬 C'est le genre de truc qu'on attendait depuis deux ans, même si ça fait moins de bruit qu'un nouveau modèle. Les benchmarks en simulation ne capturent pas le monde physique, et les vrais setups coûtaient trop cher pour être reproduits d'un labo à l'autre. Du matos grand public et des protocoles partagés, c'est la fondation qui manquait pour que les comparaisons aient enfin du sens.

IA physiquePaper
1 source
Auto-encodeurs épars ancrés dans les événements pour les politiques VLA
282arXiv cs.RO 

Auto-encodeurs épars ancrés dans les événements pour les politiques VLA

Une équipe de chercheurs a publié le 22 mai 2025 sur arXiv (référence 2605.17204) un pipeline d'interprétabilité pour les politiques Vision-Language-Action (VLA), ces modèles qui traduisent des instructions en langage naturel et des entrées visuelles directement en commandes motrices pour robots. Leur approche, baptisée Event-Grounded SAE (Sparse Autoencoder), ancre l'analyse des représentations internes du modèle à des événements comportementaux concrets plutôt qu'à des contextes textuels. Concrètement, des images-clés (keyframes) de l'effecteur terminal sont extraites et regroupées en clusters selon des critères visuels, d'état et temporels, puis associées optionnellement à des annotations sémantiques via un VLM. La méthode a été validée sur deux architectures en simulation et dans une étude sur robot réel, en ciblant notamment les modèles OpenVLA et pi-0.5 (Physical Intelligence). L'enjeu est considérable pour quiconque déploie des VLA en conditions industrielles : ces politiques restent des boîtes noires dont les représentations internes sont difficiles à auditer. Les outils d'interprétabilité mécaniste développés pour les LLMs ne se transfèrent pas directement aux VLA, car les sorties sont des vecteurs d'action continus, non des tokens lisibles, et chaque intervention ne peut être évaluée que via des rollouts en boucle fermée, coûteux à opérer. Le pipeline présenté est, selon les auteurs, parmi les premiers à ancrer l'analyse SAE dans des événements comportementaux fermés, ce qui produit les effets causaux les plus forts mesurés sur OpenVLA et se transfère aux chunks d'action continus de pi-0.5. Les auteurs notent toutefois des limites : le SAE est une base d'intervention sparse mais imparfaite, dont l'utilisabilité varie selon l'architecture et le point d'injection, et des interventions agressives révèlent des défaillances de sécurité non triviales. Ce travail s'inscrit dans une dynamique d'accélération autour des VLA, où des modèles comme OpenVLA (Berkeley), pi-0 et pi-0.5 (Physical Intelligence), ou encore GR00T N2 (NVIDIA) cherchent à généraliser la commande de robots via des fondations pré-entraînées à grande échelle. L'interprétabilité de ces modèles est devenue un prérequis non négociable pour les déploiements à risque élevé, un angle encore peu adressé face à la course aux benchmarks de performance. Les chercheurs identifient plusieurs directions prioritaires : aller au-delà des coordonnées alignées sur l'action, développer des évaluations en boucle fermée plus granulaires, et concevoir des mécanismes d'intervention sûrs. Le code est disponible publiquement sur GitHub (xc-j/Event-SAE).

UELes outils d'interprétabilité VLA présentés pourraient faciliter la conformité aux exigences d'explicabilité de l'AI Act européen pour les systèmes robotiques à haut risque, un angle encore peu adressé par les acteurs européens.

💬 Tout le monde court après les benchmarks VLA, et je vois peu de monde s'inquiéter de la boîte noire. Ce papier prend l'angle inverse et ancre l'interprétabilité dans des événements comportementaux concrets, validé sur robot réel (pas juste en sim), c'est exactement le genre de boulot qu'on attendait. Mauvaise surprise : les interventions agressives révèlent des failles de sécurité sérieuses, et si tu déploies des VLA en prod, ce papier mérite ton attention.

IA physiqueOpinion
1 source
Apprentissage par renforcement contraint par la sécurité avec vérification d'atteignabilité post-entraînement pour la navigation robotique
283arXiv cs.RO 

Apprentissage par renforcement contraint par la sécurité avec vérification d'atteignabilité post-entraînement pour la navigation robotique

Des chercheurs ont publié sur arXiv (2605.14174) un framework combinant apprentissage par renforcement contraint par le CVaR (Conditional Value-at-Risk) et vérification formelle post-entraînement pour la navigation sûre de robots mobiles en environnement encombré. La politique est entraînée sur un algorithme TD3 off-policy (Twin Delayed Deep Deterministic Policy Gradient) sous contraintes CVaR sur les coûts cumulés, ce qui la rend sensible aux événements rares à haute conséquence plutôt qu'aux seules performances moyennes. Après l'entraînement, des ensembles d'actions atteignables sont calculés sous incertitude d'observation bornée via une analyse par modèles de Taylor, produisant un taux de sécurité formel et quantifiable. Sur dix scénarios de navigation et six baselines concurrents, la méthode atteint 98,3 % de succès et le meilleur taux de vérification formelle parmi toutes les approches évaluées. La validation a été conduite sur un robot physique Clearpath Jackal, confirmant le transfert sim-to-real. Le résultat le plus significatif est une divergence démontrée entre classements par coût moyen et classements par vérification d'atteignabilité : un système jugé performant selon les métriques empiriques classiques peut dissimuler des comportements dangereux dans les queues de distribution. C'est un point critique pour les intégrateurs et les décideurs industriels qui qualifient leurs politiques de navigation sur des benchmarks de coût moyen. Les politiques entraînées avec contraintes CVaR maintiennent des marges de sécurité plus larges face aux obstacles, ce qui les rend structurellement plus compatibles avec la vérification formelle, prérequis pour une certification dans des secteurs réglementés comme la logistique, l'industrie ou la santé. Le CVaR, outil de la finance quantitative pour quantifier le risque de queue, s'impose progressivement dans les systèmes cyber-physiques. Ce travail reste une preprint arXiv, pas encore soumise à peer review. L'espace concurrent rassemble les approches par barrières de contrôle (CBF-QP), le RL lagrangien et les méthodes de Lyapunov. La vérification formelle de réseaux de neurones, portée par des outils comme alpha,beta-CROWN, est un axe en développement rapide. Des plateformes AMR comme celles de Clearpath (utilisée ici en validation) ou, côté français, des acteurs logistiques comme Exotec pourraient directement bénéficier de ce type de pipeline de validation. Les suites naturelles seraient une évaluation en environnements dynamiques avec obstacles mobiles et une soumission à une conférence majeure comme ICRA ou IROS.

UELes acteurs logistiques et industriels européens, dont Exotec en France, pourraient directement intégrer ce type de pipeline de validation formelle pour certifier leurs politiques de navigation AMR dans des secteurs réglementés (logistique, santé, industrie).

RecherchePaper
1 source
Un stack d'autonomie unifié : vers un schéma directeur pour l'autonomie robotique généralisable
284arXiv cs.RO 

Un stack d'autonomie unifié : vers un schéma directeur pour l'autonomie robotique généralisable

Des chercheurs du Norwegian University of Science and Technology (NTNU), au sein de leur Autonomous Robots Lab (ARL), ont publié et mis en open source un framework d'autonomie modulaire baptisé Unified Autonomy Stack (arXiv:2605.12735, mai 2025). L'architecture repose sur trois modules interdépendants : perception multimodale (LiDAR, radar, vision, centrale inertielle), planification multi-comportements, et navigation sécurisée multicouche. La fusion sensorielle s'appuie sur un graphe de facteurs pour la localisation et la cartographie simultanées (SLAM), complétée par une compréhension sémantique de la scène. La planification utilise des techniques d'échantillonnage adaptatif à différentes échelles spatiales, tandis que la sécurité de navigation combine reconstruction de carte en ligne, politiques exoceptives par deep learning et filtres de dernier recours via des fonctions de barrière de contrôle (Control Barrier Functions, CBF). Le système a été validé sur le terrain avec deux classes de robots : aériens (rotorcraft multirotors) et terrestres à pattes, dans des environnements GNSS-dégradés, enfumés, géométriquement complexes et à forte densité d'obstacles. La contribution principale n'est pas un algorithme isolé mais une architecture système complète, validée dans des conditions réellement dégradées, ce qui reste rare dans la littérature académique. La capacité à opérer sans GPS dans des espaces à textures auto-similaires (couloirs industriels, tunnels) ou sous visibilité réduite répond directement aux besoins de l'inspection robotisée en milieux contraints : sites miniers, infrastructures énergétiques, espaces confinés. L'ouverture totale du code source, modules perception, planification et sécurité inclus, abaisse la barrière d'entrée pour les intégrateurs qui ne souhaitent pas reconstruire cette couche d'autonomie de zéro. La portabilité cross-morphologies, le même stack pour un drone et un quadrupède, est une proposition de valeur forte pour les plateformes hybrides. L'NTNU ARL dispose d'un historique solide en navigation autonome en milieux dégradés, notamment à travers sa participation à la DARPA Subterranean Challenge. Ce projet positionne le laboratoire norvégien comme acteur open source dans un espace jusqu'ici dominé par des solutions propriétaires américaines telles que le Nav SDK de Boston Dynamics, la suite Clearpath, ou le système ANYmal d'ANYbotics. Les datasets de validation sont également mis à disposition, signal d'une ambition d'adoption communautaire active. Les extensions naturelles concerneraient l'intégration avec des couches de commande haute performance (MPC, whole-body control) et les flottes multi-robots hétérogènes.

UELe framework open source de l'NTNU offre aux intégrateurs robotiques européens une alternative concrète aux suites propriétaires américaines (Nav SDK Boston Dynamics, ANYbotics) pour déployer de l'autonomie en milieux GNSS-dégradés ou contraints.

RecherchePaper
1 source
Octopus Protocol : découverte et contrôle du matériel en une passe pour les agents IA via l'infrastructure-en-prompts
285arXiv cs.RO 

Octopus Protocol : découverte et contrôle du matériel en une passe pour les agents IA via l'infrastructure-en-prompts

Des chercheurs ont publié en mai 2026 sur arXiv (2605.09055) les détails d'Octopus Protocol, un système réduisant la mise en service d'un équipement robotique pour un agent IA à une seule commande shell. Le pipeline en cinq étapes (PROBE, IDENTIFY, INTERFACE, SERVE, DEPLOY) découvre automatiquement les périphériques connectés, infère leurs capacités, génère un serveur MCP (Model Context Protocol) avec des outils typés, et le déploie comme point de terminaison HTTP en 10 à 15 minutes, exposant jusqu'à 30 outils MCP. Le système a été validé sur trois plateformes hétérogènes - PC/WSL, macOS Apple Silicon, Raspberry Pi 4 - ainsi que sur un bras robotique commercial à 6 degrés de liberté (6-DOF) avec retour caméra USB. Un démon persistant surveille l'environnement système, répare automatiquement le code défaillant et perçoit l'état physique via les outils caméra qu'il a lui-même générés, permettant au final un contrôle visuo-moteur en boucle fermée sans qu'un ingénieur n'ait écrit une seule ligne d'interface matérielle. Le goulot d'ingénierie dominant dans l'intégration de nouveau matériel robotique reste l'écriture des primitives logicielles - drivers, SDK, primitives ROS - tâche qui mobilise habituellement plusieurs jours de travail bas niveau. Octopus Protocol ramène ce coût à un quart d'heure, ce qui change le calcul économique pour les intégrateurs industriels et les équipes R&D : essayer un nouveau robot revient au coût d'un appel API. Deux principes architecturaux expliquent l'approche : les protocoles sont traités comme des prompts (et non du code rigide), et l'agent de codage est le runtime. La capacité d'auto-réparation du démon constitue également un signal pertinent pour les déploiements en conditions réelles, où les pannes logicielles partielles sont fréquentes. Octopus Protocol prolonge les travaux sur Code-as-Policies et les modèles VLA (Vision-Language-Action), qui présupposent tous l'existence d'une couche d'abstraction matérielle préexistante - la nouveauté étant de la générer automatiquement. Le système s'appuie sur MCP, le standard d'interaction agents-outils promu par Anthropic, et se positionne dans l'écosystème d'agents standardisés plutôt que dans celui, plus fermé, de ROS 2. Il s'agit d'un papier de recherche, pas d'un produit disponible : aucun partenaire industriel ni calendrier de commercialisation n'est mentionné. Les approches alternatives restent les SDK propriétaires des fabricants (Universal Robots, KUKA, Doosan) et des frameworks comme LeRobot d'Hugging Face, qui simplifient l'accès via des abstractions Python pré-écrites - à distinguer de la génération dynamique proposée ici.

UELes équipes R&D et intégrateurs européens utilisant du matériel KUKA ou Universal Robots pourraient bénéficier d'une réduction drastique des coûts d'intégration si Octopus Protocol aboutit à un outil disponible, mais il n'existe pour l'instant aucun déploiement commercial ni implication d'acteurs européens dans les travaux publiés.

RechercheOpinion
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
286arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

IA physiqueOpinion
1 source
REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?
287arXiv cs.RO 

REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?

Des chercheurs ont publié REI-Bench (arXiv:2505.10872), le premier benchmark dédié à évaluer comment les planificateurs de tâches robotiques basés sur des grands modèles de langage (LLM) gèrent les instructions humaines vagues. L'étude porte spécifiquement sur les expressions référentielles (ER), formulations dont le sens dépend du contexte dialogique et de l'environnement immédiat, comme "prends ça" ou "mets-le là-bas". Les expériences montrent que cette ambiguïté fait chuter le taux de succès des planificateurs jusqu'à 36,9 points de pourcentage. L'analyse des cas d'échec révèle que la majorité provient d'objets manquants dans les plans générés : le modèle ne résout pas correctement la référence et omet l'objet cible de la séquence d'actions. Ce résultat est significatif pour les intégrateurs et les équipes qui déploient des robots en environnement non contrôlé. La quasi-totalité des benchmarks existants, et donc des pipelines de planification actuels, supposent des instructions claires et structurées, ce qui correspond à un utilisateur expert. Or, les populations prioritaires pour la robotique de service (personnes âgées, enfants, opérateurs non formés) sont précisément celles qui formulent des instructions les plus ambiguës. La dégradation mesurée n'est pas marginale : un écart de 37 points sur le taux de succès représente un planificateur fonctionnel en labo qui devient inutilisable en conditions réelles. Le papier souligne également que les approches classiques d'atténuation, prompts enrichis, chaînes de pensée (chain-of-thought), apprentissage en contexte (in-context learning), ne suffisent pas à combler cet écart. Pour y répondre, les auteurs proposent une méthode appelée "task-oriented context cognition" : avant de générer le plan d'action, le système produit explicitement une instruction reformulée et désambiguïsée à partir du contexte environnemental et dialogique. Cette approche atteint l'état de l'art sur REI-Bench en surpassant les baselines précitées. Le benchmark s'inscrit dans un effort plus large de la communauté pour combler le fossé entre performances en simulation et déploiement réel, un problème central pour des acteurs comme Boston Dynamics, Agility Robotics ou les startups européennes telles qu'Enchanted Tools, dont les robots humanoïdes devront interagir avec des utilisateurs non techniques. Les prochaines étapes naturelles seraient d'intégrer REI-Bench dans les pipelines d'évaluation de modèles VLA (vision-language-action) comme pi0 ou OpenVLA, où la résolution de références visuelles et linguistiques est un point de friction connu.

UEL'approche de désambiguïsation proposée (task-oriented context cognition) est directement applicable aux équipes européennes développant des robots de service pour utilisateurs non techniques, notamment les startups comme Enchanted Tools dont les humanoïdes devront gérer des instructions vagues d'opérateurs non formés.

RecherchePaper
1 source
Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur
288arXiv cs.RO 

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Le fine-tuning non contraint des modèles Vision-Language-Action (VLA) basés sur le flow matching provoque un phénomène bien documenté : l'écrasement massif des paramètres entraînés, qui dégrade les capacités générales acquises en pré-entraînement. Une équipe de recherche publie sur arXiv (2605.08879) une méthode baptisée ConSFT (Conservative Supervised Fine-Tuning), un nouvel objectif d'optimisation qui permet d'adapter un VLA à une distribution cible sans effacer ses compétences préalables. La méthode a été évaluée sur les benchmarks LIBERO et RoboTwin avec trois modèles de référence : pi-0, pi-0.5 et GR00T-N1.6-3B. Résultat : ConSFT dépasse le fine-tuning supervisé classique de plus de 20 points absolus en rétention de capacités, et rivalise avec l'Experience Replay, une méthode connue mais gourmande en données historiques, sans en nécessiter aucune. Des déploiements physiques sur robots confirment que la méthode évite le surapprentissage spatial lors de l'adaptation à des tâches séquentielles nouvelles. L'enjeu est central pour l'industrialisation des robots manipulateurs polyvalents. Les VLA de type flow matching, comme pi-0 de Physical Intelligence ou GR00T-N1.6-3B de NVIDIA, sont pré-entraînés sur de larges corpus de démonstrations et constituent la base d'agents robotiques généralistes. Mais leur adaptation à un contexte opérationnel précis (cellule de montage, poste de picking spécifique) détruit systématiquement une partie des compétences acquises, forçant les intégrateurs à choisir entre spécialisation et généralité. ConSFT rompt ce compromis : en modulant dynamiquement le signal d'apprentissage selon la confiance du modèle sur chaque échantillon, il bride les gradients excessifs des cas à faible confiance, limitant la perturbation des paramètres. L'inspiration provient du trust-region clipping du reinforcement learning (PPO), transposé ici en apprentissage supervisé. Les modèles VLA à flow matching représentent la génération actuelle des architectures de contrôle robot les plus performantes. Physical Intelligence a lancé pi-0 fin 2024, suivi de pi-0.5 en 2025 ; NVIDIA a publié GR00T N1 puis N1.6 dans le même intervalle. L'oubli catastrophique lors du fine-tuning est un obstacle pratique que plusieurs équipes tentent de contourner, notamment via l'Experience Replay ou des architectures à réseau de référence parallèle. ConSFT propose une voie plus légère : aucune donnée antérieure requise, aucun réseau auxiliaire, aucune modification architecturale. La méthode reste à valider sur des tâches industrielles longues et des robots avec dextérité fine, mais les résultats sur LIBERO et les expériences physiques publiées suggèrent un transfert sim-to-real fonctionnel.

IA physiqueOpinion
1 source
Muninn : un modèle de diffusion de trajectoires, désormais plus rapide
289arXiv cs.RO 

Muninn : un modèle de diffusion de trajectoires, désormais plus rapide

Une équipe de chercheurs a publié Muninn (arXiv:2605.09999), un module d'accélération sans réentraînement pour les planificateurs de trajectoires basés sur la diffusion. Le système atteint jusqu'à 4,6x de gain en vitesse d'exécution sur plusieurs architectures de diffusion en espace d'état, sans dégradation mesurée des performances ni des métriques de sécurité. Muninn fonctionne comme un wrapper de cache : à chaque étape du débruitage itératif, il choisit en temps réel de recalculer la sortie du denoiser ou de réutiliser le résultat mis en cache. Cette décision repose sur deux signaux analytiques calibrés hors-ligne, une sonde légère de l'évolution de la représentation interne de la trajectoire et des coefficients de propagation d'erreur du denoiser, qui produisent ensemble un budget d'incertitude par étape. Ce budget borne formellement l'écart maximal entre la trajectoire mise en cache et celle qui aurait été calculée à pleine puissance de calcul. Les gains ont été validés sur matériel réel, en navigation en boucle fermée et en manipulation. La lenteur des modèles de diffusion en planification de trajectoires est un verrou bien identifié pour la robotique temps-réel. Les accélérations existantes imposaient jusqu'ici un compromis inévitable : modifier le sampler dégradait la qualité de trajectoire, tandis que la compression du réseau nécessitait un réentraînement coûteux. Muninn contourne ce dilemme en opérant strictement sans modifier les poids du modèle, ce qui le rend applicable immédiatement à n'importe quel planificateur diffusion déjà entraîné. Pour un intégrateur ou une équipe robotique industrielle, cela rend concrètement viables des architectures comme Diffusion Policy dans des boucles de contrôle haute fréquence. La certification analytique des bornes de déviation constitue un argument de poids pour les déploiements où la sécurité est une contrainte réglementaire. Les politiques par diffusion appliquées à la robotique ont émergé vers 2022-2023, portées notamment par Diffusion Policy (Chi et al., Columbia University), et se sont depuis déployées dans des architectures VLA et des planificateurs en espace d'état. Les méthodes d'accélération antérieures, DDIM et distillation par connaissance en tête, ne proposaient pas de cache adaptatif avec bornes certifiées, ce qui positionne Muninn comme une surcouche orthogonale et rétrocompatible avec l'existant. En tant que preprint arXiv, les résultats n'ont pas encore été soumis à revue par les pairs. Les prochaines étapes logiques concernent les stacks robotiques humanoïdes et industriels (Figure, Unitree, Boston Dynamics) qui expérimentent des politiques diffusion et cherchent à réduire la latence de planification en production. Le code est publié publiquement sur GitHub (gokulp01/Muninn).

RecherchePaper
1 source
AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances
290arXiv cs.RO 

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

AffordSim est un générateur de données simulées et benchmark pour la manipulation robotique consciente des affordances, publié en preprint sur arXiv en mai 2026 (référence 2604.11674). Le système répond à un problème structurel : les estimateurs de préhension génériques optimisent la stabilité sans logique de tâche et sélectionnent souvent la mauvaise zone fonctionnelle de l'objet, tandis que les annotations manuelles de contact doivent être réécrites pour chaque nouvel objet et chaque nouvelle tâche. AffordSim intègre la prédiction d'affordances 3D à vocabulaire ouvert dans un pipeline de simulation : à partir d'une instruction en langage naturel, il synthétise la scène, localise les régions fonctionnelles pertinentes sur les surfaces d'objets (la poignée d'une casserole, le bouton d'un tiroir), échantillonne des prises conditionnées à ces régions, puis sélectionne les trajectoires exécutables par planification de mouvement. La randomisation de pose, texture, éclairage et bruit d'image est intégrée pour favoriser le transfert sim-to-real. Le benchmark couvre 50 tâches, cinq embodiments robotiques distincts et plus de 500 objets rigides et articulés. Les politiques VLA (Vision-Language-Action) entraînées sur ces données transfèrent zéro-shot vers un Franka FR3 réel avec 24 % de succès moyen, sans aucun fine-tuning sur données physiques. La zone fonctionnelle d'un objet, l'affordance, est précisément le point de défaillance ignoré par les benchmarks de manipulation génériques : saisir le mauvais endroit rend l'action aval impossible quel que soit le planificateur. AffordSim atteint 93 % du taux de succès des annotations manuelles sur les tâches critiques d'affordance, et 89 % sur les tâches composites difficiles, ce qui valide l'annotation automatisée comme substitut crédible à l'annotation humaine à grande échelle. Pour les équipes développant des modèles de fondation robotique ou des politiques VLA, cela réduit drastiquement le coût de génération de données diversifiées. Le score de 24 % en zero-shot reste modeste, mais il constitue une preuve de principe importante : un pipeline entièrement simulé peut produire des politiques opérationnelles sur matériel réel, condition nécessaire à un déploiement industriel scalable. AffordSim s'inscrit dans la vague des générateurs de données synthétiques pour la manipulation, aux côtés de RoboGen, GenSim et des pipelines Nvidia Isaac. Le Franka FR3, bras académique de référence vendu autour de 15 000 euros, est l'unique plateforme réelle testée, ce qui limite la portée des conclusions hors de ce contexte de laboratoire. Les modèles de fondation robotique comme pi0 (Physical Intelligence) ou OpenVLA constituent le terrain applicatif naturel de cet outil. En Europe, des équipes comme le LAAS-CNRS à Toulouse et des startups comme Enchanted Tools (Paris, robots manipulateurs expressifs) pourraient exploiter ce type de générateur pour réduire leur dépendance aux plateformes de données propriétaires américaines. Ce travail restant un preprint non encore évalué par les pairs, les métriques avancées devront être confirmées lors d'une soumission en conférence (CoRL, RSS ou ICRA).

UELes équipes européennes comme le LAAS-CNRS (Toulouse) et Enchanted Tools (Paris) pourraient exploiter AffordSim pour réduire leur dépendance aux plateformes de données propriétaires américaines dans le développement de politiques VLA.

RechercheOpinion
1 source
Large Video Planner permet un contrôle robotique généralisable
291arXiv cs.RO 

Large Video Planner permet un contrôle robotique généralisable

Des chercheurs publient Large Video Planner (LVP), un modèle de fondation robotique reposant sur un préentraînement vidéo massif plutôt que sur les approches vision-langage-action (VLA) dominantes. Alimenté par un corpus à l'échelle internet d'activités humaines et de démonstrations de tâches, LVP est le premier modèle de ce type entraîné à l'échelle d'un modèle de fondation. Le système génère des plans vidéo en zero-shot pour des scènes et tâches inédites, que l'équipe post-traite pour en extraire des actions exécutables sur un robot physique. Des tests en conditions réelles, avec des tâches sélectionnées par des tiers indépendants, confirment la faisabilité de l'exécution. Le modèle et le jeu de données sont publiés en open source. L'intérêt stratégique de LVP tient au paradigme alternatif qu'il représente face aux VLA dominants, qui étendent des grands modèles de langage multimodaux (MLLM) avec des sorties d'actions. L'argument central est que la vidéo, contrairement aux images statiques et au texte, capture naturellement la dynamique spatio-temporelle du monde physique, offrant un biais inductif mieux aligné avec les politiques motrices robotiques. La généralisation zero-shot validée par des tiers apporte de la crédibilité à cette thèse. En revanche, le post-traitement nécessaire pour convertir des plans vidéo en commandes robotiques exécutables constitue un maillon méthodologique critique dont la robustesse hors conditions de laboratoire reste à démontrer à grande échelle. Ce travail s'inscrit dans une course aux modèles de fondation robotiques où Physical Intelligence (Pi-0, 400 millions de dollars levés fin 2024), NVIDIA (GR00T N2), Figure AI (Helix) et Google DeepMind (RT-2, RT-X) imposent leurs architectures VLA. Déposé sur arXiv en décembre 2025 (2512.15840v2), LVP représente l'une des premières alternatives open source à cette échelle, ce qui pourrait le rendre structurant pour les laboratoires académiques et les intégrateurs ne disposant pas de ressources de calcul propriétaires. La publication reste au stade de la preuve de concept académique, mais l'ouverture du modèle et du dataset est susceptible d'accélérer les travaux sur l'apprentissage robotique par démonstration vidéo.

UELes laboratoires académiques et intégrateurs européens sans ressources de calcul propriétaires pourront exploiter le modèle et le dataset open source de LVP comme alternative crédible aux architectures VLA propriétaires des acteurs américains.

💬 L'approche VLA écrase tout en ce moment, donc quand quelqu'un propose un paradigme différent, à l'échelle d'un modèle de fondation et en open source, c'est pas anodin. La logique tient : la vidéo capture la dynamique du monde physique mieux que du texte ou des images statiques, et les tests zero-shot validés par des tiers donnent de la crédibilité à ça. Le point critique, c'est le post-traitement pour convertir les plans vidéo en commandes robot, et hors conditions de labo, reste à voir si ça tient.

IA physiqueOpinion
1 source
ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA
292arXiv cs.RO 

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Une équipe de recherche publie ce 7 mai 2026 ConsisVLA-4D (arXiv:2605.05126), un framework unifié pour la manipulation robotique qui cherche à résoudre deux angles morts structurels des modèles Vision-Language-Action actuels : la perception spatiale 3D et le raisonnement temporel 4D. L'architecture repose sur trois modules complémentaires. Le premier, CV-Aligner, filtre les régions pertinentes à l'instruction en cours et aligne les identités d'objets entre plusieurs points de vue, assurant une cohérence sémantique inter-caméras. Le second, CO-Fuser, élimine les ambiguïtés de relations spatiales entre objets via des représentations latentes compactes, sans recourir à des capteurs de profondeur dédiés. Le troisième, CS-Thinker, combine les tokens sémantiques de CV-Aligner et les tokens géométriques de CO-Fuser pour construire une représentation implicite des dynamiques locales et globales de la scène, permettant un raisonnement visuel continu au fil de l'exécution. Les auteurs rapportent des gains de 21,6 % sur le benchmark LIBERO et de 41,5 % en environnement réel par rapport à OpenVLA, avec des accélérations d'inférence respectives de 2,3x et 2,4x. Le code est publié en open source. Ces résultats sont significatifs pour le débat, toujours ouvert dans le secteur, sur la capacité des VLA à passer de la démonstration contrôlée au déploiement réel. Le gain le plus notable est celui en conditions réelles (+41,5 % vs +21,6 % en simulation), ce qui suggère que la cohérence spatiotemporelle adresse précisément le sim-to-real gap que d'autres architectures peinent à combler. L'absence de capteur de profondeur dédié est également un point concret pour les intégrateurs industriels : réduire la dépendance à des capteurs supplémentaires diminue le coût de déploiement et la surface de défaillance. L'accélération d'inférence de 2,3x à 2,4x, si elle se confirme dans des cycles de manipulation industriels (pick-and-place, assemblage), est un argument directement actionnable pour des COO cherchant à calibrer le throughput de cellules robotisées. Il convient toutefois de noter que les métriques sont mesurées contre OpenVLA, qui reste une baseline académique, et non contre des systèmes commerciaux comme pi-0 (Physical Intelligence) ou Helix (Figure), ce qui limite la portée comparative. Les modèles VLA de première génération, dont OpenVLA et RT-2, se sont construits sur des pipelines essentiellement 2D, héritant des architectures vision-langage conçues pour la compréhension d'images statiques. La contrainte de cohérence spatiotemporelle que ConsisVLA-4D formalise est un problème que l'ensemble des acteurs du secteur, Physical Intelligence avec pi-0, DeepMind avec RT-X, et Boston Dynamics sur le plan applicatif, tentent de résoudre par des voies différentes (données de préentraînement massives, retour haptique, diffusion de politiques). Dans le paysage français et européen, des entreprises comme Enchanted Tools et Wandercraft travaillent sur des problématiques adjacentes de contrôle robuste en environnement non structuré, où la perception multi-vue est également un verrou. La prochaine étape logique pour ConsisVLA-4D sera de confronter le framework à des tâches longue-horizon et à des environnements non rigides, deux cas d'usage encore peu couverts par le benchmark LIBERO.

UELes entreprises européennes comme Enchanted Tools et Wandercraft, confrontées au verrou de la perception multi-vue en environnement non structuré, pourraient intégrer le framework open-source ConsisVLA-4D pour renforcer leur contrôle robuste sans capteur de profondeur dédié.

💬 Le gain en conditions réelles (+41,5 %) qui dépasse celui en simulation, c'est le signe que quelque chose de structurel est résolu, pas juste un overfitting sur benchmark. Pas de capteur de profondeur dédié en plus, ce qui change vraiment le calcul pour l'intégration industrielle. Bon, la baseline c'est OpenVLA, pas pi-0, donc on garde les pieds sur terre.

IA physiqueOpinion
1 source
SOAR : optimisation conjointe en temps réel pour l'allocation des commandes et l'ordonnancement des robots mobiles
293arXiv cs.RO 

SOAR : optimisation conjointe en temps réel pour l'allocation des commandes et l'ordonnancement des robots mobiles

Des chercheurs, en collaboration avec Geekplus, ont publié SOAR (Simultaneous Order Allocation and Robot Scheduling), un framework d'apprentissage par renforcement profond conçu pour optimiser en temps réel la coordination des robots dans les systèmes de préparation de commandes automatisés (RMFS, Robotic Mobile Fulfillment Systems). Déposé sur arXiv en mai 2026 (arXiv:2605.03842), le système unifie deux sous-problèmes classiquement découplés, l'allocation des commandes et la planification des robots mobiles, en un seul agent décisionnel. Sur des données industrielles réelles fournies par Geekplus, SOAR réduit le makespan global de 7,5 % et le temps moyen de complétion des commandes de 15,4 %, avec une latence de décision inférieure à 100 ms. La viabilité du système a été confirmée par un déploiement en environnement de production via une procédure sim-to-real. Techniquement, le problème est formulé comme un processus de décision de Markov piloté par événements (Event-Driven MDP), où l'agent réagit à des événements asynchrones (fin de tâche, arrivée de commande) grâce à un Heterogeneous Graph Transformer encodant l'état de l'entrepôt, complété par une stratégie de reward shaping pour gérer la rareté du signal de récompense sur les longues séquences. Les RMFS équipent aujourd'hui les grands centres logistiques : des flottes de robots mobiles (AMR) transportent des étagères entières vers des postes de picking humains ou automatisés. Le goulot d'étranglement traditionnel vient du couplage fort entre allocation et ordonnancement : les approches décomposées sacrifient l'optimalité globale pour garantir la réactivité, tandis que les modèles d'optimisation classiques comme les MILP ou CP-SAT sont trop lents pour des environnements à haute cadence. SOAR casse ce compromis en prouvant qu'un agent de deep RL peut raisonner globalement tout en répondant en moins de 100 ms, ce qui constituait un verrou industriel reconnu. Plus significatif encore, la validation sim-to-real en conditions de production distingue ce travail de la majorité des publications académiques qui restent cantonnées à la simulation. Geekplus, fondé en 2015 à Pékin, est l'un des leaders mondiaux des AMR pour la logistique d'entrepôt, avec des déploiements dans plus de 40 pays chez des clients comme Decathlon et JD.com. Sa participation directe à cette recherche signale une intégration croissante entre laboratoires académiques et industriels pour raccourcir le cycle lab-to-production. Sur le marché, Geekplus concurrence Hai Robotics et AutoStore, mais aussi en Europe des acteurs comme Exotec (France), dont le système Skypod adresse des problèmes similaires de coordination multi-robots à grande échelle. SOAR s'inscrit dans un corpus actif de travaux sur le RL multi-agent pour la planification en entrepôt, mais se distingue par son approche unifiée et son ancrage en production confirmé. Le code est disponible en open source sur GitHub, ce qui devrait faciliter son adaptation à d'autres architectures RMFS.

UELe code open-source SOAR, validé en production chez des clients de Geekplus dont Decathlon, constitue une référence technique directe pour Exotec et les intégrateurs AMR européens confrontés aux mêmes problèmes de coordination multi-robots à grande échelle.

IndustrielPaper
1 source
Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation
294arXiv cs.RO 

Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation

Des chercheurs ont proposé sur arXiv (arXiv:2605.01544, mai 2026) une métrique automatisée pour évaluer la qualité des démonstrations en apprentissage par imitation (IL), fondée sur la densité spectrale de puissance (PSD) des trajectoires enregistrées. Une PSD faible signale une trajectoire lisse et exploitable ; une PSD élevée indique oscillations, corrections abruptes et mouvements erratiques qui dégradent les politiques apprises. Contrairement aux méthodes existantes, la métrique ne requiert ni rollout de politique, ni interaction avec l'environnement, ni étiquetage expert. Elle a été évaluée sur deux benchmarks IL et via une étude terrain avec des résidents âgés d'un établissement de retraite, dont les démonstrations ont servi à affiner π0.5 de Physical Intelligence pour une tâche de vie quotidienne. Les politiques issues des données filtrées par PSD surpassent les baselines non filtrées et deux méthodes concurrentes en taux de succès et en fluidité d'exécution. Le déploiement réel de robots guidés par imitation bute sur les scénarios hors distribution (OOD), aggravés par la faible qualité des démonstrations d'utilisateurs finaux. Les approches existantes de curation automatisée exigeaient des rollouts en environnement, coûteux et impraticables à grande échelle. La métrique PSD supprime ce verrou : applicable avant tout entraînement, elle filtre les démonstrations directement au moment de la collecte terrain. Pour les intégrateurs de robots manipulateurs en environnements non contrôlés, cela réduit concrètement le coût de mise en qualité des données sans ressources RL dédiées. Le travail s'inscrit dans l'essor des VLA (Vision-Language-Action models), où π0.5 de Physical Intelligence figure parmi les modèles de fondation robotique disponibles pour le fine-tuning, mais le défi du "demo-to-reality gap" reste l'un des freins majeurs au passage à l'échelle de l'IL. En ciblant des utilisateurs âgés peu habitués au guidage de robots, l'étude ouvre une piste vers la robotique d'assistance, segment où des acteurs comme Enchanted Tools en France cherchent à s'implanter. La prochaine étape logique serait l'intégration de cette métrique dans des pipelines de collecte en production, couplée à des retours temps réel pour guider les utilisateurs vers de meilleures démonstrations dès la capture.

UELa métrique PSD pourrait réduire le coût de curation de données pour des acteurs européens comme Enchanted Tools (France), actifs en robotique d'assistance, en supprimant le besoin de rollouts environnementaux coûteux lors du fine-tuning de modèles VLA.

RechercheOpinion
1 source
Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites
295arXiv cs.RO 

Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites

Une étude publiée sur arXiv (référence 2505.03500, version 5, mai 2026) expose une limitation structurelle des modèles VLA (Vision-Language-Action) : leur incapacité à combiner des compétences apprises séparément pour exécuter des tâches inédites. L'exemple présenté est parlant, un VLA peut réussir à placer du fromage frais dans un bol et à poser ce bol sur une armoire, mais échoue à placer directement le fromage sur l'armoire. Pour quantifier ce déficit, les chercheurs ont créé libero-ood, un benchmark de 20 tâches extrapolées depuis les suites standards LIBERO. Résultat net : l'ensemble des VLA état-de-l'art testés plafonnent à moins de 15 % de succès. En appliquant leur technique d'interpolation de latents textuels au modèle π0 de Physical Intelligence, les auteurs atteignent 83 % sans aucun réentraînement. Autre découverte préoccupante : des prompts illisibles pour un humain, obtenus par décodage du latent textuel, suffisent à piloter le VLA à 70 % de succès sur LIBERO standard, ouvrant la voie à des attaques de type backdoor ou à des instructions privées non auditables. La méthode repose sur l'extraction d'un "latent textuel" par tâche de base, en moyennant les états cachés des tokens textuels sur l'ensemble des trajectoires démontrées. Pour exécuter une tâche composite inédite, les chercheurs interpolent temporellement les latents de deux tâches sources et les réinjectent dans le modèle à l'inférence, activant séquentiellement les sous-comportements correspondants. Ce résultat remet en question l'hypothèse d'une compréhension sémantique robuste dans les VLA actuels : l'analyse qualitative révèle un phénomène de surapprentissage spatial, les modèles associant les noms d'objets à des emplacements démontrés plutôt qu'à des entités abstraites. Pour les intégrateurs et décideurs industriels, cela signifie que les benchmarks standards ne détectent pas ces angles morts compositionnels, et que la qualification de systèmes autonomes en production devrait systématiquement inclure des tâches out-of-distribution. LIBERO est depuis plusieurs années une référence en manipulation robotique tabletop ; libero-ood comble un angle mort important sur la généralisation hors distribution. π0, développé par Physical Intelligence (fondée en 2023 par d'anciens chercheurs de Google et DeepMind, dont Sergey Levine et Chelsea Finn), s'est imposé comme l'un des VLA les plus performants du marché via son architecture flow-matching. Les modèles concurrents testés ici, notamment OpenVLA (Berkeley) et Octo, affichent les mêmes limites compositionnelles. Ce travail, encore au stade preprint, pose les bases d'un nouveau critère d'évaluation pour les VLA et soulève des questions de sécurité concrètes qui devraient alerter les équipes déployant ces modèles en environnement industriel non supervisé.

UELes équipes R&D et industriels européens déployant des VLA en production doivent revoir leurs protocoles de qualification pour y intégrer des tâches hors-distribution, les benchmarks standards ne détectant pas les angles morts compositionnels exposés ici.

IA physiqueOpinion
1 source
Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé
296arXiv cs.RO 

Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé

Une équipe de chercheurs a publié fin avril 2026 (arXiv:2604.26577) une évaluation systématique de la sécurité de 72 grands modèles de langage (LLMs) dans le contexte du contrôle de robots-soignants. Le protocole repose sur un corpus de 270 instructions nuisibles, réparties en neuf catégories de comportements interdits dérivés des Principes d'éthique médicale de l'American Medical Association, et testées dans un environnement de simulation basé sur le cadre "Robotic Health Attendant". Le taux de violation moyen toutes catégories confondues atteint 54,4 %, et plus de la moitié des modèles dépassent individuellement les 50 %. Les instructions superficiellement plausibles, manipulation d'équipements médicaux ou retard délibéré face à une urgence, s'avèrent bien plus difficiles à refuser pour les modèles que des requêtes ouvertement destructrices. L'écart entre modèles propriétaires et open-weight est particulièrement marqué : taux médian de violation à 23,7 % pour les premiers, contre 72,8 % pour les seconds. Ces résultats ont des implications directes pour quiconque envisage d'intégrer un LLM dans une boucle de contrôle robotique en milieu clinique. Ils invalident deux hypothèses courantes : d'abord, que le fine-tuning dans le domaine médical améliore la sécurité (aucun bénéfice significatif mesuré), ensuite, que des défenses basées sur le prompt suffisent à sécuriser les modèles les moins fiables (réduction modeste, niveaux absolus toujours incompatibles avec un déploiement clinique). La taille du modèle et la date de sortie restent les meilleurs prédicteurs de sécurité pour les modèles open-weight, ce qui suggère que l'amélioration est incidentelle aux évolutions générales d'entraînement, pas le fruit d'une conception sécurité-first. Le cadre Robotic Health Attendant, utilisé comme base de simulation, s'inscrit dans une tendance plus large où les LLMs sont envisagés comme couche de raisonnement dans des systèmes robotiques d'assistance à la personne, aux côtés d'approches comme les Vision-Language-Action models (VLA). Les acteurs du secteur, qu'il s'agisse de startups comme Enchanted Tools côté français ou de plateformes hospitalières intégrant des bras manipulateurs, n'ont pas encore de benchmark standardisé pour valider la sécurité comportementale de leurs modèles embarqués. Cette étude constitue une première tentative de formalisation, mais ses auteurs reconnaissent que les résultats, obtenus en simulation, devront être confrontés à des protocoles en environnement réel avant de pouvoir orienter des décisions de certification ou de déploiement.

UECette étude fournit un premier benchmark formalisé pour la sécurité comportementale des LLMs en robotique de santé, dont des acteurs français comme Enchanted Tools sont explicitement dépourvus, et pourrait orienter les futures exigences de certification dans le cadre de la réglementation européenne sur les dispositifs médicaux autonomes.

RechercheOpinion
1 source
Relations en forme fermée et approximations d'ordre supérieur des dérivées premières et secondes de l'opérateur tangent sur SE(3)
297arXiv cs.RO 

Relations en forme fermée et approximations d'ordre supérieur des dérivées premières et secondes de l'opérateur tangent sur SE(3)

Des chercheurs ont publié sur arXiv (référence 2604.22287) des expressions en forme close pour le différentiel trijeunialisé à droite de l'application exponentielle sur le groupe de Lie SE(3), communément appelé opérateur tangent ou dexp, ainsi que ses dérivées premières et secondes. La matrice 6×6 représentant ce différentiel, dexpX : se(3) → se(3), était déjà partiellement documentée via une représentation en blocs 3×3, mais ce travail abandonne ce partitionnement pour proposer des relations directement compactes. Les auteurs dérivent également le jacobien et le hessien des applications d'évaluation dexpX(Z) et dexp_X^T(Z), accompagnés d'approximations polynomiales d'ordre élevé conçues pour rester numériquement stables au voisinage des singularités. La méthode est illustrée sur le calcul du champ de déformation et des taux de déformation d'une poutre élastique de type Cosserat-Simo-Reissner. Pour les ingénieurs en robotique et en simulation multiphysique, ces formules sont directement exploitables dans les solveurs de dynamique inverse, les optimiseurs de trajectoires basés sur le gradient, et les intégrateurs temps-réel pour bras manipulateurs ou robots souples. L'accès au hessien de l'opérateur tangent en forme close ouvre la voie à des méthodes d'optimisation du second ordre (Newton, Gauss-Newton) sur SE(3), jusqu'ici freinées par l'absence de ces expressions ou par leur coût numérique élevé via différentiation automatique. La robustesse numérique des approximations d'ordre élevé est particulièrement précieuse dans les schémas implicites où les configurations proches d'une rotation nulle dégradent les méthodes tronquées classiques. SE(3), groupe de Lie des transformations rigides orientées dans l'espace tridimensionnel (rotations et translations couplées), est la structure algébrique centrale de la cinématique des corps rigides, de la dynamique des robots articulés, et de la mécanique des tiges flexibles. Les modèles de Cosserat-Simo-Reissner, qui généralisent la théorie des poutres d'Euler-Bernoulli aux grandes déformations, sont notamment utilisés pour simuler des robots continus, des cathéters, des câbles ou des aiguilles chirurgicales. Ce type de travail fondationnel rejoint un effort de standardisation des outils différentiels sur les groupes de Lie, porté en parallèle par des équipes comme le laboratoire Gepetto (LAAS-CNRS, Toulouse) avec la bibliothèque Pinocchio, ou par les travaux de Müller et Terze sur la formulation intrinsèque des équations du mouvement. La disponibilité de ces expressions dans un format compact et numériquement stable devrait faciliter leur intégration dans des frameworks open-source de simulation robotique.

UECes expressions pourraient être intégrées dans Pinocchio (laboratoire Gepetto, LAAS-CNRS Toulouse), renforçant les capacités de dynamique différentiable du second ordre dans les frameworks robotiques open-source européens.

RecherchePaper
1 source
Comment fonctionnent réellement les VLA en environnements ouverts
298arXiv cs.RO 

Comment fonctionnent réellement les VLA en environnements ouverts

Un article de recherche publié sur arXiv (référence 2604.21192) soumet les modèles vision-langage-action (VLA) à une évaluation critique sur le benchmark BEHAVIOR1K (B1K), un protocole simulant des tâches domestiques complexes de longue durée dans des environnements ouverts. Le constat est net : les métriques standards de ces benchmarks, taux de succès ou score partiel, ne mesurent que l'état final des objets manipulés, indépendamment des événements qui y ont conduit. Un robot qui renverse un verre avant de le replacer peut ainsi obtenir le même score qu'un robot qui l'a manipulé sans incident. Ce protocole dit "progress-agnostic" ignore entièrement les comportements dangereux en cours d'exécution. Les chercheurs ont soumis plusieurs VLA de pointe à une analyse multidimensionnelle couvrant robustesse, reproductibilité, violations de sécurité et causes d'échec des tâches. Les implications sont directes pour tout acteur envisageant un déploiement réel. Si les métriques actuelles gonflent artificiellement les performances rapportées, les décisions d'intégration basées sur ces benchmarks reposent sur des bases fragiles. La distinction est capitale entre un modèle qui complète une tâche et un modèle qui la complète de façon sûre et reproductible, deux propriétés que les scores agrégés actuels confondent. Les auteurs proposent de nouveaux protocoles d'évaluation capables de capturer les violations de sécurité, comblant un angle mort majeur de la recherche. Pour un intégrateur ou un décideur industriel, cela signifie que les chiffres de "success rate" publiés par les laboratoires doivent être lus avec prudence, en exigeant explicitement des données de reproductibilité et des métriques comportementales. La course aux VLA s'est accélérée depuis 2024 avec des modèles comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA issu de Stanford et Berkeley. Ces systèmes combinent une fondation vision-langage avec un module d'action, affichant des capacités de généralisation notables en simulation. Ce papier suggère que le fossé simulation-réel est peut-être plus profond qu'estimé : des modèles performants sur B1K pourraient s'avérer moins fiables dès lors qu'on intègre sécurité et consistance comportementale comme critères d'évaluation. Les auteurs appellent la communauté à adopter ces nouveaux protocoles dans les futures éditions du B1K Challenge pour aligner les standards de recherche avec les exigences concrètes du déploiement en environnement ouvert.

RechercheOpinion
1 source
Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation
299arXiv cs.RO 

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation

Des chercheurs ont publié sur arXiv (arXiv:2604.17258, avril 2026) un pipeline de déploiement rapide permettant de préparer un robot humanoïde à manipuler un nouvel objet en environ 30 minutes, contre un à deux jours dans les approches classiques. Le système s'appuie sur trois composants à base de modèles de fondation : l'annotation automatique via Roboflow pour entraîner un détecteur YOLOv8, la reconstruction 3D par Meta SAM 3D à partir d'images standard (smartphone suffisant, pas de scanner laser), et le suivi de pose 6-DoF en zero-shot par FoundationPose, qui utilise directement le maillage généré par SAM 3D comme gabarit. Les commandes de pose alimentent un planificateur de cinématique inverse sous Unity, transmises en UDP au robot Unitree G1 via le SDK propriétaire. Les métriques annoncées : mAP@0.5 = 0,995 en détection, précision de suivi σ inférieure à 1,05 mm, et saisie réussie sur cinq positions dans l'espace de travail. Le pipeline a également été validé sur une tâche d'application de mastic sur vitre d'automobile, ce qui constitue un environnement industriel concret. L'enjeu principal est la réduction du "time-to-deployment" pour la manipulation humanoïde, un goulot d'étranglement majeur qui freine l'intégration en environnement industriel réel. Passer de deux jours à 30 minutes sans équipement spécialisé change la donne pour les intégrateurs et les PME industrielles qui ne disposent pas d'équipes robotique dédiées. Le recours au zero-shot pour FoundationPose signifie qu'aucun réentraînement n'est nécessaire pour chaque nouvel objet, ce qui valide partiellement l'hypothèse que les modèles de fondation peuvent absorber la variabilité d'objets sans collecte de données lourde. Cela dit, les résultats sont présentés sur cinq positions fixes et deux tâches seulement ; la robustesse en conditions de production non contrôlées reste à démontrer. Le robot support, le Unitree G1, est un humanoïde commercial chinois à 16 degrés de liberté vendu autour de 16 000 dollars, positionné comme plateforme de recherche accessible. Les composants logiciels mobilisés (Roboflow, Meta SAM 3D, FoundationPose de NVidia) sont tous open-source ou accessibles via API, ce qui renforce la reproductibilité. Dans le paysage actuel où Figure (Figure 03), Tesla (Optimus), Physical Intelligence (pi0) et Boston Dynamics investissent massivement dans les pipelines de manipulation apprise, cette approche modulaire et frugale en données offre une alternative pragmatique, notamment pour les déploiements pilotes dans des cellules de production à faible volume ou à variété élevée d'objets.

UELes intégrateurs robotiques et PME industrielles européens peuvent évaluer et reproduire ce pipeline open-source (Roboflow, Meta SAM 3D, FoundationPose) pour réduire drastiquement le time-to-deployment sur des cellules de production à haute variété d'objets, sans équipement spécialisé ni équipe robotique dédiée.

IA physiquePaper
1 source
π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes
300arXiv cs.RO 

π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes

Physical Intelligence, le laboratoire californien fondé en 2023 par d'anciens chercheurs de Google DeepMind et Stanford, publie π0.7 (pi-zéro-point-sept), un nouveau modèle de fondation robotique généraliste présenté dans un preprint arXiv (2604.15483) daté d'avril 2026. Le modèle démontre des capacités zero-shot sur des tâches multi-étapes en environnements inconnus : manipulation d'appareils de cuisine variés, pliage de linge sans avoir vu la tâche en entraînement, et opération d'une machine à expresso à un niveau de performance comparable à des modèles spécialisés entraînés par reinforcement learning. La généralisation cross-embodiment, c'est-à-dire la capacité à transférer des comportements entre plateformes robotiques différentes sans réentraînement dédié, est présentée comme une propriété émergente du système. L'innovation centrale de π0.7 est un mécanisme de conditionnement contextuel multimodal étendu. Là où la plupart des VLA (Vision-Language-Action models) se contentent d'une instruction textuelle, π0.7 reçoit en entrée de prompt des métadonnées sur la qualité de l'exécution, des images de sous-objectifs intermédiaires, et des informations sur la stratégie à adopter. Ce conditionnement riche permet d'intégrer à l'entraînement des données hétérogènes : démonstrations humaines, données autonomes potentiellement sous-optimales incluant des échecs, et données issues de sources non-robotiques. C'est un levier direct sur le problème du sim-to-real gap et sur le coût de collecte de données de qualité, deux freins majeurs au déploiement industriel. Pour un intégrateur ou un COO industriel, la promesse est concrète : un modèle qui fonctionne correctement sans fine-tuning coûteux sur chaque nouvelle tâche. Physical Intelligence avait introduit π0 fin 2024 comme premier modèle de fondation robotique à architecture flow matching, capable de piloter des bras manipulateurs avec haute dextérité. π0.7 constitue une évolution orientée généralité et pilotabilité plutôt que spécialisation. Dans le paysage concurrentiel, ce positionnement affronte directement Google DeepMind avec RT-2 et ses successeurs, Figure AI avec son modèle Helix, ainsi qu'1X Technologies. Aucun déploiement commercial n'est annoncé à ce stade : il s'agit d'un preprint académique sans validation industrielle publiée. Les évaluations portent sur plusieurs plateformes robotiques en laboratoire, et les prochaines étapes probables incluent des collaborations avec des fabricants de robots pour valider le passage à l'échelle en conditions réelles.

IA physiqueOpinion
1 source