Aller au contenu principal

Dossier arXiv cs.RO — page 6

1981 articles · page 6 sur 40

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

DynaMOMA : prédiction instantanée des poses de saisie pour la manipulation mobile d'objets dynamiques
251arXiv cs.RO RecherchePaper

DynaMOMA : prédiction instantanée des poses de saisie pour la manipulation mobile d'objets dynamiques

Des chercheurs présentent DynaMOMA, un cadre logiciel pour la manipulation mobile d'objets en mouvement, publié sur arXiv en juin 2026. L'architecture combine deux blocs : un modèle de diffusion ancré (anchor-based diffusion model) qui génère des trajectoires de préhension à court horizon de façon temporellement cohérente, et une politique de contrôle corps entier par apprentissage par renforcement qui pilote simultanément la base mobile et le bras robotique. Un mécanisme nommé anticipation-guided reward ajuste la cible de la politique en substituant progressivement l'observation instantanée à la trajectoire prédite, poussant le système à anticiper plutôt qu'à simplement réagir. Les expériences ont été conduites dans Isaac Gym (NVIDIA), complétées par des validations sur robot physique en environnement réel. L'enjeu industriel est concret : la majorité des systèmes de picking déployés sur convoyeur ou en transfert humain-robot supposent une cible statique ou à trajectoire parfaitement prévisible. Coordonner une base mobile et un bras multi-axes face à un objet dont la pose évolue en continu cumule deux difficultés distinctes : prédire des trajectoires de saisie cohérentes dans le temps, et fermer la boucle de commande corps entier à faible latence. L'usage d'un modèle de diffusion pour la prédiction de trajectoires de préhension (et non pour la génération d'images ou de politiques textuelles) prolonge une tendance récente incluant Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La démonstration d'un transfert sim-to-real fonctionnel constitue l'élément le plus significatif pour les intégrateurs robotiques. Il s'agit à ce stade d'un preprint académique sans affiliation industrielle déclarée, et l'abstract ne fournit ni chiffres de cadence (cycle time) ni de charge utile (payload), ce qui rend toute comparaison directe avec des solutions commerciales impossible. Isaac Gym facilite la reproductibilité, mais la question du sim-to-real gap sur des scènes dynamiques complexes reste ouverte. DynaMOMA s'inscrit dans le même espace de recherche que Physical Intelligence, Agility Robotics ou Apptronik sur la généralisation de la manipulation, sans cibler un segment commercial précis. Des validations sur objets déformables ou partiellement occultés constitueraient l'extension naturelle vers des cas d'usage industriels réels.

1 source
PanoVine : contrôle visuomoteur corps entier pour robot souple à croissance végétale
252arXiv cs.RO 

PanoVine : contrôle visuomoteur corps entier pour robot souple à croissance végétale

Une équipe de chercheurs a publié sur arXiv (preprint arXiv:2506.22923, juin 2026) un système baptisé PanoVine, premier robot « vigne » autonome doté d'un contrôle visuomoteur corps entier. Le principe : un robot souple à croissance continue, de la famille des vine robots, est équipé de 19 caméras distribuées sur toute la longueur de son corps. Ces capteurs fournissent un retour d'information panoramique sur l'état interne du robot et sur son environnement immédiat. Une politique visuomotrice bout-en-bout, entraînée à partir de démonstrations humaines, pilote le robot en boucle fermée sans recourir à un modèle cinématique explicite. Les capacités démontrées en laboratoire couvrent la navigation dans des structures ramifiées, l'escalade de pentes, la traversée de terrains sans appui, l'atteinte précise d'objets et le franchissement d'espaces confinés. L'intérêt technique est direct : les vine robots souffrent structurellement d'hystérésis, d'interactions avec leur câble d'alimentation et de déformations imprévisibles, ce qui rend les approches de planification classique peu efficaces. En substituant un pipeline data-driven à la modélisation explicite, PanoVine contourne ce mur de complexité. C'est un exemple concret de sim-to-real évité par l'apprentissage depuis des démonstrations réelles, une voie que plusieurs équipes en robotique molle explorent mais que peu ont validée sur un système à géométrie variable aussi difficile à instrumenter. Pour les intégrateurs travaillant sur l'inspection de canalisations, la chirurgie mini-invasive ou la recherche en environnements effondrés, cela ouvre une voie vers des contrôleurs déployables sans calibration géométrique fine. Les vine robots sont un champ de recherche actif depuis les travaux fondateurs de l'équipe de Allison Okamura à Stanford (Soft Robotics 2017-2019), et plusieurs groupes en Europe et aux États-Unis développent des variantes pour l'exploration souterraine ou médicale. PanoVine se distingue par l'échelle du réseau de capteurs embarqués et par l'autonomie complète de la boucle de contrôle. Il s'agit à ce stade d'une preuve de concept académique, sans déploiement industriel ni partenaire annoncé. Les prochaines étapes attendues concernent la robustesse hors distribution et la généralisation à des environnements non vus lors de l'entraînement.

RecherchePaper
1 source
NoContactNoWorries : estimation du contact par vision et proprioception pour la manipulation dextérique en main
253arXiv cs.RO 

NoContactNoWorries : estimation du contact par vision et proprioception pour la manipulation dextérique en main

Une équipe de chercheurs présente NoContactNoWorries, un cadre multimodal basé sur des transformers qui fusionne la vision RGB-D et la proprioception du robot pour estimer des états de contact binaires pendant la manipulation en main. Publié en prépublication sur arXiv (référence 2506.24450), le système entraîne un unique modèle de prédiction de contact sur plusieurs objets distincts et valide l'approche à la fois en simulation et sur un robot physique. Le signal de contact inféré sert d'entrée pseudo-tactile pour des agents d'apprentissage par renforcement chargés de la réorientation d'objets tenus en main, avec généralisation démontrée sur des objets non vus durant l'entraînement. L'intérêt pour les intégrateurs robotiques est direct : les capteurs tactiles dédiés, qu'il s'agisse de solutions de type GelSight, DIGIT ou de nappes piézorésistives, se heurtent à trois obstacles récurrents en environnement industriel, à savoir le coût unitaire élevé, la fragilité mécanique et la complexité d'intégration sur des mains multi-doigts. NoContactNoWorries contourne ces contraintes en exploitant uniquement des caméras RGB-D et les données proprioceptives déjà disponibles sur la grande majorité des bras et mains robotiques commerciaux. La limitation reste substantielle : la détection est purement binaire (contact ou absence de contact), sans estimation de force ni de distribution de pression, ce qui restreint l'applicabilité aux tâches nécessitant un retour haptique fin, comme l'assemblage de composants fragiles ou la manipulation de textiles. L'approche s'inscrit dans une tendance plus large de la manipulation dextre cherchant à éliminer les capteurs spécialisés au profit de modalités perceptuelles génériques, dans la continuité des travaux sur les politiques visuomotrices à grande échelle (VLA). Le domaine du toucher artificiel reste actif, avec des acteurs comme Contactile (Australie), Touchlab (Écosse) ou les équipes du MIT CSAIL qui développent des capteurs embarqués haute résolution. À ce stade, NoContactNoWorries est un résultat académique en prépublication, non encore soumis à révision par les pairs, et les auteurs n'annoncent aucun calendrier de transfert industriel.

RecherchePaper
1 source
ArtiTwinSplat : reconstruction de jumeaux numériques interactifs par Gaussian Splatting à partir de vidéos RGB-D
254arXiv cs.RO 

ArtiTwinSplat : reconstruction de jumeaux numériques interactifs par Gaussian Splatting à partir de vidéos RGB-D

ArtiTwinSplat, présenté dans un preprint arXiv (arXiv:2606.24628) daté du 30 juin 2026, est un framework de reconstruction automatique de jumeaux numériques articulés depuis des vidéos RGB-D, sans modèles CAO, assets de simulation ni annotations manuelles. La méthode combine le 3D Gaussian Splatting (3DGS), une représentation 3D par primitives gaussiennes reconnue pour sa fidélité géométrique et son rendu temps réel, avec un pipeline non supervisé de détection d'articulations qui infère la structure en parties et la cinématique des joints (axes de rotation, translations) depuis le mouvement observé seul. Les jumeaux numériques produits supportent rendu interactif, contrôle de point de vue et manipulation temps réel, et sont conçus pour être directement consommables par des systèmes de planification et d'apprentissage robotiques en aval. L'enjeu est direct pour les intégrateurs : modéliser des objets articulés (portes, tiroirs, outils industriels) reste un goulot d'étranglement coûteux dans le déploiement de systèmes robotiques. Les approches classiques exigent des modèles CAO fournis par le fabricant ou des sessions de capture très structurées en environnement contrôlé. Un pipeline vidéo RGB-D non supervisé réduit drastiquement ce coût d'onboarding. En opérant sur des observations réelles plutôt que des données synthétiques, ArtiTwinSplat vise à réduire le sim-to-real gap dans les pipelines de manipulation, une promesse importante si elle se confirme à l'évaluation sur des scènes industrielles variées. La méthode s'inscrit dans la vague post-2023 du 3DGS, décliné en variantes articulées comme PARIS (CMU/MIT, 2023) ou REACTO. La revendication d'ArtiTwinSplat est d'être le premier pipeline entièrement non supervisé opérant sur vidéos réelles dans ce registre. Le preprint ne mentionne ni affiliation institutionnelle explicite, ni benchmark chiffré sur des datasets standards comme PartNet-Mobility, ni partenariat industriel : c'est une contribution académique à valider, pas un produit déployé. Des équipes comme Physical Intelligence, Anybotics ou des groupes de Stanford et CMU travaillent sur des problématiques adjacentes de manipulation généraliste en monde ouvert, ce qui situe ArtiTwinSplat dans un champ très compétitif.

IA physiquePaper
1 source
RoBoSR : représentations structurées de scènes pour le raisonnement des robots incarnés
255arXiv cs.RO 

RoBoSR : représentations structurées de scènes pour le raisonnement des robots incarnés

Une équipe de chercheurs a publié fin juin 2026 un preprint arXiv (2606.24338) présentant RoBoSR, un cadre de représentation intermédiaire structurée pour la manipulation robotique en monde ouvert. L'approche modélise chaque tâche comme une séquence de transitions d'états sur des graphes de scène orientés objet, sémantiquement ancrés. Concrètement, le système segmente l'environnement perçu en entités discrètes (objets, relations spatiales, états) avant de raisonner sur les préconditions et effets de chaque sous-tâche. Pour entraîner ce raisonnement, les auteurs publient simultanément Manip-Cognition-1.6M, un jeu de données de 1,6 million d'exemples couvrant la compréhension de scène, l'interprétation d'instructions et la planification de sous-tâches sur des manipulations variées. Sur plusieurs benchmarks et démonstrations réelles, RoBoSR revendique des performances supérieures aux méthodes par prompting et aux pipelines TAMP classiques (Task and Motion Planning), notamment en généralisation zéro-shot et sur des tâches longue-portée. Ce que pointe cette publication, c'est l'une des frictions centrales des architectures VLA (Vision-Language-Action) actuelles : leur biais séquentiel issu des données de démonstration les rend fragiles dès que la tâche sort du scénario d'entraînement. En intercalant une représentation graphique explicite entre la perception brute et l'action, RoBoSR tente de rendre le raisonnement causal modulaire et réutilisable, ce qui améliore théoriquement la robustesse aux variations d'environnement. Pour un intégrateur industriel, c'est le problème du "demo-to-reality gap" qui est visé : un robot qui comprend les dépendances entre sous-tâches peut récupérer d'un échec partiel sans replanifier depuis zéro. Le dataset Manip-Cognition-1.6M, s'il est effectivement rendu public, constitue également une ressource d'entraînement non négligeable pour la communauté. RoBoSR s'inscrit dans une vague de recherches cherchant à dépasser les limites des modèles d'imitation pure, dans un secteur où Physical Intelligence (pi0), Google DeepMind (GR00T N2) et Figure AI travaillent sur des architectures hybrides mêlant apprentissage et planification symbolique. Le papier reste un preprint non évalué par les pairs, et les résultats en "démonstrations réelles" ne sont pas détaillés quantitativement dans le résumé disponible. Les prochaines étapes naturelles seraient une soumission en conférence (CoRL, ICRA) et la mise à disposition publique du dataset annoncé.

IA physiquePaper
1 source
Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences
256arXiv cs.RO 

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

Une équipe de recherche propose FAFM (Frequency-Aware Flow Matching), une méthode de génération d'actions robotiques présentée en préprint arXiv (2606.20135, juin 2026), qui reformule le problème du flow matching pour la manipulation robotique dans le domaine fréquentiel. Le principe : plutôt que de prédire directement des séquences d'actions discrètes (des "chunks"), FAFM applique une transformée en cosinus discrète (DCT) sur ces séquences pour les convertir en coefficients fréquentiels, effectue le flow matching sur ces coefficients, puis reconstruit des actions continues via expansion en base cosinus. Pour garantir la cohérence temporelle, la méthode ajoute une contrainte de type Sobolev sur la dérivée temporelle du premier ordre, ce qui pénalise les changements brusques et atténue les erreurs hautes fréquences. L'approche s'applique sans paramètres réseau supplémentaires, aussi bien aux politiques de flow matching autonomes qu'aux modèles vision-langage-action (VLA). Les résultats sont validés sur les benchmarks LapGym, LIBERO et évitement d'obstacles, ainsi qu'en déploiement réel sur un bras Franka. L'intérêt industriel est direct : la fragmentation des fréquences de contrôle est un problème concret lors de l'agrégation de données de démonstration provenant de robots différents (certains à 10 Hz, d'autres à 50 Hz), et les méthodes actuelles de diffusion policy ou de flow matching standard y sont explicitement vulnérables. Les actions temporellement incohérentes qui en résultent dégradent la stabilité du contrôle en boucle fermée, un facteur bloquant pour le déploiement en production. Le fait que FAFM améliore simultanément le taux de succès, la fluidité du mouvement, la robustesse aux biais mécaniques et la vitesse de convergence sans modifier l'architecture existante est une proposition de valeur claire pour les intégrateurs : pas de refonte du pipeline, pas de surcoût computationnel. La compatibilité avec les VLA est également notable, car ces modèles dominent les annonces récentes (pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) et souffrent précisément de ce type d'artefacts temporels à l'inférence. Le flow matching s'est imposé ces dix-huit derniers mois comme alternative crédible à la diffusion policy (Chi et al., 2023, Columbia), avec des temps d'inférence plus courts et une meilleure expressivité multimodale. Les travaux récents de Physical Intelligence (pi-0, pi-0.5) et de Figure AI ont largement adopté ce paradigme pour leurs politiques générales. FAFM s'inscrit dans une tendance de raffinement de ces fondations plutôt que de rupture : on optimise la stabilité et la généralisation inter-fréquences, deux verrous identifiés lors des premiers déploiements industriels à grande échelle. La validation sur Franka reste modeste en termes de diversité de tâches, et le code est disponible sous revue anonyme, ce qui signifie que la méthode n'est pas encore auditée par la communauté. Les prochaines étapes naturelles seraient une validation sur des plateformes humanoïdes multi-articulées et sur des datasets hétérogènes à grande échelle, là où la question des fréquences mixtes est la plus aiguë.

RecherchePaper
1 source
VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP
257arXiv cs.RO 

VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP

Des chercheurs ont soumis sur arXiv (réf. 2606.19729) VOiLA, un framework de planification robotique qui apprend des modèles POMDP génériques via diffusion conditionnelle pour planifier sous incertitude partielle, sans nécessiter de modèles physiques codés manuellement. Les diffusion samplers sont distillés en générateurs feedforward compacts intégrés au planificateur VOPP, exploitant la parallélisation GPU pour réduire le coût d'échantillonnage de près de mille fois. Sur trois benchmarks standards, VOiLA atteint des performances égales ou supérieures à Recurrent Soft Actor Critic (RSAC) avec moins de 10 % de ses données d'entraînement. Sur robot physique, les modèles appris exclusivement en simulation permettent de réussir 10 tâches sur 10 en conditions réelles. Le résultat le plus saillant est ce taux de succès sim-to-real de 100 % : les modèles, entraînés sans aucune donnée réelle, fonctionnent en conditions physiques sans dégradation, validant directement la robustesse du transfert simulation-réalité. La frugalité en données est tout aussi notable : surpasser RSAC avec moins d'un dixième de ses données d'entraînement suggère que la structure imposée par les modèles de diffusion compense efficacement le manque de supervision. La généralisation à des configurations d'environnement inédites, documentée sur benchmarks, renforce la crédibilité de l'approche pour des déploiements industriels à conditions variables, là où les agents RL classiques montrent souvent leurs limites. La planification POMDP est un cadre théorique solide pour les agents en environnement partiellement observable, mais son adoption pratique a longtemps été freinée par la difficulté de construire des modèles fidèles. Les approches model-based comme DreamerV3 ou RSSM apprennent ces modèles sans intégrer de planification en ligne explicite calculable en temps réel. VOiLA comble ce fossé en combinant l'expressivité de la diffusion et la rapidité de la distillation pour rendre le POMDP tractable sur GPU, face à des concurrents directs comme RSAC, les planificateurs Monte Carlo Tree Search et les frameworks VLA. Aucun acteur français ou européen n'est impliqué dans ce travail, bien que des laboratoires comme l'INRIA ou le LAAS-CNRS pourraient directement exploiter ces résultats ; aucun partenariat industriel ni timeline de déploiement n'est annoncé dans ce preprint.

RecherchePaper
1 source
CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle
258arXiv cs.RO 

CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle

Des chercheurs ont publié sur arXiv (référence 2505.17006, version 3) une méthode baptisée CoMo, pour "Continuous Motion", conçue pour extraire automatiquement des représentations continues du mouvement à partir de vidéos issues d'Internet, et les réutiliser comme étiquettes d'action pour entraîner des politiques robotiques. CoMo repose sur deux mécanismes distincts : une différence temporelle précoce (Td) appliquée en amont de l'encodeur pour rendre plus difficile l'apprentissage par raccourcis visuels (les modèles ont tendance à coder l'arrière-plan statique plutôt que le mouvement lui-même), et un apprentissage contrastif temporel (Tcl) qui construit des paires positives avec un décalage temporel réduit vers le futur, et des paires négatives en inversant la direction du temps. Le résultat est un espace latent continu, entraîné sur des vidéos à grande échelle, capable de générer des pseudo-étiquettes d'action pour des vidéos jamais vues en phase d'inférence. Des expériences en simulation et en conditions réelles montrent des gains de performance par rapport aux approches discrètes, aussi bien avec des architectures diffusion que autorégressives. L'enjeu industriel est direct : l'un des goulots d'étranglement du robot learning est la rareté des démonstrations téléopérées, coûteuses à collecter. Si une méthode peut extraire un signal d'action utilisable depuis des vidéos YouTube ou des caméras industrielles non étiquetées, elle réduit mécaniquement le coût de constitution des datasets. La contribution principale de CoMo face aux méthodes discrètes par quantification vectorielle (VQ) est de supprimer la perte d'information liée à la projection dans un codebook de petite taille, et surtout de combler le fossé de distribution entre un espace discret de tokens visuels et un espace d'actions continues à valeurs réelles, fossé qui pénalise l'apprentissage conjoint d'une politique unifiée. La généralisation zéro-shot annoncée est la prétention la plus forte : elle signifie que CoMo pourrait étiqueter des vidéos de nouveaux environnements ou tâches sans ré-entraînement, ce qui reste à valider sur des benchmarks standardisés ; l'abstract ne cite pas de métriques numériques précises. Ce travail s'inscrit dans un axe de recherche très actif depuis 2023, qui cherche à exploiter Internet comme source de supervision pour les robots, aux côtés de méthodes comme RT-2 de Google DeepMind, Pi-0 de Physical Intelligence, ou encore les travaux sur les VLA (Vision-Language-Action models) d'UC Berkeley et du MIT. Les approches discrètes concurrentes (type GROOT ou méthodes VQ-VAE appliquées à la vidéo) souffrent précisément des limitations que CoMo prétend résoudre. La prochaine étape naturelle serait une validation sur des benchmarks robotiques communautaires comme RLBench, LIBERO ou BridgeData V2, et un test à l'échelle de données réellement "internet-scale" pour confirmer si la généralisation zéro-shot tient face à la diversité des distributions visuelles du monde réel.

RecherchePaper
1 source
One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras
259arXiv cs.RO 

One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras

Des chercheurs ont publié le 24 juin 2026 sur arXiv (2606.19897) ExS2D, un framework hiérarchique permettant à un robot bras unique d'exécuter des tâches bimanuelle sans aucune démonstration en configuration deux bras. Le système décompose d'abord des instructions textuelles en sous-tâches structurées, en capturant explicitement les dépendances temporelles entre elles. Un module de grounding traduit ensuite chaque sous-tâche en actions exécutables via une cartographie guidée par l'observation. Enfin, un coordinateur basé sur un grand modèle de langage multimodal (MLLM) orchestre l'allocation des actions entre les deux bras et planifie les trajectoires sans collision. En simulation, ExS2D réduit le nombre moyen d'étapes d'exécution de 54,4 % tout en maintenant un taux de succès comparable au baseline mono-bras. Des expériences sur robot réel portant sur quatre tâches distinctes confirment la fiabilité du système, entraîné uniquement sur quelques échantillons mono-bras en régime few-shot. L'enjeu principal ici est le coût de collecte des données bimanuelles, qui constitue l'un des principaux freins à la manipulation duale en robotique industrielle et service. Les systèmes comme ALOHA ou les plateformes de télé-opération bimanuelle nécessitent des configurations spécialisées et des opérateurs formés, rendant le passage à l'échelle difficile. ExS2D contourne ce goulot d'étranglement en réutilisant des démonstrations mono-bras existantes, potentiellement déjà disponibles dans les parcs robotiques en production. La réduction de 54,4 % des étapes d'exécution représente un gain de débit concret pour des lignes d'assemblage ou de tri, bien que les conditions expérimentales exactes (vitesse, complexité des objets, variabilité de la scène) ne soient pas détaillées dans l'abstract, ce qui invite à nuancer cette métrique avant toute extrapolation industrielle. La manipulation bimanuelle attire des investissements croissants de la part d'acteurs comme Figure AI (Figure 03), Physical Intelligence (pi0) ou Apptronik, tous confrontés au même problème de données. La tendance actuelle est d'utiliser des VLA (Vision-Language-Action models) entraînés sur de vastes corpus de démonstrations humaines, mais la collecte bimanuelle reste coûteuse même pour ces acteurs. ExS2D s'inscrit dans une direction complémentaire, celle du transfer learning structural depuis des données mono-bras, une approche qui pourrait intéresser les intégrateurs travaillant sur des cellules robotiques existantes en mono-bras. Il s'agit pour l'instant d'un travail académique sans déploiement commercial annoncé ; la prochaine étape logique serait une validation sur des tâches industrielles plus complexes et avec une plus grande variabilité d'objets.

RecherchePaper
1 source
Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique
260arXiv cs.RO 

Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique

Un groupe de chercheurs impliqués dans l'élaboration de la norme ISO/WD 26264-1 au sein du comité technique ISO/TC 299/WG 16 publie un préprint arXiv (2606.19769, juin 2026) posant que la standardisation des données constitue le prochain verrou critique pour les robots humanoïdes. Leur thèse centrale: le goulot d'étranglement n'est pas seulement la rareté des données, mais leur caractère non cumulatif, causé par des coûts de collecte élevés, des silos organisationnels et des protocoles d'évaluation incompatibles. Les auteurs identifient trois conditions pour qu'un jeu de données soit réutilisable: l'expérience physique doit rester liée au corps du robot, à la tâche et au contexte d'exécution; les flux multimodaux doivent partager synchronisation temporelle, repères de coordonnées, calibration et unités documentées; les données doivent enfin être versionnées et traçables pour s'accumuler entre projets et organisations. L'enjeu est direct pour les équipes qui entraînent des modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI. Sans grammaire commune (métadonnées, provenance, versioning), chaque acteur repart de zéro à chaque nouveau déploiement. Pour un intégrateur industriel, cela signifie concrètement que des données collectées sur un site ne peuvent pas réentraîner un modèle sur un autre, même avec du matériel identique. L'article recadre le "sim-to-real gap" non pas comme un problème de simulation, mais comme un déficit d'alignement des référentiels physiques entre jeux de données: les hypothèses de synchronisation et de cinématique, si elles ne sont pas documentées, rendent les flux non interopérables dès le départ. La norme proposée s'articule en deux couches: une infrastructure horizontale couvrant le cycle de vie, les métadonnées, la qualité, le versioning et la traçabilité, et des parties spécifiques par capacité (manipulation, locomotion, interaction humain-robot, cognition). Le contexte est celui d'un secteur ou Figure AI, Boston Dynamics, Tesla (Optimus Gen 3), Unitree et 1X accumulent des données de manière cloisonnée, tandis que des initiatives ouvertes comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace) posent des bases communes sans force normative. Le préprint est en phase WD (Working Draft) sans date de ratification annoncée: c'est une prise de position académique, pas une norme publiée ni un déploiement industriel.

UESi ratifiée, la norme ISO/WD 26264-1 structurera les pratiques de données des acteurs européens de la robotique humanoïde ; HuggingFace (Paris) est déjà cité comme contributeur aux bases ouvertes communes (LeRobot), sans force normative à ce stade.

InfrastructureOpinion
1 source
Fail-RAG : un cadre fondé sur la RAG pour l'identification des défaillances des robots
261arXiv cs.RO 

Fail-RAG : un cadre fondé sur la RAG pour l'identification des défaillances des robots

Des chercheurs ont publié sur arXiv (2606.19598, juin 2026) Fail-RAG, un framework de détection automatique de pannes pour robots industriels combinant RAG (Retrieval Augmented Generation) et modèles vision-langage (VLM). Le principe : des images de défaillances et leurs métadonnées contextuelles sont indexées dans une base vectorielle ; lors d'un incident, le système calcule la similarité entre l'événement observé et les entrées de cette base, puis soumet les cas les plus proches à un VLM qui analyse la situation en suivant un gabarit d'instructions structuré. Les expériences ont porté sur cinq types d'opérations courantes en logistique entrepôt, testées à la fois en simulation et en environnement physique, sur des bras robotiques fixes et un manipulateur mobile. Résultat mesuré : +25 points de précision en moyenne par rapport à l'utilisation directe d'un VLM généraliste sans couche RAG. Le gain de 25 points est significatif dans un contexte où les VLM "out-of-the-shelf" peinent à fiabiliser la détection de pannes en conditions réelles, notamment face à la diversité des échecs possibles dans des environnements dynamiques. Les méthodes à base de règles (classiques en automatisation industrielle) se révèlent fragiles dès que les tâches ou l'environnement évoluent, un problème structurel dans les entrepôts à forte variabilité. Fail-RAG répond à ce défaut en construisant une mémoire des défaillances passées plutôt qu'en codant des règles figées, ce qui le rend potentiellement plus robuste aux variantes nouvelles. C'est une approche pertinente pour les intégrateurs cherchant à réduire les arrêts non planifiés sans avoir à réentraîner un modèle complet à chaque nouveau type d'incident. Le contexte académique de ce travail est celui de la montée des robots généralistes et de l'IA incarnée dans les contextes manufacturiers, portée notamment par la pénurie de main-d'oeuvre en logistique. La recherche sur la détection de pannes par vision reste un chantier ouvert : des acteurs comme Boston Dynamics, Intrinsic (Google) ou les labos universitaires travaillant sur des VLA (Vision-Language-Action models) s'intéressent à des approches similaires de résilience autonome. Fail-RAG reste à ce stade un prototype de recherche avec validation expérimentale limitée en termes de diversité de scènes et d'équipements. Les prochaines étapes naturelles seraient un déploiement pilote chez un opérateur logistique et une évaluation sur des robots mobiles autonomes (AMR) à plus large échelle.

💬 25 points de précision en plus juste en ajoutant une mémoire des pannes passées, c'est le genre de résultat qui devrait faire réfléchir les intégrateurs robotiques avant de coder leur prochaine règle métier en dur. Le principe est simple mais efficace : plutôt que de réentraîner un modèle complet à chaque nouveau type d'incident, le système récupère les cas similaires et demande au VLM de trancher en contexte. Proto de recherche pour l'instant, mais l'architecture a du sens.

IA physiquePaper
1 source
VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage
262arXiv cs.RO 

VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage

Des chercheurs présentent dans un preprint arXiv (2606.20056) VFILC, une méthode d'apprentissage par imitation pour robots qui résout le problème de l'extrapolation en fréquence de mouvement. Les approches classiques à base de réseaux de neurones pour les mouvements à vitesse variable se limitaient à interpoler dans la plage d'entraînement ou produisaient des trajectoires imprévisibles au-delà. VFILC combine VFIL (Variable-Frequency Imitation Learning), qui couple la fréquence d'échantillonnage du modèle à la fréquence de mouvement souhaitée, avec une commande par apprentissage itératif (ILC) dotée d'un terme feedforward et d'un terme feedback correcteur. Sur trois tâches de manipulation, les résultats montrent une réduction des erreurs de fréquence de 81 % sur une tâche d'essuyage et de 50 % sur une tâche de secouage, comparé à VFIL seul, lorsque le robot opère au double de la vitesse moyenne présente dans les données d'entraînement. Sur une tâche de malaxage riche en contacts, où la friction complexe perturbe le mouvement même en régime interpolé, VFILC améliore la précision de 27 % par rapport à VFIL seul. L'enjeu est la programmabilité par démonstration à des allures variables, cas courant en robotique manufacturière : adapter la cadence d'une tâche apprise sans recollecter de nouvelles démonstrations. Le fait que le composant ILC feedback corrige les erreurs de fréquence sans déstabiliser le comportement global est significatif pour les tâches à contact (essuyage, assemblage par insertion), où la dynamique réelle diverge du modèle nominal. Les réductions annoncées sont concrètes, mais les auteurs ne précisent pas le contexte de charge ni la durée des cycles, ce qui limite la comparabilité directe avec d'autres benchmarks de manipulation publiés. L'apprentissage par imitation est une approche de plus en plus adoptée pour programmer les robots manipulateurs sans modèle explicite, popularisée par des méthodes comme ACT (Action Chunking with Transformers, Stanford) ou Diffusion Policy. La gestion des vitesses variables y reste un angle mort : la plupart des méthodes supposent une fréquence de contrôle fixe. VFIL avait ouvert la voie en couplant fréquence d'échantillonnage et fréquence de mouvement, mais souffrait de son architecture en boucle ouverte. VFILC apporte la boucle de correction manquante via l'ILC, technique bien établie en contrôle industriel (presses, robots de soudage à répétition). La prochaine étape logique serait l'intégration dans des pipelines VLA (Vision-Language-Action) pour adapter dynamiquement la cadence sur commande en langage naturel, une direction que Physical Intelligence, CMU et ETH Zurich explorent activement.

RecherchePaper
1 source
Coordination par dépliage profond
263arXiv cs.RO 

Coordination par dépliage profond

Des chercheurs ont présenté Deep Coordinator, un framework de deep-unfolding (arXiv:2606.19920) qui automatise le réglage des hyperparamètres d'ADMM-DDP, un solveur distribué populaire pour la planification de trajectoires multi-robots. L'architecture déroule un nombre fixe d'itérations de l'algorithme en couches d'un réseau de neurones, des fonctions apprenables calculant dynamiquement les hyperparamètres suivants à partir de l'état courant de l'optimiseur. Sur des simulations de flottes de voitures et de quadrotors, Deep Coordinator produit des trajectoires de qualité équivalente entre 6,18 et 9,44 fois plus vite que les solveurs conventionnels, et maintient ces gains sur des flottes jusqu'à 8 fois plus grandes que celles vues à l'entraînement. L'intérêt industriel est direct : l'optimisation distribuée est scalable et structurellement transparente, mais son calibrage fin par configuration freine systématiquement l'adoption. Deep Coordinator serait le premier framework de deep-unfolding à adapter les paramètres de pénalité d'un optimiseur non-convexe en temps-solve. Les auteurs signalent en outre que l'approche supervisée classique produit des solutions dégénérées dans ce contexte, et proposent un schéma d'apprentissage non supervisé. Pour les opérateurs de flottes denses (entrepôts, inspection par drone), une accélération d'un facteur 6 à 9 sur la planification collaborative ouvre la voie à des déploiements temps réel difficiles à atteindre avec les solveurs actuels. Le deep-unfolding hybride structure algorithmique classique et apprentissage profond en mappant les itérations d'un solveur en couches de réseau de neurones. ADMM est un standard de l'optimisation distribuée depuis Boyd et al. (2011), très utilisé pour la coordination multi-robot. Les concurrents directs incluent le Multi-Agent Reinforcement Learning (MARL) et le MPC centralisé, dont les limites de scalabilité ou de généralisation sont documentées. La bonne généralisation à des systèmes 8x plus grands est prometteuse, mais les résultats restent simulés ; une validation sur hardware réel, notamment en environnements dynamiques, sera l'étape déterminante pour confirmer la valeur opérationnelle du framework.

RecherchePaper
1 source
Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices
264arXiv cs.RO 

Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.19586) un cadre d'augmentation de données baptisé Action-View Augmentation, conçu pour améliorer la robustesse des politiques visuomotrices dans les tâches de manipulation robotique. Le système repose sur un préhenseur parallèle portable équipé d'une unique caméra fisheye montée en configuration eye-in-hand, capable de capturer des démonstrations réelles en milieu non contrôlé. À partir d'une seule démonstration humaine, le framework génère automatiquement des séquences d'images fisheye visuellement réalistes ainsi que des trajectoires d'actions physiquement cohérentes. Pour reconstruire et éditer la scène 3D en y introduisant des objets inédits, les auteurs ont développé une nouvelle formulation de Gaussian Splatting adaptée aux champs de vision larges des optiques fisheye. Une optimisation de trajectoire produit ensuite des chemins fluides, sans collision et compatibles avec le rendu de nouvelles vues caméra. Les expériences menées en simulation et en environnement réel montrent une amélioration du taux de succès sur plusieurs tâches de manipulation, aussi bien dans des scènes identiques qu'en présence d'obstacles requérant un évitement de collision. L'enjeu central est la fragilité des politiques visuomotrices actuelles face aux observations hors-distribution : une légère variation de configuration initiale ou un obstacle imprévu suffit à provoquer un échec d'exécution catastrophique. Collecter suffisamment de données pour couvrir ces variations est coûteux et chronophage, ce qui constitue l'un des principaux freins à l'industrialisation de la manipulation robotique. Le titre du papier résume l'ambition : multiplier artificiellement la valeur d'une seule démonstration réelle pour entraîner des politiques plus robustes. L'adaptation du Gaussian Splatting aux optiques fisheye, jusqu'ici peu traitée dans la littérature robotique, élargit le champ d'application à des setups matériels légers et peu coûteux. Ce type d'approche répond directement au problème du sim-to-real gap en générant des données synthétiques ancrées dans une scène réelle reconstruite, plutôt qu'en simulateurs déconnectés du terrain. Ce travail s'inscrit dans la dynamique des politiques de manipulation end-to-end, où des systèmes comme pi-0 de Physical Intelligence ou les architectures à diffusion (Diffusion Policy, ACT) ont prouvé que l'imitation de démonstrations humaines peut générer des comportements complexes, mais restent gourmands en données. Le Gaussian Splatting, popularisé à partir de 2023, s'est progressivement imposé en robotique grâce à sa capacité à synthétiser des vues nouvelles de haute qualité à partir de captures réelles. L'approche eye-in-hand à caméra fisheye se distingue des setups multi-capteurs fixes, réduisant le matériel embarqué à un seul composant. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit exclusivement d'un résultat académique, sans partenariat industriel déclaré ni timeline commerciale. Les prochaines étapes naturelles concerneraient l'évaluation à plus grande échelle et l'intégration dans des pipelines de fine-tuning pour des politiques de type VLA (Vision-Language-Action).

RecherchePaper
1 source
Étude comparative sur l'agilité, l'efficacité et l'absorption des chocs des robots bipèdes à orteils actifs
265arXiv cs.RO 

Étude comparative sur l'agilité, l'efficacité et l'absorption des chocs des robots bipèdes à orteils actifs

Des chercheurs ont publié sur arXiv en juin 2026 (2606.19699) une étude comparative portant sur un robot bipède à 14 degrés de liberté (DOF) équipé d'orteils actifs, conçus pour reproduire les caractéristiques humaines de légèreté, fort couple et robustesse. Pour évaluer objectivement l'apport des orteils, l'équipe a développé un environnement de simulation haute fidélité modélisant avec précision les actionneurs réels à transmissions couplées et la consommation électrique effective. Une fonction de récompense minimale en apprentissage par renforcement (RL) a été appliquée de manière identique aux deux configurations -- avec et sans orteils actifs -- pour garantir une comparaison équitable. À une vitesse de marche de 1,33 m/s, la configuration avec orteils réduit le coût de transport (CoT) de 17,5 % et la force de réaction au sol (GRF) lors de l'attaque du talon de 5,0 %. Sur les tests d'agilité, la déviation moyenne par rapport à la trajectoire cible chute de 25,0 % et la déviation maximale de 34,0 %. Ces résultats, bien qu'issus uniquement de simulation, apportent une validation quantitative rigoureuse là où la littérature précédente se contentait souvent de démonstrations qualitatives. La réduction du CoT est directement pertinente pour les déploiements industriels, où l'autonomie énergétique conditionne la durée des cycles opérationnels. La diminution du GRF au talon suggère par ailleurs une meilleure durabilité mécanique à long terme, un paramètre critique pour les intégrateurs industriels qui dimensionnent la maintenance préventive. La progression sur les métriques d'agilité confirme une hypothèse souvent avancée mais rarement chiffrée : les orteils contribuent significativement au contrôle dynamique en virage et sur trajectoires complexes, au-delà de la simple marche en ligne droite. Le débat sur l'utilité des orteils dans la robotique humanoïde est ancien. La majorité des plateformes commerciales actuelles -- Figure 02/03, Optimus Gen 2 ou Atlas de Boston Dynamics -- optent pour des pieds plats ou semi-rigides, privilégiant la simplicité mécanique et la robustesse. Des travaux antérieurs sur des robots comme ASIMO ou Cassie avaient exploré des pieds articulés sans aboutir à un consensus sur le gain réel. Cette étude repositionne la question en proposant un cadre d'évaluation reproductible et des métriques comparables. La prochaine étape critique sera la validation sim-to-real : les gains simulés tiennent rarement à l'identique sur hardware, notamment en raison du jeu mécanique et des effets de compliance non modélisés. Aucun déploiement physique ni partenaire industriel n'est annoncé à ce stade.

RecherchePaper
1 source
PAIWorld : un modèle fondation du monde en 3D cohérent pour la manipulation robotique
266arXiv cs.RO 

PAIWorld : un modèle fondation du monde en 3D cohérent pour la manipulation robotique

Des chercheurs ont soumis PAIWorld sur arXiv (2506.18375, juin 2026), un framework de modèle fondationnel de monde (world foundation model, WFM) conçu pour la manipulation robotique avec cohérence 3D multi-vues. L'architecture, construite sur un transformateur de diffusion (DiT), intègre trois composants : des blocs d'attention croisée géométriquement informés (Geometry-Aware Cross-View Attention), un encodage positionnel rotatif qui intègre directions de rayons caméra et poses extrinsèques (Geometric RoPE), et un module Latent 3D-REPA qui distille des représentations 3D à partir de modèles 3D figés. Sur les benchmarks publics, PAIWorld se classe premier sur le leaderboard WorldArena et deuxième sur l'AgiBot-Challenge2026, deux références communautaires pour les simulateurs de manipulation. Le problème que PAIWorld adresse est concret : les robots de manipulation utilisent typiquement plusieurs caméras simultanées (vue égocentrique, eye-to-hand, poignet), mais les modèles de monde existants se contentent de concaténer les tokens de chaque vue sans raisonnement géométrique, générant dérive d'objet entre vues, incohérence de profondeur et désalignement de texture. Ces artefacts dégradent l'entraînement de politiques dans les simulateurs et amplifient le sim-to-real gap, problème central pour tout industriel cherchant à transférer des comportements entraînés en simulation vers des robots physiques. En établissant un canal explicite de communication inter-vues combiné à un prior géométrique 3D, PAIWorld vise à améliorer la fidélité des simulateurs utilisés pour le post-entraînement de politiques multi-vues et la planification basée sur des modèles (model-based planning). Les world foundation models appliqués à la robotique constituent un axe de recherche en forte croissance en 2026, porté notamment par des travaux comme UniSim et Genie 2, ainsi que par les approches VLA (Vision-Language-Action) qui cherchent à intégrer simulation et apprentissage de politiques. L'AgiBot-Challenge2026, structuré autour de tâches de manipulation dextère, joue un rôle de référence communautaire croissant pour ces systèmes. Il s'agit d'une prépublication scientifique sans partenariat commercial ni déploiement industriel annoncé : les suites logiques restent l'évaluation sur des benchmarks de transfert sim-to-real avec des plateformes physiques et l'intégration dans des world action models complets.

RecherchePaper
1 source
Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots
267arXiv cs.RO 

Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots

Des chercheurs ont publié le 18 juin 2026 sur arXiv (2606.18328) un article présentant ReSYNC, pour Recovery-Driven Synthesis of Relational Concepts, un système d'apprentissage robotique capable d'extraire automatiquement des abstractions conceptuelles à partir de ses propres erreurs. Le principe repose sur un double cycle d'apprentissage incrémental : une phase d'apprentissage de compétences, où le robot utilise le renforcement (RL) pour récupérer d'échecs observés durant l'entraînement, et une phase d'apprentissage de concepts, où il construit et raffine des prédicats relationnels, c'est-à-dire des règles symboliques décrivant les états du monde pertinents pour éviter ces mêmes échecs. Testé sur quatre domaines simulés incluant des tâches de manipulation non préhensile (pousser, faire glisser des objets sans saisie ferme), ReSYNC surpasse les méthodes de référence de plus de 50 % sur des problèmes à horizon long et non vus à l'entraînement. Un transfert sim-to-réel est également démontré, avec exécution de comportements de manipulation en conditions physiques réelles. L'enjeu industriel central que pointe ce travail est l'inefficacité structurelle du RL classique face à la diversité des pannes : entraîner une politique distincte pour chaque mode d'échec ne passe pas à l'échelle. ReSYNC propose une alternative en transformant des récupérations locales, apprises sur des tâches spécifiques, en capacité d'évitement global sur des scénarios inédits. Pour les intégrateurs industriels ou les équipes de robotique mobile, cela suggère un chemin vers des robots capables de se "réparer" conceptuellement sans intervention humaine entre chaque environnement de déploiement. Le transfert sim-to-réel reste cependant présenté sur des tâches de manipulation relativement contraintes, et les vidéos de démonstration sélectionnées dans un preprint ne permettent pas encore d'évaluer la robustesse sur des cycles de production réels. ReSYNC s'inscrit dans un courant de recherche qui tente de réconcilier planification symbolique classique (TAMP, PDDL) et apprentissage par renforcement, un problème ouvert depuis plus d'une décennie. Des approches concurrentes incluent les méthodes guidées par LLM pour la génération de prédicats (Code as Policies, SayCan) ainsi que les travaux sur la découverte automatique de prédicats en TAMP (LEGO, GROOT). Ce qui distingue ReSYNC est son ancrage explicite dans l'expérience d'échec plutôt que dans des démonstrations d'expert. Le code et les environnements de simulation ne semblent pas encore publics au moment de la soumission, et aucun partenaire industriel ni calendrier de déploiement n'est mentionné, ce qui classe ce travail comme une contribution académique prometteuse plutôt qu'un produit opérationnel.

RecherchePaper
1 source
ZiMPedance : modélisation et contrôle ZMP intégrant l'impédance pour robots quadrupèdes transportant des charges
268arXiv cs.RO 

ZiMPedance : modélisation et contrôle ZMP intégrant l'impédance pour robots quadrupèdes transportant des charges

Des chercheurs ont publié une nouvelle méthode de contrôle pour quadrupèdes transportant des charges via des bras passifs à ressort, baptisée ZiMPedance. Le problème central : lorsqu'un quadrupède porte une charge suspendue à un bras passif (ressort et amortisseur, sans actionnement propre), la dynamique de cette interface génère des forces oscillatoires susceptibles de déstabiliser la locomotion. Les auteurs dérivent une formulation étendue du Zero Moment Point (ZMP), critère classique de stabilité en robotique de marche, intégrant explicitement les paramètres de raideur, d'amortissement et de masse de la charge. Cette formulation est ensuite incorporée dans un contrôleur prédictif (MPC) basé sur un modèle Single Rigid Body Dynamics augmenté des sous-systèmes passifs. En simulation, la méthode réduit les violations de stabilité par un facteur 10, de 7,0 % à 0,7 %, et abaisse l'effort en force de réaction au sol horizontale de 15 % par rapport à un contrôleur de référence. Les tests matériels ont utilisé une charge de 2 kg : le robot maintient une locomotion stable sous perturbations de type traction-relâchement là où le contrôleur nominal échoue. L'enjeu industriel est direct. Les bras passifs à ressort constituent une solution attractive pour équiper les quadrupèdes de capacités de transport sans alourdir la plateforme ni multiplier les actionneurs, contrairement aux manipulateurs actifs, plus lourds et plus coûteux. Le phénomène identifié ici, la résonance entre les configurations sous-amorties et les harmoniques de locomotion, représente un obstacle réel au déploiement en environnements non contrôlés. ZiMPedance démontre qu'il est possible de compenser ces effets par la modélisation plutôt que par le sur-actionnement, une approche directement transposable pour des cas d'usage logistiques, d'inspection industrielle ou de livraison de colis. Le même modèle permet en outre un suivi de position de l'effecteur via la dynamique passive, sans actionner le bras, ce qui ouvre des possibilités de contrôle indirect à faible coût énergétique. Ce travail s'inscrit dans la continuité des avancées MPC pour robots à pattes, un axe de recherche structurant depuis les développements autour de MIT Cheetah et ANYmal (ANYbotics). Dans le segment commercial, Boston Dynamics équipe Spot d'un bras actif à six degrés de liberté, Unitree propose des configurations payload sur ses quadrupèdes B1 et B2, et des acteurs européens comme Wandercraft ou Enchanted Tools explorent des architectures complémentaires pour la manipulation embarquée. Publié en preprint sur arXiv sous l'identifiant 2606.18883, ce travail n'a pas encore été soumis à révision par les pairs : les gains annoncés restent à valider en conditions de charge variable et sur terrain non structuré, hors cadre simulé.

UEMéthode potentiellement transposable pour des acteurs européens comme Wandercraft ou Enchanted Tools explorant la manipulation embarquée, mais aucun lien direct avec la France ou l'UE n'est documenté dans ce travail.

RecherchePaper
1 source
RSLCPP : simulations déterministes avec ROS 2
269arXiv cs.RO 

RSLCPP : simulations déterministes avec ROS 2

Une équipe de l'Université Technique de Munich (TUM) publie RSLCPP, une bibliothèque open-source en C++ conçue pour rendre les simulations robotiques sous ROS 2 entièrement déterministes. La contribution, présentée dans un article révisé sur arXiv (arXiv:2601.07052v2), s'attaque à un problème structurel de ROS : son architecture asynchrone et multi-processus rend les résultats de simulation non reproductibles d'une machine à l'autre, voire d'une exécution à l'autre sur le même matériel. L'équipe démontre que RSLCPP produit des résultats bit-à-bit identiques sur plusieurs architectures CPU, validés sur un benchmark synthétique et sur un système robotique réel. La bibliothèque est disponible en open-source sur GitHub (TUMFTM/rslcpp). Le problème que résout RSLCPP est fondamental pour quiconque utilise ROS 2 en simulation : lorsque les temps de calcul et les latences de communication varient, l'ordre d'exécution des callbacks n'est pas garanti, ce qui compromet la reproductibilité des résultats. Pour le benchmarking scientifique et l'intégration continue (CI/CD), où la répétabilité est essentielle, cela constitue un frein réel. RSLCPP impose un ordonnancement déterministe des callbacks en combinant les nœuds ROS existants dans une routine de simulation séquentielle, sans nécessiter de modification du code source. Ce dernier point est décisif : les équipes peuvent instrumenter leurs stacks ROS existantes sans refactoring, ce qui abaisse significativement le coût d'adoption. ROS 2, maintenu par Open Robotics, est devenu le standard de facto en robotique académique et industrielle. La non-reproductibilité des simulations est un problème connu depuis des années dans la communauté, que des simulateurs comme Gazebo ou Isaac Sim de NVIDIA ont partiellement adressé via leurs propres mécanismes internes. RSLCPP se distingue en opérant directement au niveau de l'exécuteur ROS 2, rendant l'approche indépendante du simulateur physique sous-jacent et donc plus portable. La prochaine étape logique serait l'intégration dans des pipelines CI robotiques pour valider des comportements algorithmiques sans variabilité matérielle, un besoin croissant à mesure que les équipes industrielles adoptent des pratiques DevOps pour le développement robotique.

UELes équipes de R&D robotique européennes utilisant ROS 2 bénéficient d'un outil open-source issu de TUM (Allemagne) pour fiabiliser leurs pipelines CI/CD de simulation sans refactoring de code existant.

InfrastructureOpinion
1 source
R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique
270arXiv cs.RO 

R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique

Des chercheurs ont publié sur arXiv en octobre 2024 (arXiv:2510.18085v2) une méthode baptisée R2BC (Round-Robin Behavior Cloning), conçue pour entraîner des systèmes multi-robots à partir de démonstrations réalisées par un seul opérateur humain. Le principe : l'humain téléopère un robot à la fois, de façon séquentielle en "round-robin", sans jamais avoir à contrôler plusieurs agents simultanément ni à fournir des démonstrations dans l'espace d'action conjoint. La méthode a été évaluée sur quatre tâches simulées multi-agents, puis déployée sur deux tâches physiques avec des démonstrations humaines réelles. Résultat : R2BC atteint, voire dépasse dans certains cas, les performances d'une approche oracle de behavior cloning entraînée sur des démonstrations synchronisées privilégiées, c'est-à-dire des données idéales rarement disponibles en pratique. L'intérêt de R2BC tient à son approche de la collecte de données d'imitation learning. En robotique collaborative multi-bras ou en manipulation industrielle coordonnée, constituer des démonstrations synchronisées entre plusieurs agents représente un goulot d'étranglement logistique majeur : cela exige plusieurs opérateurs, une coordination temporelle précise, et multiplie les coûts d'instrumentation. R2BC supprime cette contrainte en permettant à un seul technicien de construire progressivement un dataset multi-agent, ce qui rend la méthode directement applicable aux déploiements à budget contraint. Que R2BC tienne la comparaison face à un oracle entraîné sur des données idéales constitue une validation empirique solide, même si les tâches physiques testées restent relativement simples et que les détails sur les configurations matérielles ne sont pas communiqués dans le préprint. L'imitation learning par clonage comportemental s'est imposé comme une voie centrale pour l'apprentissage robot depuis les travaux fondateurs de DAgger (Ross et al., 2011) et, plus récemment, avec les architectures VLA (Vision-Language-Action) portées notamment par Physical Intelligence (pi0) et Google DeepMind. Son extension au multi-agent reste néanmoins peu explorée : la plupart des travaux existants supposent des démonstrations conjointes ou une coordination centralisée, là où des méthodes de renforcement multi-agent comme MAPPO ou QMIX opèrent sans contrainte de collecte humaine. R2BC occupe ce blanc de la littérature avec une approche pragmatique. Les suites naturelles seraient de tester la méthode sur des équipes de robots plus nombreuses, dans des environnements dynamiques proches des standards industriels, et d'évaluer sa robustesse sur des tâches longue-horizon.

RecherchePaper
1 source
Un cadre d'optimisation hybride pour la synthèse de saisie sous observations partielles
271arXiv cs.RO 

Un cadre d'optimisation hybride pour la synthèse de saisie sous observations partielles

Des chercheurs ont publié sur arXiv (référence 2606.18053) un framework hybride de synthèse de préhension robotique capable de générer des saisies robustes à partir de nuages de points partiels, c'est-à-dire des scènes où le robot ne perçoit qu'une vue incomplète de l'objet à manipuler. L'approche combine un modèle à énergie (EBM) entraîné par apprentissage avec une méthode géométrique analytique d'ICP (Iterative Closest Point), les deux étant intégrés dans un cadre d'optimisation SVGD (Stein Variational Gradient Descent) qui raffine itérativement les configurations de préhension candidates. Évalué sur 67 objets distincts avec 5 360 tentatives de saisie, le système atteint un taux de succès moyen de 60,9 %, contre 31,1 % pour AnyGrasp, 48,4 % pour Grasp Pose Detection et 56,6 % pour AS-ICP, son concurrent hybride le plus proche. Ces résultats adressent un problème central en robotique de manipulation industrielle : la dégradation des performances lorsque le capteur ne dispose que d'une vue partielle de la scène, situation quasi systématique en cellule de picking réel. Le gain de 4,3 points sur AS-ICP, méthode purement géométrique, et de près de 30 points sur AnyGrasp, approche purement data-driven, indique que l'hybridation n'est pas un compromis mais une complémentarité structurelle : l'EBM apporte une prior apprise sur la géométrie des objets, tandis que l'ICP ancre le résultat dans une contrainte physique vérifiable. Pour les intégrateurs B2B, cela réduit la dépendance à des datasets massifs spécifiques à chaque référence produit, un frein bien connu au déploiement en logistique et en assemblage. La synthèse de préhension sous observations partielles est un sujet actif depuis les travaux fondateurs de Dex-Net (Berkeley, 2017) et l'émergence des architectures VLA appliquées à la manipulation. AnyGrasp, développé par l'équipe de Hao Su (UC San Diego), reste une référence industrielle largement utilisée ; sa sous-performance ici sur nuages incomplets souligne une limite connue des méthodes purement apprises sans contrainte géométrique explicite. Ce travail n'est pas accompagné d'une annonce de déploiement ou de partenariat industriel ; il s'agit d'une contribution de recherche publiée en preprint, sans validation en environnement industriel réel déclarée. Les prochaines étapes naturelles seraient des tests sur robots physiques (bras 6-DOF type UR ou Franka) et une intégration dans des pipelines de bin picking.

RecherchePaper
1 source
Quantification de l'incertitude pour les modèles VLA à base de flux
272arXiv cs.RO 

Quantification de l'incertitude pour les modèles VLA à base de flux

Des chercheurs de la TU Munich ont publié sur arXiv (2606.18043) une méthode pour quantifier l'incertitude des modèles vision-langage-action (VLA) basés sur le flow matching, une classe de modèles qui combine un backbone vision-langage avec une tête génératrice d'actions entraînée sur de larges corpus de données robotiques. Leur approche, baptisée Velocity-Field Disagreement (VFD), exploite le désaccord entre les champs de vitesse d'un petit ensemble de modèles pour estimer l'incertitude épistémique, c'est-à-dire l'incertitude liée au manque de données d'entraînement plutôt qu'au bruit intrinsèque du signal. S'appuyant sur ces estimations, ils proposent SAVE, un cadre d'apprentissage actif multitâche guidé par l'incertitude, validé sur le benchmark LIBERO. Résultat clé : SAVE nécessite au moins 22 % de démonstrations expertes en moins que les baselines pour adapter un VLA à de nouvelles tâches. Ce résultat adresse un problème concret qui freine le déploiement industriel des VLAs : sans mécanisme de confiance, un robot ne sait pas quand il risque d'échouer, ce qui est rédhibitoire dans des environnements non-stationnaires comme une ligne de production évolutive. La détection de défaillance en temps réel qu'offre VFD permettrait d'intégrer un circuit de supervision humain ciblé plutôt que systématique, réduisant directement le coût opérationnel. La réduction de 22 % des démonstrations nécessaires à l'adaptation représente aussi un argument économique fort : collecter des données téléopérées reste la goulot d'étranglement principal du passage à l'échelle des VLAs en production. Les VLAs ont émergé comme paradigme dominant en manipulation robotique depuis les travaux de Physical Intelligence (pi-0, basé sur flow matching), Google DeepMind (RT-2, OpenVLA) et Hugging Face (LeRobot). La limitation identifiée ici -- l'absence de calibration des prédictions -- est connue du secteur mais rarement traitée directement. Le groupe LSY de la TU Munich, spécialisé en apprentissage pour systèmes autonomes, positionne ce travail comme une brique de fiabilité applicable à tout VLA flow-based existant, sans réentraînement complet. Le projet dispose d'un site dédié (tum-lsy.github.io/uq_vla/) et la prochaine étape logique serait une validation sur hardware réel, les expériences actuelles restant confinées au benchmark simulé LIBERO.

UELa TU Munich (institution européenne) publie une brique de fiabilité intégrable dans tout VLA flow-based sans réentraînement complet, ce qui pourrait réduire les coûts de supervision humaine et accélérer le déploiement industriel des VLAs dans les usines européennes.

RechercheOpinion
1 source
OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes
273arXiv cs.RO 

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

OmniRetarget est un pipeline de génération de données pour l'apprentissage par renforcement (RL) sur robots humanoïdes, présenté dans un préprint arXiv (2509.26633, v3). Face au problème du retargeting, qui consiste à convertir des captures de mouvement humain en références cinématiques exploitables par un robot, les méthodes existantes produisent des artefacts physiquement incohérents comme le glissement des pieds (foot-skating) ou la pénétration de surfaces, et ignorent les interactions humain-objet et humain-environnement. OmniRetarget introduit un "interaction mesh", un maillage intermédiaire qui modélise et préserve explicitement les relations spatiales et de contact entre l'agent, le terrain et les objets manipulés, via une minimisation par déformation laplacienne sous contraintes cinématiques. Évalué sur les datasets OMOMO, LAFAN1 et des données MoCap propriétaires, il génère plus de 8 heures de trajectoires de meilleure qualité que les baselines de référence. Appliqué au robot humanoïde Unitree G1, il permet d'exécuter des tâches de parkour et de loco-manipulation sur des horizons allant jusqu'à 30 secondes, entraîné avec seulement 5 termes de récompense et sans curriculum d'apprentissage. L'intérêt pour les chercheurs et intégrateurs réside dans deux apports combinés : la qualité cinématique améliorée réduit le sim-to-real gap, tandis que la préservation des interactions permet d'augmenter une démonstration unique vers différentes morphologies de robots, terrains et configurations d'objets, multipliant l'efficacité de la donnée. Plus significatif encore, l'obtention de comportements de loco-manipulation longs et complexes avec seulement 5 termes de récompense partagés entre toutes les tâches contredit l'hypothèse sectorielle selon laquelle ce type de compétences exige un reward engineering élaboré ou un curriculum progressif. Le paradigme dominant pour l'apprentissage humanoïde repose sur le retargeting MoCap vers des références RL, aux côtés de la télé-opération et de l'imitation directe. Le Unitree G1, produit par le fabricant chinois Unitree Robotics, s'est imposé comme plateforme académique de facto dans ce domaine, face à l'Atlas de Boston Dynamics, aux humanoïdes de Figure AI et d'Agility Robotics. OmniRetarget reste à ce stade une contribution de recherche sans annonce de déploiement industriel ; sa robustesse dans des environnements non structurés, où la géométrie de contact est imprévisible, reste à démontrer hors laboratoire.

RecherchePaper
1 source
Surveillance respiratoire sans contact sur robots mobiles hétérogènes : un cadre multimodal de calcul embarqué
274arXiv cs.RO 

Surveillance respiratoire sans contact sur robots mobiles hétérogènes : un cadre multimodal de calcul embarqué

Des chercheurs ont publié le 17 juin 2026 sur arXiv (réf. 2606.17376) un cadre logiciel de surveillance respiratoire sans contact déployé sur des robots mobiles hétérogènes embarquant des unités de calcul en périphérie (edge computing). Le système mesure la fréquence respiratoire (FR) d'une victime sans capteur porté ni contact physique, en combinant quatre modalités d'imagerie : RGB, thermique, proche infrarouge (NIR) et caméra basse lumière. Une sélection adaptative au niveau lumineux choisit automatiquement la modalité optimale, tandis qu'un module d'extraction de région d'intérêt thoracique guidé par points-clés squelettiques garantit la robustesse aux changements de posture. Un indice de qualité de signal (SQI) filtre les estimations peu fiables avant transmission. Le cadre a été évalué sur trois plateformes robotiques couvrant la locomotion quadrupède et à roues, sans recalibration algorithmique par plateforme. Les portées opérationnelles mesurées sont : RGB jusqu'à 8 m, NIR jusqu'à 6 m, thermique efficace uniquement à courte distance, basse lumière jusqu'à 8 m en obscurité totale. Ce travail répond à un verrou opérationnel concret : lors d'opérations de recherche et sauvetage (SAR) ou de triage en zone contaminée, équiper chaque victime d'un capteur porté est impraticable, et l'exposition des secouristes doit être minimisée. Démontrer qu'un robot mobile standard peut estimer la fréquence respiratoire de manière fiable à plusieurs mètres, sur des sujets en postures variées et dans des conditions d'éclairage dégradées, valide une brique essentielle du triage autonome. La portabilité sans retuning entre plateformes hétérogènes est un résultat notable : elle suggère une intégration possible sur des robots existants via une couche logicielle, sans exiger un matériel dédié. Les limites thermiques à courte portée restent cependant un point de vigilance pour les environnements chauds ou encombrés. Le domaine du triage autonome en SAR mobilise plusieurs équipes académiques et industriels depuis la catastrophe de Fukushima (2011), qui avait mis en évidence le manque de robots capables d'évaluer l'état de victimes sans intervention humaine directe. Dans l'espace des robots d'intervention, Boston Dynamics (Spot), ANYbotics (ANYmal) et Ghost Robotics fournissent des plateformes quadrupèdes sur lesquelles ce type de module pourrait se greffer. Côté français, les travaux du LAAS-CNRS et d'entreprises comme Shark Robotics (robots d'intervention COLOSSUS) s'inscrivent dans ce continuum. Les prochaines étapes logiques incluent la validation sur victimes réelles en exercice USAR (Urban Search and Rescue), l'intégration avec des modules de détection de signe de vie supplémentaires (pouls, mouvement), et le passage à des plateformes certifiées pour les environnements ATEX ou CBRN.

UELes équipes françaises LAAS-CNRS et Shark Robotics, actives sur les robots d'intervention, pourraient intégrer ce framework logiciel sans recalibration sur leurs plateformes existantes pour renforcer les capacités de triage autonome en opérations SAR.

RecherchePaper
1 source
WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles
275arXiv cs.RO 

WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles

Une équipe de recherche a publié sur arXiv (ref. 2606.18097) WireCraft, un benchmark de simulation dédié à la manipulation industrielle d'objets linéaires déformables (DLO), typiquement les câbles et faisceaux électriques omniprésents dans les lignes d'assemblage. Le benchmark couvre trois familles de tâches représentatives du câblage industriel réel : l'insertion de connecteurs, le routage de clips et la mise en place de goulottes (channel seating). Il intègre deux modèles physiques complémentaires pour simuler le comportement des câbles, l'un articulé et l'autre véritablement déformable, et les trajectoires de référence proviennent à la fois de la simulation et d'un bras UR5 physique. Les auteurs ont évalué trois familles de politiques de contrôle : apprentissage par renforcement (RL), apprentissage par imitation (IL) et politiques vision-langage-action (VLA). Sous conditions de RL avec état privilégié (accès direct aux variables d'état internes de la simulation), chaque famille de tâches est résolue avec un taux de succès supérieur à 82 %, confirmant que les tâches sont bien posées et non artificiellement impossibles. Ces résultats exposent un écart critique entre manipulation sous état privilégié et manipulation guidée uniquement par la vision, un problème central pour tout intégrateur cherchant à déployer des cellules robotisées sur des opérations de câblage. Le vrai verrou identifié par WireCraft n'est pas la phase d'approche, mais la transition entre atteindre un connecteur et exécuter l'alignement en contact riche, où les politiques visuelles (RL vision, IL et VLA) échouent de façon significative. Cela contredit implicitement plusieurs narratifs optimistes autour des VLA polyvalents : malgré des performances impressionnantes sur des objets rigides, ces architectures peinent dès que la géométrie est déformable et que le retour d'état est limité à la perception visuelle. Pour un COO industriel ou un intégrateur, le message est pragmatique : les câbles ne sont pas encore un problème résolu, même en simulation propre avec des benchmarks bien construits. Le manque de benchmarks partagés et reproductibles pour les DLO freine depuis longtemps la comparaison objective des approches dans ce domaine. Les benchmarks existants sont généralement liés à du matériel propriétaire ou traitent des objets déformables génériques sans les contraintes de fixation propres au câblage industriel. WireCraft comble cette lacune avec des assets configurables en difficulté et des protocoles d'évaluation communs. Le code, les données et les outils seront mis en open source après acceptation de l'article. Côté concurrence, des acteurs comme OpenAI (avec ses travaux sur la manipulation déformable) ou des laboratoires comme Physical Intelligence (pi) avec Pi-0 poussent également sur la manipulation généraliste, mais aucun benchmark industriel câble de ce type n'était encore disponible publiquement. La prochaine étape naturelle sera le sim-to-real transfer systématique : WireCraft pose les rails, mais la question de savoir quelle architecture franchira le gap reste entièrement ouverte.

RecherchePaper
1 source
AnnotateAnything : annotation automatique d'objets 3D pour la manipulation robotique
276arXiv cs.RO 

AnnotateAnything : annotation automatique d'objets 3D pour la manipulation robotique

Des chercheurs ont publié sur arXiv le 17 juin 2026 un framework baptisé AnnotateAnything (arXiv:2606.17446) pour annoter automatiquement des assets 3D bruts et les rendre exploitables dans des pipelines d'entraînement robotique. Le système convertit des modèles 3D passifs en assets "manipulation-ready" enrichis de labels sémantiques, physiques et interactifs sans intervention humaine, en s'appuyant sur deux pipelines complémentaires : un module de raisonnement visio-linguistique (VLM) infère les sémantiques d'objet et les contraintes d'interaction ; un second pipeline de physique, massivement parallèle, ancre ces priors dans la géométrie de chaque asset pour générer automatiquement poses de préhension, contacts dextres, waypoints d'articulation, directions d'insertion, affordances de suspension et cibles de navigation. Un système de collecte de données de simulation asynchrone s'appuie ensuite sur ces annotations pour couvrir objets, tâches et morphologies robotiques variés. L'enjeu est central : les assets 3D bruts ne contenant que de la géométrie, annoter manuellement des bibliothèques à l'échelle reste coûteux et non scalable. AnnotateAnything automatise cette étape en combinant priors sémantiques VLM et optimisation géométrique pour produire des labels physiques exécutables. Les auteurs rapportent des gains en efficacité d'annotation, en efficacité de collecte et en taux de réussite de tâches face aux pipelines existants, des résultats à prendre avec précaution puisque les benchmarks comparatifs sont ceux des auteurs eux-mêmes. Le support natif du VQA robotique et du fine-tuning d'instructions visuelles ouvre une intégration directe dans des pipelines VLA (Vision-Language-Action), paradigme dominant pour l'apprentissage de politiques généralisables à l'échelle. Ce travail s'inscrit dans une vague de recherche sur la scalabilité des données synthétiques, aux côtés de MimicGen (NVIDIA), RoboGen ou UniSim, tous ciblant la réduction du sim-to-real gap par voie simulée. La pénurie d'annotations structurées dans les assets 3D existants est un problème documenté depuis plusieurs années, faute d'alternative viable aux approches manuelles. AnnotateAnything se positionne comme infrastructure de données en amont de tout pipeline de simulation, sans cibler un robot ou un déploiement industriel précis. Les auteurs annoncent la publication du code complet, des annotations et d'un benchmark, un engagement qui, s'il est tenu, pourrait en faire une ressource partagée par la communauté ; aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade.

RechercheActu
1 source
DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine
277arXiv cs.RO 

DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine

Une équipe de chercheurs a publié fin juin 2026 sur arXiv (arXiv:2606.17418) les spécifications techniques de la DexLink Hand, une main robotique anthropomorphe à 16 degrés de liberté intégrant 20 articulations commandées par 16 actionneurs indépendants. Le prototype, de la taille d'une main humaine, pèse 320 grammes et affiche un coût total inférieur à 400 dollars, un seuil rarissime pour ce niveau de polyvalence. L'architecture mécanique repose sur un système hybride de mécanismes à liaisons planes et spatiales, permettant des mouvements multidirectionnels découplés, des synergies articulaires biomimétiques et une forte capacité de charge passive sans actionnement. Le pouce intègre des caractéristiques biomimétiques supportant les mouvements de reconfiguration et d'opposition propres à la main humaine. Lors des évaluations expérimentales, la main a atteint le score de Kapandji maximal (référence standard en chirurgie et robotique pour évaluer l'amplitude de mouvement du pouce) et a reproduit les 33 types de préhension du catalogue Feix, couvrant l'intégralité des prises répertoriées sur des sujets humains. L'intérêt industriel du travail réside principalement dans le ratio coût/dextérité : les mains robotiques commerciales atteignant un niveau comparable (Shadow Dexterous Hand, Allegro Hand) se situent entre 5 000 et 70 000 dollars, rendant leur déploiement en série peu viable. Un module à moins de 400 dollars change les calculs pour les intégrateurs de robots humanoïdes ou de cellules de téléopération. La masse de 320 g est également compatible avec les bras des humanoïdes de nouvelle génération, dont les payloads distaux sont souvent contraints à moins de 500 g. La reproduction de l'intégralité des types Feix constitue une donnée concrète pour le robot learning : les datasets entraînés sur des démonstrations humaines deviennent directement exploitables sans remapping cinématique, ce qui réduit le gap sim-to-real pour les approches VLA (vision-language-action). Le défi de la main dextère est structurel dans le secteur : la majorité des plateformes humanoïdes commerciales (Figure 03, Tesla Optimus Gen 3, Agility Digit, Unitree H1) utilisent encore des mains simplifiées à 2 à 6 DOF pour des raisons de robustesse et de coût. Ce prototype reste pour l'heure un démonstrateur académique sans annonce de commercialisation ni partenariat industriel déclaré. Les chercheurs le positionnent explicitement pour la manipulation dextère, la téléopération et le robot learning en environnements centrés sur l'humain, des cas d'usage directement alignés avec les feuilles de route de Boston Dynamics, de 1X Technologies ou des équipes travaillant sur Pi-0 (Physical Intelligence). Aucune timeline d'intégration sur un bras complet ni d'évaluation en conditions industrielles n'est communiquée.

HumanoïdesPaper
1 source
Préhension universelle pour humanoïdes
278arXiv cs.RO 

Préhension universelle pour humanoïdes

Des chercheurs ont publié HUG (Human Universal Grasping), un modèle de flow-matching qui génère des saisies robotiques diversifiées à partir d'une unique image RGB-D capturée par caméra stéréo. Pour l'entraîner, ils ont constitué 1M-HUGs, un dataset égocentrique de 1 million de frames (27,8 heures, 41 bâtiments) capturées via smart glasses, couvrant 6 707 instances d'objets distincts. Le modèle fusionne données RGB et profondeur pour prédire une saisie paramétrée par la translation et la rotation du poignet ainsi que la pose MANO de la main, retargetable zero-shot vers différentes mains robotiques. Sur HUG-Bench, un benchmark de 90 objets répartis en cinq catégories géométriques avec des maillages 3D à l'échelle métrique, HUG surpasse les baselines état de l'art de +23% et +34% sur 30 objets réels testés dans plusieurs environnements domestiques. L'argument central est méthodologique : plutôt que de passer par la télé-opération ou la démonstration robotique, les auteurs exploitent les données humaines natives, disponibles à très grande échelle et sans infrastructure spécialisée. La capacité de retargeting zero-shot vers des mains mécaniques hétérogènes est l'argument industriel clé : si elle tient hors conditions de lab, elle réduit significativement le coût d'adaptation d'un modèle de manipulation à un nouveau hardware. Ces résultats sont toutefois à nuancer : le papier est un preprint arXiv non encore évalué par les pairs, et les performances annoncées ont été mesurées sur un benchmark construit par les auteurs eux-mêmes, sans audit indépendant à ce stade. HUG s'inscrit dans une lignée de travaux sur la généralisation de la saisie incluant GraspNet, Contact-GraspNet et les approches par diffusion comme DexDiffuser, et adopte une logique de capture égocentrique proche des pipelines de Stanford (Mobile ALOHA) ou Berkeley (DROID dataset), qui visent à décorréler la collecte de données du hardware robotique cible. Le code, les données, le benchmark et les checkpoints sont publiés en open source sur grasping.io. Les prochaines validations logiques concerneraient des bras industriels (UR, Franka) sur des scénarios de bin-picking ou d'assemblage non structuré, où la généralisation de la saisie reste un verrou majeur pour l'intégration à grande échelle.

IA physiquePaper
1 source
Apprentissage des résidus d'erreur de tâche pour le jonglage avec cinq balles sur robot réel
279arXiv cs.RO 

Apprentissage des résidus d'erreur de tâche pour le jonglage avec cinq balles sur robot réel

Des chercheurs ont obtenu un jonglage stable à trois, quatre et cinq balles sur des bras robotiques Barrett WAM anthropomorphiques, grâce à une méthode d'apprentissage résiduel guidée par l'erreur directionnelle de tâche (arXiv:2606.16978, juin 2026). Le résultat le plus saisissant tient en deux chiffres : le système converge dès la deuxième tentative. La première tente échoue, et à partir de là, l'erreur de tâche décroît de façon monotone, sans aucune chute supplémentaire. L'équipe compare plusieurs stratégies d'apprentissage résiduel sur deux axes orthogonaux : la richesse directionnelle du signal de supervision, et le degré d'engagement de l'a priori analytique. Les méthodes évaluées vont des mises à jour newtoniennes par Jacobien fixe à l'optimisation bayésienne composite (CBO), en passant par des méthodes de recherche stochastique. Le principal enseignement est que le goulot d'étranglement de l'apprentissage résiduel sur robots réels n'est pas la précision du modèle dynamique ni la fidélité de la simulation, mais bien la qualité informationnelle du signal de supervision. Un signal directionnel comme l'erreur de tâche vectorielle transporte bien plus d'information qu'une récompense scalaire standard, permettant une convergence avec un nombre très limité d'essais réels. Les deux axes se révèlent nécessaires conjointement : ni le signal directionnel seul, ni l'a priori informatif seul ne suffisent. Fait notable, la méthode la plus simple combinant les deux, la mise à jour newtonienne à Jacobien fixe, s'avère la plus fiable, devançant les approches plus sophistiquées. Ce résultat remet en cause l'hypothèse selon laquelle la complexité algorithmique serait le principal levier d'efficacité en échantillons sur hardware réel. Le Barrett WAM est une plateforme de référence pour la manipulation dynamique en recherche, mais son utilisation pour le jonglage à cinq balles reste rarissime, un exercice que les humains atteignent après des années d'entraînement. Ce travail s'inscrit dans un courant qui cherche à réduire drastiquement le nombre d'interactions réelles nécessaires à la spécialisation fine d'un contrôleur, en parallèle d'approches comme les politiques visuomotrices (VLA) ou le sim-to-real par apprentissage par renforcement développés chez DeepMind ou CMU. Le fait que la méthode opère à travers une stack de planification simple et idéalisée, sans calibration fine, ouvre des perspectives pour des déploiements industriels rapides sur robots aux dynamiques partiellement inconnues. Les prochaines étapes naturelles seraient l'extension à des objets non sphériques et la mise à disposition publique du code.

RecherchePaper
1 source
Suivi binaire pour la QA spatiale et la navigation avec des modèles vision-langage ouverts
280arXiv cs.RO 

Suivi binaire pour la QA spatiale et la navigation avec des modèles vision-langage ouverts

Une équipe de chercheurs publie sur arXiv (référence 2606.16902) un agent de localisation spatiale open-source baptisé BinTrack, conçu pour permettre à des robots de service de répondre à des questions du type « où puis-je trouver un pressing sur le chemin du retour ? » et de retourner une coordonnée métrique exploitable directement par les modules de navigation. Le système s'appuie sur un robot quadrupède réel déployé dans des rues publiques de Séoul pour constituer GangnamLoop, un nouveau benchmark multi-trajets en extérieur. BinTrack atteint une amélioration de précision allant jusqu'à 22,8 % par rapport aux autres implémentations open-source sur SpaceLocQA, le benchmark de référence du domaine, et égale les résultats des agents basés sur GPT-4o sur la catégorie « global », la plus difficile. Il offre par ailleurs un gain de vitesse d'inférence supérieur à 1,5x par rapport aux approches précédentes. L'intérêt principal de BinTrack pour les intégrateurs et les décideurs industriels tient à son architecture entièrement embarquée et déconnectée. Les approches existantes de Spatial Question Answering s'appuyaient sur des modèles fermés comme GPT-4o via des agents RAG (retrieval-augmented generation), ce qui implique une dépendance réseau, une latence de communication et des coûts d'API prohibitifs pour une flotte de robots en production. BinTrack remplace cela par une recherche binaire sur les segments de trajectoire entre deux repères spatiaux extraits de la requête, en exploitant l'ordre temporel du trajet. Ce faisant, le travail démontre qu'un modèle de vision-langage open-source peut rivaliser avec GPT-4o sur un benchmark spatial de référence, sans connexion cloud, une hypothèse que beaucoup dans le secteur considéraient non résolue à ce stade. GangnamLoop se distingue des benchmarks indoor habituels : il capture les mêmes lieux sous différentes conditions extérieures et croise le point de vue bas du robot quadrupède avec celui de son propriétaire humain, ce qui en fait un jeu de données plus réaliste pour la navigation piétonne en ville. La recherche spatiale embarquée reste un domaine peu exploré par rapport aux approches cloud-first ; des acteurs comme Boston Dynamics, Unitree ou les équipes robotique de Google DeepMind travaillent sur des problèmes connexes, mais rarement avec une contrainte d'inférence locale aussi explicite. Le code et les données de GangnamLoop sont disponibles publiquement sur GitHub, ce qui ouvre la voie à des évaluations indépendantes et à des intégrations dans des pipelines de navigation autonome en contexte réel.

RechercheOpinion
1 source
LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche
281arXiv cs.RO 

LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche

Une équipe de chercheurs publie LoComposition (arXiv:2606.15896, juin 2026), une méthode d'apprentissage par renforcement pour la locomotion quadrupède qui décompose les objectifs en mécanismes distincts plutôt que de les fusionner dans une fonction de récompense monolithique. Le système confie à des composants séparés ce que les approches classiques entremêlent : les récompenses gèrent la spécification de tâche, des contraintes encadrent les limites opérationnelles, la minimisation d'énergie pilote les préférences de démarche, et la perception extéroceptive (cartographie d'élévation LiDAR) adapte la consommation énergétique à la difficulté du terrain. Par rapport à une baseline conventionnelle à récompense complexe, LoComposition atteint des performances comparables de franchissement de terrain tout en réduisant le coût de transport de 56 % et les violations de limites opérationnelles de 96 %. La politique entraînée en simulation se transfère ensuite en zero-shot sur un robot quadrupède Unitree Go2 physique sans recalibration manuelle. L'apport central est la suppression des gait priors explicites, c'est-à-dire les cibles de temps de vol, de nombre de contacts au sol et de clairance des pieds, au profit de comportements de démarche émergents. Pour les équipes d'intégration, cela signifie moins d'ingénierie manuelle des récompenses et une meilleure généralisation à des terrains non vus en entraînement. La réduction de 56 % du coût de transport est directement pertinente pour les déploiements sur batteries à autonomie prolongée, scénario typique de l'inspection industrielle ou de la surveillance de site. L'analyse par ablation des chercheurs, montrant que retirer chaque composant expose un mode d'échec distinct, valide la cohérence de l'architecture et confirme que les gains ne sont pas le résultat d'un ajustement opportuniste des hyperparamètres. Cette contribution s'inscrit dans la dynamique de locomotion quadrupède par renforcement dominée depuis 2020 par le Robotics Systems Lab de l'ETH Zurich (ANYmal, séries RMA et Parkour) et Carnegie Mellon University. Le Unitree Go2, plateforme commerciale accessible, est devenu un banc d'essai standard pour la recherche académique, ce qui facilite la reproductibilité des résultats. Du côté industriel, ANYbotics et Boston Dynamics (Spot) développent des solutions propriétaires sur des trajectoires similaires mais ne publient pas leurs méthodes. LoComposition reste à ce stade une contribution de recherche fondamentale : aucun pilote industriel ni timeline de commercialisation n'est annoncé dans le preprint.

RecherchePaper
1 source
SimWeaver : transfert simulation-réel RGB sans entraînement pour la manipulation d'objets déformables
282arXiv cs.RO 

SimWeaver : transfert simulation-réel RGB sans entraînement pour la manipulation d'objets déformables

Une équipe de recherche présente SimWeaver (arXiv:2606.15338), un système capable d'entraîner des politiques VLA (Vision-Language-Action) en environnement simulé uniquement, puis de les déployer directement sur un robot réel sans aucun affinage sur données réelles. Entraîné sur seulement 200 démonstrations simulées par tâche, SimWeaver atteint plus de 80% de succès par tâche et 91% de taux moyen sur cinq tâches de manipulation d'objets déformables incluant la manipulation de sacs plastique et la saisie de tissu de soie, sans téleopération ni calibration spécifique à chaque tâche. Sur la tâche de saisie de soie, la politique sim-entraînée atteint 100% de succès sous des variations visuelles importantes, là où les baselines entraînées sur données réelles chutent entre 9% et 70%. Le coût par trajectoire est réduit de deux ordres de grandeur par rapport aux approches requérant des données terrain. Ce résultat est notable parce que le sim-to-real pour objets déformables en entrée RGB brute est resté largement non résolu jusqu'ici. La physique des corps mous (tissus, sacs, fils) est notoirement difficile à simuler fidèlement, et l'écart simulation-réalité se traduit généralement par des politiques qui échouent dès le déploiement. SimWeaver contourne ce problème avec une augmentation photométrique tenant compte du pipeline ISP (Image Signal Processor) de la caméra, ce qui réduit le fossé visuel sans nécessiter de données réelles. Pour un intégrateur ou un COO industriel travaillant sur des lignes de conditionnement, de tri textile ou de logistique e-commerce, la réduction du coût de collecte de données et l'absence de recalibration par tâche représentent un levier économique concret. Le problème de la manipulation déformable concentre depuis plusieurs années une part croissante de la recherche en robotique, portée par des applications telles que la préparation de commandes en entrepôt (Exotec, HAI Robotics) ou l'assemblage textile. Les approches précédentes mobilisaient soit des capteurs de profondeur, soit d'importantes campagnes de téleopération pour construire des datasets réels. SimWeaver s'appuie sur quatre modules complémentaires : un simulateur physique calibré (SimWeaver-Sim), un générateur d'assets à partir d'une seule image (SimWeaver-Asset), un synthétiseur de trajectoires déterministe topologie-aware (SimWeaver-Syn) et un protocole de transfer sim-to-real avec augmentation ISP (SimWeaver-Real). Le code et un sous-ensemble d'assets représentatifs seront publiés en open source, ce qui positionne ce travail comme une infrastructure potentielle pour la communauté. Aucun partenaire industriel ni timeline de déploiement commercial n'est mentionné à ce stade : il s'agit d'une contribution académique, pas d'un produit annoncé.

UELa publication open-source de SimWeaver pourrait bénéficier aux intégrateurs robotiques français et européens actifs dans la logistique e-commerce et le tri textile, en réduisant drastiquement le coût de collecte de données pour la manipulation d'objets déformables.

💬 Le sim-to-real sur des objets déformables, c'était le mur que tout le monde contournait faute de physique fiable. 100% de succès sur la soie en sim seul, là où les modèles entraînés sur données réelles tombent entre 9 et 70%, c'est le genre de résultat qui force à prendre ça au sérieux. Bon, c'est encore académique et sans partenaire industriel annoncé, mais le code sort en open source, alors on verra vite si ça tient hors benchmark.

IA physiqueOpinion
1 source
Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot
283arXiv cs.RO 

Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot

Des chercheurs ont publié sur arXiv (référence 2601.08514v2) une architecture modulaire pour ROS2 qui sépare explicitement la logique de gestion des références de celle des lois de contrôle. Le composant central, baptisé Reference Generator, reçoit des références depuis des noeuds externes (planificateurs de trajectoire, operateurs humains) sous forme de points isolés ou de trajectoires complètes, puis écrit des références point-à-point à la période d'échantillonnage du contrôleur via le mécanisme de chaînage existant de ros2control. Deux générateurs de références ont été implémentés : un pour l'espace articulaire (joint-space) et un pour les références cartésiennes. Trois nouveaux contrôleurs accompagnent l'architecture : un contrôleur PD avec compensation de gravité, un contrôleur de pose cartésienne, et un contrôleur d'admittance. La validation a été conduite en simulation et sur du matériel réel, avec des manipulateurs Universal Robots et Franka Emika. L'enjeu n'est pas anodin pour les intégrateurs robotiques : aujourd'hui, chaque contrôleur ros2control qui veut gérer des trajectoires doit embarquer sa propre logique d'acquisition, de validation et d'interpolation de références, ce qui génère du code dupliqué difficile à maintenir et à faire évoluer. L'architecture proposée factorise ce code en un composant réutilisable et robot-agnostique, ce qui simplifie la construction de pipelines de contrôle complexes (par exemple, chaîner un contrôleur d'admittance en aval d'un planificateur cartésien). Les résultats montrent un suivi fiable des références dans tous les scénarios testés, sans dégradation des performances de contrôle, ce qui valide l'approche sur des plateformes industrielles courantes plutôt que sur du matériel expérimental. Le contexte est celui de la maturité croissante de l'écosystème ros2control, devenu le standard de fait pour le contrôle de manipulateurs sous ROS2. Universal Robots (UR3, UR5, UR10) et Franka Emika (Panda/FR3) sont les deux références canoniques du marché des cobots de recherche et d'intégration légère, ce qui donne à cette validation une portée pratique immédiate. L'approche s'inscrit dans une tendance plus large vers des architectures de contrôle composables, comparable aux efforts du projet ros2control community et aux frameworks comme mcrtc (CNRS/AIST). Les auteurs ne mentionnent pas de timeline de contribution upstream ni de release packagée, et il reste à voir si ce Reference Generator sera proposé en merge request dans le dépôt officiel ros2control.

UELa validation sur des cobots Universal Robots (danois) et Franka Emika (allemand), standards de l'intégration robotique européenne, et la parenté avec mcrtc (CNRS/AIST) rendent cette architecture directement applicable aux intégrateurs FR/EU travaillant sous ROS2.

RecherchePaper
1 source
Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1
284arXiv cs.RO 

Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1

Des chercheurs ont publié sur arXiv (référence 2606.15915) un modèle physique linéaire-en-paramètres permettant de prédire avec précision la consommation électrique du bras gauche à sept degrés de liberté (7-DOF) du robot humanoïde Unitree G1. Le modèle intègre des termes de pertes actuateur, une correction de couple de base capturant les variations de charge en compensation gravitationnelle, et des termes d'interaction par paires pour modéliser le couplage de puissance lors de mouvements multi-articulaires simultanés. Les paramètres ont été identifiés à partir de données expérimentales collectées sur un G1 physique, en utilisant les mesures de puissance embarquées comme cible de régression. Sur 897 trajectoires couvrant des mouvements mono-articulaires et coordonnés à plusieurs vitesses, le modèle atteint un R² de 0,933 avec un RMSE de 1,07 W. La validation sur 46 trajectoires à des vitesses non vues lors de l'entraînement donne un R² de 0,965, confirmant une bonne capacité de généralisation. Ces résultats sont directement utiles pour les équipes qui intègrent des humanoïdes dans des contextes industriels ou logistiques. Un modèle de consommation précis et léger à l'inférence constitue un prérequis pour la planification de mouvement énergétiquement consciente, la gestion de batterie en temps réel et la surveillance thermique des actionneurs, trois points critiques pour tout déploiement prolongé hors laboratoire. La performance du modèle sur des vitesses non vues suggère qu'il est exploitable sans recalibration systématique, ce qui réduit le coût d'intégration. L'analyse des paramètres identifiés révèle par ailleurs des signatures distinctes selon les articulations : les pertes par frottement visqueux dominent l'épaule en tangage et les trois articulations du poignet, les pertes cuivre dominent l'abduction d'épaule et le coude, tandis que le roulis d'épaule présente un profil atypique dominé par le frottement de Coulomb. Unitree, constructeur chinois connu pour ses robots quadrupèdes à prix agressifs, a élargi sa gamme aux humanoïdes avec le G1, positionné comme une plateforme de recherche abordable face au Spot de Boston Dynamics ou aux robots de Figure et Apptronik. Ce travail s'inscrit dans un effort croissant de la communauté académique pour produire des modèles physiques fiables sur du matériel commercial accessible, en complément des approches par apprentissage (comme les VLA ou les politiques neuronales). La prochaine étape logique serait d'étendre le modèle au bras droit et aux membres inférieurs, puis de l'intégrer dans une boucle de planification de trajectoire en ligne. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint.

UELes équipes de recherche européennes utilisant le Unitree G1 comme plateforme académique abordable peuvent réutiliser directement ce modèle sans recalibration pour réduire le coût d'intégration dans leurs pipelines de planification de mouvement.

RecherchePaper
1 source
Octopus Protocol : découverte et contrôle du matériel en une passe pour les agents IA via l'infrastructure-en-prompts
285arXiv cs.RO 

Octopus Protocol : découverte et contrôle du matériel en une passe pour les agents IA via l'infrastructure-en-prompts

Des chercheurs ont publié en mai 2026 sur arXiv (2605.09055) les détails d'Octopus Protocol, un système réduisant la mise en service d'un équipement robotique pour un agent IA à une seule commande shell. Le pipeline en cinq étapes (PROBE, IDENTIFY, INTERFACE, SERVE, DEPLOY) découvre automatiquement les périphériques connectés, infère leurs capacités, génère un serveur MCP (Model Context Protocol) avec des outils typés, et le déploie comme point de terminaison HTTP en 10 à 15 minutes, exposant jusqu'à 30 outils MCP. Le système a été validé sur trois plateformes hétérogènes - PC/WSL, macOS Apple Silicon, Raspberry Pi 4 - ainsi que sur un bras robotique commercial à 6 degrés de liberté (6-DOF) avec retour caméra USB. Un démon persistant surveille l'environnement système, répare automatiquement le code défaillant et perçoit l'état physique via les outils caméra qu'il a lui-même générés, permettant au final un contrôle visuo-moteur en boucle fermée sans qu'un ingénieur n'ait écrit une seule ligne d'interface matérielle. Le goulot d'ingénierie dominant dans l'intégration de nouveau matériel robotique reste l'écriture des primitives logicielles - drivers, SDK, primitives ROS - tâche qui mobilise habituellement plusieurs jours de travail bas niveau. Octopus Protocol ramène ce coût à un quart d'heure, ce qui change le calcul économique pour les intégrateurs industriels et les équipes R&D : essayer un nouveau robot revient au coût d'un appel API. Deux principes architecturaux expliquent l'approche : les protocoles sont traités comme des prompts (et non du code rigide), et l'agent de codage est le runtime. La capacité d'auto-réparation du démon constitue également un signal pertinent pour les déploiements en conditions réelles, où les pannes logicielles partielles sont fréquentes. Octopus Protocol prolonge les travaux sur Code-as-Policies et les modèles VLA (Vision-Language-Action), qui présupposent tous l'existence d'une couche d'abstraction matérielle préexistante - la nouveauté étant de la générer automatiquement. Le système s'appuie sur MCP, le standard d'interaction agents-outils promu par Anthropic, et se positionne dans l'écosystème d'agents standardisés plutôt que dans celui, plus fermé, de ROS 2. Il s'agit d'un papier de recherche, pas d'un produit disponible : aucun partenaire industriel ni calendrier de commercialisation n'est mentionné. Les approches alternatives restent les SDK propriétaires des fabricants (Universal Robots, KUKA, Doosan) et des frameworks comme LeRobot d'Hugging Face, qui simplifient l'accès via des abstractions Python pré-écrites - à distinguer de la génération dynamique proposée ici.

UELes équipes R&D et intégrateurs européens utilisant du matériel KUKA ou Universal Robots pourraient bénéficier d'une réduction drastique des coûts d'intégration si Octopus Protocol aboutit à un outil disponible, mais il n'existe pour l'instant aucun déploiement commercial ni implication d'acteurs européens dans les travaux publiés.

RechercheOpinion
1 source
AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances
286arXiv cs.RO 

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

AffordSim est un générateur de données simulées et benchmark pour la manipulation robotique consciente des affordances, publié en preprint sur arXiv en mai 2026 (référence 2604.11674). Le système répond à un problème structurel : les estimateurs de préhension génériques optimisent la stabilité sans logique de tâche et sélectionnent souvent la mauvaise zone fonctionnelle de l'objet, tandis que les annotations manuelles de contact doivent être réécrites pour chaque nouvel objet et chaque nouvelle tâche. AffordSim intègre la prédiction d'affordances 3D à vocabulaire ouvert dans un pipeline de simulation : à partir d'une instruction en langage naturel, il synthétise la scène, localise les régions fonctionnelles pertinentes sur les surfaces d'objets (la poignée d'une casserole, le bouton d'un tiroir), échantillonne des prises conditionnées à ces régions, puis sélectionne les trajectoires exécutables par planification de mouvement. La randomisation de pose, texture, éclairage et bruit d'image est intégrée pour favoriser le transfert sim-to-real. Le benchmark couvre 50 tâches, cinq embodiments robotiques distincts et plus de 500 objets rigides et articulés. Les politiques VLA (Vision-Language-Action) entraînées sur ces données transfèrent zéro-shot vers un Franka FR3 réel avec 24 % de succès moyen, sans aucun fine-tuning sur données physiques. La zone fonctionnelle d'un objet, l'affordance, est précisément le point de défaillance ignoré par les benchmarks de manipulation génériques : saisir le mauvais endroit rend l'action aval impossible quel que soit le planificateur. AffordSim atteint 93 % du taux de succès des annotations manuelles sur les tâches critiques d'affordance, et 89 % sur les tâches composites difficiles, ce qui valide l'annotation automatisée comme substitut crédible à l'annotation humaine à grande échelle. Pour les équipes développant des modèles de fondation robotique ou des politiques VLA, cela réduit drastiquement le coût de génération de données diversifiées. Le score de 24 % en zero-shot reste modeste, mais il constitue une preuve de principe importante : un pipeline entièrement simulé peut produire des politiques opérationnelles sur matériel réel, condition nécessaire à un déploiement industriel scalable. AffordSim s'inscrit dans la vague des générateurs de données synthétiques pour la manipulation, aux côtés de RoboGen, GenSim et des pipelines Nvidia Isaac. Le Franka FR3, bras académique de référence vendu autour de 15 000 euros, est l'unique plateforme réelle testée, ce qui limite la portée des conclusions hors de ce contexte de laboratoire. Les modèles de fondation robotique comme pi0 (Physical Intelligence) ou OpenVLA constituent le terrain applicatif naturel de cet outil. En Europe, des équipes comme le LAAS-CNRS à Toulouse et des startups comme Enchanted Tools (Paris, robots manipulateurs expressifs) pourraient exploiter ce type de générateur pour réduire leur dépendance aux plateformes de données propriétaires américaines. Ce travail restant un preprint non encore évalué par les pairs, les métriques avancées devront être confirmées lors d'une soumission en conférence (CoRL, RSS ou ICRA).

UELes équipes européennes comme le LAAS-CNRS (Toulouse) et Enchanted Tools (Paris) pourraient exploiter AffordSim pour réduire leur dépendance aux plateformes de données propriétaires américaines dans le développement de politiques VLA.

RechercheOpinion
1 source
Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur
287arXiv cs.RO 

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Le fine-tuning non contraint des modèles Vision-Language-Action (VLA) basés sur le flow matching provoque un phénomène bien documenté : l'écrasement massif des paramètres entraînés, qui dégrade les capacités générales acquises en pré-entraînement. Une équipe de recherche publie sur arXiv (2605.08879) une méthode baptisée ConSFT (Conservative Supervised Fine-Tuning), un nouvel objectif d'optimisation qui permet d'adapter un VLA à une distribution cible sans effacer ses compétences préalables. La méthode a été évaluée sur les benchmarks LIBERO et RoboTwin avec trois modèles de référence : pi-0, pi-0.5 et GR00T-N1.6-3B. Résultat : ConSFT dépasse le fine-tuning supervisé classique de plus de 20 points absolus en rétention de capacités, et rivalise avec l'Experience Replay, une méthode connue mais gourmande en données historiques, sans en nécessiter aucune. Des déploiements physiques sur robots confirment que la méthode évite le surapprentissage spatial lors de l'adaptation à des tâches séquentielles nouvelles. L'enjeu est central pour l'industrialisation des robots manipulateurs polyvalents. Les VLA de type flow matching, comme pi-0 de Physical Intelligence ou GR00T-N1.6-3B de NVIDIA, sont pré-entraînés sur de larges corpus de démonstrations et constituent la base d'agents robotiques généralistes. Mais leur adaptation à un contexte opérationnel précis (cellule de montage, poste de picking spécifique) détruit systématiquement une partie des compétences acquises, forçant les intégrateurs à choisir entre spécialisation et généralité. ConSFT rompt ce compromis : en modulant dynamiquement le signal d'apprentissage selon la confiance du modèle sur chaque échantillon, il bride les gradients excessifs des cas à faible confiance, limitant la perturbation des paramètres. L'inspiration provient du trust-region clipping du reinforcement learning (PPO), transposé ici en apprentissage supervisé. Les modèles VLA à flow matching représentent la génération actuelle des architectures de contrôle robot les plus performantes. Physical Intelligence a lancé pi-0 fin 2024, suivi de pi-0.5 en 2025 ; NVIDIA a publié GR00T N1 puis N1.6 dans le même intervalle. L'oubli catastrophique lors du fine-tuning est un obstacle pratique que plusieurs équipes tentent de contourner, notamment via l'Experience Replay ou des architectures à réseau de référence parallèle. ConSFT propose une voie plus légère : aucune donnée antérieure requise, aucun réseau auxiliaire, aucune modification architecturale. La méthode reste à valider sur des tâches industrielles longues et des robots avec dextérité fine, mais les résultats sur LIBERO et les expériences physiques publiées suggèrent un transfert sim-to-real fonctionnel.

IA physiqueOpinion
1 source
Muninn : un modèle de diffusion de trajectoires, désormais plus rapide
288arXiv cs.RO 

Muninn : un modèle de diffusion de trajectoires, désormais plus rapide

Une équipe de chercheurs a publié Muninn (arXiv:2605.09999), un module d'accélération sans réentraînement pour les planificateurs de trajectoires basés sur la diffusion. Le système atteint jusqu'à 4,6x de gain en vitesse d'exécution sur plusieurs architectures de diffusion en espace d'état, sans dégradation mesurée des performances ni des métriques de sécurité. Muninn fonctionne comme un wrapper de cache : à chaque étape du débruitage itératif, il choisit en temps réel de recalculer la sortie du denoiser ou de réutiliser le résultat mis en cache. Cette décision repose sur deux signaux analytiques calibrés hors-ligne, une sonde légère de l'évolution de la représentation interne de la trajectoire et des coefficients de propagation d'erreur du denoiser, qui produisent ensemble un budget d'incertitude par étape. Ce budget borne formellement l'écart maximal entre la trajectoire mise en cache et celle qui aurait été calculée à pleine puissance de calcul. Les gains ont été validés sur matériel réel, en navigation en boucle fermée et en manipulation. La lenteur des modèles de diffusion en planification de trajectoires est un verrou bien identifié pour la robotique temps-réel. Les accélérations existantes imposaient jusqu'ici un compromis inévitable : modifier le sampler dégradait la qualité de trajectoire, tandis que la compression du réseau nécessitait un réentraînement coûteux. Muninn contourne ce dilemme en opérant strictement sans modifier les poids du modèle, ce qui le rend applicable immédiatement à n'importe quel planificateur diffusion déjà entraîné. Pour un intégrateur ou une équipe robotique industrielle, cela rend concrètement viables des architectures comme Diffusion Policy dans des boucles de contrôle haute fréquence. La certification analytique des bornes de déviation constitue un argument de poids pour les déploiements où la sécurité est une contrainte réglementaire. Les politiques par diffusion appliquées à la robotique ont émergé vers 2022-2023, portées notamment par Diffusion Policy (Chi et al., Columbia University), et se sont depuis déployées dans des architectures VLA et des planificateurs en espace d'état. Les méthodes d'accélération antérieures, DDIM et distillation par connaissance en tête, ne proposaient pas de cache adaptatif avec bornes certifiées, ce qui positionne Muninn comme une surcouche orthogonale et rétrocompatible avec l'existant. En tant que preprint arXiv, les résultats n'ont pas encore été soumis à revue par les pairs. Les prochaines étapes logiques concernent les stacks robotiques humanoïdes et industriels (Figure, Unitree, Boston Dynamics) qui expérimentent des politiques diffusion et cherchent à réduire la latence de planification en production. Le code est publié publiquement sur GitHub (gokulp01/Muninn).

RecherchePaper
1 source
REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?
289arXiv cs.RO 

REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?

Des chercheurs ont publié REI-Bench (arXiv:2505.10872), le premier benchmark dédié à évaluer comment les planificateurs de tâches robotiques basés sur des grands modèles de langage (LLM) gèrent les instructions humaines vagues. L'étude porte spécifiquement sur les expressions référentielles (ER), formulations dont le sens dépend du contexte dialogique et de l'environnement immédiat, comme "prends ça" ou "mets-le là-bas". Les expériences montrent que cette ambiguïté fait chuter le taux de succès des planificateurs jusqu'à 36,9 points de pourcentage. L'analyse des cas d'échec révèle que la majorité provient d'objets manquants dans les plans générés : le modèle ne résout pas correctement la référence et omet l'objet cible de la séquence d'actions. Ce résultat est significatif pour les intégrateurs et les équipes qui déploient des robots en environnement non contrôlé. La quasi-totalité des benchmarks existants, et donc des pipelines de planification actuels, supposent des instructions claires et structurées, ce qui correspond à un utilisateur expert. Or, les populations prioritaires pour la robotique de service (personnes âgées, enfants, opérateurs non formés) sont précisément celles qui formulent des instructions les plus ambiguës. La dégradation mesurée n'est pas marginale : un écart de 37 points sur le taux de succès représente un planificateur fonctionnel en labo qui devient inutilisable en conditions réelles. Le papier souligne également que les approches classiques d'atténuation, prompts enrichis, chaînes de pensée (chain-of-thought), apprentissage en contexte (in-context learning), ne suffisent pas à combler cet écart. Pour y répondre, les auteurs proposent une méthode appelée "task-oriented context cognition" : avant de générer le plan d'action, le système produit explicitement une instruction reformulée et désambiguïsée à partir du contexte environnemental et dialogique. Cette approche atteint l'état de l'art sur REI-Bench en surpassant les baselines précitées. Le benchmark s'inscrit dans un effort plus large de la communauté pour combler le fossé entre performances en simulation et déploiement réel, un problème central pour des acteurs comme Boston Dynamics, Agility Robotics ou les startups européennes telles qu'Enchanted Tools, dont les robots humanoïdes devront interagir avec des utilisateurs non techniques. Les prochaines étapes naturelles seraient d'intégrer REI-Bench dans les pipelines d'évaluation de modèles VLA (vision-language-action) comme pi0 ou OpenVLA, où la résolution de références visuelles et linguistiques est un point de friction connu.

UEL'approche de désambiguïsation proposée (task-oriented context cognition) est directement applicable aux équipes européennes développant des robots de service pour utilisateurs non techniques, notamment les startups comme Enchanted Tools dont les humanoïdes devront gérer des instructions vagues d'opérateurs non formés.

RecherchePaper
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
290arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

IA physiqueOpinion
1 source
Large Video Planner permet un contrôle robotique généralisable
291arXiv cs.RO 

Large Video Planner permet un contrôle robotique généralisable

Des chercheurs publient Large Video Planner (LVP), un modèle de fondation robotique reposant sur un préentraînement vidéo massif plutôt que sur les approches vision-langage-action (VLA) dominantes. Alimenté par un corpus à l'échelle internet d'activités humaines et de démonstrations de tâches, LVP est le premier modèle de ce type entraîné à l'échelle d'un modèle de fondation. Le système génère des plans vidéo en zero-shot pour des scènes et tâches inédites, que l'équipe post-traite pour en extraire des actions exécutables sur un robot physique. Des tests en conditions réelles, avec des tâches sélectionnées par des tiers indépendants, confirment la faisabilité de l'exécution. Le modèle et le jeu de données sont publiés en open source. L'intérêt stratégique de LVP tient au paradigme alternatif qu'il représente face aux VLA dominants, qui étendent des grands modèles de langage multimodaux (MLLM) avec des sorties d'actions. L'argument central est que la vidéo, contrairement aux images statiques et au texte, capture naturellement la dynamique spatio-temporelle du monde physique, offrant un biais inductif mieux aligné avec les politiques motrices robotiques. La généralisation zero-shot validée par des tiers apporte de la crédibilité à cette thèse. En revanche, le post-traitement nécessaire pour convertir des plans vidéo en commandes robotiques exécutables constitue un maillon méthodologique critique dont la robustesse hors conditions de laboratoire reste à démontrer à grande échelle. Ce travail s'inscrit dans une course aux modèles de fondation robotiques où Physical Intelligence (Pi-0, 400 millions de dollars levés fin 2024), NVIDIA (GR00T N2), Figure AI (Helix) et Google DeepMind (RT-2, RT-X) imposent leurs architectures VLA. Déposé sur arXiv en décembre 2025 (2512.15840v2), LVP représente l'une des premières alternatives open source à cette échelle, ce qui pourrait le rendre structurant pour les laboratoires académiques et les intégrateurs ne disposant pas de ressources de calcul propriétaires. La publication reste au stade de la preuve de concept académique, mais l'ouverture du modèle et du dataset est susceptible d'accélérer les travaux sur l'apprentissage robotique par démonstration vidéo.

UELes laboratoires académiques et intégrateurs européens sans ressources de calcul propriétaires pourront exploiter le modèle et le dataset open source de LVP comme alternative crédible aux architectures VLA propriétaires des acteurs américains.

💬 L'approche VLA écrase tout en ce moment, donc quand quelqu'un propose un paradigme différent, à l'échelle d'un modèle de fondation et en open source, c'est pas anodin. La logique tient : la vidéo capture la dynamique du monde physique mieux que du texte ou des images statiques, et les tests zero-shot validés par des tiers donnent de la crédibilité à ça. Le point critique, c'est le post-traitement pour convertir les plans vidéo en commandes robot, et hors conditions de labo, reste à voir si ça tient.

IA physiqueOpinion
1 source
ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA
292arXiv cs.RO 

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Une équipe de recherche publie ce 7 mai 2026 ConsisVLA-4D (arXiv:2605.05126), un framework unifié pour la manipulation robotique qui cherche à résoudre deux angles morts structurels des modèles Vision-Language-Action actuels : la perception spatiale 3D et le raisonnement temporel 4D. L'architecture repose sur trois modules complémentaires. Le premier, CV-Aligner, filtre les régions pertinentes à l'instruction en cours et aligne les identités d'objets entre plusieurs points de vue, assurant une cohérence sémantique inter-caméras. Le second, CO-Fuser, élimine les ambiguïtés de relations spatiales entre objets via des représentations latentes compactes, sans recourir à des capteurs de profondeur dédiés. Le troisième, CS-Thinker, combine les tokens sémantiques de CV-Aligner et les tokens géométriques de CO-Fuser pour construire une représentation implicite des dynamiques locales et globales de la scène, permettant un raisonnement visuel continu au fil de l'exécution. Les auteurs rapportent des gains de 21,6 % sur le benchmark LIBERO et de 41,5 % en environnement réel par rapport à OpenVLA, avec des accélérations d'inférence respectives de 2,3x et 2,4x. Le code est publié en open source. Ces résultats sont significatifs pour le débat, toujours ouvert dans le secteur, sur la capacité des VLA à passer de la démonstration contrôlée au déploiement réel. Le gain le plus notable est celui en conditions réelles (+41,5 % vs +21,6 % en simulation), ce qui suggère que la cohérence spatiotemporelle adresse précisément le sim-to-real gap que d'autres architectures peinent à combler. L'absence de capteur de profondeur dédié est également un point concret pour les intégrateurs industriels : réduire la dépendance à des capteurs supplémentaires diminue le coût de déploiement et la surface de défaillance. L'accélération d'inférence de 2,3x à 2,4x, si elle se confirme dans des cycles de manipulation industriels (pick-and-place, assemblage), est un argument directement actionnable pour des COO cherchant à calibrer le throughput de cellules robotisées. Il convient toutefois de noter que les métriques sont mesurées contre OpenVLA, qui reste une baseline académique, et non contre des systèmes commerciaux comme pi-0 (Physical Intelligence) ou Helix (Figure), ce qui limite la portée comparative. Les modèles VLA de première génération, dont OpenVLA et RT-2, se sont construits sur des pipelines essentiellement 2D, héritant des architectures vision-langage conçues pour la compréhension d'images statiques. La contrainte de cohérence spatiotemporelle que ConsisVLA-4D formalise est un problème que l'ensemble des acteurs du secteur, Physical Intelligence avec pi-0, DeepMind avec RT-X, et Boston Dynamics sur le plan applicatif, tentent de résoudre par des voies différentes (données de préentraînement massives, retour haptique, diffusion de politiques). Dans le paysage français et européen, des entreprises comme Enchanted Tools et Wandercraft travaillent sur des problématiques adjacentes de contrôle robuste en environnement non structuré, où la perception multi-vue est également un verrou. La prochaine étape logique pour ConsisVLA-4D sera de confronter le framework à des tâches longue-horizon et à des environnements non rigides, deux cas d'usage encore peu couverts par le benchmark LIBERO.

UELes entreprises européennes comme Enchanted Tools et Wandercraft, confrontées au verrou de la perception multi-vue en environnement non structuré, pourraient intégrer le framework open-source ConsisVLA-4D pour renforcer leur contrôle robuste sans capteur de profondeur dédié.

💬 Le gain en conditions réelles (+41,5 %) qui dépasse celui en simulation, c'est le signe que quelque chose de structurel est résolu, pas juste un overfitting sur benchmark. Pas de capteur de profondeur dédié en plus, ce qui change vraiment le calcul pour l'intégration industrielle. Bon, la baseline c'est OpenVLA, pas pi-0, donc on garde les pieds sur terre.

IA physiqueOpinion
1 source
SOAR : optimisation conjointe en temps réel pour l'allocation des commandes et l'ordonnancement des robots mobiles
293arXiv cs.RO 

SOAR : optimisation conjointe en temps réel pour l'allocation des commandes et l'ordonnancement des robots mobiles

Des chercheurs, en collaboration avec Geekplus, ont publié SOAR (Simultaneous Order Allocation and Robot Scheduling), un framework d'apprentissage par renforcement profond conçu pour optimiser en temps réel la coordination des robots dans les systèmes de préparation de commandes automatisés (RMFS, Robotic Mobile Fulfillment Systems). Déposé sur arXiv en mai 2026 (arXiv:2605.03842), le système unifie deux sous-problèmes classiquement découplés, l'allocation des commandes et la planification des robots mobiles, en un seul agent décisionnel. Sur des données industrielles réelles fournies par Geekplus, SOAR réduit le makespan global de 7,5 % et le temps moyen de complétion des commandes de 15,4 %, avec une latence de décision inférieure à 100 ms. La viabilité du système a été confirmée par un déploiement en environnement de production via une procédure sim-to-real. Techniquement, le problème est formulé comme un processus de décision de Markov piloté par événements (Event-Driven MDP), où l'agent réagit à des événements asynchrones (fin de tâche, arrivée de commande) grâce à un Heterogeneous Graph Transformer encodant l'état de l'entrepôt, complété par une stratégie de reward shaping pour gérer la rareté du signal de récompense sur les longues séquences. Les RMFS équipent aujourd'hui les grands centres logistiques : des flottes de robots mobiles (AMR) transportent des étagères entières vers des postes de picking humains ou automatisés. Le goulot d'étranglement traditionnel vient du couplage fort entre allocation et ordonnancement : les approches décomposées sacrifient l'optimalité globale pour garantir la réactivité, tandis que les modèles d'optimisation classiques comme les MILP ou CP-SAT sont trop lents pour des environnements à haute cadence. SOAR casse ce compromis en prouvant qu'un agent de deep RL peut raisonner globalement tout en répondant en moins de 100 ms, ce qui constituait un verrou industriel reconnu. Plus significatif encore, la validation sim-to-real en conditions de production distingue ce travail de la majorité des publications académiques qui restent cantonnées à la simulation. Geekplus, fondé en 2015 à Pékin, est l'un des leaders mondiaux des AMR pour la logistique d'entrepôt, avec des déploiements dans plus de 40 pays chez des clients comme Decathlon et JD.com. Sa participation directe à cette recherche signale une intégration croissante entre laboratoires académiques et industriels pour raccourcir le cycle lab-to-production. Sur le marché, Geekplus concurrence Hai Robotics et AutoStore, mais aussi en Europe des acteurs comme Exotec (France), dont le système Skypod adresse des problèmes similaires de coordination multi-robots à grande échelle. SOAR s'inscrit dans un corpus actif de travaux sur le RL multi-agent pour la planification en entrepôt, mais se distingue par son approche unifiée et son ancrage en production confirmé. Le code est disponible en open source sur GitHub, ce qui devrait faciliter son adaptation à d'autres architectures RMFS.

UELe code open-source SOAR, validé en production chez des clients de Geekplus dont Decathlon, constitue une référence technique directe pour Exotec et les intégrateurs AMR européens confrontés aux mêmes problèmes de coordination multi-robots à grande échelle.

IndustrielPaper
1 source
Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation
294arXiv cs.RO 

Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation

Des chercheurs ont proposé sur arXiv (arXiv:2605.01544, mai 2026) une métrique automatisée pour évaluer la qualité des démonstrations en apprentissage par imitation (IL), fondée sur la densité spectrale de puissance (PSD) des trajectoires enregistrées. Une PSD faible signale une trajectoire lisse et exploitable ; une PSD élevée indique oscillations, corrections abruptes et mouvements erratiques qui dégradent les politiques apprises. Contrairement aux méthodes existantes, la métrique ne requiert ni rollout de politique, ni interaction avec l'environnement, ni étiquetage expert. Elle a été évaluée sur deux benchmarks IL et via une étude terrain avec des résidents âgés d'un établissement de retraite, dont les démonstrations ont servi à affiner π0.5 de Physical Intelligence pour une tâche de vie quotidienne. Les politiques issues des données filtrées par PSD surpassent les baselines non filtrées et deux méthodes concurrentes en taux de succès et en fluidité d'exécution. Le déploiement réel de robots guidés par imitation bute sur les scénarios hors distribution (OOD), aggravés par la faible qualité des démonstrations d'utilisateurs finaux. Les approches existantes de curation automatisée exigeaient des rollouts en environnement, coûteux et impraticables à grande échelle. La métrique PSD supprime ce verrou : applicable avant tout entraînement, elle filtre les démonstrations directement au moment de la collecte terrain. Pour les intégrateurs de robots manipulateurs en environnements non contrôlés, cela réduit concrètement le coût de mise en qualité des données sans ressources RL dédiées. Le travail s'inscrit dans l'essor des VLA (Vision-Language-Action models), où π0.5 de Physical Intelligence figure parmi les modèles de fondation robotique disponibles pour le fine-tuning, mais le défi du "demo-to-reality gap" reste l'un des freins majeurs au passage à l'échelle de l'IL. En ciblant des utilisateurs âgés peu habitués au guidage de robots, l'étude ouvre une piste vers la robotique d'assistance, segment où des acteurs comme Enchanted Tools en France cherchent à s'implanter. La prochaine étape logique serait l'intégration de cette métrique dans des pipelines de collecte en production, couplée à des retours temps réel pour guider les utilisateurs vers de meilleures démonstrations dès la capture.

UELa métrique PSD pourrait réduire le coût de curation de données pour des acteurs européens comme Enchanted Tools (France), actifs en robotique d'assistance, en supprimant le besoin de rollouts environnementaux coûteux lors du fine-tuning de modèles VLA.

RechercheOpinion
1 source
Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites
295arXiv cs.RO 

Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites

Une étude publiée sur arXiv (référence 2505.03500, version 5, mai 2026) expose une limitation structurelle des modèles VLA (Vision-Language-Action) : leur incapacité à combiner des compétences apprises séparément pour exécuter des tâches inédites. L'exemple présenté est parlant, un VLA peut réussir à placer du fromage frais dans un bol et à poser ce bol sur une armoire, mais échoue à placer directement le fromage sur l'armoire. Pour quantifier ce déficit, les chercheurs ont créé libero-ood, un benchmark de 20 tâches extrapolées depuis les suites standards LIBERO. Résultat net : l'ensemble des VLA état-de-l'art testés plafonnent à moins de 15 % de succès. En appliquant leur technique d'interpolation de latents textuels au modèle π0 de Physical Intelligence, les auteurs atteignent 83 % sans aucun réentraînement. Autre découverte préoccupante : des prompts illisibles pour un humain, obtenus par décodage du latent textuel, suffisent à piloter le VLA à 70 % de succès sur LIBERO standard, ouvrant la voie à des attaques de type backdoor ou à des instructions privées non auditables. La méthode repose sur l'extraction d'un "latent textuel" par tâche de base, en moyennant les états cachés des tokens textuels sur l'ensemble des trajectoires démontrées. Pour exécuter une tâche composite inédite, les chercheurs interpolent temporellement les latents de deux tâches sources et les réinjectent dans le modèle à l'inférence, activant séquentiellement les sous-comportements correspondants. Ce résultat remet en question l'hypothèse d'une compréhension sémantique robuste dans les VLA actuels : l'analyse qualitative révèle un phénomène de surapprentissage spatial, les modèles associant les noms d'objets à des emplacements démontrés plutôt qu'à des entités abstraites. Pour les intégrateurs et décideurs industriels, cela signifie que les benchmarks standards ne détectent pas ces angles morts compositionnels, et que la qualification de systèmes autonomes en production devrait systématiquement inclure des tâches out-of-distribution. LIBERO est depuis plusieurs années une référence en manipulation robotique tabletop ; libero-ood comble un angle mort important sur la généralisation hors distribution. π0, développé par Physical Intelligence (fondée en 2023 par d'anciens chercheurs de Google et DeepMind, dont Sergey Levine et Chelsea Finn), s'est imposé comme l'un des VLA les plus performants du marché via son architecture flow-matching. Les modèles concurrents testés ici, notamment OpenVLA (Berkeley) et Octo, affichent les mêmes limites compositionnelles. Ce travail, encore au stade preprint, pose les bases d'un nouveau critère d'évaluation pour les VLA et soulève des questions de sécurité concrètes qui devraient alerter les équipes déployant ces modèles en environnement industriel non supervisé.

UELes équipes R&D et industriels européens déployant des VLA en production doivent revoir leurs protocoles de qualification pour y intégrer des tâches hors-distribution, les benchmarks standards ne détectant pas les angles morts compositionnels exposés ici.

IA physiqueOpinion
1 source
Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé
296arXiv cs.RO 

Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé

Une équipe de chercheurs a publié fin avril 2026 (arXiv:2604.26577) une évaluation systématique de la sécurité de 72 grands modèles de langage (LLMs) dans le contexte du contrôle de robots-soignants. Le protocole repose sur un corpus de 270 instructions nuisibles, réparties en neuf catégories de comportements interdits dérivés des Principes d'éthique médicale de l'American Medical Association, et testées dans un environnement de simulation basé sur le cadre "Robotic Health Attendant". Le taux de violation moyen toutes catégories confondues atteint 54,4 %, et plus de la moitié des modèles dépassent individuellement les 50 %. Les instructions superficiellement plausibles, manipulation d'équipements médicaux ou retard délibéré face à une urgence, s'avèrent bien plus difficiles à refuser pour les modèles que des requêtes ouvertement destructrices. L'écart entre modèles propriétaires et open-weight est particulièrement marqué : taux médian de violation à 23,7 % pour les premiers, contre 72,8 % pour les seconds. Ces résultats ont des implications directes pour quiconque envisage d'intégrer un LLM dans une boucle de contrôle robotique en milieu clinique. Ils invalident deux hypothèses courantes : d'abord, que le fine-tuning dans le domaine médical améliore la sécurité (aucun bénéfice significatif mesuré), ensuite, que des défenses basées sur le prompt suffisent à sécuriser les modèles les moins fiables (réduction modeste, niveaux absolus toujours incompatibles avec un déploiement clinique). La taille du modèle et la date de sortie restent les meilleurs prédicteurs de sécurité pour les modèles open-weight, ce qui suggère que l'amélioration est incidentelle aux évolutions générales d'entraînement, pas le fruit d'une conception sécurité-first. Le cadre Robotic Health Attendant, utilisé comme base de simulation, s'inscrit dans une tendance plus large où les LLMs sont envisagés comme couche de raisonnement dans des systèmes robotiques d'assistance à la personne, aux côtés d'approches comme les Vision-Language-Action models (VLA). Les acteurs du secteur, qu'il s'agisse de startups comme Enchanted Tools côté français ou de plateformes hospitalières intégrant des bras manipulateurs, n'ont pas encore de benchmark standardisé pour valider la sécurité comportementale de leurs modèles embarqués. Cette étude constitue une première tentative de formalisation, mais ses auteurs reconnaissent que les résultats, obtenus en simulation, devront être confrontés à des protocoles en environnement réel avant de pouvoir orienter des décisions de certification ou de déploiement.

UECette étude fournit un premier benchmark formalisé pour la sécurité comportementale des LLMs en robotique de santé, dont des acteurs français comme Enchanted Tools sont explicitement dépourvus, et pourrait orienter les futures exigences de certification dans le cadre de la réglementation européenne sur les dispositifs médicaux autonomes.

RechercheOpinion
1 source
Relations en forme fermée et approximations d'ordre supérieur des dérivées premières et secondes de l'opérateur tangent sur SE(3)
297arXiv cs.RO 

Relations en forme fermée et approximations d'ordre supérieur des dérivées premières et secondes de l'opérateur tangent sur SE(3)

Des chercheurs ont publié sur arXiv (référence 2604.22287) des expressions en forme close pour le différentiel trijeunialisé à droite de l'application exponentielle sur le groupe de Lie SE(3), communément appelé opérateur tangent ou dexp, ainsi que ses dérivées premières et secondes. La matrice 6×6 représentant ce différentiel, dexpX : se(3) → se(3), était déjà partiellement documentée via une représentation en blocs 3×3, mais ce travail abandonne ce partitionnement pour proposer des relations directement compactes. Les auteurs dérivent également le jacobien et le hessien des applications d'évaluation dexpX(Z) et dexp_X^T(Z), accompagnés d'approximations polynomiales d'ordre élevé conçues pour rester numériquement stables au voisinage des singularités. La méthode est illustrée sur le calcul du champ de déformation et des taux de déformation d'une poutre élastique de type Cosserat-Simo-Reissner. Pour les ingénieurs en robotique et en simulation multiphysique, ces formules sont directement exploitables dans les solveurs de dynamique inverse, les optimiseurs de trajectoires basés sur le gradient, et les intégrateurs temps-réel pour bras manipulateurs ou robots souples. L'accès au hessien de l'opérateur tangent en forme close ouvre la voie à des méthodes d'optimisation du second ordre (Newton, Gauss-Newton) sur SE(3), jusqu'ici freinées par l'absence de ces expressions ou par leur coût numérique élevé via différentiation automatique. La robustesse numérique des approximations d'ordre élevé est particulièrement précieuse dans les schémas implicites où les configurations proches d'une rotation nulle dégradent les méthodes tronquées classiques. SE(3), groupe de Lie des transformations rigides orientées dans l'espace tridimensionnel (rotations et translations couplées), est la structure algébrique centrale de la cinématique des corps rigides, de la dynamique des robots articulés, et de la mécanique des tiges flexibles. Les modèles de Cosserat-Simo-Reissner, qui généralisent la théorie des poutres d'Euler-Bernoulli aux grandes déformations, sont notamment utilisés pour simuler des robots continus, des cathéters, des câbles ou des aiguilles chirurgicales. Ce type de travail fondationnel rejoint un effort de standardisation des outils différentiels sur les groupes de Lie, porté en parallèle par des équipes comme le laboratoire Gepetto (LAAS-CNRS, Toulouse) avec la bibliothèque Pinocchio, ou par les travaux de Müller et Terze sur la formulation intrinsèque des équations du mouvement. La disponibilité de ces expressions dans un format compact et numériquement stable devrait faciliter leur intégration dans des frameworks open-source de simulation robotique.

UECes expressions pourraient être intégrées dans Pinocchio (laboratoire Gepetto, LAAS-CNRS Toulouse), renforçant les capacités de dynamique différentiable du second ordre dans les frameworks robotiques open-source européens.

RecherchePaper
1 source
Comment fonctionnent réellement les VLA en environnements ouverts
298arXiv cs.RO 

Comment fonctionnent réellement les VLA en environnements ouverts

Un article de recherche publié sur arXiv (référence 2604.21192) soumet les modèles vision-langage-action (VLA) à une évaluation critique sur le benchmark BEHAVIOR1K (B1K), un protocole simulant des tâches domestiques complexes de longue durée dans des environnements ouverts. Le constat est net : les métriques standards de ces benchmarks, taux de succès ou score partiel, ne mesurent que l'état final des objets manipulés, indépendamment des événements qui y ont conduit. Un robot qui renverse un verre avant de le replacer peut ainsi obtenir le même score qu'un robot qui l'a manipulé sans incident. Ce protocole dit "progress-agnostic" ignore entièrement les comportements dangereux en cours d'exécution. Les chercheurs ont soumis plusieurs VLA de pointe à une analyse multidimensionnelle couvrant robustesse, reproductibilité, violations de sécurité et causes d'échec des tâches. Les implications sont directes pour tout acteur envisageant un déploiement réel. Si les métriques actuelles gonflent artificiellement les performances rapportées, les décisions d'intégration basées sur ces benchmarks reposent sur des bases fragiles. La distinction est capitale entre un modèle qui complète une tâche et un modèle qui la complète de façon sûre et reproductible, deux propriétés que les scores agrégés actuels confondent. Les auteurs proposent de nouveaux protocoles d'évaluation capables de capturer les violations de sécurité, comblant un angle mort majeur de la recherche. Pour un intégrateur ou un décideur industriel, cela signifie que les chiffres de "success rate" publiés par les laboratoires doivent être lus avec prudence, en exigeant explicitement des données de reproductibilité et des métriques comportementales. La course aux VLA s'est accélérée depuis 2024 avec des modèles comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou OpenVLA issu de Stanford et Berkeley. Ces systèmes combinent une fondation vision-langage avec un module d'action, affichant des capacités de généralisation notables en simulation. Ce papier suggère que le fossé simulation-réel est peut-être plus profond qu'estimé : des modèles performants sur B1K pourraient s'avérer moins fiables dès lors qu'on intègre sécurité et consistance comportementale comme critères d'évaluation. Les auteurs appellent la communauté à adopter ces nouveaux protocoles dans les futures éditions du B1K Challenge pour aligner les standards de recherche avec les exigences concrètes du déploiement en environnement ouvert.

RechercheOpinion
1 source
Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation
299arXiv cs.RO 

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation

Des chercheurs ont publié sur arXiv (arXiv:2604.17258, avril 2026) un pipeline de déploiement rapide permettant de préparer un robot humanoïde à manipuler un nouvel objet en environ 30 minutes, contre un à deux jours dans les approches classiques. Le système s'appuie sur trois composants à base de modèles de fondation : l'annotation automatique via Roboflow pour entraîner un détecteur YOLOv8, la reconstruction 3D par Meta SAM 3D à partir d'images standard (smartphone suffisant, pas de scanner laser), et le suivi de pose 6-DoF en zero-shot par FoundationPose, qui utilise directement le maillage généré par SAM 3D comme gabarit. Les commandes de pose alimentent un planificateur de cinématique inverse sous Unity, transmises en UDP au robot Unitree G1 via le SDK propriétaire. Les métriques annoncées : mAP@0.5 = 0,995 en détection, précision de suivi σ inférieure à 1,05 mm, et saisie réussie sur cinq positions dans l'espace de travail. Le pipeline a également été validé sur une tâche d'application de mastic sur vitre d'automobile, ce qui constitue un environnement industriel concret. L'enjeu principal est la réduction du "time-to-deployment" pour la manipulation humanoïde, un goulot d'étranglement majeur qui freine l'intégration en environnement industriel réel. Passer de deux jours à 30 minutes sans équipement spécialisé change la donne pour les intégrateurs et les PME industrielles qui ne disposent pas d'équipes robotique dédiées. Le recours au zero-shot pour FoundationPose signifie qu'aucun réentraînement n'est nécessaire pour chaque nouvel objet, ce qui valide partiellement l'hypothèse que les modèles de fondation peuvent absorber la variabilité d'objets sans collecte de données lourde. Cela dit, les résultats sont présentés sur cinq positions fixes et deux tâches seulement ; la robustesse en conditions de production non contrôlées reste à démontrer. Le robot support, le Unitree G1, est un humanoïde commercial chinois à 16 degrés de liberté vendu autour de 16 000 dollars, positionné comme plateforme de recherche accessible. Les composants logiciels mobilisés (Roboflow, Meta SAM 3D, FoundationPose de NVidia) sont tous open-source ou accessibles via API, ce qui renforce la reproductibilité. Dans le paysage actuel où Figure (Figure 03), Tesla (Optimus), Physical Intelligence (pi0) et Boston Dynamics investissent massivement dans les pipelines de manipulation apprise, cette approche modulaire et frugale en données offre une alternative pragmatique, notamment pour les déploiements pilotes dans des cellules de production à faible volume ou à variété élevée d'objets.

UELes intégrateurs robotiques et PME industrielles européens peuvent évaluer et reproduire ce pipeline open-source (Roboflow, Meta SAM 3D, FoundationPose) pour réduire drastiquement le time-to-deployment sur des cellules de production à haute variété d'objets, sans équipement spécialisé ni équipe robotique dédiée.

IA physiquePaper
1 source
π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes
300arXiv cs.RO 

π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes

Physical Intelligence, le laboratoire californien fondé en 2023 par d'anciens chercheurs de Google DeepMind et Stanford, publie π0.7 (pi-zéro-point-sept), un nouveau modèle de fondation robotique généraliste présenté dans un preprint arXiv (2604.15483) daté d'avril 2026. Le modèle démontre des capacités zero-shot sur des tâches multi-étapes en environnements inconnus : manipulation d'appareils de cuisine variés, pliage de linge sans avoir vu la tâche en entraînement, et opération d'une machine à expresso à un niveau de performance comparable à des modèles spécialisés entraînés par reinforcement learning. La généralisation cross-embodiment, c'est-à-dire la capacité à transférer des comportements entre plateformes robotiques différentes sans réentraînement dédié, est présentée comme une propriété émergente du système. L'innovation centrale de π0.7 est un mécanisme de conditionnement contextuel multimodal étendu. Là où la plupart des VLA (Vision-Language-Action models) se contentent d'une instruction textuelle, π0.7 reçoit en entrée de prompt des métadonnées sur la qualité de l'exécution, des images de sous-objectifs intermédiaires, et des informations sur la stratégie à adopter. Ce conditionnement riche permet d'intégrer à l'entraînement des données hétérogènes : démonstrations humaines, données autonomes potentiellement sous-optimales incluant des échecs, et données issues de sources non-robotiques. C'est un levier direct sur le problème du sim-to-real gap et sur le coût de collecte de données de qualité, deux freins majeurs au déploiement industriel. Pour un intégrateur ou un COO industriel, la promesse est concrète : un modèle qui fonctionne correctement sans fine-tuning coûteux sur chaque nouvelle tâche. Physical Intelligence avait introduit π0 fin 2024 comme premier modèle de fondation robotique à architecture flow matching, capable de piloter des bras manipulateurs avec haute dextérité. π0.7 constitue une évolution orientée généralité et pilotabilité plutôt que spécialisation. Dans le paysage concurrentiel, ce positionnement affronte directement Google DeepMind avec RT-2 et ses successeurs, Figure AI avec son modèle Helix, ainsi qu'1X Technologies. Aucun déploiement commercial n'est annoncé à ce stade : il s'agit d'un preprint académique sans validation industrielle publiée. Les évaluations portent sur plusieurs plateformes robotiques en laboratoire, et les prochaines étapes probables incluent des collaborations avec des fabricants de robots pour valider le passage à l'échelle en conditions réelles.

IA physiqueOpinion
1 source