Aller au contenu principal

Recherche — page 13

1770 articles · page 13 sur 36

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée
601arXiv cs.RO RecherchePaper

PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée

Une équipe de chercheurs publie PACT (Physical safety Alignment for Constrained Trajectories), un cadre d'alignement post-entraînement destiné à rendre les politiques de diffusion robotique conformes à des contraintes physiques strictes, sans accéder aux données de démonstration ni aux récompenses de tâche (arXiv:2606.08414). Les politiques de diffusion, qui génèrent des trajectoires motrices par débruitage itératif, ont connu des succès notables en manipulation robotique mais peinent à satisfaire des contraintes de sécurité fermes en déploiement réel. PACT projette les politiques pré-entraînées dans des régions faisables en distillant des gradients de contrainte via un objectif KL inverse, avec supervision dense à chaque pas de temps du processus de débruitage. Un curriculum progressif resserre graduellement les contraintes tout en maintenant un écart théoriquement borné par rapport à la politique d'origine, limitant l'oubli catastrophique. Sur des benchmarks de manipulation simulée et réelle, PACT réduit les violations de sécurité de 31,0% en moyenne et améliore simultanément le taux de réussite des tâches de 30,7%. Ces résultats interpellent directement les intégrateurs : sécuriser une politique robotique impliquait jusqu'ici soit de contraindre l'entraînement dès le départ, au prix de l'expressivité, soit d'ajouter des garde-fous externes à l'inférence, nuisant à la scalabilité. PACT propose une troisième voie, post-entraînement et sans données supplémentaires, qui permettrait en théorie d'aligner n'importe quelle politique de diffusion existante. Le fait que sécurité et performance progressent conjointement contredit l'hypothèse d'un compromis structurel entre les deux, pourtant largement admise dans le secteur. À noter : l'article ne précise pas les configurations matérielles ni les volumes de données des tests réels, ce qui limite la portée des comparaisons directes. Les politiques de diffusion ont connu une montée en puissance récente, portée notamment par Pi-0 (Physical Intelligence) et d'autres architectures VLA de grands laboratoires. PACT s'inspire des techniques d'alignement post-entraînement développées pour les LLM, de type RLHF, adaptées aux contraintes physiques plutôt qu'aux préférences humaines, et se positionne face aux approches par apprentissage par renforcement contraint et aux filtres CBF (Control Barrier Functions). Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit d'un résultat purement académique, sans pilote industriel annoncé. La validation sur des plateformes humanoïdes complètes et l'intégration dans des pipelines VLA de production restent à démontrer.

1 source
HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents
602arXiv cs.RO 

HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08610) HARBOR, un framework agentique conçu pour automatiser les pipelines d'apprentissage par renforcement (RL) appliqués à la robotique. Partant d'une spécification de tâche et d'une base de code simulateur, le système prend en charge l'ensemble du workflow : configuration de l'environnement, conception des fonctions de récompense, entraînement de la politique et tuning des hyperparamètres. HARBOR décompose ces objectifs de haut niveau en étapes bornées confiées à des agents spécialisés, coordonnés via des commandes standardisées, des artefacts persistants et des portes d'exécution vérifiables. Il scale l'itération par essais parallèles décentralisés et capitalise sur l'expérience accumulée entre les runs. Le framework a été évalué sur 6 benchmarks couvrant 16 tâches de manipulation, locomotion et contrôle bimanuel dextère. Les politiques entraînées en simulation ont ensuite été transférées sur de vrais robots. L'intérêt principal de HARBOR tient à ce qu'il attaque directement le principal frein à l'adoption du RL en robotique industrielle : la charge d'ingénierie experte requise pour chaque nouvelle tâche. Reward shaping, sélection d'algorithmes, tuning fin des hyperparamètres représentent aujourd'hui des semaines de travail spécialisé avant d'obtenir une politique viable. En automatisant ce cycle de bout en bout à un coût pratique en tokens et en temps de calcul, HARBOR abaisse concrètement la barrière d'entrée pour les intégrateurs et les équipes R&D industrielles. Le fait que les politiques se transfèrent au robot réel adresse le "sim-to-real gap", un verrou persistant du secteur. Les résultats publiés indiquent que le framework égale ou surpasse les configurations par défaut sur les benchmarks testés, bien que les conditions exactes d'évaluation méritent d'être examinées dans le papier complet avant d'en tirer des conclusions généralisées. HARBOR s'inscrit dans une tendance émergente qui consiste à utiliser des LLMs comme orchestrateurs de pipelines ML complexes, dans la lignée de travaux comme Eureka (NVIDIA, 2023), qui utilisait GPT-4 pour générer automatiquement des reward functions via evolutionary search, ou des approches AutoRL de Berkeley et Google DeepMind. HARBOR semble aller plus loin en couvrant l'intégralité du workflow plutôt que le seul reward design. Les auteurs ne sont pas identifiés dans l'abstract disponible, et aucune affiliation institutionnelle ni application industrielle spécifique n'est mentionnée : il s'agit d'un preprint de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles concerneront l'intégration avec des simulateurs standards (Isaac Sim, MuJoCo), des validations sur des plateformes humanoïdes complexes, et une éventuelle ouverture du code.

RecherchePaper
1 source
Modèle fondation de comportement perceptif : adapter les a priori de mouvement humain au terrain robotique
603arXiv cs.RO 

Modèle fondation de comportement perceptif : adapter les a priori de mouvement humain au terrain robotique

Publiée sur arXiv en juin 2026 (2606.08059), l'architecture Perceptive Behavior Foundation Model (Perceptive BFM) s'attaque à une limite structurelle des modèles fondamentaux de comportement humanoïde : l'hypothèse implicite que les mouvements de référence humains sont physiquement compatibles avec l'environnement du robot. En pratique, quand démonstrateur et robot se trouvent dans des contextes différents, la motion capture ne fournit ni les appuis au sol précis, ni les hauteurs de franchissement, ni les timings de contact requis sur terrain accidenté. Perceptive BFM conserve les références cinématiques brutes comme interface comportementale, tout en intégrant une perception locale du terrain pour adapter dynamiquement contacts, posture et timing. La méthode clé est le TCRS (terrain-conformal reference synthesis) : il retransforme des séquences de mouvement humain en références cohérentes avec le sol via construction d'appuis adaptatifs, optimisation des phases de balancement, reconstruction cinématique et réparation de collisions. L'entraînement suit une architecture enseignant-étudiant : un teacher aveugle apprend les comportements conformes au terrain, puis transfère ce savoir à un student déployé sur références brutes. L'apport concret pour les intégrateurs est une séparation nette entre intention comportementale et adaptation terrain, ce qui rend le système scalable sans motion capture annotée sol par sol. Le student, un Transformer tracker à gating d'identité, n'active les corrections terrain que via des voies résiduelles initialisées à ne rien modifier, ce qui préserve la robustesse du prior de mouvement original. C'est une réponse partielle au débat sur le sim-to-real gap en locomotion humanoïde : l'adaptation repose sur la perception locale plutôt que sur une modélisation globale ou une planification externe, ce qui simplifie le déploiement en environnement non structuré. Ce travail s'inscrit dans l'effervescence des behaviour foundation models pour humanoïdes : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les politiques corps entier issues de CMU et Stanford sont autant de points de comparaison directs. La question du fossé entre motion priors humains et locomotion réelle avait été partiellement adressée par les travaux sur l'imitation par RL (PHC, AMP, ASE), mais l'extension à des modèles fondamentaux déployables reste ouverte. L'article ne mentionne ni partenariat industriel ni validation hardware publiée : Perceptive BFM est pour l'instant une contribution de recherche sans déploiement terrain confirmé.

RechercheOpinion
1 source
DexPIE : amélioration stable des politiques de manipulation à partir de données réelles
604arXiv cs.RO 

DexPIE : amélioration stable des politiques de manipulation à partir de données réelles

Une équipe de chercheurs a publié DexPIE (Dexterous Policy Improvement from Experience), un framework de post-entraînement conçu pour améliorer les politiques de manipulation dextre après déploiement en conditions réelles. Présenté sur arXiv (2606.09615), le système atteint une amélioration de 37 % du taux de succès par rapport à la politique de référence entraînée par imitation pure, sur trois tâches de manipulation dextre à fort contact testées sur des mains robotiques réelles. L'approche combine trois mécanismes : un système d'intervention adapté aux mains dextres avec collecte multi-étapes de type DAgger (Dataset Aggregation), une inférence asynchrone dans l'espace d'action relatif pour réduire le bruit temporel entre les séquences de post-entraînement et les données de démonstration, et un indicateur de qualité continu qui conditionne la politique sur la qualité des données collectées en déploiement. Le verrou que DexPIE cherche à lever est structurel : les politiques entraînées uniquement par imitation accumulent des erreurs à chaque étape (compounding errors), et nécessitent des volumes considérables de données expertes pour être fiables. En permettant à la politique de s'améliorer à partir de ses propres rollouts en environnement réel, sans dépendre exclusivement d'un humain expert, DexPIE réduit ce goulot d'étranglement. L'introduction de l'espace d'action relatif couplé à l'inférence asynchrone est particulièrement notable : elle stabilise l'apprentissage du critique (value function) en alignant mieux les données collectées avec le comportement démontré, ce qui est non trivial sur des systèmes à haute dimensionnalité comme les mains multi-doigts. La manipulation dextre reste l'un des problèmes ouverts les plus difficiles de la robotique physique, loin derrière la locomotion en termes de maturité. Côté concurrents directs, les travaux récents de Physical Intelligence (pi0, Pi-0.5) et de Google DeepMind explorent également le fine-tuning de VLA (Vision-Language-Action models) sur données réelles, mais DexPIE cible spécifiquement les mains dextres, un segment où les acteurs comme Dexterous AI, Shadow Robot ou LEAP Hand fournissent le matériel mais où les frameworks d'amélioration post-déploiement restent rares. Le code source et le dataset seront rendus publics, ce qui facilitera la reproductibilité et pourrait accélérer l'adoption par d'autres équipes de recherche travaillant sur la manipulation fine.

RechercheOpinion
1 source
QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède
605arXiv cs.RO 

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

Une équipe de recherche a publié début juin 2026 QuadVerse, un cadre de simulation intégré pour robots quadrupèdes conçu pour résoudre simultanément les décalages visuels, physiques et d'actionneur qui constituent le sim-to-real gap. La méthode repose sur une reconstruction de scènes par 3D Gaussian Splatting (3DGS) à partir de vidéos RGB ordinaires : ces scènes servent de substrat de calibration commun à toute la pipeline. Les maillages géométriques extraits permettent un rendu photoréaliste en vue ego, une détection de collisions, et une initialisation de priors de friction spatialement variables, affinés par une recherche bayésienne sur des trajectoires réelles. Un compensateur de dynamique résiduelle est ensuite entraîné en rejouant ces trajectoires sur le terrain calibré, séparant les erreurs de contact dues au relief des non-idéalités propres aux actionneurs. Les expériences rapportées montrent une amélioration de la qualité de reconstruction et du suivi de locomotion par rapport aux baselines, ainsi qu'un déploiement zero-shot d'une politique de navigation visuelle sans aucune collecte de données terrain spécifique à la tâche. Ce que QuadVerse apporte concrètement, c'est une approche unifiée du sim-to-real : là où la majorité des travaux traitent le gap visuel ou dynamique de façon indépendante, ce framework les calibre conjointement à partir du même substrat de scène reconstruite. L'accumulation et la propagation des erreurs individuelles dans l'évolution d'état du robot sont explicitement prises en compte, un problème souvent sous-estimé dans les pipelines existants. Le résultat le plus opérationnel est le déploiement zero-shot : une politique entraînée entièrement en simulation peut être transférée sur un robot réel sans rollout terrain supplémentaire, ce qui réduit le coût d'adaptation à de nouveaux environnements. Pour les intégrateurs qui cherchent à accélérer les cycles de validation, c'est un levier potentiellement significatif. Il faut néanmoins souligner que l'article est un preprint arXiv (v2 déposé en juin 2026), les expériences sont conduites en environnement contrôlé, et aucune validation industrielle à grande échelle n'est encore documentée. Le sim-to-real gap est l'un des problèmes centraux de la robotique apprenante depuis plusieurs années. Des équipes comme ETH Zurich (ANYmal), Agility Robotics ou Boston Dynamics ont montré que les politiques de locomotion peuvent franchir ce gap, mais souvent au prix d'une randomisation de domaine intensive ou d'une adaptation en conditions réelles coûteuse. La technique de 3D Gaussian Splatting, popularisée en 2023, est de plus en plus mobilisée dans des pipelines robotiques pour sa capacité à produire des représentations photoréalistes différentiables. QuadVerse s'inscrit dans un courant actif incluant des travaux comparables autour de NeRF-to-Real et les simulateurs hybrides de Nvidia Isaac Lab. La prochaine étape logique serait une validation sur des plateformes commerciales standardisées comme l'Unitree Go2 ou l'ANYmal-D en environnements non structurés, et une éventuelle extension aux politiques de manipulation pour robots à pattes équipés de bras.

RecherchePaper
1 source
SynManDex : génération de saisies dextériques de type humain à partir de pré-saisies synthétiques
606arXiv cs.RO 

SynManDex : génération de saisies dextériques de type humain à partir de pré-saisies synthétiques

Des chercheurs ont publié SynManDex (arXiv:2606.09798), un pipeline synthétique conçu pour générer des saisies dextres robotiques imitant les interactions naturelles de la main humaine. La méthode fonctionne en quatre étapes : échantillonnage de pré-saisies humaines numériques conditionnées par l'objet, retargeting de ces postures vers une main robotique dextre, optimisation des contacts par fermeture de force sur l'effecteur cible, puis filtrage par vérification à chaque étape. Les keyframes résultantes alimentent des démonstrations de saisie-levée mais aussi des tâches de manipulation complexes : versement de thé, prise de photos, jeu de flûte, toutes conçues via des agents VLM (Vision-Language Model). Sur une plateforme bimane à 36 degrés de liberté, SynManDex atteint 86,4 % de stabilité de saisie, un score de naturalité humaine de 4,67/5 (soit 93,4 %), 80,7 % de succès en simulation et 83,3 % en conditions réelles (25 succès sur 30 essais). Ce résultat est notable parce que le transfert des interactions main-objet humaines vers les mains robotiques échoue généralement face aux contraintes de morphologie, de contact et d'atteignabilité. SynManDex attaque ce "morphology gap" en traitant les pré-saisies humaines comme des propositions affordance-aware, puis en délégant la résolution de contact à une optimisation native au robot. L'écart quasi nul entre simulation (80,7 %) et réel (83,3 %) suggère un sim-to-real solve solide, un résultat qui contredit l'hypothèse courante selon laquelle les pipelines synthétiques se dégradent significativement au passage au monde physique. Pour un intégrateur ou un responsable R&D en manipulation, cela ouvre la voie à la génération automatique de données de démonstration sans télé-opération humaine coûteuse. La manipulation dextre reste l'un des verrous majeurs de la robotique humanoïde et de la cobotique industrielle, aux côtés de travaux comme DexGrasp, UniDexGrasp ou les approches par imitation diffusion. SynManDex se distingue en exploitant explicitement la posture pré-saisie humaine comme prior fonctionnel plutôt que de partir d'un espace de configurations robotiques brut. Le papier est une soumission académique (pas un produit commercialisé), et les tâches testées restent des démonstrateurs de laboratoire. Les prochaines étapes probables incluent l'extension à des objets déformables, à des environnements encombrés et à des architectures de mains plus variées.

RecherchePaper
1 source
Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement
607arXiv cs.RO 

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

Une équipe de chercheurs a publié RE-GoT (Reward Evolution with Graph-of-Thoughts), un cadre de conception automatique de fonctions de récompense pour l'apprentissage par renforcement (RL). La méthode, présentée dans l'article arXiv:2509.16136 (version 5), associe des grands modèles de langage (LLM) à des modèles visuels (VLM) via un raisonnement structuré en graphe. RE-GoT décompose d'abord la tâche cible en un graphe d'attributs textuels, génère une fonction de récompense correspondante, puis la raffine itérativement en exploitant les retours visuels fournis par un VLM, sans intervention humaine. Évalué sur 10 tâches RoboGen et 4 tâches ManiSkill2, le système améliore le taux de succès moyen de 32,25 % sur RoboGen par rapport aux baselines LLM existantes, et atteint 93,73 % de taux de succès sur les quatre tâches de manipulation de ManiSkill2, dépassant même les récompenses conçues manuellement par des experts. L'enjeu est significatif : la conception des fonctions de récompense représente l'un des principaux goulots d'étranglement du RL appliqué à la robotique, et elle exige aujourd'hui une expertise humaine considérable ainsi que de nombreuses itérations manuelles. RE-GoT adresse deux faiblesses chroniques des approches LLM existantes : les hallucinations, que la structure en graphe réduit en contraignant le raisonnement, et l'incapacité à traiter des tâches multi-étapes complexes. Le fait que RE-GoT surpasse les récompenses expertes sur ManiSkill2 est notable, bien qu'il convienne de nuancer : les expériences restent dans des environnements simulés, et la question du sim-to-real gap, cruciale pour les industriels souhaitant déployer ces méthodes sur des robots physiques, n'est pas traitée dans ce travail. Ce travail s'inscrit dans une dynamique de recherche active depuis 2023, notamment portée par Eureka (NVIDIA, octobre 2023), qui utilisait GPT-4 pour générer des fonctions de récompense sur IsaacGym, ou par FunsSearch (DeepMind). RE-GoT se distingue en introduisant le paradigme Graph-of-Thoughts, une extension du Chain-of-Thought qui organise le raisonnement en graphe plutôt qu'en chaîne linéaire, permettant une analyse plus exhaustive des dépendances entre sous-tâches. Les prochaines étapes naturelles concernent la validation sur robots physiques et l'intégration à des pipelines sim-to-real comme ceux utilisés par Figure AI, Agility Robotics ou Boston Dynamics dans leurs boucles d'entraînement.

RecherchePaper
1 source
ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration
608arXiv cs.RO 

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration

Des chercheurs présentent ReGIL (Retrieval-Guided Imitation Learning), un framework d'apprentissage par imitation capable d'entraîner un robot manipulateur à partir d'une seule démonstration. La méthode traite cette démonstration unique comme une mémoire externe statique, interrogée en continu durant l'entraînement pour guider simultanément l'exploration, générer un buffer de régularisation et construire les récompenses. Le calcul de récompense repose sur un alignement temporel local entre la trajectoire courante et le segment récupéré, fournissant un feedback pas-à-pas plutôt qu'un signal binaire succès/échec. Évalué sur les benchmarks LIBERO et Meta-World, ReGIL surpasse les baselines antérieures en taux de réussite et en efficacité d'entraînement. Sur robot réel, avec une seule démonstration et moins d'une heure d'entraînement en ligne, le système atteint plus de 75 % de taux de réussite sur trois tâches de manipulation avec randomisation à la fois de la pose initiale du robot et de la position cible. Ces résultats sont issus d'un preprint arXiv (2606.09381) et n'ont pas encore été soumis à revue par les pairs. Le principal défi que ReGIL cherche à résoudre est connu sous le nom de "compounding error" : en imitation learning classique (behavior cloning), les petites déviations par rapport à la trajectoire démontrée s'accumulent et mènent rapidement à l'échec, ce qui oblige généralement à collecter des centaines, voire des milliers de démonstrations. Ramener ce seuil à une seule démonstration plus moins d'une heure d'interaction en ligne représente un gain opérationnel significatif pour le déploiement industriel, où la collecte de données est coûteuse. Le taux de 75 % obtenu avec randomisation de pose et de cible est un indicateur de robustesse plus solide qu'une démonstration en conditions fixes, même si l'absence de détails sur les tâches spécifiques et la complexité des scènes limite l'interprétation. L'apprentissage par imitation à faible nombre de démonstrations est un axe de recherche très actif, concurrencé notamment par les modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou les politiques de diffusion (Diffusion Policy, ACT). Ces approches misent sur des grandes quantités de données préentraînées pour compenser la rareté des démos spécifiques à une tâche, là où ReGIL propose une alternative radicalement data-light. Le benchmark LIBERO est devenu un standard de fait pour comparer ces méthodes en simulation, et Meta-World permet d'évaluer la généralisation multi-tâches. La prochaine étape logique serait une validation sur des tâches de manipulation plus complexes et une publication dans une conférence de robotique (ICRA, CoRL, RSS) pour valider les claims de manière indépendante.

RecherchePaper
1 source
EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet
609arXiv cs.RO 

EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet

Des chercheurs ont publié en juin 2026 sur arXiv un framework baptisé EgoAERO, capable d'apprendre la manipulation dextre à partir d'une unique démonstration vidéo RGB-D égocentrique humaine, sans recourir à aucun asset 3D de l'objet manipulé. Le pipeline enchaîne trois modules : un tracking et une reconstruction de l'objet sans asset préalable, une compensation du mouvement égocentrique de la caméra, et une optimisation adaptative des contacts main-objet. Les trajectoires cohérentes obtenues sont ensuite converties en politiques robotiques via un apprentissage résiduel en deux étapes. Les auteurs introduisent également un mécanisme d'évaluation de qualité en ligne et publient EgoDex-R, un dataset de 4,3 millions de frames RGB-D pour l'entraînement de politiques dextres. En simulation comme en conditions réelles, EgoAERO atteint des performances proches des reconstructions assistées par modèles CAD sur le benchmark HOI4D, référence standard pour l'interaction main-objet. Le verrou technique levé ici est structurant pour la robotique dextre : jusqu'ici, les méthodes d'imitation à partir de vidéo humaine exigeaient soit des scans 3D préalables des objets, soit plusieurs démonstrations, soit des marqueurs visuels. Or, scanner chaque objet d'un environnement industriel ou domestique est un frein majeur à la scalabilité des systèmes. EgoAERO suggère qu'une caméra RGB-D standard (de type Intel RealSense ou intégrée à des lunettes connectées) et une seule prise vidéo suffisent pour bootstrapper une politique robotique fonctionnelle. C'est un signal fort en faveur d'une démocratisation de la collecte de données dextres, potentiellement réalisable par des opérateurs non spécialisés plutôt que par des sessions de télé-opération coûteuses. Ce travail s'inscrit dans une vague de recherche visant à exploiter les corpus vidéo égocentrique à grande échelle (Ego4D, HOI4D, EPIC-Kitchens), jusqu'ici sous-utilisés pour le robot learning faute de géométrie objet exploitable. Les approches concurrentes en manipulation dextre reposent encore largement sur la télé-opération avec gants haptiques (Physical Intelligence avec pi0, Dexterous Manipulation Lab de CMU) ou sur des assets CAD (DITTO, DexMV). EgoAERO n'est à ce stade qu'un preprint, sans déploiement industriel annoncé ni validation sur une large variété d'objets du monde réel : les expériences rapportées restent sur des scènes contrôlées du benchmark HOI4D, et la robustesse à des objets déformables ou transparents reste à démontrer.

RecherchePaper
1 source
Revisiter la perception des parties articulées en manipulation robotique
610arXiv cs.RO 

Revisiter la perception des parties articulées en manipulation robotique

Des chercheurs ont déposé en juin 2026 (arXiv:2606.08103) une nouvelle approche pour la perception des parties articulées d'objets du quotidien, portes, boîtes et poignées, baptisée GPS (Geometric Primary Structure). Ce cadre représente la géométrie des parties mobiles sous une forme abstraite et générique, collectée via un dispositif de réalité virtuelle portable : l'annotation d'une séquence d'objets prend moins d'une minute, contre plusieurs dizaines de minutes pour les pipelines de labellisation manuelle classiques. Appliqué sur 234 objets répartis en six classes de parties, le système a constitué un corpus de 41 000 frames. Le modèle GPS entraîné accepte en entrée une unique image RGB-D et, sans aucun fine-tuning spécifique au domaine, atteint un taux de réussite de 73 % sur 270 états initiaux couvrant 9 objets en manipulation robotique réelle, à partir d'une politique heuristique basée sur la prédiction GPS. Ce résultat illustre un point clé pour les intégrateurs et les équipes R&D industrielles : la qualité de la représentation perceptive conditionne directement la robustesse de la politique de manipulation. Les deux approches dominantes présentent des compromis défavorables. Les méthodes basées sur la pose nécessitent une annotation intensive et ne passent pas à l'échelle, tandis que les méthodes affordance-based, qui extraient le mouvement futur par point tracking, souffrent de données bruitées ou incomplètes. GPS tente d'occuper le terrain intermédiaire. Un taux de 73 % sans fine-tuning in-domain est une indication sérieuse de généralisation réelle, même si la validation sur 9 objets seulement invite à la prudence avant de conclure que le fossé entre démonstration et déploiement industriel est comblé. Le problème de la manipulation d'objets articulés constitue un verrou reconnu depuis les travaux fondateurs sur WHERE2ACT et les datasets de type OPD (OpenDoors-Dataset). GPS s'inscrit dans un mouvement plus large visant à remplacer les bases de connaissances statiques par des systèmes de perception apprenants et annotables à faible coût. Les auteurs rendent publics le code, les données et l'outil VR (enlighten0707.github.io/gps), ce qui favorise la reproductibilité et l'adoption en recherche. Les extensions naturelles incluent l'intégration avec des politiques de type VLA (Vision-Language-Action), la généralisation à des parties déformables, et la validation sur des objets industriels hors distribution.

RecherchePaper
1 source
Apprentissage par renforcement dans un espace d'embedding linéaire pour un contrôle généralisable sur différentes configurations de robots souples
611arXiv cs.RO 

Apprentissage par renforcement dans un espace d'embedding linéaire pour un contrôle généralisable sur différentes configurations de robots souples

Une équipe de chercheurs présente, dans un préprint arXiv déposé en juin 2026 (arXiv:2606.08104), un système de contrôle généraliste pour robots souples capables de s'adapter à 33 configurations mécaniques distinctes sans réentraînement complet. La méthode repose sur un espace d'embedding linéaire dit de Koopman, dans lequel la dynamique du robot est encodée indépendamment de sa morphologie. L'apprentissage par renforcement est appliqué dans cet espace partagé, ce qui permet au contrôleur de se transférer d'une configuration à une autre avec 75 fois moins d'échantillons de transfert que les approches conventionnelles. Le système maintient des performances robustes sous contraintes sévères : mouvements rapides, charges utiles élevées et pannes simultanées de plusieurs actionneurs. Le verrou que ce travail cherche à lever est structurel dans le domaine des robots souples : chaque changement de configuration (matériau, rigidité, morphologie) impose aujourd'hui une refonte du contrôleur spécifique, rendant la reconfiguration coûteuse en temps ingénieur et en données d'entraînement. En découplant la politique de contrôle de la morphologie via l'espace de Koopman, les auteurs ouvrent la voie à des robots souples reconfigurables à la demande, exploitables en production industrielle ou en milieu médical sans pipeline de réentraînement long. La réduction de 75x du coût de transfert est significative, mais le préprint ne précise pas les conditions opérationnelles exactes des 33 configurations testées ni si les évaluations couvrent des tâches réelles ou des benchmarks en simulation. Les robots souples, inspirés des pieuvres et des trompes d'éléphants, font l'objet d'une recherche matériaux intense depuis une décennie, mais leur contrôle restait l'obstacle principal à tout déploiement à l'échelle. Sur le front concurrent, les approches classiques par modèles (éléments finis, modèles de Cosserat) peinent à généraliser, tandis que les méthodes d'apprentissage profond nécessitent typiquement des jeux de données configuration-spécifiques massifs. L'opérateur de Koopman, déjà utilisé en robotique rigide pour linéariser des systèmes non linéaires, fait ici son entrée dans le contrôle de robots souples à grande échelle. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans le préprint ; les suites naturelles seront la validation sur des tâches de manipulation réelle et l'extension à des configurations hybrides rigides-souples, segment sur lequel des spinoffs de laboratoires académiques européens et des acteurs comme Wandercraft cherchent à se positionner.

UEImpact indirect : des équipes académiques et spinoffs européens en robotique souple pourraient exploiter cette méthode Koopman pour réduire leur coût de réentraînement morphologique, mais aucun partenariat industriel ou déploiement européen n'est identifié à ce stade.

RecherchePaper
1 source
Politiques de récupération sensibles aux différences pour l'apprentissage par imitation
612arXiv cs.RO 

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Une équipe du Weird Lab de l'Université de Washington publie sur arXiv (arXiv:2606.09758, juin 2026) une méthode appelée DARP (Difference-Aware Retrieval Policies for Imitation Learning), une approche semi-paramétrique d'apprentissage par imitation. Le principe central : plutôt que d'apprendre un mapping global état-action via un réseau de neurones pur (behavior cloning standard), DARP entraîne un modèle à prédire des actions en s'appuyant sur les k plus proches voisins (k-NN) extraits des démonstrations expertes, leurs actions associées, et les vecteurs de distance relative entre les états voisins et l'état requête courant. En reformulant le problème d'imitation en termes de structure de voisinage local plutôt que de mappings directs, la méthode revendique des gains de performance de 15 à 46 % sur behavior cloning standard, mesurés sur des benchmarks de contrôle continu et de manipulation robotique, y compris avec des représentations visuelles haute dimension. L'amplitude de cette fourchette suggère des variations importantes selon les tâches et les domaines évalués. L'intérêt concret de DARP réside dans sa capacité à atténuer le problème de "compounding errors" : lors du déploiement, un agent entraîné par behavior cloning accumule des erreurs en rencontrant des états hors distribution, dégradant rapidement les performances. En réutilisant les données d'entraînement au moment de l'inférence, DARP introduit une forme de mémoire épisodique sans nécessiter de collecte de données supplémentaires, de feedback expert en ligne, ni de connaissance spécifique à la tâche. C'est là la distinction clé vis-à-vis de méthodes comme DAgger (Ross et Bagnell, 2011), qui résolvent la distribution shift mais exigent des requêtes à l'expert pendant l'entraînement, une contrainte souvent rédhibitoire en robotique industrielle réelle. Le behavior cloning reste une méthode de référence pour son absence de contraintes opérationnelles, mais sa fragilité face à la distribution shift en limite la portée pour des déploiements à grande échelle. DARP s'inscrit dans un courant de méthodes semi-paramétriques qui connaît un regain d'intérêt avec la montée des politiques génératives : l'idée de conserver explicitement une mémoire des démonstrations plutôt que de tout comprimer dans des poids de réseau est cohérente avec les architectures hybrides actuelles, comme les VLA Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les résultats sur représentations visuelles haute dimension ouvrent la voie à des applications sur des manipulateurs avec vision RGB, domaine où les approches purement paramétriques montrent encore des limites significatives. Le code et les démonstrations sont disponibles publiquement via le site des auteurs.

RecherchePaper
1 source
Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs
613arXiv cs.RO 

Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (référence 2606.09476) une méthode baptisée Goal-Set Hindsight Relabeling (GS-HER), qui reformule le problème du ré-étiquetage a posteriori en apprentissage robot hors-ligne. Là où la technique standard HER (Hindsight Experience Replay) convertit chaque état final atteint en objectif singleton exact, GS-HER opère au niveau des prédicats : une requête binaire spécifie quelles variables de l'état définissent le succès, transformant le critère d'objectif en paramètre configurable à l'inférence plutôt qu'en constante d'entraînement. Le système a été évalué sur les benchmarks OGBench avec cinq algorithmes d'apprentissage offline orientés objectifs (GCRL), et améliore les performances sur l'ensemble des configurations testées lorsque les objectifs en pleine dimension sont pénalisés par des variables parasites -- les "nuisance dimensions" -- qui n'ont aucun impact sur le succès réel de la tâche. L'intérêt de GS-HER pour un intégrateur ou un déploiement industriel tient dans sa modularité : un unique checkpoint entraîné peut répondre à plusieurs définitions d'objectifs sans nécessiter de ré-entraînement. Concrètement, une même politique apprise peut être interrogée différemment selon le contexte opérationnel, en modifiant uniquement la requête à l'inférence. La méthode adresse aussi une limite bien connue du GCRL offline : dans les tâches réelles, la définition exacte d'un état-but final est souvent impossible à spécifier sans introduire de contraintes artificielles. GS-HER relaxe cette sur-contrainte en ne demandant au robot de vérifier que les dimensions effectivement pertinentes au succès, ce qui rapproche la formulation théorique de la réalité opérationnelle. HER a été introduit par Andrychowicz et al. (OpenAI) en 2017 et est devenu l'une des pierres angulaires du GCRL, notamment pour la manipulation robotique. Des variantes ont depuis émergé pour gérer les trajectoires sous-optimales et les objectifs bruités, mais peu s'attaquaient à la sur-contrainte dimensionnelle. GS-HER se positionne comme une couche de généralisation compatible avec les algorithmes GCRL existants, ce qui limite la friction d'adoption. La limite principale à ce stade : les résultats sont exclusivement issus de simulations (OGBench), sans validation sur hardware réel -- l'écart sim-to-real reste donc à démontrer. Aucun acteur européen n'est impliqué dans la publication selon les informations disponibles.

RecherchePaper
1 source
MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)
614arXiv cs.RO 

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.08288) introduit MotionVLA, une interface de mémoire motrice conçue pour améliorer les modèles vision-language-action appliqués à la manipulation robotique longue portée. Le principe : plutôt qu'alimenter le modèle avec une séquence d'images passées traitées indépendamment, MotionVLA convertit une courte fenêtre vidéo récente en tokens de champ de trajectoire (trajectory-field tokens), compacts et temporellement continus. Ces tokens encodent le mouvement cohérent entre les observations, et les tokens visuels courants les interrogent pour extraire les informations de mouvement pertinentes à la tâche en cours. Le tout est réinjecté dans le flux VLA via une supervision ancrée sur les trajectoires. Les auteurs rapportent des améliorations sur des benchmarks de simulation ainsi que des essais préliminaires sur robot réel, avec des exécutions décrites comme plus fluides et plus directes. L'enjeu est théorique, mais les implications pratiques sont directes. Les VLA actuels -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure) -- cherchent à résoudre l'ambiguïté des tâches longues en injectant toujours plus de contexte : historique d'images, profondeur, features 4D. L'hypothèse implicite est "plus de contexte spatio-temporel équivaut à une meilleure politique". MotionVLA conteste cette hypothèse : un contexte incohérent en termes de mouvement introduit de la dérive géométrique, des indices temporels fragmentés et une génération d'actions instable. Reformuler la mémoire comme un champ de mouvement plutôt que comme un empilement de frames résout le problème à la source, ce qui intéresse directement les équipes cherchant à stabiliser des VLA en déploiement industriel sans exploser le budget de calcul. Ce travail s'inscrit dans une course intense à l'architecture VLA optimale. Les approches concurrentes incluent les modèles à base de profondeur (SpatialVLA), de features 4D (CogACT), ou de diffusion de trajectoires (pi-0). MotionVLA se rapproche davantage des travaux sur le flot optique dense et les représentations de mouvement continu. Deux mises en garde s'imposent : les résultats sur robot réel sont explicitement qualifiés de "préliminaires" par les auteurs, et aucun chiffre de benchmark précis n'est disponible dans la publication actuelle. À ce stade, il s'agit d'une contribution de recherche, non d'un produit industrialisé ni d'une démonstration validée à l'échelle.

RechercheOpinion
1 source
OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles
615arXiv cs.RO 

OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles

Une équipe de chercheurs publie sur arXiv (juin 2026) le framework OASIS, une approche pour entraîner des robots humanoïdes à des tâches de loco-manipulation, combinaison de locomotion et de manipulation d'objets, en s'appuyant exclusivement sur des données de simulation. Le système reconstruit automatiquement des assets 3D réalistes à partir d'images du monde réel via un modèle génératif, puis collecte des trajectoires par télé-opération dans ce simulateur. Ces trajectoires sont ensuite augmentées par randomisation de domaine : variations d'éclairage, de textures et de configuration environnementale. Une politique visuomotrice hiérarchique, entraînée sur ces données simulées, est déployée en zero-shot sur un robot humanoïde physique, sans fine-tuning sur données réelles. Les résultats publiés indiquent que cette politique dépasse, sur la majorité des tâches testées, les performances d'une politique entraînée sur des données de télé-opération réelle. Ce résultat, à prendre avec prudence, le preprint n'étant pas encore soumis à peer review, va à contre-courant d'une hypothèse largement répandue : que la qualité des données terrain serait irremplaçable pour la manipulation fine. Le principal facteur explicatif avancé par les auteurs est la couverture plus large des variations d'éclairage et d'environnement dans le rendu simulé, que la collecte physique peine à égaler à grande échelle. Si le résultat se confirme, il soulage considérablement le goulot d'étranglement de la collecte terrain, qui implique aujourd'hui des resets manuels coûteux et une infrastructure dédiée par tâche. La loco-manipulation reste l'un des défis les plus complexes en robotique humanoïde, car elle exige une coordination simultanée du contrôle de marche et de la manipulation d'objets. Des plateformes comme Figure 03, l'Optimus Gen 3 de Tesla ou l'Atlas de Boston Dynamics cherchent des solutions via des approches diverses : imitation learning sur données réelles (pi-0 de Physical Intelligence), politiques VLA (GR00T N2 de Nvidia) ou RL massivement simulé (Unitree). OASIS positionne la simulation augmentée comme alternative crédible à la télé-opération physique, ce qui pourrait accélérer le bootstrapping de nouvelles tâches sans mobiliser de cellules robotiques dédiées. Les prochaines étapes attendues sont une évaluation sur un spectre plus large de tâches industrielles et une soumission à une conférence avec évaluation par les pairs.

RechercheOpinion
1 source
ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA
616arXiv cs.RO 

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

ReCoVLA (Reward Compilation for VLA recovery) est un framework de récupération d'erreurs présenté dans un preprint arXiv publié le 9 juin 2026, conçu pour pallier la fragilité des politiques VLA (Vision-Language-Action) face aux états hors-nominal. Le principe : maintenir une politique VLA pré-entraînée gelée (frozen), déléguer à un modèle vision-langage externe (VLM) l'inférence du mode de défaillance et du stade de récupération, puis compiler une récompense structurée pour entraîner une politique résiduelle corrective en simulation. Cette politique résiduelle est ensuite déployée en zéro-shot sur robot réel sans réentraînement. Sur des tâches de manipulation couvrant des horizons courts, longs et des contacts riches, ReCoVLA fait passer le taux de succès moyen de 36,7 % (baseline π0.5 fine-tuné) à 66,7 % en simulation, et atteint 61,7 % en déploiement physique zéro-shot sim-to-réel. L'apport conceptuel central est de ne pas utiliser le VLM pour générer des actions ou des récompenses directement, mais comme un sélecteur sémantique de récompenses : il prédit un descripteur de récupération et un masque de récompense parmi des composants prédéfinis liés à la tâche. Cette séparation entre compréhension sémantique de haut niveau et contrôle correctif de bas niveau adresse un angle mort bien documenté des architectures VLA actuelles : elles offrent de bons priors pour la manipulation conditionnée au langage, mais s'effondrent dès qu'elles rencontrent un état non prévu à l'entraînement. Le framework se veut agnostique à la politique VLA sous-jacente, ce qui le rendrait compatible avec différents modèles de base. Le travail s'inscrit dans une compétition intense autour des politiques génératives pour la manipulation robotique. Des modèles comme π0 et π0.5 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA ont démontré la faisabilité des VLA à grande échelle, mais la robustesse aux défaillances reste un problème ouvert. ReCoVLA propose une réponse modulaire qui n'exige pas de réentraîner la politique de base, ce qui réduit théoriquement les coûts d'adaptation. Il convient toutefois de noter que ce preprint ne fait pas état d'un déploiement industriel : les expériences physiques restent en contexte laboratoire, avec un périmètre de tâches limité. Les prochaines étapes naturelles concernent la généralisation à d'autres architectures VLA et l'évaluation sur des chaînes causales plus longues.

RechercheOpinion
1 source
AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation
617arXiv cs.RO 

AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation

Des chercheurs ont publié en juin 2026 AHA-WAM (Asynchronous Horizon-Adaptive World-Action Model), une architecture de contrôle robotique qui dissocie temporellement la prédiction de scène et l'exécution motrice, deux processus jusqu'ici couplés au même rythme dans les modèles monde-action existants. L'architecture repose sur deux Diffusion Transformers (DiT) fonctionnant en parallèle : un DiT "monde" opère à basse fréquence comme planificateur de scène à long horizon, maintenant une mémoire glissante de paires clé-valeur sur les observations passées ; un DiT "action" tourne à haute fréquence en boucle fermée, interrogeant ce contexte latent via une attention jointe par couche. Deux mécanismes complètent le système : un entraînement à décalage adaptatif (horizon-adaptive offset training) et un routage OVCR (Observation-Guided Video-Context Routing), qui permettent à l'expert action d'exploiter le contexte long-horizon sans relancer le DiT vidéo à chaque pas. Sur le benchmark RoboTwin, AHA-WAM atteint 92,80 % de taux de succès moyen ; sur quatre tâches de manipulation en conditions réelles, 78,3 % de succès. La fréquence de contrôle en boucle fermée est de 24,17 Hz, soit un gain de vitesse de 4,59x sur Fast-WAM, sans aucun préentraînement sur données robot. Le résultat principal à retenir pour les intégrateurs et décideurs : un modèle VLA (Vision-Language-Action) peut maintenant planifier à l'échelle de la vidéo long-horizon et agir en temps quasi-réel sans que ces deux branches s'inhibent mutuellement. L'absence de préentraînement robot est notable, car elle suggère que le transfert depuis des données vidéo génériques peut suffire pour atteindre des performances state-of-the-art en manipulation. Le gain de 4,59x en vitesse est cliniquement significatif : 24 Hz permet un contrôle réactif sur bras industriel standard, ce qui rapproche ces architectures d'un déploiement en cellule de production, même si les tâches testées restent des benchmarks de manipulation tabletop, pas des environnements industriels non structurés. AHA-WAM s'inscrit dans la vague des modèles monde-action (world-action models), un paradigme émergent qui injecte des priors physiques dans l'apprentissage de politiques en modélisant conjointement dynamique visuelle et actions. Fast-WAM, cité comme baseline directe, reste la référence de vitesse que ce travail cherche à dépasser. Du côté concurrent, les architectures VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent également sur des transformers multimodaux pour la généralisation en manipulation, mais conservent généralement un pipeline unifié. La prochaine étape logique pour AHA-WAM serait de tester le passage à des environnements semi-structurés et d'évaluer la robustesse du routage OVCR face à des distributions d'observations hors-distribution.

RechercheOpinion
1 source
VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées
618arXiv cs.RO 

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.09286) VAIC, un cadre de contrôle unifié pour robots humanoïdes capable d'interagir avec des objets en milieu non structuré. La contribution principale est l'élimination de deux hypothèses restrictives qui limitent la transposition terrain des contrôleurs existants : les trajectoires de référence denses et l'observabilité complète de l'état. VAIC opère exclusivement à partir d'un flux de profondeur embarqué et de la proprioception historique, via une interface de commandes découplées composée de cibles de vitesse multi-axes et d'un indicateur d'interaction par segment corporel. L'apprentissage suit un paradigme de distillation en deux étapes : une politique "enseignant" privilégiée, entraînée avec accès complet à la cinématique des objets et à l'état environnemental exact, transfère ses compétences à une politique "étudiant" déployable qui reconstruit implicitement la dynamique des objets depuis le flux de profondeur brut via un module d'adaptation récurrent. Sur robot humanoïde (non nommé dans le preprint), cette politique unique exécute en conditions réelles trois familles de tâches dynamiques : transport de carton, interaction avec un chariot, et skateboard, surpassant selon les auteurs les approches baseline comparées. Ce résultat, s'il se confirme à plus grande échelle, adresse directement le "deployment gap" qui freine la commercialisation des humanoïdes : la quasi-totalité des démos publiques repose encore sur des systèmes de capture de mouvement externe ou sur des objets instrumentés avec tracking précis. Proposer une politique unique généraliste, sans trajectoires de référence et fonctionnant sur capteurs embarqués bas coût, réduirait significativement la friction d'intégration pour les opérateurs industriels et les intégrateurs robotiques. La distillation enseignant-étudiant avec module d'adaptation récurrent n'est pas une architecture inédite, mais son application à des tâches aussi hétérogènes sur un humanoïde réel constitue un pas mesurable vers la généralisation. À noter que le preprint ne fournit ni métriques de cycle time par tâche, ni taux de succès quantifiés, ni spécification du robot utilisé, ce qui limite l'évaluation indépendante des performances annoncées. Ce travail s'inscrit dans une course aux contrôleurs généralisés qui oppose des équipes académiques (Berkeley, CMU, ETH Zurich) aux acteurs commerciaux : Figure Robotics avec son pipeline VLA sur Figure 02/03, Physical Intelligence et sa politique Pi-0, 1X Technologies et Unitree, tous actifs simultanément sur le sim-to-real et les architectures polyvalentes. L'approche de VAIC, centrée sur la profondeur et la proprioception plutôt que sur les vision-language models à grande échelle, constitue un positionnement différenciant en termes de coût de calcul embarqué et de simplicité sensorielle. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé dans ce preprint : il s'agit à ce stade d'une démonstration de recherche, dont la validation sur plusieurs plateformes robotiques et environnements variés reste entièrement à mener.

RecherchePaper
1 source
Q-VGM : un guidage par gradient de valeur pour les politiques VLA à flux normalisants
619arXiv cs.RO 

Q-VGM : un guidage par gradient de valeur pour les politiques VLA à flux normalisants

Une équipe de chercheurs propose Q-VGM (Q-Guided Value-Gradient Matching), une méthode d'apprentissage par renforcement hors-politique conçue pour affiner les politiques VLA (Vision-Language-Action) reposant sur le flow-matching. Partant de pi0.5, le modèle VLA de Physical Intelligence, comme initialisation few-shot, la méthode améliore les taux de réussite sur trois environnements : sur le benchmark LIBERO, le taux de succès passe de 75,0 % à 92,5 % ; sur RoboTwin 2.0, de 76,4 % à 87,2 % ; sur deux tâches de manipulation réelles en environnement tabletop, de 40,0 % à 67,5 %. Ces gains sont obtenus sans supervision experte supplémentaire, à partir de données d'expérience auto-générées par le robot (rollouts). L'étude est disponible en preprint sur arXiv (2606.08015) et n'a pas encore été soumise à évaluation par les pairs à la date de publication. Le verrou que Q-VGM résout est l'un des obstacles les plus tenaces du fine-tuning RL pour les VLA de type flow-matching : propager les gradients d'une fonction de valeur (Q-function) à travers le processus de débruitage itératif est numériquement instable à grande échelle, tandis que les méthodes de policy-gradient exigent des vraisemblances d'actions indisponibles sous débruitage itératif. Q-VGM contourne ces deux contraintes via VGG-Flow, un cadre théorique qui convertit le gradient de valeur en un champ de guidage appliqué pendant le débruitage, sans rétropropagation end-to-end ni calcul de vraisemblance explicite. Pour un intégrateur ou une équipe robotique, le paradigme est directement opérationnel : quelques démonstrations pour amorcer la politique (few-shot SFT), puis amélioration continue à partir de l'expérience propre du système. La progression de 40 % à 67,5 % sur robot réel est encourageante, bien que les conditions expérimentales restent circonscrites à deux tâches tabletop contrôlées. Physical Intelligence a lancé pi0 fin 2024, puis pi0.5, des architectures VLA fondées sur le flow-matching devenues un point de référence pour la manipulation généraliste. Q-VGM s'inscrit dans un courant de recherche actif visant à greffer l'apprentissage par renforcement sur ces fondations pré-entraînées, en concurrence avec des approches comme OpenVLA-OFT ou les adaptations RLVR appliquées aux VLA. LIBERO et RoboTwin 2.0 sont des benchmarks standards de manipulation simulée, ce qui rend les comparaisons reproductibles mais soulève la question classique du transfert en conditions réelles non supervisées. La prochaine étape pour ce type de méthode sera de démontrer la robustesse sur des plateformes robotiques variées et dans des environnements moins contrôlés.

RechercheOpinion
1 source
Planification et commande de mouvement sûres par polytopes imbriqués et fonctions de barrière de contrôle
620arXiv cs.RO 

Planification et commande de mouvement sûres par polytopes imbriqués et fonctions de barrière de contrôle

Des chercheurs présentent dans un preprint arXiv (2606.09719) une méthode de planification de mouvement locale pour robots mobiles autonomes évoluant dans des espaces confinés. L'approche repose sur la représentation polytopique du footprint du robot : modéliser sa géométrie réelle par un polygone convexe plutôt que de la simplifier à un point ou un cercle. La condition de sécurité, le robot doit rester à l'intérieur d'une région libre convexe continuellement mise à jour, est formulée comme un ensemble de contraintes de type Control Barrier Function (CBF) intégrées dans un contrôleur prédictif à modèle (MPC). Les expériences sur matériel embarqué, avec un robot non-holonome équipé de LiDAR et de grilles d'occupation, valident le système à 10 Hz en temps réel, avec évitement réactif d'obstacles dynamiques. L'analyse comparative affiche une réduction du temps de calcul pouvant atteindre 91x face à une formulation classique basée sur la détection d'obstacles, lorsque la densité de l'environnement augmente. L'intérêt pour les intégrateurs de systèmes AMR tient à deux propriétés distinctes. Le nombre de contraintes de sécurité dépend uniquement de la complexité géométrique locale et de la forme du robot, pas du nombre d'obstacles, ce qui garantit une tenue en temps réel dans des environnements denses. Par ailleurs, l'absence de nécessité de détecter ou segmenter les obstacles individuellement simplifie le pipeline de perception. La validation sur hardware, et pas seulement en simulation, place ce travail au-delà d'un résultat purement théorique, même si la montée en charge vers des environnements industriels à grande échelle reste à démontrer. La fréquence de 10 Hz sur ordinateur embarqué est un indicateur crédible de déployabilité réelle. Les approches classiques de navigation sûre pour robots à empreinte non-triviale recourent soit à des simplifications conservatives, soit à des formulations obstacle-par-obstacle dont le coût de calcul croît avec la densité de la scène, un problème bien documenté dans les entrepôts opérés par des acteurs comme Exotec ou dans la navigation maritime autonome. Les CBF appliqués à la planification en espace libre s'inscrivent dans une tendance croissante aux côtés de méthodes comme MPPI ou les planificateurs basés sur des tubes de sécurité. Ce preprint n'a pas encore été soumis à révision par les pairs, mais la démonstration embarquée sur robot réel constitue un signal d'applicabilité sérieux pour les équipes R&D robotique cherchant à naviguer dans des couloirs étroits sans surestimer les marges de sécurité.

UELes équipes R&D d'intégrateurs AMR européens (dont Exotec en France) pourraient bénéficier de cette méthode pour améliorer la navigation en environnements confinés sans surcoût computationnel, mais le travail reste un preprint non encore validé par les pairs.

RecherchePaper
1 source
IntentNav : apprendre la navigation spatiale vers des objets à partir de démonstrations humaines
621arXiv cs.RO 

IntentNav : apprendre la navigation spatiale vers des objets à partir de démonstrations humaines

Une équipe de recherche anonyme a soumis le 9 juin 2026 un préprint arXiv (2606.08029) présentant IntentNav, un framework d'imitation spatiale et visuelle pour la navigation autonome par objets (ObjectNav). La tâche consiste à envoyer un robot chercher un objet non observé dans un environnement inconnu, sans carte préalable, en décidant en temps réel où explorer sous observabilité partielle. L'architecture repose sur deux briques complémentaires : une mémoire BEV (Bird's Eye View) qui encode les régions explorées, les frontières inexplorées et l'historique de trajectoire, et une mémoire visuelle égocentrique qui associe des indices sémantiques à chaque frontière candidate. Un modèle de langage et de vision (VLM) est entraîné sur des démonstrations humaines pour sélectionner la prochaine frontière à explorer, guidé par un "Frontier-based Human-Intent Labeling" qui inspecte en avant les trajectoires humaines pour identifier quelle frontière explique le mieux la direction de recherche du démonstrateur. Les auteurs annoncent des performances état de l'art sur les benchmarks MP3D, HM3D-v1 et HM3D-v2. Le point le plus saillant pour les intégrateurs est le transfert zéro-shot : la même politique VLM, sans fine-tuning supplémentaire, est transférée à trois morphologies distinctes, robot à roues, quadrupède et humanoïde. Cela suppose que l'interface candidate-level fonctionne comme une couche d'abstraction suffisamment générique pour s'affranchir des particularités cinématiques propres à chaque plateforme. Pour un COO industriel, cela ouvre la perspective d'un seul modèle de navigation entraîné sur des démonstrations humaines capable de piloter des flottes hétérogènes sans retraining par morphologie. Réserve importante : la démonstration sim-to-real reste confinée aux benchmarks de simulation Matterport3D et HM3D ; aucun résultat sur hardware physique réel n'est rapporté dans le préprint, ce qui laisse entier le gap entre benchmark et déploiement terrain. IntentNav s'inscrit dans un champ actif où des approches concurrentes comme SemExp (Chaplot et al., 2020), ZSON (Majumdar et al., 2022) ou les méthodes VLM zéro-shot telles qu'EmbodiedGPT et OpenFMNav se disputent la tête des benchmarks HM3D. La contribution distinctive est l'extraction d'intention de haut niveau à partir d'actions humaines de bas niveau via le labeling de frontières, une alternative à l'apprentissage par renforcement pur qui souffre de la rareté des récompenses dans les grands espaces d'exploration. La soumission étant anonyme, affiliations et financements ne sont pas divulgués ; une page projet est référencée sans contenu pleinement accessible à ce stade.

RechercheOpinion
1 source
Saut à la corde en coopération grâce à l'apprentissage par renforcement multi-agents
622arXiv cs.RO 

Saut à la corde en coopération grâce à l'apprentissage par renforcement multi-agents

Des chercheurs ont publié sur arXiv (2606.08064) un framework baptisé Marope permettant à plusieurs robots humanoïdes de pratiquer le saut à la corde collective en coordination. Le scénario implique deux robots Unitree G1 chargés de faire tourner la corde en synchronie, pendant qu'un troisième participant saute à des rythmes variables. L'architecture repose sur un apprentissage par renforcement multi-agents (MARL) hiérarchique : au niveau bas, des politiques décentralisées contrôlent indépendamment chaque bras de rotation de corde ; au niveau haut, une politique centralisée de scheduling orchestre l'exécution et la coordination entre ces modules. Les auteurs ont validé le système à la fois en simulation et en déploiement réel sur des Unitree G1, montrant que Marope surpasse les baselines testées en termes de stabilité de manipulation et de capacité d'adaptation à différents styles de saut. Ce travail illustre une lacune importante dans la recherche sur la locomotion athlétique des humanoïdes : la quasi-totalité des résultats existants (course, danse, parkour) opèrent en mode mono-agent ou sans interaction précise avec d'autres participants. Le saut à la corde impose une contrainte temporelle stricte et bidirectionnelle : les deux tourneurs doivent anticiper et s'adapter au rythme du sauteur en temps réel, ce qui constitue un banc d'essai réel pour la coordination multi-agent en boucle fermée. L'intégration de politiques de saut diversifiées dans l'entraînement coopératif, pour renforcer la généralisation, est un choix méthodologique notable. La démonstration en conditions réelles sur du matériel commercial reste modeste en scope, mais elle valide que le sim-to-real ne s'effondre pas sur cette tâche rythmique. Unitree est le fournisseur dominant sur le marché des humanoïdes accessibles (G1 à environ 16 000 USD), face à Figure, Agility Robotics ou Boston Dynamics sur le segment premium. Côté MARL appliqué aux humanoïdes, les travaux récents de DeepMind sur les agents sportifs et les recherches de Carnegie Mellon sur les interactions physiques constituent le terrain immédiat. Marope n'est pas encore un produit déployé ni un système industrialisé : c'est une preuve de concept académique, sans annonce de commercialisation ni de partenariat industriel à ce stade.

RecherchePaper
1 source
DIJIT : une tête robotique pour un observateur actif
623arXiv cs.RO 

DIJIT : une tête robotique pour un observateur actif

Des chercheurs ont présenté DIJIT, une tête robotique binoculaire conçue pour équiper des agents mobiles opérant en tant qu'observateurs actifs. Le système cumule neuf degrés de liberté mécaniques auxquels s'ajoutent quatre degrés de liberté optiques fournis par les caméras et les objectifs, soit 13 DOF au total. La conception mécanique couvre l'ensemble des mouvements nécessaires à la stéréovision convergente : vergence, version et cyclotorsion. DIJIT atteint 85 % de la vitesse de saccade humaine maximale, et la méthode de contrôle développée par l'équipe, basée sur une relation directe entre l'orientation de la caméra et les valeurs moteur, produit des mouvements saccadiques avec une erreur moyenne de 1,17° pour la caméra gauche et 1,14° pour la droite. L'article, publié sur arXiv (2512.07998v2), reste à ce stade un travail académique sans déploiement industriel annoncé. L'intérêt de DIJIT réside dans la rareté des plateformes permettant d'étudier conjointement les mouvements oculaires et tête-cou dans un cadre robotique mobile. La plupart des systèmes de vision active existants traitent ces deux axes séparément ou sacrifient la fidélité biomécanique au profit de la simplicité mécanique. En reproduisant les plages et vitesses comparables à celles de l'humain, DIJIT offre un banc d'essai pour comparer directement les stratégies de perception visuelle humaine aux méthodes de computer vision classiques, ce qui est particulièrement utile pour valider ou invalider des hypothèses sur le sim-to-real gap dans les systèmes de vision embarquée. La vision active robotique connaît un regain d'intérêt depuis que les modèles VLA (Vision-Language-Action) imposent des flux visuels plus riches et dynamiques aux robots humanoïdes. Des laboratoires comme celui de CMU ou des équipes travaillant sur des plateformes telles que Figure 03 ou Digit (Agility Robotics) cherchent à améliorer la perception visuelle active pour des tâches de manipulation en environnement non structuré. DIJIT se positionne comme un outil de recherche fondamentale plutôt que comme un produit commercialisable à court terme. L'absence de partenaire industriel annoncé et le format arXiv suggèrent une phase d'exploration académique ; les prochaines étapes probables concernent l'intégration sur une plateforme mobile complète et la publication de benchmarks comparatifs face aux systèmes de vision fixe.

RecherchePaper
1 source
Estimation dense des forces par capteur tactile optique à événements
624arXiv cs.RO 

Estimation dense des forces par capteur tactile optique à événements

Des chercheurs ont présenté sur arXiv (arXiv:2606.09451) le premier framework de reconstruction dense de champ de force 3D à partir d'un capteur tactile optique à événements. L'approche combine deux modules complémentaires : un algorithme de suivi de marqueurs basé sur les événements pour estimer les déplacements de cisaillement (axes X et Y), et un réseau de neurones convolutif entraîné sur un jeu de données synchronisées force-déplacement-événements pour prédire les déplacements normaux (axe Z). Ces déplacements de surface sont ensuite convertis en forces via la méthode des éléments finis inverse (iFEM). Les performances mesurées atteignent une erreur absolue moyenne de 0,14 N, 0,10 N et 0,93 N sur des plages de force respectives de 4 N, 4 N et 20 N, avec une fréquence de traitement moyenne de 100 Hz. Ce résultat comble une lacune importante dans la perception tactile robotique. Les capteurs tactiles à base de caméra conventionnelle, comme le GelSight du MIT ou le DIGIT de Meta AI, permettent déjà une estimation dense des forces, mais butent sur les limites de framerate des capteurs CMOS, le flou de mouvement lors de contacts dynamiques rapides, et la bande passante nécessaire au transfert d'images. Les capteurs à événements, d'inspiration neuromorphique, contournent ces contraintes avec une résolution temporelle à la microseconde et un encodage asynchrone des variations de luminosité. Jusqu'ici, leur usage en tactile était restreint à la prédiction de forces nettes scalaires, sans distribution spatiale. Le framework présenté ouvre la voie à un retour de force géométriquement dense à haute fréquence, condition nécessaire pour des boucles de contrôle en préhension dextre réactive. La manipulation dextre reste l'un des problèmes ouverts les plus difficiles de la robotique, précisément parce que le toucher humain exploite simultanément la densité spatiale, la sensibilité à la géométrie de contact et la résolution temporelle fine. Le paysage des capteurs tactiles intelligents s'est structuré autour de deux familles : les capteurs visuels élastomère (GelSight, DIGIT, Finger Vision, Tactip) et les capteurs neuromorphiques à événements, encore peu exploités pour la reconstruction de champ. Ce travail constitue une première étape de preuve de concept ; les auteurs ciblent explicitement l'intégration dans des pipelines de contrôle haute fréquence pour la préhension robotique et la manipulation, sans annoncer de plateforme ou de timeline de déploiement précise.

RecherchePaper
1 source
Découverte guidée de nouveaux comportements par politiques de diffusion
625arXiv cs.RO 

Découverte guidée de nouveaux comportements par politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.08743v1, juin 2026) un cadre algorithmique pour diversifier les comportements générés par les diffusion policies en robotique. Ces politiques basées sur des modèles de diffusion modélisent efficacement des distributions multimodales de trajectoires d'action, mais souffrent d'un biais documenté : avec peu de démonstrations, l'échantillonnage standard reproduit les comportements dominants et ignore les modes rares mais valides. Les auteurs combinent des correcteurs de Feynman-Kac, outil issu des processus stochastiques, avec un potentiel de guidage orientant l'échantillonnage vers des trajectoires prometteuses mais sous-représentées. Ces trajectoires candidates sont ensuite affinées par optimisation par échantillonnage, puis réintégrées dans le jeu d'entraînement pour réentraîner la politique. Les expériences portent sur plusieurs environnements de manipulation en simulation, où la méthode découvre systématiquement de nouveaux comportements exécutables. L'enjeu est concret pour les équipes travaillant sur l'apprentissage par imitation en robotique industrielle ou de service. Un robot entraîné sur peu de données converge vers une seule stratégie même lorsque plusieurs solutions existent : ce cadre propose d'explorer l'espace des comportements sans collecter davantage de démonstrations humaines, ce qui touche directement à l'efficacité des données dans les pipelines de robot learning. Les auteurs positionnent leur approche contre les méthodes de guidage classiques, qui poussent les échantillons vers des régions infaisables, et contre le couplage RL+diffusion, qui peine à sortir des minima locaux. Les résultats restent cependant limités à la simulation de manipulation; aucune validation sur robot réel n'est rapportée dans ce préprint. Les diffusion policies ont connu une adoption rapide depuis les travaux de Chi et al. en 2023, supplantant progressivement les politiques comportementales classiques sur des tâches de manipulation complexes. Le domaine est aujourd'hui concurrentiel, avec Physical Intelligence (pi0), Google DeepMind et plusieurs laboratoires universitaires poussant les limites de ces modèles génératifs. L'approche Feynman-Kac s'inscrit dans une tendance plus large de réutilisation d'outils de la physique statistique pour le contrôle robotique. Les prochaines étapes naturelles seraient une validation sur hardware réel et une extension à des tâches à horizon long, où la diversité des trajectoires est encore plus critique.

UELes laboratoires européens travaillant sur l'apprentissage par imitation (INRIA, CEA-List) pourraient exploiter ce cadre pour réduire leur dépendance aux données de démonstration, mais aucun acteur ou déploiement européen n'est impliqué dans ce préprint.

RecherchePaper
1 source
Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques
626arXiv cs.RO 

Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques

Une équipe de chercheurs publie sur arXiv (2606.08214) un cadre neuro-symbolique agentique pour la robotique industrielle avec supervision humaine en boucle. Le système hybride confie aux grands modèles de langage (LLM) uniquement les tâches de compréhension du langage naturel et de raisonnement contextuel, tandis que la vérification des contraintes physiques, le séquençage des actions et l'exécution restent entièrement déterministes. L'architecture, baptisée Specifier-Designer-Inspector (SDI), adapte le patron logiciel Planner-Generator-Evaluator (PGE) à la robotique industrielle et s'appuie sur LangGraph pour le routage dynamique en cas d'échec. Un mécanisme de récupération à deux niveaux distingue les échecs structurels (replanification contextuelle) des échecs géométriques à l'exécution (primitives déterministes de correction). Un jumeau numérique sous Unity3D permet à l'opérateur d'inspecter, modifier et valider le plan avant tout déploiement physique. Testé sur des commandes en langage naturel face à dix systèmes de référence, le framework SDI obtient le meilleur taux de réussite sur l'ensemble des niveaux de difficulté évalués. L'intérêt industriel de cette approche tient à son pragmatisme architectural : plutôt que de confier aux LLM la garantie de faisabilité physique d'une trajectoire, le système délègue cette responsabilité à des composants symboliques vérifiables et auditables. C'est une réponse directe au "demo-to-reality gap" qui fragilise de nombreux projets fondés sur des VLA (Vision-Language-Action models) ou des politiques neurales pures. Pour les intégrateurs et les COO industriels, la présence du jumeau numérique comme étape obligatoire de validation avant exécution réduit concrètement le risque opérationnel lors du commissionnement de nouvelles cellules robotiques, en donnant à l'opérateur un droit de regard explicite sur chaque plan généré. Ce travail prolonge une tradition de planification neuro-symbolique héritée de STRIPS et des HTN (Hierarchical Task Networks), en y intégrant les LLM pour l'interprétation des intentions opérateur. Il se positionne en contrepied des approches end-to-end actuellement dominantes, notamment pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou Helix de Figure AI, qui misent sur des politiques entraînées en imitation ou en renforcement sans couche symbolique intermédiaire. La publication reste un preprint non encore évalué par les pairs, ce qui invite à la prudence sur les benchmarks annoncés : aucune métrique de temps de cycle en conditions industrielles réelles n'est fournie, et les commandes testées restent dans un cadre expérimental contrôlé. Aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper
1 source
Real-IKEA : la fidélité physique est le prérequis d'une manipulation robuste
627arXiv cs.RO 

Real-IKEA : la fidélité physique est le prérequis d'une manipulation robuste

Une équipe de chercheurs a publié sur arXiv le 9 juin 2026 Real-IKEA, un dataset et un framework de simulation centré sur la précision physique pour l'apprentissage de politiques de manipulation robotique. Le corpus comprend 1 079 configurations d'objets articulés, dérivées de 83 poignées et boutons IKEA authentiques, traités via un pipeline de six étapes visant à reproduire fidèlement leur géométrie de contact et leur comportement mécanique. Pour quantifier la précision des maillages de collision, les auteurs introduisent une métrique originale dite de déviation de surface bidirectionnelle. Sur le plan dynamique, chaque asset est livré avec des configurations résistance-calibrées, où l'amortissement (damping) et le frottement varient selon les mesures relevées sur objets réels. Une politique d'apprentissage par renforcement (RL) entraînée sur ces assets démontre in silico que la fidélité physique permet à l'agent de découvrir des stratégies de "hooking" (crochetage) et de "levering" (effet de levier), par opposition aux approches fragiles par friction-pulling que favorisent les simulateurs appauvris. Ce travail s'attaque directement au "physics gap", l'écart entre simulation simplifiée et résistances du monde réel, qui reste l'un des obstacles structurels au déploiement industriel de la manipulation robotique. Le résultat clé est une preuve de concept que la qualité des assets de simulation conditionne la qualité des stratégies émergentes : un simulateur trop idéalisé oriente l'agent vers des comportements non transférables. Pour un intégrateur ou un responsable production envisageant des bras robotiques sur des tâches d'assemblage ou de service, cela renforce l'argument en faveur d'investissements dans des pipelines de modélisation physique rigoureux avant tout déploiement, plutôt que d'ajustements post-déploiement coûteux. Real-IKEA s'inscrit dans une longue tradition de benchmarks utilisant le mobilier IKEA comme proxy de la complexité du monde réel, notamment les travaux de manipulation non-prehensile des années 2010. Le sim-to-real gap est un sujet de recherche actif, avec des acteurs comme IsaacSim (NVIDIA), MuJoCo (DeepMind) ou PyBullet comme environnements concurrents sur ce terrain. La contribution spécifique de Real-IKEA réside dans la granularité physique de ses assets plutôt que dans un nouvel algorithme. Les auteurs positionnent leur benchmark comme référence pour évaluer des politiques visant la robustesse au niveau humain sur les objets articulés, une ambition dont la validation à l'échelle réelle reste à démontrer.

RecherchePaper
1 source
IA physique : le middleware robotique comme couche d'intégration
628arXiv cs.RO 

IA physique : le middleware robotique comme couche d'intégration

Un article de recherche déposé sur arXiv le 9 juin 2026 (arXiv:2606.09416) propose de redéfinir formellement le rôle du middleware robotique à l'ère de l'IA physique. Les auteurs partent d'un constat : les politiques apprises, les planificateurs et les modèles vision-langage-action (VLA) sont désormais des participants causaux sur le chemin de contrôle des robots déployés, mais la couche logicielle qui les intègre n'a jamais reçu de nom précis dans la littérature robotique. Ils empruntent le terme "harness" à la communauté des agents LLM, où il désigne le système externe qui orchestre les outils, gère l'état, borne les ressources et enregistre l'exécution, et soutiennent que le middleware robotique est exactement ce harness. La différence avec un harness logiciel classique est structurelle : un modèle VLA ne franchit pas une seule frontière, il en traverse trois simultanément, ses commandes modifient la trajectoire (contrôle), son temps d'inférence perturbe l'ordonnancement (calcul), et son volume de données sollicite la bande passante réseau (communication). L'enjeu pour les intégrateurs et les décideurs industriels est concret. Aujourd'hui, les trois fonctions d'enforcement manquantes, que les auteurs nomment Projection (filtrage de chaque sortie du modèle à l'émission), Isolation (encadrement du slot d'exécution et de transmission), et Transfer (repli sur une baseline vérifiée en cas d'échec), existent déjà dans les systèmes déployés, mais sous forme de code applicatif artisanal, reconstruit à chaque projet. Cette fragmentation augmente les coûts d'intégration et crée des surfaces de défaillance non standardisées. Le papier ne présente pas de benchmark de performance ni de déploiement validé en production : c'est un cadre conceptuel et une proposition de standardisation, pas un produit livré. La proposition concrète est un "ROS 2 Harness Profile", un artefact de déploiement qui encapsule la région de sortie déclarée d'un modèle IA, son budget d'inférence et son régime opérationnel, tandis que le middleware (ROS 2, DDS, Zenoh) en assure l'application. Cette démarche s'inscrit dans un mouvement plus large de formalisation des couches d'intégration pour les systèmes robotiques apprenants, auquel contribuent aussi des travaux autour de ROS 2 Nav2, de micro-ROS pour les systèmes embarqués, et des frameworks d'évaluation de robustesse comme ceux proposés par des acteurs tels qu'Intrinsic (filiale Alphabet) ou des laboratoires académiques travaillant sur le sim-to-real. La prochaine étape logique serait une implémentation de référence et une validation sur un système physique, ce que les auteurs n'ont pas encore publié.

RecherchePaper
1 source
GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D
629arXiv cs.RO 

GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (référence 2606.08440) GraspFoM, un framework unifié de saisie robotique qui exploite des fondations 3D pré-entraînées, plus précisément SAM3D, pour construire une représentation latente 3D partagée entre deux tâches simultanées : la reconstruction géométrique de l'objet et la prédiction de poses de préhension. L'architecture centrale repose sur un diffuseur de raisonnement de pose tronqué à initialisation par ancres, qui génère des poses continues et multimodales sans dépendre de candidats discrets préétablis, une distinction technique importante par rapport aux pipelines classiques. GraspFoM produit en sortie à la fois des poses de saisie et des reconstructions 3D haute fidélité au format maillage polygonal et 3D Gaussian Splatting (3DGS). Les auteurs rapportent des résultats de pointe sur les benchmarks de reconstruction et de saisie, avec un surcoût en paramètres entraînables qualifié de "limité" mais sans chiffre précis publié. Ce travail adresse un verrou réel dans la manipulation robotique : la saisie sous observation partielle, c'est-à-dire quand la caméra ne voit qu'une fraction de l'objet. Les approches existantes utilisent la géométrie 3D comme étape intermédiaire jetable, sans la capitaliser comme prior réutilisable. GraspFoM rompt avec cette logique en faisant co-évoluer reconstruction et grasping dans un espace latent commun : la reconstruction ancre la géométrie, la supervision de saisie affine ce latent vers les zones de prise pertinentes. Le scorer reconstruction-aware et le residual latent updater formalisent cette rétroaction mutuelle. Pour les intégrateurs en manipulation industrielle ou logistique, cela suggère une meilleure robustesse sur des objets partiellement occultés, sans multiplication des modules ou des paramètres, ce qui est un argument d'efficacité réelle si les expériences réelles confirment les benchmarks. Les fondations 3D comme SAM3D s'inscrivent dans une vague de transferts de connaissances entre vision 2D et représentations 3D, parallèle à l'essor des VLA (Vision-Language-Action models) pour la manipulation généraliste. GraspFoM se positionne différemment des approches purement end-to-end comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA : il mise sur la reconstruction explicite plutôt que sur l'imitation à grande échelle. Les concurrents académiques proches incluent GraspNeRF, Contact-GraspNet et des travaux récents combinant diffusion et géométrie 3D. À ce stade, GraspFoM reste un preprint non validé en conditions réelles, les expériences rapportées étant réalisées sur simulateur ou bancs de test contrôlés. Aucun partenaire industriel ni déploiement pilote n'est mentionné, et aucune timeline de commercialisation n'est communiquée.

RecherchePaper
1 source
VGP-Nav : perception géométrique visuelle adaptée aux métriques pour la navigation robotique
630arXiv cs.RO 

VGP-Nav : perception géométrique visuelle adaptée aux métriques pour la navigation robotique

Une équipe de chercheurs a présenté en juin 2026 VGP-Nav (arXiv:2606.09268), un cadre unifié permettant à un robot mobile de se localiser avec précision et de détecter des obstacles avec cohérence métrique en n'utilisant qu'une seule caméra RGB monoculaire standard. Contrairement aux systèmes de navigation conventionnels qui combinent caméras et capteurs actifs comme le LiDAR pour obtenir des mesures métriques fiables, VGP-Nav s'appuie exclusivement sur la vision monoculaire. L'architecture ancre la géométrie visuelle à des contraintes d'échelle physiquement significatives extraites de la géométrie du plan sol, ce qui permet de résoudre en ligne l'ambiguïté d'échelle inhérente à tout système monoculaire. Les expériences présentées couvrent des environnements variés et incluent un déploiement validé sur des robots mobiles réels. L'ambiguïté d'échelle est l'un des obstacles fondamentaux à la navigation monoculaire : une caméra seule ne peut pas distinguer un objet proche et petit d'un objet lointain et grand sans référence externe. Les approches classiques contournent ce problème avec du LiDAR (coûteux, encombrant, nécessitant une calibration spatio-temporelle complexe entre capteurs) ou des centrales inertielles, ce qui augmente le coût et la complexité des déploiements, notamment pour les flottes d'AMR en logistique ou en industrie. Si VGP-Nav tient ses promesses à l'échelle, il ouvre la voie à des robots mobiles autonomes basse consommation capables de naviguer en sécurité dans des environnements non structurés sans infrastructure sensorielle lourde, un enjeu critique pour les intégrateurs cherchant à réduire le coût total de possession. La navigation purement visuelle fait l'objet d'intenses recherches depuis la première génération de systèmes SLAM monoculaires comme ORB-SLAM (2015), mais la cohérence métrique restait leur talon d'Achille face au LiDAR. Des approches récentes basées sur la profondeur monoculaire apprise, Depth Anything, UniDepth, ou des architectures de localisation neuronale cherchent à combler cet écart, tandis que des acteurs comme Nvidia (Isaac Perceptor), Clearpath Robotics ou Slamtec intègrent progressivement davantage de vision dans leurs pipelines de navigation pour AMR. VGP-Nav reste à ce stade une contribution de recherche en pré-print : sa validité industrielle n'est pas encore confirmée par des benchmarks tiers indépendants sur des datasets standardisés comme nuScenes ou ScanNet, et aucun partenariat commercial ni calendrier de transfert technologique n'est annoncé.

UEPotentiel indirect pour les intégrateurs AMR européens si la technologie est validée industriellement, aucun partenariat commercial ni transfert vers l'Europe n'est annoncé à ce stade.

RecherchePaper
1 source
Peut-on stabiliser un pendule inversé grâce à une caméra à temps de vol ?
631arXiv cs.RO 

Peut-on stabiliser un pendule inversé grâce à une caméra à temps de vol ?

Une équipe de chercheurs a publié en juin 2026 sur arXiv (2506.09237) une démonstration inattendue : une caméra temps-de-vol (ToF) bas de gamme, à faible résolution spatiale, suffit pour stabiliser de manière fiable un pendule inversé sur un chariot, référence canonique en théorie du contrôle pour les dynamiques rapides et instables. La caméra ToF utilisée est compacte, peu coûteuse et insensible aux variations d'éclairage, mais produit une profondeur bruitée et une résolution limitée, ce qui la rendait jusqu'ici peu crédible comme capteur de rétroaction pour des boucles de contrôle exigeantes. Ce résultat contredit directement un présupposé bien établi dans la communauté : que la résolution spatiale et le bruit de mesure des ToF les excluent du contrôle précis en temps réel. Pour les intégrateurs et ingénieurs systèmes, l'implication est concrète : des capteurs de profondeur à moins de 100 euros pourraient remplacer des systèmes de vision coûteux dans des boucles de commande rapides, notamment sur des plateformes mobiles, des manipulateurs légers ou des robots humanoïdes nécessitant une estimation d'état embarquée à faible consommation. La validité de la démonstration reste à nuancer : l'abstract ne précise ni le modèle exact de caméra, ni les fréquences d'acquisition, ni les conditions de bruit testées. Les caméras ToF sont déjà largement utilisées en robotique pour la cartographie et la détection d'obstacles, mais rarement intégrées dans des boucles de contrôle fermées critiques. Le pendule inversé, formalisé dès les années 1950, sert de banc d'essai universel pour comparer les architectures de contrôle. Les prochaines étapes naturelles seraient de tester la robustesse à des perturbations externes et d'étendre l'approche à des systèmes sous-actionnés plus complexes, comme les robots bipèdes.

RecherchePaper
1 source
Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange
632arXiv cs.RO 

Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange

Un groupe de chercheurs publie sur arXiv (2606.09640v1, juin 2026) un framework d'apprentissage résiduel structuré pour corriger les modèles de dynamique robot basés sur le formalisme d'Euler-Lagrange. L'approche décompose l'écart entre le modèle nominal et la dynamique réelle en trois composantes : une correction d'inertie, le terme de Coriolis induit correspondant, et un résidu de force généralisée. La composante mécanique est apprise sous contraintes physiques explicites (symétrie, définie-positivité de la matrice d'inertie), tandis que la composante perturbatrice est représentée par un modèle d'interaction latent sparse dépendant de l'historique, adapté en ligne par régression linéaire bayésienne. Les validations couvrent trois types de plateformes : robots mobiles, systèmes aériens et bras manipulateurs, sur des scénarios de dynamique couplée et variable dans le temps. L'enjeu est structurel. La quasi-totalité des méthodes de correction par apprentissage résiduel introduisent un unique terme additif sans contraindre sa forme physique, ce qui dégrade les invariants mécaniques fondamentaux : symétrie de la matrice d'inertie, couplage cohérent entre termes inertiels et termes de vitesse. En pratique, un contrôleur modèle embarquant un tel résidu non contraint risque de produire des prédictions physiquement incohérentes aux limites de l'espace de travail ou sous charges variables. La séparation proposée contraint structurellement la partie mécanique et réserve l'adaptation bayésienne en ligne à la seule composante de perturbation, là où la plasticité est réellement nécessaire. Les auteurs rapportent une amélioration mesurable de la prédiction de dynamique et du suivi de trajectoire, mais les résultats restent au stade expérimental sur plateformes de laboratoire, sans données de déploiement industriel. Le contexte est celui d'une tension persistante dans la robotique à base de modèles : les formulations analytiques d'Euler-Lagrange sont précises en conditions nominales mais se dégradent sous variation de charge utile, friction non modélisée, effets aérodynamiques ou couplages imprévus. Ce travail s'inscrit dans un courant actif de physics-informed learning, aux côtés des Hamiltonian Neural Networks (Greydanus et al., 2019) et des approches par processus gaussiens à noyaux structurés. La différenciation réside dans l'adaptation online sélective via régression bayésienne, computationnellement plus légère que les GPs complets. Le preprint n'annonce ni partenariat industriel ni roadmap commerciale ; les extensions naturelles iraient vers les manipulateurs humanoïdes et la validation sous contraintes temps réel strictes.

RecherchePaper
1 source
IA incarnée : traduire les actions en images de mouvement et de contact pour les modèles du monde
633arXiv cs.RO 

IA incarnée : traduire les actions en images de mouvement et de contact pour les modèles du monde

Des chercheurs proposent iMaC (Image as Action Control), un paradigme de contrôle robotique publié en juin 2026 sur arXiv (2606.09813), qui substitue aux vecteurs d'action structurés de faible dimension - angles articulaires et poses d'effecteur terminal - des images visuelles brutes comme représentation native des actions dans les modèles de monde incarnés. L'architecture comprend deux branches : un encodeur image-action qui compresse des images cibles en embeddings d'action compacts, et un prédicteur de monde dynamique conditionné sur ces tokens visuels pour prédire les états futurs et assurer le contrôle en boucle fermée. Des expériences sur des benchmarks publics de manipulation incarnée et des scénarios réels montrent qu'iMaC dépasse les baselines vectorielles en précision de prédiction, taux de succès et généralisation inter-scènes. L'enjeu central est la généralisation inter-embodiment, l'un des verrous majeurs de la robotique incarnée. Les approches conventionnelles encodent des espaces d'action définis manuellement - cinématique propre à chaque plateforme - ce qui bride la portabilité entre bras industriels, manipulateurs mobiles et humanoïdes. En traitant l'image comme token d'action, iMaC encapsule implicitement les intentions de mouvement spatial, les contraintes géométriques et les dynamiques physiques, sans redéfinir l'espace d'action pour chaque robot. Pour les intégrateurs et les équipes R&D, cela ouvre la perspective d'un contrôleur unique déployable sur des flottes hétérogènes - bras Franka, UR, humanoïdes - sans reconfiguration. Nuance importante : l'article valide la méthode sur des "real-world robotic scenarios" sans préciser les plateformes ni les métriques de déploiement, ce qui invite à une lecture prudente des gains annoncés. iMaC s'inscrit dans la vague des modèles de monde incarnés et des architectures VLA (Vision-Language-Action) qui structurent la recherche robotique depuis 2023-2024, aux côtés de pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). Sa singularité tient à l'abandon des encodages cinématiques explicites au profit d'une représentation visuelle continue, une piste explorée différemment via les action-chunking transformers dans des travaux académiques récents. À ce stade, iMaC demeure une préimpression arXiv, sans déploiement industriel ni partenariat avec un constructeur de robots. Les prochaines étapes naturelles passeraient par une validation sur des plateformes standardisées comme ALOHA ou BridgeData V2, et une confrontation sur les benchmarks RLBench ou MetaWorld pour objectiver les gains de généralisation revendiqués.

RechercheOpinion
1 source
Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude
634arXiv cs.RO 

Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude

Des chercheurs ont publié le 9 juin 2026 sur arXiv (2606.08458) GLOBE, un framework léger pour l'assistance robotique proactive en environnement domestique. Le principe : combiner des modèles de Markov n-grammes, qui capturent les patterns comportementaux temporels d'un utilisateur, avec un raisonnement par grand modèle de langage (LLM) déclenché uniquement lorsque la confiance du modèle prédictif passe sous un seuil. Ce mécanisme d'invocation sélective réduit la charge computationnelle par rapport aux architectures spatio-temporelles classiques. L'équipe introduit également HOMER-Noise, une extension bruitée du dataset HOMER+, qui simule des perturbations structurées réalistes : déplacements d'objets causés par des humains, des animaux domestiques ou des jeunes enfants. Le framework est validé en preuve de concept sur un manipulateur mobile Stretch 3 de Hello Robot, dans des scénarios d'interaction humain-robot à domicile. L'intérêt principal de GLOBE réside dans son positionnement hybride : plutôt que de faire tourner un LLM en continu sur chaque prédiction d'activité, le système n'y fait appel que sur les cas ambigus, ce qui le rend potentiellement déployable sur du matériel embarqué à ressources limitées. Les résultats annoncés montrent des performances compétitives face aux méthodes état de l'art, y compris en conditions bruitées, là où les approches purement neuronales se dégradent. Cette robustesse aux perturbations environnementales non contrôlées est un verrou connu pour le déploiement domestique réel. Il faut toutefois noter qu'il s'agit d'un preprint arXiv sans peer review, et que la validation sur Stretch 3 reste au stade de démonstration de concept, pas d'un déploiement opérationnel. GLOBE s'inscrit dans un courant de recherche qui cherche à réconcilier les LLMs, puissants mais coûteux, avec les contraintes temps réel de la robotique embarquée. Des approches similaires existent chez des équipes travaillant sur les VLAs (Vision-Language-Action models), comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais celles-ci ciblent surtout la manipulation industrielle plutôt que l'assistance cognitive à domicile. Le dataset HOMER-Noise comble un manque réel dans l'évaluation de la robustesse des systèmes d'anticipation d'activités. Les prochaines étapes logiques seraient une évaluation sur des déploiements multi-utilisateurs prolongés et une comparaison directe avec des baselines LLM-only pour quantifier précisément le gain computationnel revendiqué.

RecherchePaper
1 source
ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action
635arXiv cs.RO 

ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action

Une équipe de recherche a publié sur arXiv (arXiv:2606.09740) ProbeAct, un framework d'intervention à l'exécution conçu pour détecter et corriger les échecs de saisie et de placement dans les modèles Vision-Language-Action (VLA) pré-entraînés, sans modifier leurs poids ni nécessiter de démonstrations supplémentaires. Le système repose sur trois composants couplés : une sonde légère sur les états cachés du modèle qui prédit les positions 3D des objets pertinents à partir des features intermédiaires du VLA (avec suivi d'identité par algorithme hongrois pour les scènes multi-objets) ; une machine à états cinématiques agnostique à l'objet qui détecte les défaillances de saisie, de transport et de placement via les signaux internes du préhenseur et la cinématique de l'effecteur terminal ; enfin, un filtre hiérarchique par Control Barrier Function (CBF) qui encode les zones d'échecs répétés comme contraintes soft sur l'ensemble de sécurité, corrigeant minimalement les actions du VLA sans altérer son comportement nominal. Évalué sur le benchmark LIBERO-plus, ProbeAct améliore le taux de succès d'OpenVLA-OFT de 69,6 % à 74,1 %. Un gain de 4,5 points de taux de succès peut sembler modeste, mais il intervient sur un problème structurel bien identifié des VLA : leur fragilité hors distribution. Ces modèles échouent régulièrement face à des variations de luminosité, des changements de point de vue caméra, ou de légères variations d'état initial, autant de conditions triviales dans un déploiement industriel réel. L'intérêt de ProbeAct est précisément d'être plug-and-play, orthogonal aux pipelines d'entraînement existants, et applicable aussi bien aux modèles de base qu'aux versions fine-tunées. Pour un intégrateur, cela signifie un filet de sécurité superposable sur n'importe quel VLA sans coût de ré-entraînement, ce qui réduit concrètement le gap entre performance en benchmark et robustesse terrain. Les VLA ont connu une accélération notable depuis 2023 avec des modèles comme RT-2 (Google DeepMind), OpenVLA (UC Berkeley) ou pi-0 (Physical Intelligence), mais leur fragilité aux perturbations reste un frein reconnu à la commercialisation. Les approches existantes pour y remédier passent généralement par de l'augmentation de données ou du fine-tuning ciblé, coûteux en temps et en annotations. ProbeAct s'inscrit dans une alternative émergente : la correction à l'inférence, sans toucher au modèle. Il s'agit pour l'instant d'un preprint arXiv, sans déploiement annoncé ni partenaire industriel mentionné ; les prochaines étapes naturelles seraient une validation sur hardware réel hors benchmark simulé.

RechercheOpinion
1 source
AetheRock : un système d'enseignement robotique porté au bras pour l'apprentissage vision-tactile guidé par la force
636arXiv cs.RO 

AetheRock : un système d'enseignement robotique porté au bras pour l'apprentissage vision-tactile guidé par la force

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.09777) les spécifications d'AetheRock, un dispositif portable fixé à l'avant-bras humain destiné à la collecte synchronisée de données de force, de vision et de toucher pour l'apprentissage robotique. Le système intègre au bout des doigts un capteur visuo-tactile modulaire baptisé GelSlim-MiniFab, conçu pour être fabriqué facilement, ainsi qu'un capteur de pression résistif positionné à la zone de contact du doigt humain, un module PCB sur mesure et un kit ergonomique pour des sessions de collecte prolongées. En parallèle, les auteurs introduisent ForceVT, un framework d'apprentissage par représentation qui exploite les signaux de force et de vision pour guider l'apprentissage tactile de manière agnostique à la fidélité du capteur, c'est-à-dire sans hypothèse rigide sur la qualité ou la cohérence des données tactiles entrantes. Le verrou technique adressé est réel : les capteurs tactiles à base de gel (famille GelSight, GelSlim) souffrent d'inconsistances de fabrication et d'usure qui dégradent les politiques apprises lors du déploiement. ForceVT tente de découpler la représentation apprise des artefacts propres à chaque exemplaire de capteur, ce qui, si confirmé à plus grande échelle, réduirait le coût de calibration et améliorerait le transfert sim-to-real pour les tâches de manipulation en contact riche (assemblage, vissage, insertion de connecteurs). Les expériences en conditions réelles mentionnées dans le preprint indiquent une "efficacité des données qualifiée" et une atténuation des inefficacités liées aux inconsistances, sans cependant fournir de métriques quantitatives précises comparables entre méthodes. AetheRock s'inscrit dans une vague de systèmes de télé-opération et de collecte de démonstrations portables apparus depuis 2023, dont UMI (Universal Manipulation Interface, Stanford) et ALOHA (Berkeley), qui cherchent tous à rendre la collecte de données de manipulation haute qualité moins coûteuse et plus accessible. Le capteur GelSlim-MiniFab est une déclinaison miniaturisée de la famille GelSlim issue des travaux du MIT et de CMU. Du côté des acteurs industriels, Meta Research développe le capteur DIGIT sur une philosophie similaire de faible coût et de reproductibilité. Ce travail est un preprint non encore évalué par les pairs ; les performances annoncées restent à reproduire indépendamment avant toute intégration en production.

RecherchePaper
1 source
Conception d'actionneurs souples poreux à déformation programmable par anisotropie volumétrique
637arXiv cs.RO 

Conception d'actionneurs souples poreux à déformation programmable par anisotropie volumétrique

Des chercheurs présentent dans un preprint arXiv (2512.12320v2) une méthode de conception d'actionneurs pneumatiques souples à base de mousse poreuse, capable de produire des déformations programmées à partir d'incisions géométriques pratiquées directement dans le corps de la mousse. Le principe repose sur une entrée vacuumatique globale unique : selon le motif d'incision appliqué à un substrat cylindrique en mousse élastomère, l'actionneur exécute soit une flexion (motif transversal, jusqu'à 80° avec N=2 rangées de découpes), soit un basculement (motif longitudinal, 18°, N=1), soit une torsion (motif diagonal, 115°, N=8). Les angles de déformation sont validés expérimentalement et corrélés à un modèle de simulation par éléments finis (FEA). En application finale, les auteurs ont traduit la carte des plis de la main humaine en un patron d'incision fonctionnel, produisant une main robotique souple capable de saisies adaptatives anthropomorphes, sans recours à des moules complexes. L'intérêt industriel de cette approche tient à l'élimination du lien fort entre géométrie de l'actionneur et type de mouvement, qui est la contrainte principale des actionneurs pneumatiques creux classiques (chambres élastomères de type PneuNets ou fiber-reinforced). Ici, un même substrat cylindrique standard produit trois modalités distinctes selon la seule variable du motif de découpe, ce qui simplifie radicalement le processus de prototypage et ouvre la voie à des actionneurs reconfigurables sans refonte de moule. Pour les intégrateurs en cobotique légère, chirurgie assistée, ou manipulation de produits fragiles, le prototypage sans moule et la scalabilité revendiquée réduisent le délai d'itération de conception. Les performances annoncées (notamment la torsion à 115°) sont issues d'essais expérimentaux dont le protocole reste limité à l'article, sans données de durabilité cyclique ni de charge utile. Les actionneurs souples pneumatiques à chambre creuse dominent le domaine depuis les travaux fondateurs de la Harvard Whitesides Group et du projet Soft Robotics Toolkit (2013-2018). Les approches concurrentes mobilisent la solidification granulaire (jamming), les matériaux à rigidité variable, ou les actionneurs à câbles tendus. L'utilisation de mousse poreuse comme substrat fonctionnel reste relativement peu explorée malgré ses propriétés de stabilité structurelle intrinsèque. Ce travail reste au stade académique : aucun partenaire industriel, aucune timeline de transfert ni pilot annoncés dans le preprint. Les prochaines étapes naturelles seraient la caractérisation en durée de vie, le test sous charge, et l'intégration dans des systèmes multi-actionneurs coordonnés.

RecherchePaper
1 source
Formation de formes pour le transport coopératif d'objets quelconques par apprentissage par renforcement multi-agents
638arXiv cs.RO 

Formation de formes pour le transport coopératif d'objets quelconques par apprentissage par renforcement multi-agents

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.09610v1) une approche par apprentissage par renforcement multi-agents (MARL) pour résoudre un problème concret de robotique collaborative : positionner automatiquement un groupe de robots mobiles sous un objet afin de le transporter de façon stable. La méthode décompose la tâche en trois sous-problèmes couplés, contrôle de formation, navigation coopérative et évitement de collisions, et produit des politiques permettant à la flotte de s'aligner sous l'objet, d'équilibrer son poids malgré une distribution de masse non uniforme, et de naviguer dans des environnements encombrés. Les expériences portent sur des configurations variées (nombre de robots variable, géométries d'objets complexes, scènes avec obstacles) sans que les auteurs précisent le nombre exact de robots testés ni les temps de cycle obtenus. Le principal apport industriel de ces travaux est la généralisation à des objets de forme arbitraire et à masse mal distribuée, ce qui représente la réalité de la plupart des charges en logistique ou en services. Les approches classiques supposent des objets symétriques ou des points de contact prédéfinis manuellement ; ici, la politique apprise s'adapte au vol à la géométrie de la charge. Pour un intégrateur ou un COO industriel, cela signifie potentiellement moins de paramétrage manuel par référence produit. Le paper démontre également une robustesse en environnement encombré, ce qui est un prérequis pour un déploiement en entrepôt réel. Il faut toutefois noter que les résultats présentés restent en simulation : aucune validation hardware n'est rapportée, et le fossé sim-to-real reste l'obstacle non résolu habituel de ce type de travaux. Ce preprint s'inscrit dans un courant actif de recherche MARL appliqué aux systèmes multi-robots physiques, en compétition avec des approches centralisées (planification MPC couplée) ou décentralisées par consensus. Côté industrie, des acteurs comme 6 River Systems, Locus Robotics ou les plateformes AMR d'OTTO Motors adressent des problèmes adjacents mais avec des charges standardisées sur des robots dédiés. Aucun partenariat industriel ni timeline de transfert vers le réel n'est mentionné dans cet article ; il s'agit d'une contribution académique ouvrant la voie à des validations expérimentales futures.

RecherchePaper
1 source
Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion
639arXiv cs.RO 

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

Une équipe de chercheurs propose dans un preprint arXiv publié en juin 2026 (réf. 2606.08657) une architecture baptisée Latent Diffusion Policy (LDP), conçue pour améliorer les politiques visuomotrices basées sur la diffusion appliquées à la manipulation robotique. LDP fonctionne en deux étapes : un encodeur CVAE (variational autoencoder conditionnel) conditionné par l'observation absorbe d'abord la compréhension de la scène, puis un modèle de flow matching génère les trajectoires dans cet espace latent pré-structuré. Pour gérer les dépendances temporelles entre tokens, les auteurs introduisent un entraînement par diffusion forcing par token et un schéma d'inférence en escalier (staircase inference sampling) pour corriger le décalage de distribution qui en résulte. Ils proposent également la rFID (reconstruction FID) comme métrique proxy légère permettant de prédire le succès d'une tâche à partir des seules statistiques de l'espace latent, sans nécessiter d'évaluation complète en simulation. Sur le benchmark RoboTwin 2.0, LDP surpasse DP3 par une marge qualifiée de "substantielle", et les auteurs rapportent un transfert effectif vers des déploiements réels en manipulation bimanuelle. L'enjeu technique central que LDP cherche à résoudre est réel : les politiques de diffusion opérant directement dans l'espace d'action brut imposent à un seul processus de débruitage de gérer simultanément l'interprétation de la scène et la planification précise de trajectoires, ce qui augmente la complexité d'apprentissage et pénalise notamment les tâches exigeant une coordination temporelle fine entre plusieurs bras. Séparer ces deux responsabilités dans un cadre à deux étages est une approche structurellement cohérente. La rFID, si elle se confirme empiriquement, pourrait réduire significativement le coût d'évaluation des politiques en simulation. Cela dit, l'abstract ne fournit pas de chiffres de performance quantitatifs précis, ce qui rend difficile l'évaluation indépendante de la "marge substantielle" revendiquée face à DP3. Ce travail s'inscrit dans un champ très actif depuis la publication de Diffusion Policy (Chi et al., 2023) et de DP3, qui ont établi la diffusion comme paradigme dominant pour l'imitation de comportements robotiques complexes. Le flow matching, plus efficace que la diffusion classique en nombre d'étapes d'inférence, s'y impose progressivement. Les approches concurrentes incluent ACT, RDT-1B et pi-zero (Physical Intelligence), qui explorent d'autres voies pour combiner compréhension visuelle et contrôle moteur à grande échelle. LDP reste pour l'instant un résultat académique sans annonce de déploiement industriel ou de partenariat commercial, et RoboTwin 2.0 est un benchmark de simulation dont le gap sim-to-réel méritera une validation plus large.

RechercheOpinion
1 source
Algorithme de cinématique inverse par branch-and-bound à intervalles pour la résolution globalement optimale de la redondance
640arXiv cs.RO 

Algorithme de cinématique inverse par branch-and-bound à intervalles pour la résolution globalement optimale de la redondance

Un préprint révisé sur arXiv (identifiant 2104.12183v2) propose une méthode d'embranchement et de délimitation par intervalles (interval branch-and-bound) pour résoudre le problème général de cinématique inverse (IK) des bras manipulateurs. L'objectif central est de calculer la variété d'auto-mouvement (self-motion manifold, SMM) : l'ensemble complet de toutes les configurations articulaires admissibles permettant d'atteindre une pose précise de l'effecteur terminal. L'algorithme combine cette exploration exhaustive avec un solveur IK numérique rapide utilisé comme heuristique de recherche pour accélérer le parcours de l'espace de solutions. Les expériences numériques portent sur des manipulateurs redondants et non redondants, sans préciser de plateforme hardware particulière ni de robot commercial testé. L'intérêt principal de cette approche réside dans la nature de ses sorties : là où les méthodes par échantillonnage (sampling-based) génèrent des solutions isolées et indépendantes dans l'espace articulaire, la méthode proposée produit des nappes de solutions voisines qui préservent la géométrie locale de la SMM. Cette continuité est précieuse pour la planification de trajectoires optimales, le contrôle en temps réel et l'évitement de singularités. L'algorithme fonctionne également en mode anytime : il retourne des solutions sous-optimales utilisables même si le calcul est interrompu avant convergence complète, propriété utile dans les systèmes à contraintes temps-réel. Cela dit, la validation reste purement numérique en simulation, sans tests sur hardware physique ni benchmarks comparatifs face aux solveurs IK courants tels que KDL, TRAC-IK ou BioIK, ce qui limite la portée des affirmations de performance. Publié initialement en 2021 puis révisé (v2), ce travail s'inscrit dans une ligne de recherche active autour de la résolution globale de l'IK pour bras redondants, défi classique en robotique industrielle et collaborative. Les approches concurrentes incluent les méthodes analytiques (limitées aux architectures simples), les solveurs numériques locaux (rapides mais sensibles aux minima locaux) et les méthodes d'apprentissage automatique (coûteuses à entraîner, peu généralisables hors distribution). La contribution est algorithmique et théorique ; aucune implémentation open-source ni intégration dans des frameworks standards comme MoveIt! n'est mentionnée, ce qui constitue la prochaine étape naturelle vers une adoption industrielle concrète.

RecherchePaper
1 source
Robot 3D à sauts robustes assisté par hélices avec allocation hiérarchique des forces
641arXiv cs.RO 

Robot 3D à sauts robustes assisté par hélices avec allocation hiérarchique des forces

Des chercheurs présentent Pro-OMEGA2, un robot monopatte sauteur 3D assisté par hélices, publié en préimpression sur arXiv (arXiv:2606.08186, juin 2026). Le système intègre une jambe parallèle à mécanisme 3-RSR actif, soit trois degrés de liberté en configuration parallèle, et un tri-rotor monté sur le tronc pour la régulation d'attitude auxiliaire. L'ensemble est gouverné par un cadre baptisé Hierarchical Force Allocation (HFA), fondé sur un modèle de corps rigide unique (Single Rigid Body, SRB) : la jambe prend en charge le torseur de contact principal en phase d'appui, tandis que le tri-rotor compense le moment d'attitude résiduel et assure la stabilisation pendant la phase de vol. Des expériences menées en intérieur et en extérieur valident le saut continu en 3D, les transitions de terrain et la récupération après des perturbations impulsives. Le problème adressé est structurel pour la classe des robots monopattes sauteurs : mécaniquement simples, ces systèmes sont sous-actionnés pendant la phase de vol, moment où les forces de réaction au sol sont absentes et l'autorité de contrôle quasi nulle. L'approche HFA se distingue par une hiérarchisation explicite des rôles selon la phase de locomotion, ce qui évite les conflits de commande entre jambe et hélices, un écueil classique des systèmes hybrides. La robustesse face à des contacts non modélisés et à des perturbations externes est un signal positif pour le transfert sim-to-réel. Il faut toutefois noter que la publication est un preprint non évalué par les pairs, les métriques de performance précises (fréquence de saut, payload, consommation énergétique) n'étant pas détaillées dans le résumé disponible. Pro-OMEGA2 s'inscrit dans une lignée au moins biversionnée, le suffixe "2" impliquant un prédécesseur. Les architectures hybrides pattes-propulseurs ont déjà été explorées par ETH Zurich sur ANYmal avec propulseurs intégrés, par Georgia Tech avec le robot Harpy, ou encore par KAIST sur diverses plateformes dynamiques. Pro-OMEGA2 se distingue de ces travaux par son architecture strictement monopatte et l'allocation hiérarchique formalisée stance/vol. Les étapes naturelles incluent des tests en environnements non structurés plus complexes, une analyse du compromis énergétique entre propulsion aérienne et efficacité locomotrice, et la confrontation à des benchmarks standardisés de la communauté robotique agile.

RecherchePaper
1 source
Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes
642arXiv cs.RO 

Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (référence 2606.08775) un framework baptisé WorldDP, conçu pour résoudre le problème de la manipulation robotique multi-étapes. L'architecture est hiérarchique : un modèle du monde de haut niveau sert de fonction de transition au sein d'un cadre MPC (Model Predictive Control) et optimise des sous-objectifs intermédiaires à l'exécution, tandis qu'une Diffusion Policy de bas niveau se charge d'atteindre concrètement chacun de ces sous-objectifs. Pour structurer la planification, les auteurs introduisent des représentations object-centric qui découplent les entités de l'environnement, permettant au planificateur de raisonner séquentiellement sur chaque objet indépendamment. Évalué sur plusieurs benchmarks de manipulation robotique standards, WorldDP surpasse les baselines existantes selon les auteurs, résultat à prendre comme une affirmation de preprint, sans replication externe à ce stade. Ce travail s'attaque à un verrou reconnu du domaine : les modèles du monde visuels, aussi performants soient-ils sur des tâches isolées comme le reaching ou le grasping, échouent structurellement dès que la tâche exige plusieurs étapes causalement enchaînées. Pour un intégrateur ou un COO industriel, cela touche directement à l'exploitabilité réelle des robots manipulateurs en ligne de production, où les séquences pick-and-place complexes sont la norme. Le couplage entre la planification physiquement ancrée d'un world model et l'exécution fluide d'une Diffusion Policy représente une piste sérieuse pour réduire le sim-to-real gap sur des tâches longue horizon, sans nécessiter de démonstrations humaines exhaustives pour chaque variante de tâche. La Diffusion Policy, popularisée par Chi et al. en 2023, est devenue l'une des architectures de référence pour l'imitation learning en robotique, mais elle reste principalement réactive et peu adaptée au raisonnement causal multi-étapes. Les approches VLA (Vision-Language-Action), portées par Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, intègrent du raisonnement de haut niveau mais via des LLM, avec une latence et un coût computationnel élevés. WorldDP explore une voie intermédiaire, purement visuelle et sans langage, plus proche en philosophie des travaux sur les modèles du monde latents (DreamerV3, RSSM). Il s'agit d'un preprint académique sans déploiement industriel annoncé ; les prochaines étapes naturelles seraient une validation sur hardware réel et des benchmarks comparatifs face aux pipelines VLA actuels.

RechercheOpinion
1 source
Daimon Robotics et Galbot lancent RobOmni pour évaluer la perception tactile et la manipulation dextérique
643Robotics Business Review 

Daimon Robotics et Galbot lancent RobOmni pour évaluer la perception tactile et la manipulation dextérique

Daimon Robotics, entreprise de Hong Kong spécialisée dans la perception tactile et la manipulation dextre, a présenté RobOmni lors de l'ICRA 2026, en partenariat avec Galbot. Il s'agit du premier benchmark d'évaluation omni-modal intégrant la perception tactile pour les interactions physiques en robotique. La plateforme, construite sur NVIDIA Isaac Sim, standardise l'évaluation de tâches de manipulation au contact : saisie d'objets, insertion de précision, assemblage de composants et placement. RobOmni capture simultanément plusieurs flux de données, capteurs tactiles haute résolution au bout des doigts, vision RGB montée au poignet, état de la pince, trajectoires TCP et observations de caméras externes, pour évaluer les systèmes robotiques selon cinq dimensions : taux de succès, efficacité de manipulation, capacité de manipulation dextre, événements d'échec (glissement, coinçage, collision, nouvelle tentative) et robustesse de généralisation. Ce lancement répond à un manque structurel dans l'industrie : l'absence de cadre standardisé pour mesurer l'apport réel du sens tactile par rapport à la perception purement visuelle. Sans benchmark unifié, il est impossible de comparer les systèmes, de quantifier les progrès ou d'identifier quelles données tactiles améliorent concrètement les tâches réelles. Pour les intégrateurs industriels et les décideurs B2B qui évaluent des bras manipulateurs pour des lignes d'assemblage ou de service, ce vide est critique : une manipulation fiable dans des environnements non structurés requiert de détecter le glissement, la déformation du contact ou la rigidité d'un matériau lors d'un emboîtement, autant de signaux que la vision seule ne peut pas capturer. RobOmni propose de quantifier systématiquement cet apport, ce qui permettrait notamment de comparer des architectures VLA (Vision-Language-Action) avec et sans retour tactile sur des tâches identiques. Daimon Robotics a développé ses propres capteurs tactiles basés sur la vision, capables de mesurer non seulement la force de contact mais aussi la déformation, le glissement, les propriétés de matériau, la texture et la dureté, à haute fréquence et haute résolution. Galbot, partenaire du projet, apporte son expertise en robotique mobile et manipulation. Si aucune métrique de performance comparative ni timeline de déploiement commercial ne sont encore publiées, ce lancement reste à ce stade une annonce de framework de recherche, pas un produit expédié, le positionnement à l'ICRA 2026 signale une ambition de standardisation sectorielle. Les concurrents dans l'espace des benchmarks robotiques, notamment Google DeepMind (RoboVerse) et Meta (PARTNR), n'intègrent pas la modalité tactile comme dimension centrale d'évaluation. RobOmni comble potentiellement ce vide, à condition que la communauté adopte le framework comme référence commune.

RecherchePaper
1 source
Vidéo : un robot maîtrise l'air hockey et bat des humains sans jamais toucher une vraie table
644Interesting Engineering 

Vidéo : un robot maîtrise l'air hockey et bat des humains sans jamais toucher une vraie table

Une équipe de trois étudiants de l'Université de la Colombie-Britannique (UBC) a développé une table de air hockey contrôlée par intelligence artificielle, capable d'affronter des joueurs humains sans avoir jamais été entraînée sur une vraie table. Le système repose sur un transfert simulation-réel (sim-to-real) : l'agent IA a été entraîné exclusivement dans un jumeau numérique haute-fidélité de la table, via une méthode d'apprentissage par renforcement appelée "soft actor-critic" (SAC), qui remplace les moteurs physiques classiques comme Unity ou Unreal pour accélérer les itérations sur des millions de parties simulées. Une fois le modèle entraîné, il a été transféré directement dans le robot physique, équipé d'une caméra aérienne à 120 images par seconde et d'un palet recouvert de bande rétroréfléchissante pour améliorer le tracking. Résultat : l'IA s'est montrée compétitive face à un adversaire humain dès le premier contact avec la table réelle, sans phase d'adaptation supplémentaire. Ce qui rend ce résultat notable, c'est la gestion explicite du "reality gap", le fossé qui sépare habituellement les performances en simulation de celles dans le monde réel. Le air hockey est un cas particulièrement difficile : le palet se déplace à grande vitesse, ses rebonds sont chaotiques, et le système doit absorber des latences caméra, des fluctuations de tension, des vibrations mécaniques et un tracking imparfait. L'équipe a répondu à ce problème par ce qu'on appelle la "domain randomization" : plutôt que de simuler une table parfaite, ils ont introduit délibérément des imperfections, rails inégaux, rebonds inconsistants, chutes d'alimentation, latence variable, pour forcer l'agent à raisonner en termes de distributions de positions probables plutôt qu'en trajectoires exactes. C'est une approche qui contredit le réflexe habituel de "nettoyer" les simulateurs, et dont les résultats suggèrent que l'imperfection contrôlée peut être un levier d'apprentissage plus robuste que la précision physique maximale. Sur le plan du contexte, ce projet étudiant s'inscrit dans un effort de recherche plus large sur les transferts sim-to-real pour les systèmes autonomes, thème central dans la robotique de manipulation, les drones et les véhicules autonomes. Il ne s'agit pas d'un produit commercialisé ni d'un déploiement industriel, mais d'une preuve de concept académique dont le code est disponible sur GitHub. Les laboratoires travaillant sur des agents de manipulation à grande échelle, comme Physical Intelligence (Pi) avec pi-0 ou des équipes universitaires spécialisées en sim-to-real, explorent des problèmes analogues sur des environnements bien plus complexes. Ce qui distingue ce travail, c'est la clarté méthodologique et la reproductibilité revendiquée : si l'approche tient à plus grande échelle, la domain randomization couplée au SAC pourrait réduire significativement les coûts et délais d'entraînement de robots autonomes dans des environnements industriels non structurés.

RecherchePaper
1 source
Robot Talk, épisode 159 : captation sensorielle et manipulation robotique, avec Maria Koskinopoulou
645Robohub 

Robot Talk, épisode 159 : captation sensorielle et manipulation robotique, avec Maria Koskinopoulou

Maria Koskinopoulou, maître de conférences en robotique et vision par ordinateur à l'université Heriot-Watt (Édimbourg), était l'invitée du 159e épisode du podcast Robot Talk animé par Claire Asher. Co-directrice de l'ARM²Lab (Autonomous Robotic Manipulation and Multi-Agent Systems Lab) au sein du National Robotarium britannique, aux côtés d'Ignacio Carlucho, elle y présente ses travaux sur la manipulation robotique autonome appliquée à la chirurgie, à l'industrie manufacturière et à des domaines émergents comme la robotique sous-marine et le tri de déchets. Ses projets sont financés par le UKRI (UK Research and Innovation) et des programmes européens, sans que des montants ou des échéances précises ne soient communiqués dans cet épisode. L'intérêt de ces travaux réside dans la convergence de plusieurs verrous technologiques : perception visuelle embarquée, interaction homme-robot, et apprentissage automatique appliqué à des environnements non structurés. La robotique chirurgicale et le tri autonome de déchets représentent deux cas d'usage où le gap sim-to-real reste un obstacle majeur, et où les approches multi-agents peuvent offrir une redondance opérationnelle pertinente pour les intégrateurs industriels. Le National Robotarium, inauguré en 2022 à Édimbourg avec un financement de 22,4 millions de livres sterling du gouvernement écossais et de Heriot-Watt University, positionne le Royaume-Uni comme acteur de premier plan en robotique appliquée post-Brexit. L'ARM²Lab s'inscrit dans un écosystème concurrentiel où des laboratoires comme le Dynamic Robot Systems Group d'Oxford ou le LIRMM en France travaillent sur des problématiques similaires. Cet épisode reste une présentation de recherche académique en cours, sans annonce de produit ni de déploiement commercial.

UELes travaux de l'ARM²Lab bénéficient de financements de programmes européens et s'inscrivent dans un écosystème de recherche en manipulation autonome que partagent des laboratoires français comme le LIRMM, sans déploiement commercial ni impact direct sur le marché européen.

RecherchePaper
1 source
La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?
646arXiv cs.RO 

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

Une équipe de chercheurs publie sur arXiv (référence 2507.06219) une étude systématique sur le rôle de la diversité des données dans l'apprentissage de la manipulation robotique, remettant en cause l'intuition du "plus c'est divers, mieux c'est". Trois dimensions sont examinées indépendamment. La diversité des tâches s'avère plus critique que le volume de démonstrations par tâche pour le transfert vers de nouveaux scénarios. L'entraînement multi-robots (multi-embodiment) n'est pas nécessaire au transfert inter-plateformes : un modèle entraîné sur un seul type de robot avec des données de haute qualité transfère aussi efficacement, avec de meilleures propriétés de scaling au fine-tuning. Enfin, la diversité des experts humains peut nuire à l'apprentissage via la multimodalité des vitesses d'exécution, chaque opérateur ayant ses propres rythmes et préférences gestuelles. Pour corriger ce biais, les auteurs introduisent une méthode de distribution debiasing appliquée à leur modèle GO-1-Pro, qui gagne 15% de performance, l'équivalent de multiplier par 2,5 le volume de pré-entraînement. Ces résultats ont des implications directes pour les équipes qui conçoivent des pipelines de collecte de données. La conclusion sur le multi-embodiment est particulièrement contre-intuitive : constituer un corpus mono-robot de haute qualité avant de fine-tuner est plus efficace qu'accumuler des datasets disparates multi-robots. Pour un intégrateur ou un décideur industriel, cela redéfinit les priorités de curation : couvrir un maximum de tâches prime sur l'accumulation brute de démonstrations, et standardiser les démonstrations expert devient un levier de performance mesurable. La multimodalité des vitesses est désormais un biais identifiable et corrigeable en amont du pipeline, pas une fatalité inhérente à la collecte humaine. Ce travail s'inscrit dans la dynamique portée par Google DeepMind (RT-2), Physical Intelligence (Pi-0) et les équipes de Berkeley (OpenVLA, Octo), qui cherchent à construire des fondations généralistes pour la manipulation depuis 2023. Contrairement au texte ou aux images, les données de démonstration robotique restent coûteuses à produire, ce qui rend les choix de stratégie de scaling particulièrement stratégiques. Les conclusions orientent directement les acteurs comme Figure AI (Figure 03), Agility Robotics ou, en France, Enchanted Tools (Mirokaï), qui investissent dans de larges datasets de manipulation. Ce travail est purement académique : aucun déploiement ni partenariat commercial n'est annoncé.

UEEnchanted Tools (Mirokaï) est explicitement citée comme acteur concerné par ces stratégies de scaling des données de manipulation, rendant les conclusions directement applicables à leur R&D en France.

RecherchePaper
1 source
PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes
647arXiv cs.RO 

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Une équipe de chercheurs du laboratoire DAVIAN a publié en juin 2026 PHUMA (Physically Reliable HUMAnoid locomotion dataset), un corpus de 73 heures de données de locomotion humanoide produit via un pipeline en deux étapes : une curation physiquement consciente suivie d'un retargeting contraint par des lois physiques. La base de données agrège à la fois des données de motion capture traditionnelles et des vidéos issues d'internet, les deux étant traitées pour éliminer les artefacts physiques récurrents dans les datasets existants, notamment le flottement, la pénétration géométrique et le foot skating. Entraînées sur PHUMA, les politiques de contrôle obtiennent des taux de succès supérieurs à ceux obtenus avec AMASS et Humanoid-X sur les benchmarks de motion tracking standards, et transfèrent en zero-shot vers un Unitree G1 réel. Le code et les données sont disponibles publiquement via davian-robotics.github.io/PHUMA. Le principal verrou que PHUMA prétend lever est la qualité physique des données d'entraînement pour l'imitation de mouvement humanoide. Les approches par imitation sont attractives parce qu'elles permettent d'acquérir des comportements naturels sans reward engineering fastidieux, mais leur efficacité dépend directement de la cohérence physique des données sources. Les artefacts présents dans les datasets basés sur des vidéos internet (comme Humanoid-X) se propagent dans les politiques entraînées, produisant des robots qui glissent ou oscillent de façon instable. La démonstration de transfert zero-shot sur un Unitree G1 physique est le point le plus concret : elle suggère que le filtrage physique en amont réduit effectivement le sim-to-real gap, sans fine-tuning additionnel sur hardware. Reste à qualifier l'ampleur du gain : les métriques de benchmarks internes ne se substituent pas à des comparaisons en conditions réelles standardisées. AMASS, publié en 2019, est resté longtemps la référence en motion capture humanoide, mais sa taille limitée et son coût d'acquisition ont freiné la scalabilité des approches data-driven. Humanoid-X a tenté de combler ce vide en exploitant des vidéos YouTube à grande échelle, au prix d'une dégradation qualitative. PHUMA s'inscrit dans une dynamique plus large où plusieurs équipes cherchent à constituer des datasets de locomotion humanoide à la fois volumineux et physiquement valides, en parallèle des travaux de Figure AI (Figure 03), Boston Dynamics, et des équipes derrière GR00T N2 chez NVIDIA. La prochaine étape logique serait de tester PHUMA sur d'autres plateformes humanoïdes commerciales (H1, Digit) et d'élargir les tâches au-delà de la locomotion simple vers la manipulation en déplacement.

UELe dataset PHUMA étant en accès libre, les équipes de recherche européennes en locomotion humanoïde (INRIA, CEA-List, LAAS-CNRS) peuvent l'intégrer directement dans leurs pipelines d'entraînement sans coût d'acquisition.

RecherchePaper
1 source
Apprentissage de la représentation du contact pour l'odométrie des jambes
648arXiv cs.RO 

Apprentissage de la représentation du contact pour l'odométrie des jambes

Une équipe de chercheurs a publié sur arXiv (référence 2606.05501) une approche d'apprentissage de représentation auto-supervisée pour la détection de contact dans les robots à pattes, visant à améliorer l'odométrie locomotrice sans recourir à des capteurs de force aux extrémités. Le système repose exclusivement sur les encodeurs articulaires standard, présents sur la quasi-totalité des plateformes commerciales existantes. En modélisant les phases d'appui et de vol (stance et swing) de façon probabiliste, le framework permet d'estimer la vitesse du corps principal à partir de la chaîne cinématique des membres, en s'appuyant sur l'hypothèse classique que la vitesse du pied par rapport au monde est nulle en phase d'appui. Les résultats expérimentaux indiquent des performances supérieures aux méthodes supervisées nécessitant des capteurs additionnels et aux approches probabilistes de référence. Le code est publié en open source. L'enjeu est concret : l'odométrie par jambes est une brique fondamentale pour la navigation autonome des robots quadrupèdes et bipèdes, notamment lorsque le GNSS ou la vision sont dégradés. Or, les capteurs de réaction au sol (GRF sensors) alourdissent les pieds, augmentent la complexité mécanique et sont souvent aveugles aux glissements en contact, ce qui produit des dérives d'estimation même lorsque le pied est techniquement "posé". En éliminant cette dépendance sensorielle, cette approche ouvre la voie à un déploiement sur des plateformes à budget contraint, et surtout améliore la robustesse sur surfaces glissantes ou irrégulières, scénario typique des environnements industriels ou d'inspection. La nature auto-supervisée supprime également le coût d'annotation de données, un frein classique dans les pipelines de locomotion. Le problème de la détection fiable de la phase d'appui est étudié depuis l'essor des robots quadrupèdes comme ANYmal (ANYbotics) et Go1/Go2 (Unitree), ainsi que des bipèdes comme Spot (Boston Dynamics) ou Atlas. La majorité des stacks d'odométrie actuels, y compris ceux utilisés dans des frameworks open source comme Legged Gym ou OCS2, conservent une dépendance aux GRF sensors ou à des heuristiques de seuillage. Cette contribution s'inscrit dans une tendance plus large visant à rendre la locomotion avancée accessible sur des plateformes sans instrumentation de pointe, une direction également explorée par des labos européens comme le DLR ou l'INRIA. La prochaine étape naturelle sera la validation sur plusieurs morphologies de robots et dans des conditions de terrain dégradé, un benchmark que les auteurs n'ont pas encore publié.

UEL'approche intéresse directement des équipes comme l'INRIA qui travaillent sur la locomotion avancée, et pourrait être intégrée sans modification matérielle sur des plateformes européennes à budget contraint.

RecherchePaper
1 source
MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet
649arXiv cs.RO 

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

Des chercheurs ont publié MoDex, une politique de diffusion conçue pour saisir séquentiellement plusieurs objets avec une seule main robotique dextère, sans relâcher ceux déjà tenus. Le système, présenté dans un preprint arXiv (2606.05407), a été évalué sur un bras Franka Emika Panda équipé d'une main Allegro à 16 degrés de liberté, en simulation MuJoCo et sur plateforme physique réelle. MoDex prédit la prochaine pose du préhenseur directement depuis les observations, conditionnée sur un nuage de points 3D et un espace dit "d'opposition" qui détermine quels doigts participent à la saisie courante. Ce mécanisme permet de n'utiliser qu'un sous-ensemble des DOF disponibles pour l'objet en cours, en réservant le reste pour les saisies suivantes. L'entraînement se déroule en deux phases : d'abord par imitation learning sur des démonstrations expertes, puis par fine-tuning par renforcement (RL), qui améliore systématiquement les taux de succès. En simulation, MoDex surpasse les baselines d'apprentissage évalués de 2,92 à 17,92 % ; en conditions réelles, le gain s'établit entre 6,67 et 17,78 %. L'enjeu technique est significatif : la quasi-totalité des méthodes de saisie dextère existantes mobilisent l'intégralité des DOF de la main pour chaque objet, la rendant inutilisable pour une prise successive sans reposer les objets intermédiaires. MoDex démontre qu'une politique de diffusion conditionnée sur l'espace d'opposition permet de résoudre ce problème de coordination des doigts avec des gains mesurables, y compris en transfert sim-to-réel. Le fait que le fine-tuning RL améliore systématiquement la politique pré-entraînée confirme l'intérêt de l'approche hybride imitation plus renforcement pour des tâches de manipulation complexe. Pour les intégrateurs industriels et les équipes de robotique, ce résultat suggère que des préhenseurs dextères multi-doigts peuvent être exploités de manière nettement plus efficace qu'aujourd'hui, notamment pour des tâches d'assemblage ou de tri où l'agent doit accumuler plusieurs pièces sans cycle de dépôt intermédiaire. Ce travail s'inscrit dans un champ de recherche actif autour de la manipulation dextère, où la main Allegro, commercialisée par Wonik Robotics, sert de plateforme de référence dans de nombreux laboratoires. Les approches concurrentes incluent des méthodes d'imitation pure comme DexGraspNet ou des politiques RL entraînées sur des saisies à un seul objet. Il s'agit d'un preprint académique sans partenaire industriel annoncé ni calendrier de déploiement. La page projet (modex2026.github.io) et le code sont disponibles, ce qui facilite la reproductibilité. La suite logique serait d'étendre l'évaluation à un plus grand nombre d'objets simultanés et à des géométries plus complexes, et de tester sur des plates-formes alternatives comme la Shadow Hand de Shadow Robot Company.

UELa plateforme Franka Emika Panda, d'origine allemande, est utilisée comme banc de test de référence, ce qui donne aux laboratoires européens un accès direct pour reproduire ces résultats, mais le travail reste académique sans partenariat industriel ou déploiement EU annoncé.

RecherchePaper
1 source
Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation
650arXiv cs.RO 

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

Une étude soumise sur arXiv (arXiv:2606.05588, juin 2026) audit sept métriques de curation de démonstrations robotiques utilisées en apprentissage par imitation. Les chercheurs ont construit un banc d'essai contrôlé dans lequel des défauts sont injectés avec un type connu, puis évalué chaque métrique selon deux axes : sa capacité à séparer démonstrations défectueuses et saines, et son impact réel sur le taux de succès d'une politique de behavior cloning entraînée sur le sous-ensemble filtré. Les perturbations subtiles (bruit d'action corrélé, tremblements, troncatures) sont détectées par scoring outlier multivarié ; leur suppression restaure l'intégralité de l'écart de performance en aval. Les erreurs structurelles, en revanche, où une action incorrecte est exécutée à un moment décisif, restent invisibles à toutes les métriques action-only testées. Deux d'entre elles sont même inversées : elles notent ces démonstrations défectueuses comme étant de meilleure qualité et laissent la politique au niveau ou en dessous de la baseline non filtrée. Seules les métriques examinant la trajectoire d'état détectent ces erreurs, mais même la meilleure ne récupère qu'un tiers de l'écart de performance downstream. Ce résultat interpelle directement les équipes qui entraînent des politiques robotiques à partir de données de téléopération. Le filtrage standard par métriques d'action seules s'avère insuffisant dès que les défauts sont de nature structurelle, précisément les cas les plus difficiles à labelliser manuellement : ceux qu'un opérateur humain commet lors d'une hésitation ou d'un mauvais geste à un instant clé. L'étude établit également que haute précision de détection ne garantit pas d'amélioration downstream, une nuance critique pour toute pipeline industrielle de curation automatique prétendant améliorer la qualité des données à l'échelle. La course à la donnée de démonstration s'est accélérée avec des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques d'Optimus (Tesla), dont les performances en déploiement dépendent directement de la qualité des corpus téléopérés. Avec la multiplication des infrastructures de collecte, la curation automatique est devenue un noeud critique dans les pipelines de formation. Les chercheurs publient le banc d'essai et les implémentations en open source, offrant à la communauté un outil de référence pour auditer rigoureusement tout système de filtrage. Leurs conclusions confirment que la trajectoire d'état doit être intégrée à tout scoring sérieux, et que l'erreur structurelle reste le talon d'Achille des approches action-only.

RecherchePaper
1 source