Aller au contenu principal

Recherche — page 4

1307 articles · page 4 sur 27

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Saut à la corde en coopération grâce à l'apprentissage par renforcement multi-agents
151arXiv cs.RO RecherchePaper

Saut à la corde en coopération grâce à l'apprentissage par renforcement multi-agents

Des chercheurs ont publié sur arXiv (2606.08064) un framework baptisé Marope permettant à plusieurs robots humanoïdes de pratiquer le saut à la corde collective en coordination. Le scénario implique deux robots Unitree G1 chargés de faire tourner la corde en synchronie, pendant qu'un troisième participant saute à des rythmes variables. L'architecture repose sur un apprentissage par renforcement multi-agents (MARL) hiérarchique : au niveau bas, des politiques décentralisées contrôlent indépendamment chaque bras de rotation de corde ; au niveau haut, une politique centralisée de scheduling orchestre l'exécution et la coordination entre ces modules. Les auteurs ont validé le système à la fois en simulation et en déploiement réel sur des Unitree G1, montrant que Marope surpasse les baselines testées en termes de stabilité de manipulation et de capacité d'adaptation à différents styles de saut. Ce travail illustre une lacune importante dans la recherche sur la locomotion athlétique des humanoïdes : la quasi-totalité des résultats existants (course, danse, parkour) opèrent en mode mono-agent ou sans interaction précise avec d'autres participants. Le saut à la corde impose une contrainte temporelle stricte et bidirectionnelle : les deux tourneurs doivent anticiper et s'adapter au rythme du sauteur en temps réel, ce qui constitue un banc d'essai réel pour la coordination multi-agent en boucle fermée. L'intégration de politiques de saut diversifiées dans l'entraînement coopératif, pour renforcer la généralisation, est un choix méthodologique notable. La démonstration en conditions réelles sur du matériel commercial reste modeste en scope, mais elle valide que le sim-to-real ne s'effondre pas sur cette tâche rythmique. Unitree est le fournisseur dominant sur le marché des humanoïdes accessibles (G1 à environ 16 000 USD), face à Figure, Agility Robotics ou Boston Dynamics sur le segment premium. Côté MARL appliqué aux humanoïdes, les travaux récents de DeepMind sur les agents sportifs et les recherches de Carnegie Mellon sur les interactions physiques constituent le terrain immédiat. Marope n'est pas encore un produit déployé ni un système industrialisé : c'est une preuve de concept académique, sans annonce de commercialisation ni de partenariat industriel à ce stade.

1 source
DIJIT : une tête robotique pour un observateur actif
152arXiv cs.RO 

DIJIT : une tête robotique pour un observateur actif

Des chercheurs ont présenté DIJIT, une tête robotique binoculaire conçue pour équiper des agents mobiles opérant en tant qu'observateurs actifs. Le système cumule neuf degrés de liberté mécaniques auxquels s'ajoutent quatre degrés de liberté optiques fournis par les caméras et les objectifs, soit 13 DOF au total. La conception mécanique couvre l'ensemble des mouvements nécessaires à la stéréovision convergente : vergence, version et cyclotorsion. DIJIT atteint 85 % de la vitesse de saccade humaine maximale, et la méthode de contrôle développée par l'équipe, basée sur une relation directe entre l'orientation de la caméra et les valeurs moteur, produit des mouvements saccadiques avec une erreur moyenne de 1,17° pour la caméra gauche et 1,14° pour la droite. L'article, publié sur arXiv (2512.07998v2), reste à ce stade un travail académique sans déploiement industriel annoncé. L'intérêt de DIJIT réside dans la rareté des plateformes permettant d'étudier conjointement les mouvements oculaires et tête-cou dans un cadre robotique mobile. La plupart des systèmes de vision active existants traitent ces deux axes séparément ou sacrifient la fidélité biomécanique au profit de la simplicité mécanique. En reproduisant les plages et vitesses comparables à celles de l'humain, DIJIT offre un banc d'essai pour comparer directement les stratégies de perception visuelle humaine aux méthodes de computer vision classiques, ce qui est particulièrement utile pour valider ou invalider des hypothèses sur le sim-to-real gap dans les systèmes de vision embarquée. La vision active robotique connaît un regain d'intérêt depuis que les modèles VLA (Vision-Language-Action) imposent des flux visuels plus riches et dynamiques aux robots humanoïdes. Des laboratoires comme celui de CMU ou des équipes travaillant sur des plateformes telles que Figure 03 ou Digit (Agility Robotics) cherchent à améliorer la perception visuelle active pour des tâches de manipulation en environnement non structuré. DIJIT se positionne comme un outil de recherche fondamentale plutôt que comme un produit commercialisable à court terme. L'absence de partenaire industriel annoncé et le format arXiv suggèrent une phase d'exploration académique ; les prochaines étapes probables concernent l'intégration sur une plateforme mobile complète et la publication de benchmarks comparatifs face aux systèmes de vision fixe.

RecherchePaper
1 source
DexPIE : amélioration stable des politiques de manipulation à partir de données réelles
153arXiv cs.RO 

DexPIE : amélioration stable des politiques de manipulation à partir de données réelles

Une équipe de chercheurs a publié DexPIE (Dexterous Policy Improvement from Experience), un framework de post-entraînement conçu pour améliorer les politiques de manipulation dextre après déploiement en conditions réelles. Présenté sur arXiv (2606.09615), le système atteint une amélioration de 37 % du taux de succès par rapport à la politique de référence entraînée par imitation pure, sur trois tâches de manipulation dextre à fort contact testées sur des mains robotiques réelles. L'approche combine trois mécanismes : un système d'intervention adapté aux mains dextres avec collecte multi-étapes de type DAgger (Dataset Aggregation), une inférence asynchrone dans l'espace d'action relatif pour réduire le bruit temporel entre les séquences de post-entraînement et les données de démonstration, et un indicateur de qualité continu qui conditionne la politique sur la qualité des données collectées en déploiement. Le verrou que DexPIE cherche à lever est structurel : les politiques entraînées uniquement par imitation accumulent des erreurs à chaque étape (compounding errors), et nécessitent des volumes considérables de données expertes pour être fiables. En permettant à la politique de s'améliorer à partir de ses propres rollouts en environnement réel, sans dépendre exclusivement d'un humain expert, DexPIE réduit ce goulot d'étranglement. L'introduction de l'espace d'action relatif couplé à l'inférence asynchrone est particulièrement notable : elle stabilise l'apprentissage du critique (value function) en alignant mieux les données collectées avec le comportement démontré, ce qui est non trivial sur des systèmes à haute dimensionnalité comme les mains multi-doigts. La manipulation dextre reste l'un des problèmes ouverts les plus difficiles de la robotique physique, loin derrière la locomotion en termes de maturité. Côté concurrents directs, les travaux récents de Physical Intelligence (pi0, Pi-0.5) et de Google DeepMind explorent également le fine-tuning de VLA (Vision-Language-Action models) sur données réelles, mais DexPIE cible spécifiquement les mains dextres, un segment où les acteurs comme Dexterous AI, Shadow Robot ou LEAP Hand fournissent le matériel mais où les frameworks d'amélioration post-déploiement restent rares. Le code source et le dataset seront rendus publics, ce qui facilitera la reproductibilité et pourrait accélérer l'adoption par d'autres équipes de recherche travaillant sur la manipulation fine.

RechercheOpinion
1 source
Découverte guidée de nouveaux comportements par politiques de diffusion
154arXiv cs.RO 

Découverte guidée de nouveaux comportements par politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.08743v1, juin 2026) un cadre algorithmique pour diversifier les comportements générés par les diffusion policies en robotique. Ces politiques basées sur des modèles de diffusion modélisent efficacement des distributions multimodales de trajectoires d'action, mais souffrent d'un biais documenté : avec peu de démonstrations, l'échantillonnage standard reproduit les comportements dominants et ignore les modes rares mais valides. Les auteurs combinent des correcteurs de Feynman-Kac, outil issu des processus stochastiques, avec un potentiel de guidage orientant l'échantillonnage vers des trajectoires prometteuses mais sous-représentées. Ces trajectoires candidates sont ensuite affinées par optimisation par échantillonnage, puis réintégrées dans le jeu d'entraînement pour réentraîner la politique. Les expériences portent sur plusieurs environnements de manipulation en simulation, où la méthode découvre systématiquement de nouveaux comportements exécutables. L'enjeu est concret pour les équipes travaillant sur l'apprentissage par imitation en robotique industrielle ou de service. Un robot entraîné sur peu de données converge vers une seule stratégie même lorsque plusieurs solutions existent : ce cadre propose d'explorer l'espace des comportements sans collecter davantage de démonstrations humaines, ce qui touche directement à l'efficacité des données dans les pipelines de robot learning. Les auteurs positionnent leur approche contre les méthodes de guidage classiques, qui poussent les échantillons vers des régions infaisables, et contre le couplage RL+diffusion, qui peine à sortir des minima locaux. Les résultats restent cependant limités à la simulation de manipulation; aucune validation sur robot réel n'est rapportée dans ce préprint. Les diffusion policies ont connu une adoption rapide depuis les travaux de Chi et al. en 2023, supplantant progressivement les politiques comportementales classiques sur des tâches de manipulation complexes. Le domaine est aujourd'hui concurrentiel, avec Physical Intelligence (pi0), Google DeepMind et plusieurs laboratoires universitaires poussant les limites de ces modèles génératifs. L'approche Feynman-Kac s'inscrit dans une tendance plus large de réutilisation d'outils de la physique statistique pour le contrôle robotique. Les prochaines étapes naturelles seraient une validation sur hardware réel et une extension à des tâches à horizon long, où la diversité des trajectoires est encore plus critique.

UELes laboratoires européens travaillant sur l'apprentissage par imitation (INRIA, CEA-List) pourraient exploiter ce cadre pour réduire leur dépendance aux données de démonstration, mais aucun acteur ou déploiement européen n'est impliqué dans ce préprint.

RecherchePaper
1 source
Real-IKEA : la fidélité physique est le prérequis d'une manipulation robuste
155arXiv cs.RO 

Real-IKEA : la fidélité physique est le prérequis d'une manipulation robuste

Une équipe de chercheurs a publié sur arXiv le 9 juin 2026 Real-IKEA, un dataset et un framework de simulation centré sur la précision physique pour l'apprentissage de politiques de manipulation robotique. Le corpus comprend 1 079 configurations d'objets articulés, dérivées de 83 poignées et boutons IKEA authentiques, traités via un pipeline de six étapes visant à reproduire fidèlement leur géométrie de contact et leur comportement mécanique. Pour quantifier la précision des maillages de collision, les auteurs introduisent une métrique originale dite de déviation de surface bidirectionnelle. Sur le plan dynamique, chaque asset est livré avec des configurations résistance-calibrées, où l'amortissement (damping) et le frottement varient selon les mesures relevées sur objets réels. Une politique d'apprentissage par renforcement (RL) entraînée sur ces assets démontre in silico que la fidélité physique permet à l'agent de découvrir des stratégies de "hooking" (crochetage) et de "levering" (effet de levier), par opposition aux approches fragiles par friction-pulling que favorisent les simulateurs appauvris. Ce travail s'attaque directement au "physics gap", l'écart entre simulation simplifiée et résistances du monde réel, qui reste l'un des obstacles structurels au déploiement industriel de la manipulation robotique. Le résultat clé est une preuve de concept que la qualité des assets de simulation conditionne la qualité des stratégies émergentes : un simulateur trop idéalisé oriente l'agent vers des comportements non transférables. Pour un intégrateur ou un responsable production envisageant des bras robotiques sur des tâches d'assemblage ou de service, cela renforce l'argument en faveur d'investissements dans des pipelines de modélisation physique rigoureux avant tout déploiement, plutôt que d'ajustements post-déploiement coûteux. Real-IKEA s'inscrit dans une longue tradition de benchmarks utilisant le mobilier IKEA comme proxy de la complexité du monde réel, notamment les travaux de manipulation non-prehensile des années 2010. Le sim-to-real gap est un sujet de recherche actif, avec des acteurs comme IsaacSim (NVIDIA), MuJoCo (DeepMind) ou PyBullet comme environnements concurrents sur ce terrain. La contribution spécifique de Real-IKEA réside dans la granularité physique de ses assets plutôt que dans un nouvel algorithme. Les auteurs positionnent leur benchmark comme référence pour évaluer des politiques visant la robustesse au niveau humain sur les objets articulés, une ambition dont la validation à l'échelle réelle reste à démontrer.

RecherchePaper
1 source
Modèle fondation de comportement perceptif : adapter les a priori de mouvement humain au terrain robotique
156arXiv cs.RO 

Modèle fondation de comportement perceptif : adapter les a priori de mouvement humain au terrain robotique

Publiée sur arXiv en juin 2026 (2606.08059), l'architecture Perceptive Behavior Foundation Model (Perceptive BFM) s'attaque à une limite structurelle des modèles fondamentaux de comportement humanoïde : l'hypothèse implicite que les mouvements de référence humains sont physiquement compatibles avec l'environnement du robot. En pratique, quand démonstrateur et robot se trouvent dans des contextes différents, la motion capture ne fournit ni les appuis au sol précis, ni les hauteurs de franchissement, ni les timings de contact requis sur terrain accidenté. Perceptive BFM conserve les références cinématiques brutes comme interface comportementale, tout en intégrant une perception locale du terrain pour adapter dynamiquement contacts, posture et timing. La méthode clé est le TCRS (terrain-conformal reference synthesis) : il retransforme des séquences de mouvement humain en références cohérentes avec le sol via construction d'appuis adaptatifs, optimisation des phases de balancement, reconstruction cinématique et réparation de collisions. L'entraînement suit une architecture enseignant-étudiant : un teacher aveugle apprend les comportements conformes au terrain, puis transfère ce savoir à un student déployé sur références brutes. L'apport concret pour les intégrateurs est une séparation nette entre intention comportementale et adaptation terrain, ce qui rend le système scalable sans motion capture annotée sol par sol. Le student, un Transformer tracker à gating d'identité, n'active les corrections terrain que via des voies résiduelles initialisées à ne rien modifier, ce qui préserve la robustesse du prior de mouvement original. C'est une réponse partielle au débat sur le sim-to-real gap en locomotion humanoïde : l'adaptation repose sur la perception locale plutôt que sur une modélisation globale ou une planification externe, ce qui simplifie le déploiement en environnement non structuré. Ce travail s'inscrit dans l'effervescence des behaviour foundation models pour humanoïdes : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les politiques corps entier issues de CMU et Stanford sont autant de points de comparaison directs. La question du fossé entre motion priors humains et locomotion réelle avait été partiellement adressée par les travaux sur l'imitation par RL (PHC, AMP, ASE), mais l'extension à des modèles fondamentaux déployables reste ouverte. L'article ne mentionne ni partenariat industriel ni validation hardware publiée : Perceptive BFM est pour l'instant une contribution de recherche sans déploiement terrain confirmé.

RechercheOpinion
1 source
IA physique : le middleware robotique comme couche d'intégration
157arXiv cs.RO 

IA physique : le middleware robotique comme couche d'intégration

Un article de recherche déposé sur arXiv le 9 juin 2026 (arXiv:2606.09416) propose de redéfinir formellement le rôle du middleware robotique à l'ère de l'IA physique. Les auteurs partent d'un constat : les politiques apprises, les planificateurs et les modèles vision-langage-action (VLA) sont désormais des participants causaux sur le chemin de contrôle des robots déployés, mais la couche logicielle qui les intègre n'a jamais reçu de nom précis dans la littérature robotique. Ils empruntent le terme "harness" à la communauté des agents LLM, où il désigne le système externe qui orchestre les outils, gère l'état, borne les ressources et enregistre l'exécution, et soutiennent que le middleware robotique est exactement ce harness. La différence avec un harness logiciel classique est structurelle : un modèle VLA ne franchit pas une seule frontière, il en traverse trois simultanément, ses commandes modifient la trajectoire (contrôle), son temps d'inférence perturbe l'ordonnancement (calcul), et son volume de données sollicite la bande passante réseau (communication). L'enjeu pour les intégrateurs et les décideurs industriels est concret. Aujourd'hui, les trois fonctions d'enforcement manquantes, que les auteurs nomment Projection (filtrage de chaque sortie du modèle à l'émission), Isolation (encadrement du slot d'exécution et de transmission), et Transfer (repli sur une baseline vérifiée en cas d'échec), existent déjà dans les systèmes déployés, mais sous forme de code applicatif artisanal, reconstruit à chaque projet. Cette fragmentation augmente les coûts d'intégration et crée des surfaces de défaillance non standardisées. Le papier ne présente pas de benchmark de performance ni de déploiement validé en production : c'est un cadre conceptuel et une proposition de standardisation, pas un produit livré. La proposition concrète est un "ROS 2 Harness Profile", un artefact de déploiement qui encapsule la région de sortie déclarée d'un modèle IA, son budget d'inférence et son régime opérationnel, tandis que le middleware (ROS 2, DDS, Zenoh) en assure l'application. Cette démarche s'inscrit dans un mouvement plus large de formalisation des couches d'intégration pour les systèmes robotiques apprenants, auquel contribuent aussi des travaux autour de ROS 2 Nav2, de micro-ROS pour les systèmes embarqués, et des frameworks d'évaluation de robustesse comme ceux proposés par des acteurs tels qu'Intrinsic (filiale Alphabet) ou des laboratoires académiques travaillant sur le sim-to-real. La prochaine étape logique serait une implémentation de référence et une validation sur un système physique, ce que les auteurs n'ont pas encore publié.

RecherchePaper
1 source
Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude
158arXiv cs.RO 

Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude

Des chercheurs ont publié le 9 juin 2026 sur arXiv (2606.08458) GLOBE, un framework léger pour l'assistance robotique proactive en environnement domestique. Le principe : combiner des modèles de Markov n-grammes, qui capturent les patterns comportementaux temporels d'un utilisateur, avec un raisonnement par grand modèle de langage (LLM) déclenché uniquement lorsque la confiance du modèle prédictif passe sous un seuil. Ce mécanisme d'invocation sélective réduit la charge computationnelle par rapport aux architectures spatio-temporelles classiques. L'équipe introduit également HOMER-Noise, une extension bruitée du dataset HOMER+, qui simule des perturbations structurées réalistes : déplacements d'objets causés par des humains, des animaux domestiques ou des jeunes enfants. Le framework est validé en preuve de concept sur un manipulateur mobile Stretch 3 de Hello Robot, dans des scénarios d'interaction humain-robot à domicile. L'intérêt principal de GLOBE réside dans son positionnement hybride : plutôt que de faire tourner un LLM en continu sur chaque prédiction d'activité, le système n'y fait appel que sur les cas ambigus, ce qui le rend potentiellement déployable sur du matériel embarqué à ressources limitées. Les résultats annoncés montrent des performances compétitives face aux méthodes état de l'art, y compris en conditions bruitées, là où les approches purement neuronales se dégradent. Cette robustesse aux perturbations environnementales non contrôlées est un verrou connu pour le déploiement domestique réel. Il faut toutefois noter qu'il s'agit d'un preprint arXiv sans peer review, et que la validation sur Stretch 3 reste au stade de démonstration de concept, pas d'un déploiement opérationnel. GLOBE s'inscrit dans un courant de recherche qui cherche à réconcilier les LLMs, puissants mais coûteux, avec les contraintes temps réel de la robotique embarquée. Des approches similaires existent chez des équipes travaillant sur les VLAs (Vision-Language-Action models), comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais celles-ci ciblent surtout la manipulation industrielle plutôt que l'assistance cognitive à domicile. Le dataset HOMER-Noise comble un manque réel dans l'évaluation de la robustesse des systèmes d'anticipation d'activités. Les prochaines étapes logiques seraient une évaluation sur des déploiements multi-utilisateurs prolongés et une comparaison directe avec des baselines LLM-only pour quantifier précisément le gain computationnel revendiqué.

RecherchePaper
1 source
OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles
159arXiv cs.RO 

OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles

Une équipe de chercheurs publie sur arXiv (juin 2026) le framework OASIS, une approche pour entraîner des robots humanoïdes à des tâches de loco-manipulation, combinaison de locomotion et de manipulation d'objets, en s'appuyant exclusivement sur des données de simulation. Le système reconstruit automatiquement des assets 3D réalistes à partir d'images du monde réel via un modèle génératif, puis collecte des trajectoires par télé-opération dans ce simulateur. Ces trajectoires sont ensuite augmentées par randomisation de domaine : variations d'éclairage, de textures et de configuration environnementale. Une politique visuomotrice hiérarchique, entraînée sur ces données simulées, est déployée en zero-shot sur un robot humanoïde physique, sans fine-tuning sur données réelles. Les résultats publiés indiquent que cette politique dépasse, sur la majorité des tâches testées, les performances d'une politique entraînée sur des données de télé-opération réelle. Ce résultat, à prendre avec prudence, le preprint n'étant pas encore soumis à peer review, va à contre-courant d'une hypothèse largement répandue : que la qualité des données terrain serait irremplaçable pour la manipulation fine. Le principal facteur explicatif avancé par les auteurs est la couverture plus large des variations d'éclairage et d'environnement dans le rendu simulé, que la collecte physique peine à égaler à grande échelle. Si le résultat se confirme, il soulage considérablement le goulot d'étranglement de la collecte terrain, qui implique aujourd'hui des resets manuels coûteux et une infrastructure dédiée par tâche. La loco-manipulation reste l'un des défis les plus complexes en robotique humanoïde, car elle exige une coordination simultanée du contrôle de marche et de la manipulation d'objets. Des plateformes comme Figure 03, l'Optimus Gen 3 de Tesla ou l'Atlas de Boston Dynamics cherchent des solutions via des approches diverses : imitation learning sur données réelles (pi-0 de Physical Intelligence), politiques VLA (GR00T N2 de Nvidia) ou RL massivement simulé (Unitree). OASIS positionne la simulation augmentée comme alternative crédible à la télé-opération physique, ce qui pourrait accélérer le bootstrapping de nouvelles tâches sans mobiliser de cellules robotiques dédiées. Les prochaines étapes attendues sont une évaluation sur un spectre plus large de tâches industrielles et une soumission à une conférence avec évaluation par les pairs.

RechercheOpinion
1 source
GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D
160arXiv cs.RO 

GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (référence 2606.08440) GraspFoM, un framework unifié de saisie robotique qui exploite des fondations 3D pré-entraînées, plus précisément SAM3D, pour construire une représentation latente 3D partagée entre deux tâches simultanées : la reconstruction géométrique de l'objet et la prédiction de poses de préhension. L'architecture centrale repose sur un diffuseur de raisonnement de pose tronqué à initialisation par ancres, qui génère des poses continues et multimodales sans dépendre de candidats discrets préétablis, une distinction technique importante par rapport aux pipelines classiques. GraspFoM produit en sortie à la fois des poses de saisie et des reconstructions 3D haute fidélité au format maillage polygonal et 3D Gaussian Splatting (3DGS). Les auteurs rapportent des résultats de pointe sur les benchmarks de reconstruction et de saisie, avec un surcoût en paramètres entraînables qualifié de "limité" mais sans chiffre précis publié. Ce travail adresse un verrou réel dans la manipulation robotique : la saisie sous observation partielle, c'est-à-dire quand la caméra ne voit qu'une fraction de l'objet. Les approches existantes utilisent la géométrie 3D comme étape intermédiaire jetable, sans la capitaliser comme prior réutilisable. GraspFoM rompt avec cette logique en faisant co-évoluer reconstruction et grasping dans un espace latent commun : la reconstruction ancre la géométrie, la supervision de saisie affine ce latent vers les zones de prise pertinentes. Le scorer reconstruction-aware et le residual latent updater formalisent cette rétroaction mutuelle. Pour les intégrateurs en manipulation industrielle ou logistique, cela suggère une meilleure robustesse sur des objets partiellement occultés, sans multiplication des modules ou des paramètres, ce qui est un argument d'efficacité réelle si les expériences réelles confirment les benchmarks. Les fondations 3D comme SAM3D s'inscrivent dans une vague de transferts de connaissances entre vision 2D et représentations 3D, parallèle à l'essor des VLA (Vision-Language-Action models) pour la manipulation généraliste. GraspFoM se positionne différemment des approches purement end-to-end comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA : il mise sur la reconstruction explicite plutôt que sur l'imitation à grande échelle. Les concurrents académiques proches incluent GraspNeRF, Contact-GraspNet et des travaux récents combinant diffusion et géométrie 3D. À ce stade, GraspFoM reste un preprint non validé en conditions réelles, les expériences rapportées étant réalisées sur simulateur ou bancs de test contrôlés. Aucun partenaire industriel ni déploiement pilote n'est mentionné, et aucune timeline de commercialisation n'est communiquée.

RecherchePaper
1 source
VGP-Nav : perception géométrique visuelle adaptée aux métriques pour la navigation robotique
161arXiv cs.RO 

VGP-Nav : perception géométrique visuelle adaptée aux métriques pour la navigation robotique

Une équipe de chercheurs a présenté en juin 2026 VGP-Nav (arXiv:2606.09268), un cadre unifié permettant à un robot mobile de se localiser avec précision et de détecter des obstacles avec cohérence métrique en n'utilisant qu'une seule caméra RGB monoculaire standard. Contrairement aux systèmes de navigation conventionnels qui combinent caméras et capteurs actifs comme le LiDAR pour obtenir des mesures métriques fiables, VGP-Nav s'appuie exclusivement sur la vision monoculaire. L'architecture ancre la géométrie visuelle à des contraintes d'échelle physiquement significatives extraites de la géométrie du plan sol, ce qui permet de résoudre en ligne l'ambiguïté d'échelle inhérente à tout système monoculaire. Les expériences présentées couvrent des environnements variés et incluent un déploiement validé sur des robots mobiles réels. L'ambiguïté d'échelle est l'un des obstacles fondamentaux à la navigation monoculaire : une caméra seule ne peut pas distinguer un objet proche et petit d'un objet lointain et grand sans référence externe. Les approches classiques contournent ce problème avec du LiDAR (coûteux, encombrant, nécessitant une calibration spatio-temporelle complexe entre capteurs) ou des centrales inertielles, ce qui augmente le coût et la complexité des déploiements, notamment pour les flottes d'AMR en logistique ou en industrie. Si VGP-Nav tient ses promesses à l'échelle, il ouvre la voie à des robots mobiles autonomes basse consommation capables de naviguer en sécurité dans des environnements non structurés sans infrastructure sensorielle lourde, un enjeu critique pour les intégrateurs cherchant à réduire le coût total de possession. La navigation purement visuelle fait l'objet d'intenses recherches depuis la première génération de systèmes SLAM monoculaires comme ORB-SLAM (2015), mais la cohérence métrique restait leur talon d'Achille face au LiDAR. Des approches récentes basées sur la profondeur monoculaire apprise, Depth Anything, UniDepth, ou des architectures de localisation neuronale cherchent à combler cet écart, tandis que des acteurs comme Nvidia (Isaac Perceptor), Clearpath Robotics ou Slamtec intègrent progressivement davantage de vision dans leurs pipelines de navigation pour AMR. VGP-Nav reste à ce stade une contribution de recherche en pré-print : sa validité industrielle n'est pas encore confirmée par des benchmarks tiers indépendants sur des datasets standardisés comme nuScenes ou ScanNet, et aucun partenariat commercial ni calendrier de transfert technologique n'est annoncé.

UEPotentiel indirect pour les intégrateurs AMR européens si la technologie est validée industriellement, aucun partenariat commercial ni transfert vers l'Europe n'est annoncé à ce stade.

RecherchePaper
1 source
MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)
162arXiv cs.RO 

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.08288) introduit MotionVLA, une interface de mémoire motrice conçue pour améliorer les modèles vision-language-action appliqués à la manipulation robotique longue portée. Le principe : plutôt qu'alimenter le modèle avec une séquence d'images passées traitées indépendamment, MotionVLA convertit une courte fenêtre vidéo récente en tokens de champ de trajectoire (trajectory-field tokens), compacts et temporellement continus. Ces tokens encodent le mouvement cohérent entre les observations, et les tokens visuels courants les interrogent pour extraire les informations de mouvement pertinentes à la tâche en cours. Le tout est réinjecté dans le flux VLA via une supervision ancrée sur les trajectoires. Les auteurs rapportent des améliorations sur des benchmarks de simulation ainsi que des essais préliminaires sur robot réel, avec des exécutions décrites comme plus fluides et plus directes. L'enjeu est théorique, mais les implications pratiques sont directes. Les VLA actuels -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure) -- cherchent à résoudre l'ambiguïté des tâches longues en injectant toujours plus de contexte : historique d'images, profondeur, features 4D. L'hypothèse implicite est "plus de contexte spatio-temporel équivaut à une meilleure politique". MotionVLA conteste cette hypothèse : un contexte incohérent en termes de mouvement introduit de la dérive géométrique, des indices temporels fragmentés et une génération d'actions instable. Reformuler la mémoire comme un champ de mouvement plutôt que comme un empilement de frames résout le problème à la source, ce qui intéresse directement les équipes cherchant à stabiliser des VLA en déploiement industriel sans exploser le budget de calcul. Ce travail s'inscrit dans une course intense à l'architecture VLA optimale. Les approches concurrentes incluent les modèles à base de profondeur (SpatialVLA), de features 4D (CogACT), ou de diffusion de trajectoires (pi-0). MotionVLA se rapproche davantage des travaux sur le flot optique dense et les représentations de mouvement continu. Deux mises en garde s'imposent : les résultats sur robot réel sont explicitement qualifiés de "préliminaires" par les auteurs, et aucun chiffre de benchmark précis n'est disponible dans la publication actuelle. À ce stade, il s'agit d'une contribution de recherche, non d'un produit industrialisé ni d'une démonstration validée à l'échelle.

RechercheOpinion
1 source
Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques
163arXiv cs.RO 

Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques

Une équipe de chercheurs publie sur arXiv (2606.08214) un cadre neuro-symbolique agentique pour la robotique industrielle avec supervision humaine en boucle. Le système hybride confie aux grands modèles de langage (LLM) uniquement les tâches de compréhension du langage naturel et de raisonnement contextuel, tandis que la vérification des contraintes physiques, le séquençage des actions et l'exécution restent entièrement déterministes. L'architecture, baptisée Specifier-Designer-Inspector (SDI), adapte le patron logiciel Planner-Generator-Evaluator (PGE) à la robotique industrielle et s'appuie sur LangGraph pour le routage dynamique en cas d'échec. Un mécanisme de récupération à deux niveaux distingue les échecs structurels (replanification contextuelle) des échecs géométriques à l'exécution (primitives déterministes de correction). Un jumeau numérique sous Unity3D permet à l'opérateur d'inspecter, modifier et valider le plan avant tout déploiement physique. Testé sur des commandes en langage naturel face à dix systèmes de référence, le framework SDI obtient le meilleur taux de réussite sur l'ensemble des niveaux de difficulté évalués. L'intérêt industriel de cette approche tient à son pragmatisme architectural : plutôt que de confier aux LLM la garantie de faisabilité physique d'une trajectoire, le système délègue cette responsabilité à des composants symboliques vérifiables et auditables. C'est une réponse directe au "demo-to-reality gap" qui fragilise de nombreux projets fondés sur des VLA (Vision-Language-Action models) ou des politiques neurales pures. Pour les intégrateurs et les COO industriels, la présence du jumeau numérique comme étape obligatoire de validation avant exécution réduit concrètement le risque opérationnel lors du commissionnement de nouvelles cellules robotiques, en donnant à l'opérateur un droit de regard explicite sur chaque plan généré. Ce travail prolonge une tradition de planification neuro-symbolique héritée de STRIPS et des HTN (Hierarchical Task Networks), en y intégrant les LLM pour l'interprétation des intentions opérateur. Il se positionne en contrepied des approches end-to-end actuellement dominantes, notamment pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou Helix de Figure AI, qui misent sur des politiques entraînées en imitation ou en renforcement sans couche symbolique intermédiaire. La publication reste un preprint non encore évalué par les pairs, ce qui invite à la prudence sur les benchmarks annoncés : aucune métrique de temps de cycle en conditions industrielles réelles n'est fournie, et les commandes testées restent dans un cadre expérimental contrôlé. Aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper
1 source
Estimation dense des forces par capteur tactile optique à événements
164arXiv cs.RO 

Estimation dense des forces par capteur tactile optique à événements

Des chercheurs ont présenté sur arXiv (arXiv:2606.09451) le premier framework de reconstruction dense de champ de force 3D à partir d'un capteur tactile optique à événements. L'approche combine deux modules complémentaires : un algorithme de suivi de marqueurs basé sur les événements pour estimer les déplacements de cisaillement (axes X et Y), et un réseau de neurones convolutif entraîné sur un jeu de données synchronisées force-déplacement-événements pour prédire les déplacements normaux (axe Z). Ces déplacements de surface sont ensuite convertis en forces via la méthode des éléments finis inverse (iFEM). Les performances mesurées atteignent une erreur absolue moyenne de 0,14 N, 0,10 N et 0,93 N sur des plages de force respectives de 4 N, 4 N et 20 N, avec une fréquence de traitement moyenne de 100 Hz. Ce résultat comble une lacune importante dans la perception tactile robotique. Les capteurs tactiles à base de caméra conventionnelle, comme le GelSight du MIT ou le DIGIT de Meta AI, permettent déjà une estimation dense des forces, mais butent sur les limites de framerate des capteurs CMOS, le flou de mouvement lors de contacts dynamiques rapides, et la bande passante nécessaire au transfert d'images. Les capteurs à événements, d'inspiration neuromorphique, contournent ces contraintes avec une résolution temporelle à la microseconde et un encodage asynchrone des variations de luminosité. Jusqu'ici, leur usage en tactile était restreint à la prédiction de forces nettes scalaires, sans distribution spatiale. Le framework présenté ouvre la voie à un retour de force géométriquement dense à haute fréquence, condition nécessaire pour des boucles de contrôle en préhension dextre réactive. La manipulation dextre reste l'un des problèmes ouverts les plus difficiles de la robotique, précisément parce que le toucher humain exploite simultanément la densité spatiale, la sensibilité à la géométrie de contact et la résolution temporelle fine. Le paysage des capteurs tactiles intelligents s'est structuré autour de deux familles : les capteurs visuels élastomère (GelSight, DIGIT, Finger Vision, Tactip) et les capteurs neuromorphiques à événements, encore peu exploités pour la reconstruction de champ. Ce travail constitue une première étape de preuve de concept ; les auteurs ciblent explicitement l'intégration dans des pipelines de contrôle haute fréquence pour la préhension robotique et la manipulation, sans annoncer de plateforme ou de timeline de déploiement précise.

RecherchePaper
1 source
Peut-on stabiliser un pendule inversé grâce à une caméra à temps de vol ?
165arXiv cs.RO 

Peut-on stabiliser un pendule inversé grâce à une caméra à temps de vol ?

Une équipe de chercheurs a publié en juin 2026 sur arXiv (2506.09237) une démonstration inattendue : une caméra temps-de-vol (ToF) bas de gamme, à faible résolution spatiale, suffit pour stabiliser de manière fiable un pendule inversé sur un chariot, référence canonique en théorie du contrôle pour les dynamiques rapides et instables. La caméra ToF utilisée est compacte, peu coûteuse et insensible aux variations d'éclairage, mais produit une profondeur bruitée et une résolution limitée, ce qui la rendait jusqu'ici peu crédible comme capteur de rétroaction pour des boucles de contrôle exigeantes. Ce résultat contredit directement un présupposé bien établi dans la communauté : que la résolution spatiale et le bruit de mesure des ToF les excluent du contrôle précis en temps réel. Pour les intégrateurs et ingénieurs systèmes, l'implication est concrète : des capteurs de profondeur à moins de 100 euros pourraient remplacer des systèmes de vision coûteux dans des boucles de commande rapides, notamment sur des plateformes mobiles, des manipulateurs légers ou des robots humanoïdes nécessitant une estimation d'état embarquée à faible consommation. La validité de la démonstration reste à nuancer : l'abstract ne précise ni le modèle exact de caméra, ni les fréquences d'acquisition, ni les conditions de bruit testées. Les caméras ToF sont déjà largement utilisées en robotique pour la cartographie et la détection d'obstacles, mais rarement intégrées dans des boucles de contrôle fermées critiques. Le pendule inversé, formalisé dès les années 1950, sert de banc d'essai universel pour comparer les architectures de contrôle. Les prochaines étapes naturelles seraient de tester la robustesse à des perturbations externes et d'étendre l'approche à des systèmes sous-actionnés plus complexes, comme les robots bipèdes.

RecherchePaper
1 source
Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange
166arXiv cs.RO 

Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange

Un groupe de chercheurs publie sur arXiv (2606.09640v1, juin 2026) un framework d'apprentissage résiduel structuré pour corriger les modèles de dynamique robot basés sur le formalisme d'Euler-Lagrange. L'approche décompose l'écart entre le modèle nominal et la dynamique réelle en trois composantes : une correction d'inertie, le terme de Coriolis induit correspondant, et un résidu de force généralisée. La composante mécanique est apprise sous contraintes physiques explicites (symétrie, définie-positivité de la matrice d'inertie), tandis que la composante perturbatrice est représentée par un modèle d'interaction latent sparse dépendant de l'historique, adapté en ligne par régression linéaire bayésienne. Les validations couvrent trois types de plateformes : robots mobiles, systèmes aériens et bras manipulateurs, sur des scénarios de dynamique couplée et variable dans le temps. L'enjeu est structurel. La quasi-totalité des méthodes de correction par apprentissage résiduel introduisent un unique terme additif sans contraindre sa forme physique, ce qui dégrade les invariants mécaniques fondamentaux : symétrie de la matrice d'inertie, couplage cohérent entre termes inertiels et termes de vitesse. En pratique, un contrôleur modèle embarquant un tel résidu non contraint risque de produire des prédictions physiquement incohérentes aux limites de l'espace de travail ou sous charges variables. La séparation proposée contraint structurellement la partie mécanique et réserve l'adaptation bayésienne en ligne à la seule composante de perturbation, là où la plasticité est réellement nécessaire. Les auteurs rapportent une amélioration mesurable de la prédiction de dynamique et du suivi de trajectoire, mais les résultats restent au stade expérimental sur plateformes de laboratoire, sans données de déploiement industriel. Le contexte est celui d'une tension persistante dans la robotique à base de modèles : les formulations analytiques d'Euler-Lagrange sont précises en conditions nominales mais se dégradent sous variation de charge utile, friction non modélisée, effets aérodynamiques ou couplages imprévus. Ce travail s'inscrit dans un courant actif de physics-informed learning, aux côtés des Hamiltonian Neural Networks (Greydanus et al., 2019) et des approches par processus gaussiens à noyaux structurés. La différenciation réside dans l'adaptation online sélective via régression bayésienne, computationnellement plus légère que les GPs complets. Le preprint n'annonce ni partenariat industriel ni roadmap commerciale ; les extensions naturelles iraient vers les manipulateurs humanoïdes et la validation sous contraintes temps réel strictes.

RecherchePaper
1 source
AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation
167arXiv cs.RO 

AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation

Des chercheurs ont publié en juin 2026 AHA-WAM (Asynchronous Horizon-Adaptive World-Action Model), une architecture de contrôle robotique qui dissocie temporellement la prédiction de scène et l'exécution motrice, deux processus jusqu'ici couplés au même rythme dans les modèles monde-action existants. L'architecture repose sur deux Diffusion Transformers (DiT) fonctionnant en parallèle : un DiT "monde" opère à basse fréquence comme planificateur de scène à long horizon, maintenant une mémoire glissante de paires clé-valeur sur les observations passées ; un DiT "action" tourne à haute fréquence en boucle fermée, interrogeant ce contexte latent via une attention jointe par couche. Deux mécanismes complètent le système : un entraînement à décalage adaptatif (horizon-adaptive offset training) et un routage OVCR (Observation-Guided Video-Context Routing), qui permettent à l'expert action d'exploiter le contexte long-horizon sans relancer le DiT vidéo à chaque pas. Sur le benchmark RoboTwin, AHA-WAM atteint 92,80 % de taux de succès moyen ; sur quatre tâches de manipulation en conditions réelles, 78,3 % de succès. La fréquence de contrôle en boucle fermée est de 24,17 Hz, soit un gain de vitesse de 4,59x sur Fast-WAM, sans aucun préentraînement sur données robot. Le résultat principal à retenir pour les intégrateurs et décideurs : un modèle VLA (Vision-Language-Action) peut maintenant planifier à l'échelle de la vidéo long-horizon et agir en temps quasi-réel sans que ces deux branches s'inhibent mutuellement. L'absence de préentraînement robot est notable, car elle suggère que le transfert depuis des données vidéo génériques peut suffire pour atteindre des performances state-of-the-art en manipulation. Le gain de 4,59x en vitesse est cliniquement significatif : 24 Hz permet un contrôle réactif sur bras industriel standard, ce qui rapproche ces architectures d'un déploiement en cellule de production, même si les tâches testées restent des benchmarks de manipulation tabletop, pas des environnements industriels non structurés. AHA-WAM s'inscrit dans la vague des modèles monde-action (world-action models), un paradigme émergent qui injecte des priors physiques dans l'apprentissage de politiques en modélisant conjointement dynamique visuelle et actions. Fast-WAM, cité comme baseline directe, reste la référence de vitesse que ce travail cherche à dépasser. Du côté concurrent, les architectures VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent également sur des transformers multimodaux pour la généralisation en manipulation, mais conservent généralement un pipeline unifié. La prochaine étape logique pour AHA-WAM serait de tester le passage à des environnements semi-structurés et d'évaluer la robustesse du routage OVCR face à des distributions d'observations hors-distribution.

RechercheOpinion
1 source
ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA
168arXiv cs.RO 

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

ReCoVLA (Reward Compilation for VLA recovery) est un framework de récupération d'erreurs présenté dans un preprint arXiv publié le 9 juin 2026, conçu pour pallier la fragilité des politiques VLA (Vision-Language-Action) face aux états hors-nominal. Le principe : maintenir une politique VLA pré-entraînée gelée (frozen), déléguer à un modèle vision-langage externe (VLM) l'inférence du mode de défaillance et du stade de récupération, puis compiler une récompense structurée pour entraîner une politique résiduelle corrective en simulation. Cette politique résiduelle est ensuite déployée en zéro-shot sur robot réel sans réentraînement. Sur des tâches de manipulation couvrant des horizons courts, longs et des contacts riches, ReCoVLA fait passer le taux de succès moyen de 36,7 % (baseline π0.5 fine-tuné) à 66,7 % en simulation, et atteint 61,7 % en déploiement physique zéro-shot sim-to-réel. L'apport conceptuel central est de ne pas utiliser le VLM pour générer des actions ou des récompenses directement, mais comme un sélecteur sémantique de récompenses : il prédit un descripteur de récupération et un masque de récompense parmi des composants prédéfinis liés à la tâche. Cette séparation entre compréhension sémantique de haut niveau et contrôle correctif de bas niveau adresse un angle mort bien documenté des architectures VLA actuelles : elles offrent de bons priors pour la manipulation conditionnée au langage, mais s'effondrent dès qu'elles rencontrent un état non prévu à l'entraînement. Le framework se veut agnostique à la politique VLA sous-jacente, ce qui le rendrait compatible avec différents modèles de base. Le travail s'inscrit dans une compétition intense autour des politiques génératives pour la manipulation robotique. Des modèles comme π0 et π0.5 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA ont démontré la faisabilité des VLA à grande échelle, mais la robustesse aux défaillances reste un problème ouvert. ReCoVLA propose une réponse modulaire qui n'exige pas de réentraîner la politique de base, ce qui réduit théoriquement les coûts d'adaptation. Il convient toutefois de noter que ce preprint ne fait pas état d'un déploiement industriel : les expériences physiques restent en contexte laboratoire, avec un périmètre de tâches limité. Les prochaines étapes naturelles concernent la généralisation à d'autres architectures VLA et l'évaluation sur des chaînes causales plus longues.

RechercheOpinion
1 source
Q-VGM : un guidage par gradient de valeur pour les politiques VLA à flux normalisants
169arXiv cs.RO 

Q-VGM : un guidage par gradient de valeur pour les politiques VLA à flux normalisants

Une équipe de chercheurs propose Q-VGM (Q-Guided Value-Gradient Matching), une méthode d'apprentissage par renforcement hors-politique conçue pour affiner les politiques VLA (Vision-Language-Action) reposant sur le flow-matching. Partant de pi0.5, le modèle VLA de Physical Intelligence, comme initialisation few-shot, la méthode améliore les taux de réussite sur trois environnements : sur le benchmark LIBERO, le taux de succès passe de 75,0 % à 92,5 % ; sur RoboTwin 2.0, de 76,4 % à 87,2 % ; sur deux tâches de manipulation réelles en environnement tabletop, de 40,0 % à 67,5 %. Ces gains sont obtenus sans supervision experte supplémentaire, à partir de données d'expérience auto-générées par le robot (rollouts). L'étude est disponible en preprint sur arXiv (2606.08015) et n'a pas encore été soumise à évaluation par les pairs à la date de publication. Le verrou que Q-VGM résout est l'un des obstacles les plus tenaces du fine-tuning RL pour les VLA de type flow-matching : propager les gradients d'une fonction de valeur (Q-function) à travers le processus de débruitage itératif est numériquement instable à grande échelle, tandis que les méthodes de policy-gradient exigent des vraisemblances d'actions indisponibles sous débruitage itératif. Q-VGM contourne ces deux contraintes via VGG-Flow, un cadre théorique qui convertit le gradient de valeur en un champ de guidage appliqué pendant le débruitage, sans rétropropagation end-to-end ni calcul de vraisemblance explicite. Pour un intégrateur ou une équipe robotique, le paradigme est directement opérationnel : quelques démonstrations pour amorcer la politique (few-shot SFT), puis amélioration continue à partir de l'expérience propre du système. La progression de 40 % à 67,5 % sur robot réel est encourageante, bien que les conditions expérimentales restent circonscrites à deux tâches tabletop contrôlées. Physical Intelligence a lancé pi0 fin 2024, puis pi0.5, des architectures VLA fondées sur le flow-matching devenues un point de référence pour la manipulation généraliste. Q-VGM s'inscrit dans un courant de recherche actif visant à greffer l'apprentissage par renforcement sur ces fondations pré-entraînées, en concurrence avec des approches comme OpenVLA-OFT ou les adaptations RLVR appliquées aux VLA. LIBERO et RoboTwin 2.0 sont des benchmarks standards de manipulation simulée, ce qui rend les comparaisons reproductibles mais soulève la question classique du transfert en conditions réelles non supervisées. La prochaine étape pour ce type de méthode sera de démontrer la robustesse sur des plateformes robotiques variées et dans des environnements moins contrôlés.

RechercheOpinion
1 source
AetheRock : un système d'enseignement robotique porté au bras pour l'apprentissage vision-tactile guidé par la force
170arXiv cs.RO 

AetheRock : un système d'enseignement robotique porté au bras pour l'apprentissage vision-tactile guidé par la force

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.09777) les spécifications d'AetheRock, un dispositif portable fixé à l'avant-bras humain destiné à la collecte synchronisée de données de force, de vision et de toucher pour l'apprentissage robotique. Le système intègre au bout des doigts un capteur visuo-tactile modulaire baptisé GelSlim-MiniFab, conçu pour être fabriqué facilement, ainsi qu'un capteur de pression résistif positionné à la zone de contact du doigt humain, un module PCB sur mesure et un kit ergonomique pour des sessions de collecte prolongées. En parallèle, les auteurs introduisent ForceVT, un framework d'apprentissage par représentation qui exploite les signaux de force et de vision pour guider l'apprentissage tactile de manière agnostique à la fidélité du capteur, c'est-à-dire sans hypothèse rigide sur la qualité ou la cohérence des données tactiles entrantes. Le verrou technique adressé est réel : les capteurs tactiles à base de gel (famille GelSight, GelSlim) souffrent d'inconsistances de fabrication et d'usure qui dégradent les politiques apprises lors du déploiement. ForceVT tente de découpler la représentation apprise des artefacts propres à chaque exemplaire de capteur, ce qui, si confirmé à plus grande échelle, réduirait le coût de calibration et améliorerait le transfert sim-to-real pour les tâches de manipulation en contact riche (assemblage, vissage, insertion de connecteurs). Les expériences en conditions réelles mentionnées dans le preprint indiquent une "efficacité des données qualifiée" et une atténuation des inefficacités liées aux inconsistances, sans cependant fournir de métriques quantitatives précises comparables entre méthodes. AetheRock s'inscrit dans une vague de systèmes de télé-opération et de collecte de démonstrations portables apparus depuis 2023, dont UMI (Universal Manipulation Interface, Stanford) et ALOHA (Berkeley), qui cherchent tous à rendre la collecte de données de manipulation haute qualité moins coûteuse et plus accessible. Le capteur GelSlim-MiniFab est une déclinaison miniaturisée de la famille GelSlim issue des travaux du MIT et de CMU. Du côté des acteurs industriels, Meta Research développe le capteur DIGIT sur une philosophie similaire de faible coût et de reproductibilité. Ce travail est un preprint non encore évalué par les pairs ; les performances annoncées restent à reproduire indépendamment avant toute intégration en production.

RecherchePaper
1 source
Conception d'actionneurs souples poreux à déformation programmable par anisotropie volumétrique
171arXiv cs.RO 

Conception d'actionneurs souples poreux à déformation programmable par anisotropie volumétrique

Des chercheurs présentent dans un preprint arXiv (2512.12320v2) une méthode de conception d'actionneurs pneumatiques souples à base de mousse poreuse, capable de produire des déformations programmées à partir d'incisions géométriques pratiquées directement dans le corps de la mousse. Le principe repose sur une entrée vacuumatique globale unique : selon le motif d'incision appliqué à un substrat cylindrique en mousse élastomère, l'actionneur exécute soit une flexion (motif transversal, jusqu'à 80° avec N=2 rangées de découpes), soit un basculement (motif longitudinal, 18°, N=1), soit une torsion (motif diagonal, 115°, N=8). Les angles de déformation sont validés expérimentalement et corrélés à un modèle de simulation par éléments finis (FEA). En application finale, les auteurs ont traduit la carte des plis de la main humaine en un patron d'incision fonctionnel, produisant une main robotique souple capable de saisies adaptatives anthropomorphes, sans recours à des moules complexes. L'intérêt industriel de cette approche tient à l'élimination du lien fort entre géométrie de l'actionneur et type de mouvement, qui est la contrainte principale des actionneurs pneumatiques creux classiques (chambres élastomères de type PneuNets ou fiber-reinforced). Ici, un même substrat cylindrique standard produit trois modalités distinctes selon la seule variable du motif de découpe, ce qui simplifie radicalement le processus de prototypage et ouvre la voie à des actionneurs reconfigurables sans refonte de moule. Pour les intégrateurs en cobotique légère, chirurgie assistée, ou manipulation de produits fragiles, le prototypage sans moule et la scalabilité revendiquée réduisent le délai d'itération de conception. Les performances annoncées (notamment la torsion à 115°) sont issues d'essais expérimentaux dont le protocole reste limité à l'article, sans données de durabilité cyclique ni de charge utile. Les actionneurs souples pneumatiques à chambre creuse dominent le domaine depuis les travaux fondateurs de la Harvard Whitesides Group et du projet Soft Robotics Toolkit (2013-2018). Les approches concurrentes mobilisent la solidification granulaire (jamming), les matériaux à rigidité variable, ou les actionneurs à câbles tendus. L'utilisation de mousse poreuse comme substrat fonctionnel reste relativement peu explorée malgré ses propriétés de stabilité structurelle intrinsèque. Ce travail reste au stade académique : aucun partenaire industriel, aucune timeline de transfert ni pilot annoncés dans le preprint. Les prochaines étapes naturelles seraient la caractérisation en durée de vie, le test sous charge, et l'intégration dans des systèmes multi-actionneurs coordonnés.

RecherchePaper
1 source
IntentNav : apprendre la navigation spatiale vers des objets à partir de démonstrations humaines
172arXiv cs.RO 

IntentNav : apprendre la navigation spatiale vers des objets à partir de démonstrations humaines

Une équipe de recherche anonyme a soumis le 9 juin 2026 un préprint arXiv (2606.08029) présentant IntentNav, un framework d'imitation spatiale et visuelle pour la navigation autonome par objets (ObjectNav). La tâche consiste à envoyer un robot chercher un objet non observé dans un environnement inconnu, sans carte préalable, en décidant en temps réel où explorer sous observabilité partielle. L'architecture repose sur deux briques complémentaires : une mémoire BEV (Bird's Eye View) qui encode les régions explorées, les frontières inexplorées et l'historique de trajectoire, et une mémoire visuelle égocentrique qui associe des indices sémantiques à chaque frontière candidate. Un modèle de langage et de vision (VLM) est entraîné sur des démonstrations humaines pour sélectionner la prochaine frontière à explorer, guidé par un "Frontier-based Human-Intent Labeling" qui inspecte en avant les trajectoires humaines pour identifier quelle frontière explique le mieux la direction de recherche du démonstrateur. Les auteurs annoncent des performances état de l'art sur les benchmarks MP3D, HM3D-v1 et HM3D-v2. Le point le plus saillant pour les intégrateurs est le transfert zéro-shot : la même politique VLM, sans fine-tuning supplémentaire, est transférée à trois morphologies distinctes, robot à roues, quadrupède et humanoïde. Cela suppose que l'interface candidate-level fonctionne comme une couche d'abstraction suffisamment générique pour s'affranchir des particularités cinématiques propres à chaque plateforme. Pour un COO industriel, cela ouvre la perspective d'un seul modèle de navigation entraîné sur des démonstrations humaines capable de piloter des flottes hétérogènes sans retraining par morphologie. Réserve importante : la démonstration sim-to-real reste confinée aux benchmarks de simulation Matterport3D et HM3D ; aucun résultat sur hardware physique réel n'est rapporté dans le préprint, ce qui laisse entier le gap entre benchmark et déploiement terrain. IntentNav s'inscrit dans un champ actif où des approches concurrentes comme SemExp (Chaplot et al., 2020), ZSON (Majumdar et al., 2022) ou les méthodes VLM zéro-shot telles qu'EmbodiedGPT et OpenFMNav se disputent la tête des benchmarks HM3D. La contribution distinctive est l'extraction d'intention de haut niveau à partir d'actions humaines de bas niveau via le labeling de frontières, une alternative à l'apprentissage par renforcement pur qui souffre de la rareté des récompenses dans les grands espaces d'exploration. La soumission étant anonyme, affiliations et financements ne sont pas divulgués ; une page projet est référencée sans contenu pleinement accessible à ce stade.

RechercheOpinion
1 source
Algorithme de cinématique inverse par branch-and-bound à intervalles pour la résolution globalement optimale de la redondance
173arXiv cs.RO 

Algorithme de cinématique inverse par branch-and-bound à intervalles pour la résolution globalement optimale de la redondance

Un préprint révisé sur arXiv (identifiant 2104.12183v2) propose une méthode d'embranchement et de délimitation par intervalles (interval branch-and-bound) pour résoudre le problème général de cinématique inverse (IK) des bras manipulateurs. L'objectif central est de calculer la variété d'auto-mouvement (self-motion manifold, SMM) : l'ensemble complet de toutes les configurations articulaires admissibles permettant d'atteindre une pose précise de l'effecteur terminal. L'algorithme combine cette exploration exhaustive avec un solveur IK numérique rapide utilisé comme heuristique de recherche pour accélérer le parcours de l'espace de solutions. Les expériences numériques portent sur des manipulateurs redondants et non redondants, sans préciser de plateforme hardware particulière ni de robot commercial testé. L'intérêt principal de cette approche réside dans la nature de ses sorties : là où les méthodes par échantillonnage (sampling-based) génèrent des solutions isolées et indépendantes dans l'espace articulaire, la méthode proposée produit des nappes de solutions voisines qui préservent la géométrie locale de la SMM. Cette continuité est précieuse pour la planification de trajectoires optimales, le contrôle en temps réel et l'évitement de singularités. L'algorithme fonctionne également en mode anytime : il retourne des solutions sous-optimales utilisables même si le calcul est interrompu avant convergence complète, propriété utile dans les systèmes à contraintes temps-réel. Cela dit, la validation reste purement numérique en simulation, sans tests sur hardware physique ni benchmarks comparatifs face aux solveurs IK courants tels que KDL, TRAC-IK ou BioIK, ce qui limite la portée des affirmations de performance. Publié initialement en 2021 puis révisé (v2), ce travail s'inscrit dans une ligne de recherche active autour de la résolution globale de l'IK pour bras redondants, défi classique en robotique industrielle et collaborative. Les approches concurrentes incluent les méthodes analytiques (limitées aux architectures simples), les solveurs numériques locaux (rapides mais sensibles aux minima locaux) et les méthodes d'apprentissage automatique (coûteuses à entraîner, peu généralisables hors distribution). La contribution est algorithmique et théorique ; aucune implémentation open-source ni intégration dans des frameworks standards comme MoveIt! n'est mentionnée, ce qui constitue la prochaine étape naturelle vers une adoption industrielle concrète.

RecherchePaper
1 source
Formation de formes pour le transport coopératif d'objets quelconques par apprentissage par renforcement multi-agents
174arXiv cs.RO 

Formation de formes pour le transport coopératif d'objets quelconques par apprentissage par renforcement multi-agents

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.09610v1) une approche par apprentissage par renforcement multi-agents (MARL) pour résoudre un problème concret de robotique collaborative : positionner automatiquement un groupe de robots mobiles sous un objet afin de le transporter de façon stable. La méthode décompose la tâche en trois sous-problèmes couplés, contrôle de formation, navigation coopérative et évitement de collisions, et produit des politiques permettant à la flotte de s'aligner sous l'objet, d'équilibrer son poids malgré une distribution de masse non uniforme, et de naviguer dans des environnements encombrés. Les expériences portent sur des configurations variées (nombre de robots variable, géométries d'objets complexes, scènes avec obstacles) sans que les auteurs précisent le nombre exact de robots testés ni les temps de cycle obtenus. Le principal apport industriel de ces travaux est la généralisation à des objets de forme arbitraire et à masse mal distribuée, ce qui représente la réalité de la plupart des charges en logistique ou en services. Les approches classiques supposent des objets symétriques ou des points de contact prédéfinis manuellement ; ici, la politique apprise s'adapte au vol à la géométrie de la charge. Pour un intégrateur ou un COO industriel, cela signifie potentiellement moins de paramétrage manuel par référence produit. Le paper démontre également une robustesse en environnement encombré, ce qui est un prérequis pour un déploiement en entrepôt réel. Il faut toutefois noter que les résultats présentés restent en simulation : aucune validation hardware n'est rapportée, et le fossé sim-to-real reste l'obstacle non résolu habituel de ce type de travaux. Ce preprint s'inscrit dans un courant actif de recherche MARL appliqué aux systèmes multi-robots physiques, en compétition avec des approches centralisées (planification MPC couplée) ou décentralisées par consensus. Côté industrie, des acteurs comme 6 River Systems, Locus Robotics ou les plateformes AMR d'OTTO Motors adressent des problèmes adjacents mais avec des charges standardisées sur des robots dédiés. Aucun partenariat industriel ni timeline de transfert vers le réel n'est mentionné dans cet article ; il s'agit d'une contribution académique ouvrant la voie à des validations expérimentales futures.

RecherchePaper
1 source
IA incarnée : traduire les actions en images de mouvement et de contact pour les modèles du monde
175arXiv cs.RO 

IA incarnée : traduire les actions en images de mouvement et de contact pour les modèles du monde

Des chercheurs proposent iMaC (Image as Action Control), un paradigme de contrôle robotique publié en juin 2026 sur arXiv (2606.09813), qui substitue aux vecteurs d'action structurés de faible dimension - angles articulaires et poses d'effecteur terminal - des images visuelles brutes comme représentation native des actions dans les modèles de monde incarnés. L'architecture comprend deux branches : un encodeur image-action qui compresse des images cibles en embeddings d'action compacts, et un prédicteur de monde dynamique conditionné sur ces tokens visuels pour prédire les états futurs et assurer le contrôle en boucle fermée. Des expériences sur des benchmarks publics de manipulation incarnée et des scénarios réels montrent qu'iMaC dépasse les baselines vectorielles en précision de prédiction, taux de succès et généralisation inter-scènes. L'enjeu central est la généralisation inter-embodiment, l'un des verrous majeurs de la robotique incarnée. Les approches conventionnelles encodent des espaces d'action définis manuellement - cinématique propre à chaque plateforme - ce qui bride la portabilité entre bras industriels, manipulateurs mobiles et humanoïdes. En traitant l'image comme token d'action, iMaC encapsule implicitement les intentions de mouvement spatial, les contraintes géométriques et les dynamiques physiques, sans redéfinir l'espace d'action pour chaque robot. Pour les intégrateurs et les équipes R&D, cela ouvre la perspective d'un contrôleur unique déployable sur des flottes hétérogènes - bras Franka, UR, humanoïdes - sans reconfiguration. Nuance importante : l'article valide la méthode sur des "real-world robotic scenarios" sans préciser les plateformes ni les métriques de déploiement, ce qui invite à une lecture prudente des gains annoncés. iMaC s'inscrit dans la vague des modèles de monde incarnés et des architectures VLA (Vision-Language-Action) qui structurent la recherche robotique depuis 2023-2024, aux côtés de pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). Sa singularité tient à l'abandon des encodages cinématiques explicites au profit d'une représentation visuelle continue, une piste explorée différemment via les action-chunking transformers dans des travaux académiques récents. À ce stade, iMaC demeure une préimpression arXiv, sans déploiement industriel ni partenariat avec un constructeur de robots. Les prochaines étapes naturelles passeraient par une validation sur des plateformes standardisées comme ALOHA ou BridgeData V2, et une confrontation sur les benchmarks RLBench ou MetaWorld pour objectiver les gains de généralisation revendiqués.

RechercheOpinion
1 source
ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action
176arXiv cs.RO 

ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action

Une équipe de recherche a publié sur arXiv (arXiv:2606.09740) ProbeAct, un framework d'intervention à l'exécution conçu pour détecter et corriger les échecs de saisie et de placement dans les modèles Vision-Language-Action (VLA) pré-entraînés, sans modifier leurs poids ni nécessiter de démonstrations supplémentaires. Le système repose sur trois composants couplés : une sonde légère sur les états cachés du modèle qui prédit les positions 3D des objets pertinents à partir des features intermédiaires du VLA (avec suivi d'identité par algorithme hongrois pour les scènes multi-objets) ; une machine à états cinématiques agnostique à l'objet qui détecte les défaillances de saisie, de transport et de placement via les signaux internes du préhenseur et la cinématique de l'effecteur terminal ; enfin, un filtre hiérarchique par Control Barrier Function (CBF) qui encode les zones d'échecs répétés comme contraintes soft sur l'ensemble de sécurité, corrigeant minimalement les actions du VLA sans altérer son comportement nominal. Évalué sur le benchmark LIBERO-plus, ProbeAct améliore le taux de succès d'OpenVLA-OFT de 69,6 % à 74,1 %. Un gain de 4,5 points de taux de succès peut sembler modeste, mais il intervient sur un problème structurel bien identifié des VLA : leur fragilité hors distribution. Ces modèles échouent régulièrement face à des variations de luminosité, des changements de point de vue caméra, ou de légères variations d'état initial, autant de conditions triviales dans un déploiement industriel réel. L'intérêt de ProbeAct est précisément d'être plug-and-play, orthogonal aux pipelines d'entraînement existants, et applicable aussi bien aux modèles de base qu'aux versions fine-tunées. Pour un intégrateur, cela signifie un filet de sécurité superposable sur n'importe quel VLA sans coût de ré-entraînement, ce qui réduit concrètement le gap entre performance en benchmark et robustesse terrain. Les VLA ont connu une accélération notable depuis 2023 avec des modèles comme RT-2 (Google DeepMind), OpenVLA (UC Berkeley) ou pi-0 (Physical Intelligence), mais leur fragilité aux perturbations reste un frein reconnu à la commercialisation. Les approches existantes pour y remédier passent généralement par de l'augmentation de données ou du fine-tuning ciblé, coûteux en temps et en annotations. ProbeAct s'inscrit dans une alternative émergente : la correction à l'inférence, sans toucher au modèle. Il s'agit pour l'instant d'un preprint arXiv, sans déploiement annoncé ni partenaire industriel mentionné ; les prochaines étapes naturelles seraient une validation sur hardware réel hors benchmark simulé.

RechercheOpinion
1 source
Robot 3D à sauts robustes assisté par hélices avec allocation hiérarchique des forces
177arXiv cs.RO 

Robot 3D à sauts robustes assisté par hélices avec allocation hiérarchique des forces

Des chercheurs présentent Pro-OMEGA2, un robot monopatte sauteur 3D assisté par hélices, publié en préimpression sur arXiv (arXiv:2606.08186, juin 2026). Le système intègre une jambe parallèle à mécanisme 3-RSR actif, soit trois degrés de liberté en configuration parallèle, et un tri-rotor monté sur le tronc pour la régulation d'attitude auxiliaire. L'ensemble est gouverné par un cadre baptisé Hierarchical Force Allocation (HFA), fondé sur un modèle de corps rigide unique (Single Rigid Body, SRB) : la jambe prend en charge le torseur de contact principal en phase d'appui, tandis que le tri-rotor compense le moment d'attitude résiduel et assure la stabilisation pendant la phase de vol. Des expériences menées en intérieur et en extérieur valident le saut continu en 3D, les transitions de terrain et la récupération après des perturbations impulsives. Le problème adressé est structurel pour la classe des robots monopattes sauteurs : mécaniquement simples, ces systèmes sont sous-actionnés pendant la phase de vol, moment où les forces de réaction au sol sont absentes et l'autorité de contrôle quasi nulle. L'approche HFA se distingue par une hiérarchisation explicite des rôles selon la phase de locomotion, ce qui évite les conflits de commande entre jambe et hélices, un écueil classique des systèmes hybrides. La robustesse face à des contacts non modélisés et à des perturbations externes est un signal positif pour le transfert sim-to-réel. Il faut toutefois noter que la publication est un preprint non évalué par les pairs, les métriques de performance précises (fréquence de saut, payload, consommation énergétique) n'étant pas détaillées dans le résumé disponible. Pro-OMEGA2 s'inscrit dans une lignée au moins biversionnée, le suffixe "2" impliquant un prédécesseur. Les architectures hybrides pattes-propulseurs ont déjà été explorées par ETH Zurich sur ANYmal avec propulseurs intégrés, par Georgia Tech avec le robot Harpy, ou encore par KAIST sur diverses plateformes dynamiques. Pro-OMEGA2 se distingue de ces travaux par son architecture strictement monopatte et l'allocation hiérarchique formalisée stance/vol. Les étapes naturelles incluent des tests en environnements non structurés plus complexes, une analyse du compromis énergétique entre propulsion aérienne et efficacité locomotrice, et la confrontation à des benchmarks standardisés de la communauté robotique agile.

RecherchePaper
1 source
Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion
178arXiv cs.RO 

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

Une équipe de chercheurs propose dans un preprint arXiv publié en juin 2026 (réf. 2606.08657) une architecture baptisée Latent Diffusion Policy (LDP), conçue pour améliorer les politiques visuomotrices basées sur la diffusion appliquées à la manipulation robotique. LDP fonctionne en deux étapes : un encodeur CVAE (variational autoencoder conditionnel) conditionné par l'observation absorbe d'abord la compréhension de la scène, puis un modèle de flow matching génère les trajectoires dans cet espace latent pré-structuré. Pour gérer les dépendances temporelles entre tokens, les auteurs introduisent un entraînement par diffusion forcing par token et un schéma d'inférence en escalier (staircase inference sampling) pour corriger le décalage de distribution qui en résulte. Ils proposent également la rFID (reconstruction FID) comme métrique proxy légère permettant de prédire le succès d'une tâche à partir des seules statistiques de l'espace latent, sans nécessiter d'évaluation complète en simulation. Sur le benchmark RoboTwin 2.0, LDP surpasse DP3 par une marge qualifiée de "substantielle", et les auteurs rapportent un transfert effectif vers des déploiements réels en manipulation bimanuelle. L'enjeu technique central que LDP cherche à résoudre est réel : les politiques de diffusion opérant directement dans l'espace d'action brut imposent à un seul processus de débruitage de gérer simultanément l'interprétation de la scène et la planification précise de trajectoires, ce qui augmente la complexité d'apprentissage et pénalise notamment les tâches exigeant une coordination temporelle fine entre plusieurs bras. Séparer ces deux responsabilités dans un cadre à deux étages est une approche structurellement cohérente. La rFID, si elle se confirme empiriquement, pourrait réduire significativement le coût d'évaluation des politiques en simulation. Cela dit, l'abstract ne fournit pas de chiffres de performance quantitatifs précis, ce qui rend difficile l'évaluation indépendante de la "marge substantielle" revendiquée face à DP3. Ce travail s'inscrit dans un champ très actif depuis la publication de Diffusion Policy (Chi et al., 2023) et de DP3, qui ont établi la diffusion comme paradigme dominant pour l'imitation de comportements robotiques complexes. Le flow matching, plus efficace que la diffusion classique en nombre d'étapes d'inférence, s'y impose progressivement. Les approches concurrentes incluent ACT, RDT-1B et pi-zero (Physical Intelligence), qui explorent d'autres voies pour combiner compréhension visuelle et contrôle moteur à grande échelle. LDP reste pour l'instant un résultat académique sans annonce de déploiement industriel ou de partenariat commercial, et RoboTwin 2.0 est un benchmark de simulation dont le gap sim-to-réel méritera une validation plus large.

RechercheOpinion
1 source
Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes
179arXiv cs.RO 

Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (référence 2606.08775) un framework baptisé WorldDP, conçu pour résoudre le problème de la manipulation robotique multi-étapes. L'architecture est hiérarchique : un modèle du monde de haut niveau sert de fonction de transition au sein d'un cadre MPC (Model Predictive Control) et optimise des sous-objectifs intermédiaires à l'exécution, tandis qu'une Diffusion Policy de bas niveau se charge d'atteindre concrètement chacun de ces sous-objectifs. Pour structurer la planification, les auteurs introduisent des représentations object-centric qui découplent les entités de l'environnement, permettant au planificateur de raisonner séquentiellement sur chaque objet indépendamment. Évalué sur plusieurs benchmarks de manipulation robotique standards, WorldDP surpasse les baselines existantes selon les auteurs, résultat à prendre comme une affirmation de preprint, sans replication externe à ce stade. Ce travail s'attaque à un verrou reconnu du domaine : les modèles du monde visuels, aussi performants soient-ils sur des tâches isolées comme le reaching ou le grasping, échouent structurellement dès que la tâche exige plusieurs étapes causalement enchaînées. Pour un intégrateur ou un COO industriel, cela touche directement à l'exploitabilité réelle des robots manipulateurs en ligne de production, où les séquences pick-and-place complexes sont la norme. Le couplage entre la planification physiquement ancrée d'un world model et l'exécution fluide d'une Diffusion Policy représente une piste sérieuse pour réduire le sim-to-real gap sur des tâches longue horizon, sans nécessiter de démonstrations humaines exhaustives pour chaque variante de tâche. La Diffusion Policy, popularisée par Chi et al. en 2023, est devenue l'une des architectures de référence pour l'imitation learning en robotique, mais elle reste principalement réactive et peu adaptée au raisonnement causal multi-étapes. Les approches VLA (Vision-Language-Action), portées par Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, intègrent du raisonnement de haut niveau mais via des LLM, avec une latence et un coût computationnel élevés. WorldDP explore une voie intermédiaire, purement visuelle et sans langage, plus proche en philosophie des travaux sur les modèles du monde latents (DreamerV3, RSSM). Il s'agit d'un preprint académique sans déploiement industriel annoncé ; les prochaines étapes naturelles seraient une validation sur hardware réel et des benchmarks comparatifs face aux pipelines VLA actuels.

RechercheOpinion
1 source
Daimon Robotics et Galbot lancent RobOmni pour évaluer la perception tactile et la manipulation dextérique
180Robotics Business Review 

Daimon Robotics et Galbot lancent RobOmni pour évaluer la perception tactile et la manipulation dextérique

Daimon Robotics, entreprise de Hong Kong spécialisée dans la perception tactile et la manipulation dextre, a présenté RobOmni lors de l'ICRA 2026, en partenariat avec Galbot. Il s'agit du premier benchmark d'évaluation omni-modal intégrant la perception tactile pour les interactions physiques en robotique. La plateforme, construite sur NVIDIA Isaac Sim, standardise l'évaluation de tâches de manipulation au contact : saisie d'objets, insertion de précision, assemblage de composants et placement. RobOmni capture simultanément plusieurs flux de données, capteurs tactiles haute résolution au bout des doigts, vision RGB montée au poignet, état de la pince, trajectoires TCP et observations de caméras externes, pour évaluer les systèmes robotiques selon cinq dimensions : taux de succès, efficacité de manipulation, capacité de manipulation dextre, événements d'échec (glissement, coinçage, collision, nouvelle tentative) et robustesse de généralisation. Ce lancement répond à un manque structurel dans l'industrie : l'absence de cadre standardisé pour mesurer l'apport réel du sens tactile par rapport à la perception purement visuelle. Sans benchmark unifié, il est impossible de comparer les systèmes, de quantifier les progrès ou d'identifier quelles données tactiles améliorent concrètement les tâches réelles. Pour les intégrateurs industriels et les décideurs B2B qui évaluent des bras manipulateurs pour des lignes d'assemblage ou de service, ce vide est critique : une manipulation fiable dans des environnements non structurés requiert de détecter le glissement, la déformation du contact ou la rigidité d'un matériau lors d'un emboîtement, autant de signaux que la vision seule ne peut pas capturer. RobOmni propose de quantifier systématiquement cet apport, ce qui permettrait notamment de comparer des architectures VLA (Vision-Language-Action) avec et sans retour tactile sur des tâches identiques. Daimon Robotics a développé ses propres capteurs tactiles basés sur la vision, capables de mesurer non seulement la force de contact mais aussi la déformation, le glissement, les propriétés de matériau, la texture et la dureté, à haute fréquence et haute résolution. Galbot, partenaire du projet, apporte son expertise en robotique mobile et manipulation. Si aucune métrique de performance comparative ni timeline de déploiement commercial ne sont encore publiées, ce lancement reste à ce stade une annonce de framework de recherche, pas un produit expédié, le positionnement à l'ICRA 2026 signale une ambition de standardisation sectorielle. Les concurrents dans l'espace des benchmarks robotiques, notamment Google DeepMind (RoboVerse) et Meta (PARTNR), n'intègrent pas la modalité tactile comme dimension centrale d'évaluation. RobOmni comble potentiellement ce vide, à condition que la communauté adopte le framework comme référence commune.

RecherchePaper
1 source
Vidéo : un robot maîtrise l'air hockey et bat des humains sans jamais toucher une vraie table
181Interesting Engineering 

Vidéo : un robot maîtrise l'air hockey et bat des humains sans jamais toucher une vraie table

Une équipe de trois étudiants de l'Université de la Colombie-Britannique (UBC) a développé une table de air hockey contrôlée par intelligence artificielle, capable d'affronter des joueurs humains sans avoir jamais été entraînée sur une vraie table. Le système repose sur un transfert simulation-réel (sim-to-real) : l'agent IA a été entraîné exclusivement dans un jumeau numérique haute-fidélité de la table, via une méthode d'apprentissage par renforcement appelée "soft actor-critic" (SAC), qui remplace les moteurs physiques classiques comme Unity ou Unreal pour accélérer les itérations sur des millions de parties simulées. Une fois le modèle entraîné, il a été transféré directement dans le robot physique, équipé d'une caméra aérienne à 120 images par seconde et d'un palet recouvert de bande rétroréfléchissante pour améliorer le tracking. Résultat : l'IA s'est montrée compétitive face à un adversaire humain dès le premier contact avec la table réelle, sans phase d'adaptation supplémentaire. Ce qui rend ce résultat notable, c'est la gestion explicite du "reality gap", le fossé qui sépare habituellement les performances en simulation de celles dans le monde réel. Le air hockey est un cas particulièrement difficile : le palet se déplace à grande vitesse, ses rebonds sont chaotiques, et le système doit absorber des latences caméra, des fluctuations de tension, des vibrations mécaniques et un tracking imparfait. L'équipe a répondu à ce problème par ce qu'on appelle la "domain randomization" : plutôt que de simuler une table parfaite, ils ont introduit délibérément des imperfections, rails inégaux, rebonds inconsistants, chutes d'alimentation, latence variable, pour forcer l'agent à raisonner en termes de distributions de positions probables plutôt qu'en trajectoires exactes. C'est une approche qui contredit le réflexe habituel de "nettoyer" les simulateurs, et dont les résultats suggèrent que l'imperfection contrôlée peut être un levier d'apprentissage plus robuste que la précision physique maximale. Sur le plan du contexte, ce projet étudiant s'inscrit dans un effort de recherche plus large sur les transferts sim-to-real pour les systèmes autonomes, thème central dans la robotique de manipulation, les drones et les véhicules autonomes. Il ne s'agit pas d'un produit commercialisé ni d'un déploiement industriel, mais d'une preuve de concept académique dont le code est disponible sur GitHub. Les laboratoires travaillant sur des agents de manipulation à grande échelle, comme Physical Intelligence (Pi) avec pi-0 ou des équipes universitaires spécialisées en sim-to-real, explorent des problèmes analogues sur des environnements bien plus complexes. Ce qui distingue ce travail, c'est la clarté méthodologique et la reproductibilité revendiquée : si l'approche tient à plus grande échelle, la domain randomization couplée au SAC pourrait réduire significativement les coûts et délais d'entraînement de robots autonomes dans des environnements industriels non structurés.

RecherchePaper
1 source
Robot Talk, épisode 159 : captation sensorielle et manipulation robotique, avec Maria Koskinopoulou
182Robohub 

Robot Talk, épisode 159 : captation sensorielle et manipulation robotique, avec Maria Koskinopoulou

Maria Koskinopoulou, maître de conférences en robotique et vision par ordinateur à l'université Heriot-Watt (Édimbourg), était l'invitée du 159e épisode du podcast Robot Talk animé par Claire Asher. Co-directrice de l'ARM²Lab (Autonomous Robotic Manipulation and Multi-Agent Systems Lab) au sein du National Robotarium britannique, aux côtés d'Ignacio Carlucho, elle y présente ses travaux sur la manipulation robotique autonome appliquée à la chirurgie, à l'industrie manufacturière et à des domaines émergents comme la robotique sous-marine et le tri de déchets. Ses projets sont financés par le UKRI (UK Research and Innovation) et des programmes européens, sans que des montants ou des échéances précises ne soient communiqués dans cet épisode. L'intérêt de ces travaux réside dans la convergence de plusieurs verrous technologiques : perception visuelle embarquée, interaction homme-robot, et apprentissage automatique appliqué à des environnements non structurés. La robotique chirurgicale et le tri autonome de déchets représentent deux cas d'usage où le gap sim-to-real reste un obstacle majeur, et où les approches multi-agents peuvent offrir une redondance opérationnelle pertinente pour les intégrateurs industriels. Le National Robotarium, inauguré en 2022 à Édimbourg avec un financement de 22,4 millions de livres sterling du gouvernement écossais et de Heriot-Watt University, positionne le Royaume-Uni comme acteur de premier plan en robotique appliquée post-Brexit. L'ARM²Lab s'inscrit dans un écosystème concurrentiel où des laboratoires comme le Dynamic Robot Systems Group d'Oxford ou le LIRMM en France travaillent sur des problématiques similaires. Cet épisode reste une présentation de recherche académique en cours, sans annonce de produit ni de déploiement commercial.

UELes travaux de l'ARM²Lab bénéficient de financements de programmes européens et s'inscrivent dans un écosystème de recherche en manipulation autonome que partagent des laboratoires français comme le LIRMM, sans déploiement commercial ni impact direct sur le marché européen.

RecherchePaper
1 source
La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?
183arXiv cs.RO 

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

Une équipe de chercheurs publie sur arXiv (référence 2507.06219) une étude systématique sur le rôle de la diversité des données dans l'apprentissage de la manipulation robotique, remettant en cause l'intuition du "plus c'est divers, mieux c'est". Trois dimensions sont examinées indépendamment. La diversité des tâches s'avère plus critique que le volume de démonstrations par tâche pour le transfert vers de nouveaux scénarios. L'entraînement multi-robots (multi-embodiment) n'est pas nécessaire au transfert inter-plateformes : un modèle entraîné sur un seul type de robot avec des données de haute qualité transfère aussi efficacement, avec de meilleures propriétés de scaling au fine-tuning. Enfin, la diversité des experts humains peut nuire à l'apprentissage via la multimodalité des vitesses d'exécution, chaque opérateur ayant ses propres rythmes et préférences gestuelles. Pour corriger ce biais, les auteurs introduisent une méthode de distribution debiasing appliquée à leur modèle GO-1-Pro, qui gagne 15% de performance, l'équivalent de multiplier par 2,5 le volume de pré-entraînement. Ces résultats ont des implications directes pour les équipes qui conçoivent des pipelines de collecte de données. La conclusion sur le multi-embodiment est particulièrement contre-intuitive : constituer un corpus mono-robot de haute qualité avant de fine-tuner est plus efficace qu'accumuler des datasets disparates multi-robots. Pour un intégrateur ou un décideur industriel, cela redéfinit les priorités de curation : couvrir un maximum de tâches prime sur l'accumulation brute de démonstrations, et standardiser les démonstrations expert devient un levier de performance mesurable. La multimodalité des vitesses est désormais un biais identifiable et corrigeable en amont du pipeline, pas une fatalité inhérente à la collecte humaine. Ce travail s'inscrit dans la dynamique portée par Google DeepMind (RT-2), Physical Intelligence (Pi-0) et les équipes de Berkeley (OpenVLA, Octo), qui cherchent à construire des fondations généralistes pour la manipulation depuis 2023. Contrairement au texte ou aux images, les données de démonstration robotique restent coûteuses à produire, ce qui rend les choix de stratégie de scaling particulièrement stratégiques. Les conclusions orientent directement les acteurs comme Figure AI (Figure 03), Agility Robotics ou, en France, Enchanted Tools (Mirokaï), qui investissent dans de larges datasets de manipulation. Ce travail est purement académique : aucun déploiement ni partenariat commercial n'est annoncé.

UEEnchanted Tools (Mirokaï) est explicitement citée comme acteur concerné par ces stratégies de scaling des données de manipulation, rendant les conclusions directement applicables à leur R&D en France.

RecherchePaper
1 source
PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes
184arXiv cs.RO 

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Une équipe de chercheurs du laboratoire DAVIAN a publié en juin 2026 PHUMA (Physically Reliable HUMAnoid locomotion dataset), un corpus de 73 heures de données de locomotion humanoide produit via un pipeline en deux étapes : une curation physiquement consciente suivie d'un retargeting contraint par des lois physiques. La base de données agrège à la fois des données de motion capture traditionnelles et des vidéos issues d'internet, les deux étant traitées pour éliminer les artefacts physiques récurrents dans les datasets existants, notamment le flottement, la pénétration géométrique et le foot skating. Entraînées sur PHUMA, les politiques de contrôle obtiennent des taux de succès supérieurs à ceux obtenus avec AMASS et Humanoid-X sur les benchmarks de motion tracking standards, et transfèrent en zero-shot vers un Unitree G1 réel. Le code et les données sont disponibles publiquement via davian-robotics.github.io/PHUMA. Le principal verrou que PHUMA prétend lever est la qualité physique des données d'entraînement pour l'imitation de mouvement humanoide. Les approches par imitation sont attractives parce qu'elles permettent d'acquérir des comportements naturels sans reward engineering fastidieux, mais leur efficacité dépend directement de la cohérence physique des données sources. Les artefacts présents dans les datasets basés sur des vidéos internet (comme Humanoid-X) se propagent dans les politiques entraînées, produisant des robots qui glissent ou oscillent de façon instable. La démonstration de transfert zero-shot sur un Unitree G1 physique est le point le plus concret : elle suggère que le filtrage physique en amont réduit effectivement le sim-to-real gap, sans fine-tuning additionnel sur hardware. Reste à qualifier l'ampleur du gain : les métriques de benchmarks internes ne se substituent pas à des comparaisons en conditions réelles standardisées. AMASS, publié en 2019, est resté longtemps la référence en motion capture humanoide, mais sa taille limitée et son coût d'acquisition ont freiné la scalabilité des approches data-driven. Humanoid-X a tenté de combler ce vide en exploitant des vidéos YouTube à grande échelle, au prix d'une dégradation qualitative. PHUMA s'inscrit dans une dynamique plus large où plusieurs équipes cherchent à constituer des datasets de locomotion humanoide à la fois volumineux et physiquement valides, en parallèle des travaux de Figure AI (Figure 03), Boston Dynamics, et des équipes derrière GR00T N2 chez NVIDIA. La prochaine étape logique serait de tester PHUMA sur d'autres plateformes humanoïdes commerciales (H1, Digit) et d'élargir les tâches au-delà de la locomotion simple vers la manipulation en déplacement.

UELe dataset PHUMA étant en accès libre, les équipes de recherche européennes en locomotion humanoïde (INRIA, CEA-List, LAAS-CNRS) peuvent l'intégrer directement dans leurs pipelines d'entraînement sans coût d'acquisition.

RecherchePaper
1 source
Apprentissage de la représentation du contact pour l'odométrie des jambes
185arXiv cs.RO 

Apprentissage de la représentation du contact pour l'odométrie des jambes

Une équipe de chercheurs a publié sur arXiv (référence 2606.05501) une approche d'apprentissage de représentation auto-supervisée pour la détection de contact dans les robots à pattes, visant à améliorer l'odométrie locomotrice sans recourir à des capteurs de force aux extrémités. Le système repose exclusivement sur les encodeurs articulaires standard, présents sur la quasi-totalité des plateformes commerciales existantes. En modélisant les phases d'appui et de vol (stance et swing) de façon probabiliste, le framework permet d'estimer la vitesse du corps principal à partir de la chaîne cinématique des membres, en s'appuyant sur l'hypothèse classique que la vitesse du pied par rapport au monde est nulle en phase d'appui. Les résultats expérimentaux indiquent des performances supérieures aux méthodes supervisées nécessitant des capteurs additionnels et aux approches probabilistes de référence. Le code est publié en open source. L'enjeu est concret : l'odométrie par jambes est une brique fondamentale pour la navigation autonome des robots quadrupèdes et bipèdes, notamment lorsque le GNSS ou la vision sont dégradés. Or, les capteurs de réaction au sol (GRF sensors) alourdissent les pieds, augmentent la complexité mécanique et sont souvent aveugles aux glissements en contact, ce qui produit des dérives d'estimation même lorsque le pied est techniquement "posé". En éliminant cette dépendance sensorielle, cette approche ouvre la voie à un déploiement sur des plateformes à budget contraint, et surtout améliore la robustesse sur surfaces glissantes ou irrégulières, scénario typique des environnements industriels ou d'inspection. La nature auto-supervisée supprime également le coût d'annotation de données, un frein classique dans les pipelines de locomotion. Le problème de la détection fiable de la phase d'appui est étudié depuis l'essor des robots quadrupèdes comme ANYmal (ANYbotics) et Go1/Go2 (Unitree), ainsi que des bipèdes comme Spot (Boston Dynamics) ou Atlas. La majorité des stacks d'odométrie actuels, y compris ceux utilisés dans des frameworks open source comme Legged Gym ou OCS2, conservent une dépendance aux GRF sensors ou à des heuristiques de seuillage. Cette contribution s'inscrit dans une tendance plus large visant à rendre la locomotion avancée accessible sur des plateformes sans instrumentation de pointe, une direction également explorée par des labos européens comme le DLR ou l'INRIA. La prochaine étape naturelle sera la validation sur plusieurs morphologies de robots et dans des conditions de terrain dégradé, un benchmark que les auteurs n'ont pas encore publié.

UEL'approche intéresse directement des équipes comme l'INRIA qui travaillent sur la locomotion avancée, et pourrait être intégrée sans modification matérielle sur des plateformes européennes à budget contraint.

RecherchePaper
1 source
MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet
186arXiv cs.RO 

MoDex : une politique de diffusion pour la saisie dextérique séquentielle multi-objet

Des chercheurs ont publié MoDex, une politique de diffusion conçue pour saisir séquentiellement plusieurs objets avec une seule main robotique dextère, sans relâcher ceux déjà tenus. Le système, présenté dans un preprint arXiv (2606.05407), a été évalué sur un bras Franka Emika Panda équipé d'une main Allegro à 16 degrés de liberté, en simulation MuJoCo et sur plateforme physique réelle. MoDex prédit la prochaine pose du préhenseur directement depuis les observations, conditionnée sur un nuage de points 3D et un espace dit "d'opposition" qui détermine quels doigts participent à la saisie courante. Ce mécanisme permet de n'utiliser qu'un sous-ensemble des DOF disponibles pour l'objet en cours, en réservant le reste pour les saisies suivantes. L'entraînement se déroule en deux phases : d'abord par imitation learning sur des démonstrations expertes, puis par fine-tuning par renforcement (RL), qui améliore systématiquement les taux de succès. En simulation, MoDex surpasse les baselines d'apprentissage évalués de 2,92 à 17,92 % ; en conditions réelles, le gain s'établit entre 6,67 et 17,78 %. L'enjeu technique est significatif : la quasi-totalité des méthodes de saisie dextère existantes mobilisent l'intégralité des DOF de la main pour chaque objet, la rendant inutilisable pour une prise successive sans reposer les objets intermédiaires. MoDex démontre qu'une politique de diffusion conditionnée sur l'espace d'opposition permet de résoudre ce problème de coordination des doigts avec des gains mesurables, y compris en transfert sim-to-réel. Le fait que le fine-tuning RL améliore systématiquement la politique pré-entraînée confirme l'intérêt de l'approche hybride imitation plus renforcement pour des tâches de manipulation complexe. Pour les intégrateurs industriels et les équipes de robotique, ce résultat suggère que des préhenseurs dextères multi-doigts peuvent être exploités de manière nettement plus efficace qu'aujourd'hui, notamment pour des tâches d'assemblage ou de tri où l'agent doit accumuler plusieurs pièces sans cycle de dépôt intermédiaire. Ce travail s'inscrit dans un champ de recherche actif autour de la manipulation dextère, où la main Allegro, commercialisée par Wonik Robotics, sert de plateforme de référence dans de nombreux laboratoires. Les approches concurrentes incluent des méthodes d'imitation pure comme DexGraspNet ou des politiques RL entraînées sur des saisies à un seul objet. Il s'agit d'un preprint académique sans partenaire industriel annoncé ni calendrier de déploiement. La page projet (modex2026.github.io) et le code sont disponibles, ce qui facilite la reproductibilité. La suite logique serait d'étendre l'évaluation à un plus grand nombre d'objets simultanés et à des géométries plus complexes, et de tester sur des plates-formes alternatives comme la Shadow Hand de Shadow Robot Company.

UELa plateforme Franka Emika Panda, d'origine allemande, est utilisée comme banc de test de référence, ce qui donne aux laboratoires européens un accès direct pour reproduire ces résultats, mais le travail reste académique sans partenariat industriel ou déploiement EU annoncé.

RecherchePaper
1 source
Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation
187arXiv cs.RO 

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

Une étude soumise sur arXiv (arXiv:2606.05588, juin 2026) audit sept métriques de curation de démonstrations robotiques utilisées en apprentissage par imitation. Les chercheurs ont construit un banc d'essai contrôlé dans lequel des défauts sont injectés avec un type connu, puis évalué chaque métrique selon deux axes : sa capacité à séparer démonstrations défectueuses et saines, et son impact réel sur le taux de succès d'une politique de behavior cloning entraînée sur le sous-ensemble filtré. Les perturbations subtiles (bruit d'action corrélé, tremblements, troncatures) sont détectées par scoring outlier multivarié ; leur suppression restaure l'intégralité de l'écart de performance en aval. Les erreurs structurelles, en revanche, où une action incorrecte est exécutée à un moment décisif, restent invisibles à toutes les métriques action-only testées. Deux d'entre elles sont même inversées : elles notent ces démonstrations défectueuses comme étant de meilleure qualité et laissent la politique au niveau ou en dessous de la baseline non filtrée. Seules les métriques examinant la trajectoire d'état détectent ces erreurs, mais même la meilleure ne récupère qu'un tiers de l'écart de performance downstream. Ce résultat interpelle directement les équipes qui entraînent des politiques robotiques à partir de données de téléopération. Le filtrage standard par métriques d'action seules s'avère insuffisant dès que les défauts sont de nature structurelle, précisément les cas les plus difficiles à labelliser manuellement : ceux qu'un opérateur humain commet lors d'une hésitation ou d'un mauvais geste à un instant clé. L'étude établit également que haute précision de détection ne garantit pas d'amélioration downstream, une nuance critique pour toute pipeline industrielle de curation automatique prétendant améliorer la qualité des données à l'échelle. La course à la donnée de démonstration s'est accélérée avec des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques d'Optimus (Tesla), dont les performances en déploiement dépendent directement de la qualité des corpus téléopérés. Avec la multiplication des infrastructures de collecte, la curation automatique est devenue un noeud critique dans les pipelines de formation. Les chercheurs publient le banc d'essai et les implémentations en open source, offrant à la communauté un outil de référence pour auditer rigoureusement tout système de filtrage. Leurs conclusions confirment que la trajectoire d'état doit être intégrée à tout scoring sérieux, et que l'erreur structurelle reste le talon d'Achille des approches action-only.

RecherchePaper
1 source
IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique
188arXiv cs.RO 

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Une équipe de chercheurs publie sur arXiv (identifiant 2606.05660, juin 2026) une revue systématique de la sécurité dans les systèmes d'IA incarnée (embodied AI) appliqués à la manipulation robotique à long horizon. Ce survey structure la littérature selon trois niveaux d'intervention : la sécurité au stade de la planification (planning-time), au niveau de la politique de contrôle (policy-time) et pendant l'exécution (execution-time). Les auteurs identifient quatre vecteurs de risque pouvant s'accumuler dans un même système en boucle fermée : le misgrounding sémantique (l'agent interprète mal l'instruction de haut niveau), la propagation d'erreur entre sous-tâches, la dérive d'exécution (execution drift) et les risques physiques liés aux contacts. Ils distinguent par ailleurs trois catégories de garanties dans la littérature existante : formelles, statistiques et heuristiques empiriques, et concluent que les preuves formelles font défaut à chaque couche. L'enjeu est direct pour les intégrateurs et les décideurs industriels. Un bras robotique déployé en entrepôt ou en ligne de production enchaîne des dizaines d'actions sur des horizons temporels étendus, et chaque sous-tâche peut propager silencieusement une erreur vers les suivantes. Or le survey révèle que la sécurité au niveau de la politique de contrôle, au coeur même des modèles VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est la couche la moins documentée empiriquement. Les mécanismes d'intervention déclenchés par l'incertitude (uncertainty-triggered intervention) restent immatures, et les benchmarks spécifiques à la sécurité en manipulation longue durée sont quasi-inexistants, ce qui rend toute validation rigoureuse avant déploiement aujourd'hui difficile. Ce travail paraît dans un contexte d'accélération industrielle : Figure AI, Boston Dynamics, Unitree et Physical Intelligence multiplient les démonstrations de manipulation dextère, souvent en conditions semi-contrôlées, alimentant un écart potentiel entre annonces marketing et réalité opérationnelle. Il convient de souligner que ce papier est une analyse critique de l'existant, pas un nouveau système ou algorithme. Ses recommandations prioritaires portent sur trois axes : des assurances cross-couche cohérentes de la planification jusqu'à l'exécution physique, des benchmarks dédiés à la sécurité en manipulation longue durée, et des protocoles de déploiement progressifs pour les agents robotiques en environnements réels. En creux, le constat est que les capacités du secteur progressent plus vite que les outils pour en évaluer la sécurité.

UEL'absence de benchmarks formels de sécurité pour la manipulation longue durée concerne directement les industriels européens déployant des bras robotisés, et pourrait alimenter les exigences de validation dans le cadre de l'AI Act pour les systèmes robotiques à haut risque.

RecherchePaper
1 source
Nouveau manipulateur redondant à câbles et joints quaternions : commande par FABRIK et renforcement résiduel
189arXiv cs.RO 

Nouveau manipulateur redondant à câbles et joints quaternions : commande par FABRIK et renforcement résiduel

Des chercheurs ont publié sur arXiv (référence 2606.05236) une nouvelle configuration de bras manipulateur redondant à câbles, contrôlé par apprentissage par renforcement résiduel. L'architecture proposée repose sur 4 segments et 8 joints de type quaternion, une géométrie qui permet d'atteindre un espace de travail plus large que les configurations existantes tout en réduisant le coût matériel. Le point central des résultats : l'algorithme Residual Reinforcement Learning (RRL) surpasse de trois ordres de grandeur l'algorithme FABRIK (Forward And Backward Reaching Inverse Kinematics), référence actuelle du domaine, aussi bien en précision positionnelle qu'orientationnelle. L'implémentation du système de contrôle est décrite dans son intégralité, FABRIK inclus, ce qui rend la méthodologie directement reproductible. Ce résultat est notable parce qu'il s'attaque à un problème structurel des manipulateurs à câbles redondants : leur modèle cinématique, fondé sur des joints quaternion, est non-linéaire et amplifie les écarts entre conception et artefact physique, notamment les imprécisions de fabrication. Le fait que RRL absorbe ces non-linéarités et batte FABRIK de mille fois en précision suggère que l'apprentissage par renforcement résiduel -- qui combine un contrôleur analytique de base avec un réseau correcteur appris -- est une piste sérieuse pour les systèmes hyper-redondants à câbles, là où les méthodes géométriques classiques atteignent leurs limites. Pour les intégrateurs industriels travaillant sur des bras destinés à des espaces confinés (inspection, chirurgie, maintenance aéronautique), c'est un levier de précision sans surcoût hardware majeur. Les manipulateurs redondants à câbles existent depuis plusieurs décennies, mais l'introduction des joints quaternion est récente et a relancé l'intérêt pour cette classe de robots en réduisant le nombre de moteurs par degré de liberté, ouvrant la voie à des architectures plus compactes. Les acteurs industriels positionnés sur les bras flexibles -- dont plusieurs startups européennes dans l'endoscopie et la maintenance -- suivent ces travaux de près. Ce papier reste un preprint sans validation en environnement industriel réel ; les prochaines étapes attendues sont un prototype physique et des tests en workspace obstrué pour confirmer les gains simulés.

UEPlusieurs startups européennes dans l'endoscopie et la maintenance industrielle suivent ces travaux sur les bras à câbles redondants, qui pourraient améliorer leur précision de contrôle sans surcoût hardware, sous réserve de validation sur prototype physique.

RecherchePaper
1 source
La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances
190arXiv cs.RO 

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

Une équipe de chercheurs présente A4D, un système de planification robotique qui raisonne sur ce que les objets permettent de faire plutôt que sur leur apparence visuelle. Publié sur arXiv (ref. 2606.05533), le système encode les observations visuelles dans un espace latent dit "fonctionnel", structuré autour d'affordances comme "déplaçable" ou "saisissable", au lieu de regrouper les objets par similitude visuelle. Les performances annoncées : 94 % de précision sur les affordances connues, soit plus de 15 points au-dessus des approches de l'état de l'art, une montée de 70 % à plus de 90 % de précision sur des affordances inédites avec moins de 10 % des données d'entraînement initiales, et une inférence 100 fois plus rapide. Un mécanisme de découverte automatique d'affordances permet au système de s'adapter aux scénarios non vus en étendant dynamiquement cet espace latent. Le problème que cible A4D est central en manipulation robotique : la généralisation à des objets nouveaux. Les systèmes actuels échouent dès qu'un robot rencontre un objet visuellement différent de ceux vus à l'entraînement, même si sa fonction est identique. Raisonner par fonction plutôt que par apparence permettrait aux robots industriels et de service de s'adapter sans cycle de réentraînement complet, ce qui représente un verrou majeur pour le déploiement en environnements non structurés. L'efficacité en données est ici particulièrement notable : atteindre 90 % de précision sur de nouvelles catégories avec moins de 10 % du dataset original réduit drastiquement le coût d'intégration pour un nouvel environnement de travail. Ces résultats restent toutefois issus d'évaluations de laboratoire, et la robustesse en conditions industrielles réelles n'est pas encore documentée. Le concept d'affordance en robotique est hérité de la psychologie écologique de James Gibson (années 1970), mais son opérationnalisation dans des systèmes de planification automatisée reste un défi ouvert depuis deux décennies. Les approches concurrentes incluent les Vision-Language-Action models (VLA) type pi0 de Physical Intelligence ou OpenVLA, qui misent sur des modèles fondation massifs pour la généralisation, et les méthodes de représentation basées sur des descripteurs sémantiques. A4D se positionne comme une alternative plus légère et interprétable. Le code, les vidéos et les données sont disponibles sur le site du projet ; aucun partenariat industriel ni déploiement pilote n'est annoncé à ce stade.

RecherchePaper
1 source
MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes
191arXiv cs.RO 

MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes

Des chercheurs ont publié sur arXiv (réf. 2606.06139, juin 2026) MotionDisco, un cadre méthodologique capable de générer automatiquement des séquences de mouvements corps entier pour robots humanoïdes, sans recourir à la téleopération ni au retargeting de mouvements humains. Le système couple une recherche évolutionnaire guidée par un grand modèle de langage (LLM) sur des séquences d'interactions de contact, un optimiseur de trajectoire cinodynamique séquentiel et une stratégie d'élagage. Les trajectoires ainsi découvertes servent à entraîner des politiques de suivi par apprentissage par renforcement (RL), déployées ensuite sur un robot humanoïde physique dans des tâches de loco-manipulation longue durée. Des études d'ablation documentent que la recherche guidée par LLM produit des trajectoires corps entier cohérentes sur plusieurs tâches à long horizon impliquant des contacts riches avec l'environnement. L'enjeu principal est de contourner la téleopération, aujourd'hui le principal mode d'acquisition de données pour les humanoïdes en manipulation, approche coûteuse et difficile à passer à l'échelle. La difficulté est fondamentalement combinatoire: le nombre d'interactions de contact possibles croît exponentiellement avec l'horizon temporel et le nombre d'objets en scène. En automatisant la découverte de compétences, MotionDisco ouvre une voie potentiellement scalable pour les intégrateurs industriels sans infrastructure de téleopération. Le transfert sim-to-real sur robot physique est démontré, ce qui distingue ce travail de nombreuses contributions demeurant en simulation. Les auteurs revendiquent une première mondiale: la découverte et le déploiement de compétences humanoïdes loco-manipulation longue durée par recherche évolutionnaire entièrement automatisée, une affirmation qui reste à valider indépendamment par la communauté. Ce travail s'inscrit dans un paysage où les principaux acteurs humanoïdes, tels que Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), Unitree et NVIDIA (GR00T N2), misent massivement sur la téleopération et les démonstrations humaines pour entraîner leurs politiques de manipulation. L'utilisation d'un LLM comme moteur de recherche pour guider l'exploration de contacts s'apparente aux travaux récents sur les VLA (Vision-Language-Action models), mais positionnée en amont comme générateur de curriculum plutôt que comme politique de contrôle direct. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, qui demeure une contribution de recherche fondamentale sans affiliation ou plateforme matérielle spécifiée. Les extensions naturelles porteraient sur des scènes multi-objets plus complexes et la validation sur une gamme élargie de plateformes humanoïdes commerciales.

RecherchePaper
1 source
Génération de données synthétiques et détection visuelle de plis et points clés pour la manipulation bimanuelle de tissu
192arXiv cs.RO 

Génération de données synthétiques et détection visuelle de plis et points clés pour la manipulation bimanuelle de tissu

Des chercheurs ont publié sur arXiv (arXiv:2606.06292) un système de perception et de planification dédié à la manipulation bimanurale de textiles, l'un des problèmes les plus résistants en robotique industrielle. L'approche repose sur un pipeline synthétique construit sous Blender qui génère automatiquement des données annotées en keypoints, complété par des rendus labellisés manuellement et des données réelles pour entraîner un détecteur de plis. Le résultat est un framework à deux composantes : un CNN invariant aux permutations pour localiser les coins d'un vêtement, et un pipeline YOLOv8-OpenCV pour extraire les points de préhension à partir des plis structurels. L'algorithme bimanual résultant étire d'abord un vêtement entièrement plié en s'accrochant aux plis, puis bascule automatiquement vers un mode de repassage guidé par keypoints dès que les coins deviennent visibles. L'erreur de position moyenne (MPE) du modèle de keypoints atteint 1,7615 pixels, et le système se transfère directement sur des tissus physiques sans fine-tuning supplémentaire. L'enjeu principal est le sim-to-real gap, problème central pour tous les objets déformables : un tissu n'a pas de forme fixe, et ses auto-occultations lors du pliage font échouer la majorité des pipelines de perception standard. Que ce système transfère sans fine-tuning là où les baselines produisent des faux positifs sur les plis sévères ou s'effondrent en haute occlusion est un résultat concret, pas un argument marketing. Pour les intégrateurs industriels, notamment en blanchisserie automatisée ou en logistique textile, cela valide l'hypothèse que la génération de données synthétiques peut compenser l'absence de datasets réels annotés, coûteux à constituer. Le passage automatique plis-vers-coins montre également qu'une stratégie de manipulation multi-phase pilotée par l'état perçu est implémentable sans recours à un modèle de déformation explicite. La manipulation de textiles est un défi académique ouvert depuis au moins une décennie, avec des contributions notables des groupes de Berkeley, ETH Zurich et de l'université de Tokyo, sans qu'aucune solution n'ait encore atteint le déploiement industriel à grande échelle. Ce preprint s'inscrit dans un courant récent qui mise sur la synthèse de données visuelles plutôt que sur la modélisation physique exhaustive, une tendance portée aussi par des travaux sur les Vision-Language-Action models (VLA) pour les déformables. Aucun acteur français ou européen n'est cité, bien que des laboratoires comme ceux de l'INRIA ou des industriels comme Enchanted Tools travaillent sur des problématiques adjacentes de manipulation dextère. Le papier est un preprint sans déploiement annoncé ; les prochaines étapes naturelles seraient une validation sur une plus grande diversité de textiles et une intégration sur une plateforme robotique commerciale.

RecherchePaper
1 source
Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains
193arXiv cs.RO 

Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains

Des chercheurs ont publié Meridian, une méthode de localisation globale pour robots terrestres qui exploite des images aériennes à la place du GNSS, avec une erreur de trajectoire moyenne de 2,4 mètres sur 19 kilomètres parcourus dans des environnements variés. L'algorithme met en correspondance des primitives métrique-sémantiques extraites d'images satellites ou de drones avec les données RGB-D collectées par la caméra embarquée du robot, sans nécessiter d'entraînement ni d'ajustement sur les données locales de la zone ciblée. Les expériences couvrent un dataset de conduite autonome urbaine, une zone de parc et campus, ainsi qu'un camp en milieu naturel, trois contextes distincts sur lesquels le même modèle généraliste a été appliqué sans adaptation préalable. Ce résultat est notable car la localisation sans GPS dans des terrains non structurés reste l'un des problèmes ouverts les plus persistants de la robotique mobile. Les approches existantes s'appuient généralement sur des modèles entraînés pour un environnement précis et peinent face aux géométries répétitives et aux paysages peu texturés, forêts, prairies, zones périurbaines, où les méthodes basées sur des points d'intérêt visuels classiques échouent. Meridian contourne ce problème en formalisant des métriques de cohérence pour estimer une distribution sur les poses du sous-graphe robot et rejeter les hypothèses aberrantes via une optimisation robuste du graphe de poses. L'absence de dépendance à des données d'entraînement spécifiques est le point le plus opérationnellement significatif : elle rend le système déployable sur zones inconnues sans phase de cartographie préalable. Le travail s'inscrit dans un courant actif de localisation visuelle croisée (cross-view localization) qui bénéficie de la disponibilité croissante d'imagerie aérienne haute résolution via satellites commerciaux ou drones. Des méthodes concurrentes comme OrienterNet (Meta AI, 2023) ciblent principalement les environnements urbains structurés via OpenStreetMap. Meridian se distingue en visant explicitement les terrains naturels, ce qui l'oriente vers des applications de recherche et sauvetage, de surveillance agricole ou d'opérations militaires en zone dégradée, secteurs où des plateformes comme Boston Dynamics Spot ou des robots de terrain industriels pourraient directement tirer parti de l'approche. L'article est disponible en prépublication sur arXiv (2606.06312) et n'a pas encore été soumis à révision par les pairs, ce qui invite à traiter les métriques annoncées avec prudence en attendant une validation indépendante.

RecherchePaper
1 source
TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation
194arXiv cs.RO 

TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation

Des chercheurs ont publié sur arXiv (arXiv:2606.06218) le Torque Adaptation Module (TAM), un module appris qui corrige les commandes de couple envoyées au robot pour aligner son comportement sur celui d'un robot de référence idéal. TAM s'insère entre le contrôleur bas niveau et l'interface couple du robot, et opère via deux composants : un encodeur d'historique proprioceptif, qui compresse les états mécaniques récents en représentation latente, et un adaptateur de couple calculant des corrections résiduelles en temps réel. L'évaluation porte sur un bras Franka Panda réel, en transfert zéro-shot, sur trois tâches de manipulation dynamique : un pushing de boîte guidé par vision (apprentissage par renforcement), un retournement d'objet par imitation comportementale (BC), et un équilibrage balle-sur-plateau par MPC. Le problème adressé est structurant pour l'industrialisation robotique : une politique entraînée sur un robot se dégrade sur une autre instance du même modèle, ou lors d'un changement de charge utile non caractérisée. En manipulation de contact dynamique, un écart de timing de quelques millisecondes suffit à rompre la séquence de contact et faire échouer la tâche. TAM décharge la politique de toute domain randomization sur les paramètres dynamiques du robot, technique qui produit habituellement des comportements trop conservateurs. Sa propriété clé est l'indépendance vis-à-vis de l'espace d'action : les mêmes poids TAM s'appliquent indifféremment à des politiques en cibles articulaires, en cibles d'effecteur terminal, ou en couples directs, ce qui élargit considérablement la portée de réutilisation. En benchmark, TAM surpasse l'identification de système en ligne et la baseline RMA (Rapid Motor Adaptation). La transférabilité inter-robots constitue l'un des obstacles majeurs à la mise à l'échelle des déploiements industriels. Les approches classiques présentent des compromis bien documentés : la domain randomization sacrifie la performance, la system identification exige des données collectées pour chaque robot ou configuration. TAM propose une troisième voie via un préentraînement multi-robot en simulation randomisée, suivi d'un fine-tuning robot-spécifique sans aucune donnée réelle. L'idée d'adaptation par historique proprioceptif avait été popularisée par RMA autour de 2021 pour les robots quadrupèdes ; TAM l'étend à la manipulation de contact en bras articulé, domaine où la dynamique est nettement plus imprévisible. L'article ne mentionne ni partenaire industriel ni timeline de déploiement : il s'agit d'un travail académique dont la validation à plus grande échelle et sur robots variés reste à établir.

RecherchePaper
1 source
Livraison et collecte dynamiques multi-agents dans les systèmes d'entrepôt robotisé cellulaire
195arXiv cs.RO 

Livraison et collecte dynamiques multi-agents dans les systèmes d'entrepôt robotisé cellulaire

Une équipe de chercheurs publie sur arXiv (réf. 2606.05669, juin 2026) la première formalisation du problème de collecte et livraison multi-agents (MAPD) intégrant l'évolution dynamique des commandes dans les entrepôts robotisés à cellules (RCWS). Le constat de départ est un angle mort opérationnel connu: les algorithmes MAPD classiques supposent des tâches figées, alors que dans la réalité industrielle, de nouvelles références (SKU) s'ajoutent à une commande pendant son exécution. Pour y répondre, les auteurs proposent deux algorithmes de replanification en ligne déclenchés par événements, construits sur le paradigme du token passing. Le premier, Dynamic Token Passing (DTP), effectue une replanification localisée à chaque mise à jour via une décomposition add-order et un ordonnancement prioritaire des accès, tout en garantissant l'absence de collisions entre robots. Le second, Cooperative Token Passing (CTP), mobilise en plus les robots inactifs pour absorber opportunément les nouveaux pickups ajoutés en cours d'exécution. Des simulations en environnement RCWS montrent une réduction significative du flowtime de commandes par rapport aux baselines statiques et non coopératives, sans que les auteurs ne publient de chiffres précis à ce stade. L'enjeu pour les intégrateurs d'entrepôts automatisés est direct: toute modification de commande en cours force aujourd'hui soit une replanification globale coûteuse en temps de calcul, soit une dégradation de la qualité de service. Ce travail comble pour la première fois l'écart entre la littérature académique sur le MAPD et les contraintes opérationnelles réelles des ERP industriels. Le mécanisme coopératif du CTP est particulièrement notable: il exploite la capacité oisive des flottes denses plutôt que de relancer un planning complet, remettant en question l'hypothèse selon laquelle la planification statique par vagues suffit aux RCWS commerciaux actuels. Le token passing est un paradigme bien établi dans la recherche en planification multi-agents (MAPF), notamment autour des travaux de Sven Koenig. Son application aux RCWS cible des architectures déployées par AutoStore (Norvège), Ocado Technology et Hai Robotics, ainsi que par l'acteur français Exotec (Villeneuve-d'Ascq) avec son système Skypod, dont les configurations à grille dense concentrent des centaines de robots sur un volume compact. Ces environnements sont précisément ceux où la coordination dynamique devient critique à mesure que les densités de flotte augmentent. Ce travail reste à ce stade une contribution académique sans déploiement ni partenariat industriel annoncé; la prochaine étape logique serait une validation sur environnement physique et une intégration avec des WMS industriels existants.

UEExotec (Villeneuve-d'Ascq), dont le système Skypod est explicitement cité comme architecture cible, pourrait bénéficier de ces algorithmes si intégrés dans un WMS industriel, renforçant sa compétitivité face à AutoStore et Ocado dans les entrepôts à haute densité de flotte.

RecherchePaper
1 source
LadderMan : apprentissage de l'escalade d'échelles par un humanoïde perceptif
196arXiv cs.RO 

LadderMan : apprentissage de l'escalade d'échelles par un humanoïde perceptif

Des chercheurs ont publié le 5 juin 2026 sur arXiv (preprint 2606.05873) un système baptisé LadderMan, conçu pour permettre à des robots humanoïdes de grimper des échelles de géométries variées et d'effectuer des tâches de manipulation en position perchée. L'architecture repose sur un pipeline d'apprentissage en deux étapes : une phase de suivi de mouvement hybride extrait plusieurs politiques d'escalade expertes à partir d'une seule motion de référence, puis une phase de distillation fusionne ces experts en une politique visuomotrice unifiée, pilotée par caméra de profondeur, via une combinaison d'imitation et de renforcement. Pour combler l'écart simulation-réel sur la perception de profondeur, l'équipe exploite des modèles de vision fondationnels. La manipulation en hauteur est gérée par une formulation dite "dual-agent" : un agent dédié à la stabilité sur l'échelle, un autre à la manipulation, avec télé-opération comme signal superviseur. Les expériences rapportent un transfert zéro-shot vers le hardware réel, sans fine-tuning supplémentaire. L'escalade d'échelle constitue l'un des tests les plus discriminants pour les humanoïdes : les points d'appui sont rares et fixes, la coordination corps entier est critique, et la moindre erreur de perception ou de contrôle peut provoquer une chute. Le transfert zéro-shot réussi de la simulation au réel est ici le résultat le plus significatif : il suggère que les modèles de vision fondationnels permettent d'atténuer suffisamment le sim-to-real gap sur des tâches perceptivo-motrices contraintes, une hypothèse longtemps débattue dans la communauté. La capacité à manipuler des objets depuis une position instable ouvre des perspectives concrètes pour l'inspection industrielle, la maintenance en hauteur et les chantiers de construction. Il convient cependant de souligner qu'il s'agit d'un preprint de recherche, non d'un produit commercialisé, et que les vidéos publiées sur ladderman-robot.github.io restent sélectionnées par les auteurs. Ce travail s'inscrit dans une vague active de recherche poussant les humanoïdes vers des environnements contraints et à risque élevé. Aucune entreprise commerciale n'est identifiée dans le preprint, ce qui suggère une origine académique. Sur le plan concurrentiel, aucun constructeur humanoïde majeur, ni Boston Dynamics (Atlas), ni Figure (Figure 03), ni Tesla (Optimus Gen 3), ni Agility Robotics (Digit), n'a à ce jour publié de démonstration d'escalade d'échelle à ce niveau de robustesse et de transfert zéro-shot. Les prochaines étapes logiques seraient un test sur une gamme plus large de robots humanoïdes commerciaux et une intégration de la manipulation autonome, sans télé-opération.

RecherchePaper
1 source
PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée
197arXiv cs.RO 

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

Des chercheurs ont publié PiL-World (arXiv:2606.05773), un modèle de monde (world model) en boucle fermée conçu pour évaluer les politiques VLA (Vision-Language-Action) sans exécution physique continue. Le système fonctionne par blocs d'actions (action chunks) : à chaque itération, la politique VLA génère une séquence d'actions, PiL-World simule les observations multi-vues résultantes, et ces observations alimentent le cycle d'inférence suivant. Évalué sur trois tâches de manipulation bimanuelle réelles, PiL-World réduit l'écart entre le taux de succès mesuré sur robot physique et celui estimé en simulation boucle fermée de 63,2 % à 12,0 % par rapport à la baseline, soit plus de cinq fois moins d'erreur d'évaluation. Le modèle conditionne la génération vidéo sur le mouvement du robot en vue de tête et sur un historique latent encodant le contexte d'exécution de la tâche, et apprend à la fois sur des démonstrations téléopérées réussies et sur des trajectoires d'échec. L'évaluation des politiques VLA en boucle fermée est un goulot d'étranglement critique dans le développement robotique : chaque cycle de test sur hardware coûte du temps, de l'usure mécanique et une supervision humaine. Un écart de 63,2 % entre simulation et réalité rend une baseline en boucle ouverte essentiellement inexploitable pour prédire les performances terrain. Ramené à 12,0 %, ce delta commence à être utilisable pour screener des politiques avant validation physique. Le fait que PiL-World apprenne aussi sur des rollouts d'échec est notable : cela corrige un biais classique des world models entraînés uniquement sur démonstrations positives, et rapproche la distribution simulée de celle des exécutions politiques réelles, qui incluent naturellement des tentatives ratées. La demande pour des boucles d'évaluation sans robot s'intensifie depuis que les VLA, notamment Pi-0 de Physical Intelligence, OpenVLA, ou GR00T N2 de NVIDIA, sont devenues les architectures de référence pour la manipulation généraliste. Les simulateurs physiques classiques comme Isaac Lab ou MuJoCo souffrent du sim-to-real gap pour les tâches de contact fin, d'où l'intérêt croissant pour les world models appris directement sur données réelles. PiL-World rejoint une tendance émergente aux côtés de travaux comme UniSim ou IRASim, qui visent à remplacer partiellement l'exécution physique par des modèles génératifs vidéo conditionnés sur les actions. Les résultats sur trois tâches bimanuelles restent limités en diversité de scènes et de morphologies robotiques, et aucun déploiement industriel ni partenariat n'est annoncé à ce stade, ce qui positionne PiL-World comme une contribution de recherche prometteuse plutôt qu'un outil prêt pour l'intégration.

RechercheOpinion
1 source
Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués
198arXiv cs.RO 

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

Des chercheurs de l'Université de Tampere (Finlande) publient sur arXiv (2606.06061) un framework distribué permettant à un opérateur humain de piloter un robot manipulateur par commandes vocales ou textuelles en langage naturel. L'architecture repose sur ROS 2, avec quatre nœuds indépendants : compréhension linguistique (LLM local), ancrage visuel (VLM), orchestration, et exécution moteur. À partir d'une instruction libre, le système génère des requêtes structurées pour des tâches de saisie, dépose et transfert d'objet. Le VLM retourne des cibles en espace-image, ensuite converties en objectifs métriques dans le référentiel robot grâce à la profondeur et à la calibration. Les expériences sont menées sur un bras Franka FR3 ; les auteurs mesurent la fiabilité bout-en-bout et la latence en faisant varier le degré d'ambiguïté de la scène sur la table de travail, et comparent plusieurs configurations LLM/VLM dans le même pipeline. Un tableau de bord web affiche les intentions intermédiaires et les superpositions d'ancrage visuel (pixel, profondeur, référentiel robot), et exige une confirmation explicite de l'opérateur avant tout mouvement. L'intérêt principal de cette approche pour un intégrateur ou un COO industriel tient à trois points. Premièrement, le choix de modèles locaux, pas de dépendance cloud, répond directement aux contraintes de latence et de confidentialité en environnement de production. Deuxièmement, la modularité ROS 2 permet de substituer un modèle par un autre sans refondre la stack, ce qui facilite le benchmarking et la mise à jour. Troisièmement, la boucle de confirmation opérateur est un signal clair que les auteurs ne cherchent pas à masquer le gap demo-versus-réalité : le système ne prétend pas être autonome, il vise une collaboration vérifiable. À noter que les métriques de fiabilité ne sont pas chiffrées dans l'abstract, les résultats quantitatifs précis restent à vérifier dans le corps du papier. Ce travail s'inscrit dans un courant de recherche actif autour des VLA (vision-language-action) pour la manipulation, où Physical Intelligence (Pi-0), Google DeepMind (RT-2, π0) et Stanford (Mobile ALOHA) occupent le devant de la scène avec des approches end-to-end à grande échelle. Le choix de Tampere d'utiliser des modèles légers et locaux contraste délibérément avec ces acteurs : c'est un positionnement orienté déploiement industriel frugal plutôt que performance brute. Le code est disponible en open source sur GitHub (cogrob-tuni/franka-llm), ce qui facilite la reproductibilité. La prochaine étape logique serait d'étendre le framework à des scènes dynamiques ou multi-robots, et de publier des benchmarks comparatifs sur des tâches standardisées comme celles de RoboAgent ou BridgeData.

UETravaux issus de l'Université de Tampere (Finlande, UE) proposant une architecture LLM/VLM entièrement locale et open source pour la manipulation collaborative, directement alignée sur les contraintes RGPD et de souveraineté industrielle du marché européen.

RechercheOpinion
1 source
RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique
199arXiv cs.RO 

RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique

RealDexUMI est une interface de téléopération portable présentée en juin 2026 par des chercheurs de BeingBeyond dans un preprint arXiv (arXiv:2606.06033). Le dispositif repose sur un module d'effecteur terminal partagé combinant une main robotique légère, une caméra embarquée dans la paume et des capteurs tactiles au bout des doigts. Un gant isomorphe porté par l'opérateur humain traduit les mouvements des doigts en commandes articulaires directes sur la main robotique, sans retargeting ni conversion d'incarnation. Le système a été évalué sur huit tâches réelles couvrant des manipulations fines, riches en contacts, à longue durée et bimanuelles, obtenant un taux de succès moyen de 88,75%. Les politiques apprises se généralisent à des poses initiales non vues lors de l'entraînement et ont été transférées vers trois morphologies de robots différentes. Le verrou que RealDexUMI cherche à lever est connu dans le secteur sous le nom de "collection-to-deployment gap". Les pipelines classiques de collecte de données pour la manipulation dextre font face à un dilemme : la motion capture ou les gants souples permettent une collecte rapide mais nécessitent un retargeting qui dégrade la fidélité des contacts, tandis que la téléopération robot-spécifique préserve cette fidélité mais reste onéreuse et difficile à passer à l'échelle. RealDexUMI propose un troisième chemin via un effecteur "zéro-gap" : les observations (images embarquées, signaux tactiles, contacts, commandes articulaires) sont identiques entre collecte et déploiement, supprimant le biais d'observation qui dégrade souvent les politiques d'imitation. Un taux de 88,75% sur des tâches bimanuelles longue durée est significatif si les conditions expérimentales sont représentatives, bien que le preprint ne détaille pas encore la distribution des tentatives par tâche ni les protocoles de randomisation des scènes. La question de l'interface universelle de manipulation dextre est activement travaillée depuis plusieurs années, notamment depuis les travaux UMI de Columbia University (2023-2024), qui instrumentaient une spatule pour des robots standard. RealDexUMI étend ce paradigme aux mains multi-doigts, terrain nettement plus difficile. La démarche entre en compétition directe avec des approches comme ALOHA 2 et ACT de Carnegie Mellon, les systèmes de DexHand Research, ou les plateformes bimanuelle d'Apptronik et Agility Robotics. En Europe, des équipes de l'ISIR à Sorbonne Université et du DLR en Allemagne travaillent sur des thématiques proches de capture et transfert de manipulation dextre. BeingBeyond reste discret sur son positionnement commercial et ses partenaires industriels : la prochaine étape naturelle serait une validation dans des environnements non structurés ou une intégration sur des plateformes humanoïdes commerciales comme Figure 03, Unitree G1 ou Fourier GR-1, où la manipulation dextre demeure le principal goulot d'étranglement.

UELes équipes européennes de manipulation dextre (ISIR/Sorbonne, DLR) pourraient intégrer l'approche zéro-gap de RealDexUMI pour accélérer leurs pipelines de collecte de données sans retargeting.

RechercheOpinion
1 source
DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils
200arXiv cs.RO 

DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils

Des chercheurs ont publié DexFuture (arXiv:2606.05699), une architecture hiérarchique pour la manipulation bimanuelle dextre avec des outils. Le système se décompose en deux niveaux : un prédicteur de cibles visuomotrices futures (Future-State Visuomotor Target Predictor) en haute couche, et une politique d'exécution bas niveau conditionnée sur ces cibles (Target-Conditioned Structured Dexterous Policy). Le prédicteur exploite un flux RGB égocentrique, des données proprioceptives et un historique géométrique pour générer une trajectoire multi-étape via un transformeur conditionné sur l'horizon temporel ; le module d'exécution suit ensuite ces cibles articulation par articulation (per-link) à 60 Hz. Sur le benchmark OakInk2 de tâches bimanuelles avec outils, DexFuture atteint 90 % des performances d'un oracle disposant d'états privilégiés (informations inaccessibles en déploiement réel), contre seulement 7 % pour une politique sans référence future, et s'exécute environ 250 fois plus vite que les approches de planification CEM de type DexWM. Ce résultat est notable car il s'attaque à l'un des verrous fondamentaux de la robotique dextre : comment générer une référence future dynamiquement cohérente sans s'appuyer sur des états privilégiés issus de démonstrations humaines, et sans planification contrefactuelle lente sur des séquences d'actions à haute dimension. L'écart de performance entre la politique sans référence (7 %) et DexFuture (90 %) illustre à quel point le conditionnement sur un horizon temporel est déterminant pour la manipulation fine à deux mains. Pour les intégrateurs et décideurs B2B, l'exécution à 60 Hz est compatible avec du contrôle temps-réel sur hardware standard, là où les approches CEM nécessitaient des cycles bien trop longs pour un déploiement industriel. La séparation explicite entre prédiction sémantique lente (long horizon) et exécution haute fréquence (bas niveau) est une architecture qui se répand dans la robotique de précision, et DexFuture en fournit une validation quantitative significative sur benchmark public. Le benchmark OakInk2 est une référence académique établie pour évaluer la manipulation d'outils à deux mains avec des mains anthropomorphes, couvrant des tâches réalistes de préhension, transfert et utilisation d'outils courants. Le champ des politiques visuomotrices pour mains dextres est en pleine effervescence : DexWM (world models pour la dextérité), Pi-0 de Physical Intelligence, et les approches VLA (Vision-Language-Action) de Google DeepMind et Figure AI poussent la généralisation vers des niveaux inédits. DexFuture se distingue en ciblant la cohérence dynamique de la trajectoire future sans supervision privilégiée, une contrainte plus réaliste que les méthodes supposant un accès complet à l'état du système. L'article n'annonce ni déploiement physique ni timeline commerciale : il s'agit d'un résultat de recherche fondamentale validé en simulation et sur données de démonstration. Les étapes naturelles seraient le passage à des mains physiques (sim-to-real), l'extension à des outils non vus à l'entraînement, et l'intégration dans des pipelines VLA pour des tâches de longue durée.

RecherchePaper
1 source