Revisiter la perception des parties articulées en…

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

45

1arXiv cs.RO

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

Une équipe de chercheurs a présenté StereoPolicy, un cadre d'apprentissage de politiques visuomotrices déposé sur arXiv (2605.09989) qui exploite des paires d'images stéréoscopiques synchronisées pour améliorer la précision des robots manipulateurs. Contrairement aux approches dominantes basées sur la vision monoculaire, StereoPolicy traite chaque image indépendamment via des encodeurs visuels 2D pré-entraînés, puis fusionne les représentations au sein d'un module baptisé Stereo Transformer. Cette architecture extrait implicitement des indices de disparité et de correspondance spatiale, sans nécessiter de reconstruction 3D explicite ni de calibration de caméra. Évalué sur trois benchmarks de simulation, RoboMimic, RoboCasa et OmniGibson, le système surpasse systématiquement les baselines RGB, RGB-D, nuage de points et multi-vues. Les auteurs ont également validé l'approche sur des robots réels, dans des configurations de manipulation tabulaire et de manipulation bimane mobile. L'intérêt principal de StereoPolicy réside dans sa modularité: le framework s'intègre directement avec des politiques à base de diffusion et des politiques VLA (vision-language-action) pré-entraînées, ce qui en fait un composant additionnel plutôt qu'une refonte architecturale. Pour les intégrateurs et les équipes robotique, cela signifie que des systèmes existants basés sur des modèles comme Pi-0 ou GR00T pourraient bénéficier de la perception stéréo sans repartir de zéro. La vision monoculaire, omniprésente dans les déploiements actuels, souffre d'une absence d'indices de profondeur fiables dans les scènes encombrées ou géométriquement complexes, un problème que la stéréo adresse naturellement à faible surcoût matériel. Ce résultat renforce l'hypothèse que les représentations 2D pré-entraînées, aussi puissantes soient-elles, restent limitées sans ancrage géométrique explicite. StereoPolicy s'inscrit dans la dynamique actuelle de l'imitation learning robotique, portée par des travaux comme ACT, Diffusion Policy et les VLA multimodaux. La plupart des systèmes en production s'appuient encore sur des caméras monoculaires ou des capteurs RGB-D de type RealSense ou ZED, qui ajoutent complexité et coût. Les caméras stéréo passives, technologie mature présente depuis des décennies en vision par ordinateur, avaient été quelque peu éclipsées par la montée en puissance des encodeurs 2D profonds. Ce papier, une préprint arXiv, pas encore un produit déployé, rouvre la question de leur rôle dans les pipelines modernes d'apprentissage par imitation. Les prochaines étapes naturelles seront d'évaluer StereoPolicy dans des environnements industriels réels et de tester sa robustesse aux variations d'éclairage et de texture, deux limites classiques de la vision stéréo passive.

RechercheOpinion

1 source

Modèles du monde pour la manipulation robotique

44

2arXiv cs.RO

Modèles du monde pour la manipulation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.24742) un modèle généraliste de valeur pour la manipulation robotique, le WVM (World Value Model). La proposition centrale consiste à substituer les backbones VLM (Vision-Language Model) habituellement utilisés par un modèle de monde, nativement mieux adapté à la modélisation temporelle nécessaire pour évaluer la progression d'une tâche. Sur les benchmarks standards, WVM atteint les meilleures performances connues en Value-Order Correlation (VOC), la métrique de référence pour les modèles de valeur robotiques. L'équipe introduit également Suboptimal-Value-Bench, un benchmark multi-embodiment composé de 800 trajectoires sous-optimales annotées frame par frame par des humains, comblant un angle mort des évaluations existantes qui ne contenaient que des données expertes. L'enjeu est directement opérationnel pour quiconque entraîne des systèmes de manipulation à grande échelle : les données collectées en conditions réelles sont rarement uniformément expertes. Un modèle de valeur précis permet de pondérer ou filtrer ces trajectoires hétérogènes, améliorant la qualité de l'entraînement sans nettoyage manuel coûteux. WVM démontre des gains de performance sur plusieurs approches d'extraction de politique, en simulation comme en déploiement réel, ce qui renforce la thèse que l'estimation de valeur est un composant orthogonal et complémentaire au choix d'architecture de politique. La robustesse maintenue sur données sous-optimales est l'aspect le plus significatif : c'est précisément dans ce régime que les VLMs classiques décrochent, leurs préentraînements sur observations visuelles statiques ne suffisant pas à capturer les dynamiques temporelles longues. La montée en puissance des VLA comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a rendu critique la question de la qualité des données d'entraînement à grande échelle. L'approche WVM s'inscrit dans une tendance émergente qui consiste à spécialiser les composants : un backbone temporel dédié pour l'évaluation de la valeur, distinct du modèle d'action. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans cet article purement académique. Les prochaines étapes naturelles incluent l'intégration du WVM dans des pipelines d'imitation à grande échelle ou en combinaison avec du reinforcement learning offline (IQL, CQL), et une extension à des environnements multi-tâches plus complexes.

RechercheOpinion

1 source

Un système robotique de perception-manipulation pour la découpe alimentaire

37

3arXiv cs.RO

Un système robotique de perception-manipulation pour la découpe alimentaire

Une équipe de recherche publie sur arXiv (juillet 2026) un système de perception et manipulation robotique dédié à la découpe alimentaire, l'une des tâches les plus délicates pour les robots de cuisine. Le système combine deux modules : un premier de sélection du couteau, qui s'appuie sur les données de force capturées lors d'une coupe d'essai fixe pour identifier automatiquement l'outil adapté à l'aliment présenté, et un second de découpe adaptative piloté par apprentissage par renforcement (RL), qui ajuste en continu la trajectoire pour équilibrer vitesse de coupe et consommation d'énergie. Dans les expériences menées par les auteurs, le module de sélection de couteau atteint un taux de réussite de 100% sur des aliments jamais vus à l'entraînement, et les chercheurs comparent trois approches, une politique fixe préprogrammée, la politique RL, et des opérateurs humains, sur les mêmes tâches de découpe. L'enjeu dépasse la simple démonstration technique. La découpe alimentaire est réputée difficile à automatiser car les propriétés mécaniques des aliments, texture, dureté, élasticité, varient énormément d'un ingrédient à l'autre, ce qui oblige souvent à changer d'outil et de stratégie de coupe en cours de préparation. En obtenant des performances comparables à celles d'opérateurs humains, tout en automatisant le choix de l'outil via un simple test de force, cette approche adresse un goulot d'étranglement concret pour les robots de cuisine commerciaux, qu'il s'agisse de restauration automatisée, de traitement agroalimentaire ou de cuisine domestique assistée. Ce travail s'inscrit dans un courant de recherche plus large sur les robots de cuisine, un segment encore largement expérimental où la plupart des démonstrations restent limitées à des gestes simples ou répétitifs. Contrairement à une annonce produit, il s'agit ici d'un article de recherche, sans mention de partenaire industriel ni de calendrier de commercialisation. Les auteurs eux-mêmes cadrent leurs résultats comme une preuve de concept, ouvrant la voie à des tests sur une gamme plus large d'aliments et, potentiellement, à une intégration future dans des systèmes robotiques de cuisine plus complets.

RecherchePaper

1 source

De la perception à l'assistance : autonomie partagée à vocabulaire ouvert pour la manipulation robotique

43

4arXiv cs.RO

De la perception à l'assistance : autonomie partagée à vocabulaire ouvert pour la manipulation robotique

Des chercheurs présentent un système d'autonomie partagée pour la téléopération de bras manipulateurs en environnement industriel, publié le 24 juillet 2026 sur arXiv (référence 2607.17323). Le dispositif repose sur une seule caméra RGB-D qui capture les mouvements du bras et les gestes de la main de l'opérateur, sans combinaison connectée, marqueur fiduciaire ni étape de calibration préalable. La cible à saisir est désignée par une simple consigne textuelle en langage libre, interprétée par un modèle vision-langage via la caméra embarquée sur le préhenseur, puis suivie en continu par un modèle de segmentation vidéo promptable sur les caméras du robot, ce qui isole en permanence un repère de saisie de la carte des obstacles. Un contrôleur prédictif (MPC) accéléré par GPU exécute chaque commande tout en évitant les collisions avec l'environnement et avec le robot lui même, grâce à une reconstruction volumétrique calculée en temps réel, pendant qu'un champ de potentiel corrige la trajectoire de l'opérateur lors de l'approche finale. Testé sur un manipulateur mobile quadrupède, le système atteint une précision de positionnement de 59 mm d'erreur quadratique moyenne par rapport à une référence de capture de mouvement, et maintient le bras à au moins 18 cm des obstacles même lorsque l'opérateur tente délibérément une collision de 6 cm. Sur une tâche de manipulation de vanne industrielle et une tâche de prise dépose, le framework complet réussit tous les essais, tandis que le mode entièrement autonome, déclenché par geste, réussit quatre essais sur cinq par tâche. L'intérêt pour l'industrie robotique tient au problème visé: en téléopération classique, aligner précisément un effecteur avec une cible en environnement encombré, avec une perception de profondeur limitée par caméra, reste une source d'erreurs et de collisions coûteuses. En retirant marqueurs et calibration tout en gardant l'opérateur dans la boucle de décision, le système promet un déploiement plus rapide sur des cellules industrielles existantes. Le fait que retirer soit le module de collision, soit le module d'assistance provoque des échecs par des mécanismes différents montre que les deux briques sont complémentaires et non redondantes, un signal utile pour les intégrateurs qui évaluent la robustesse réelle de ces architectures avant tout achat. Le travail s'inscrit dans la convergence actuelle entre modèles vision-langage et téléopération assistée, où l'ancrage d'instructions textuelles dans la perception robotique gagne du terrain face aux interfaces manuelles pures. Les auteurs positionnent leur contribution comme une alternative légère aux pipelines nécessitant équipement dédié ou calibration lourde, et annoncent la possibilité de basculer vers une exécution autonome sur la même cible sans pipeline de perception séparé, ouvrant la voie à des essais plus poussés sur d'autres plateformes et tâches industrielles.

RecherchePaper

1 source

Revisiter la perception des parties articulées en manipulation robotique

À lire aussi

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

Modèles du monde pour la manipulation robotique

Un système robotique de perception-manipulation pour la découpe alimentaire

De la perception à l'assistance : autonomie partagée à vocabulaire ouvert pour la manipulation robotique