Apprentissage de correspondances fines par…

De la perception à l'assistance : autonomie partagée à vocabulaire ouvert pour la manipulation robotique

42

1arXiv cs.RO

De la perception à l'assistance : autonomie partagée à vocabulaire ouvert pour la manipulation robotique

Des chercheurs présentent un système d'autonomie partagée pour la téléopération de bras manipulateurs en environnement industriel, publié le 24 juillet 2026 sur arXiv (référence 2607.17323). Le dispositif repose sur une seule caméra RGB-D qui capture les mouvements du bras et les gestes de la main de l'opérateur, sans combinaison connectée, marqueur fiduciaire ni étape de calibration préalable. La cible à saisir est désignée par une simple consigne textuelle en langage libre, interprétée par un modèle vision-langage via la caméra embarquée sur le préhenseur, puis suivie en continu par un modèle de segmentation vidéo promptable sur les caméras du robot, ce qui isole en permanence un repère de saisie de la carte des obstacles. Un contrôleur prédictif (MPC) accéléré par GPU exécute chaque commande tout en évitant les collisions avec l'environnement et avec le robot lui même, grâce à une reconstruction volumétrique calculée en temps réel, pendant qu'un champ de potentiel corrige la trajectoire de l'opérateur lors de l'approche finale. Testé sur un manipulateur mobile quadrupède, le système atteint une précision de positionnement de 59 mm d'erreur quadratique moyenne par rapport à une référence de capture de mouvement, et maintient le bras à au moins 18 cm des obstacles même lorsque l'opérateur tente délibérément une collision de 6 cm. Sur une tâche de manipulation de vanne industrielle et une tâche de prise dépose, le framework complet réussit tous les essais, tandis que le mode entièrement autonome, déclenché par geste, réussit quatre essais sur cinq par tâche. L'intérêt pour l'industrie robotique tient au problème visé: en téléopération classique, aligner précisément un effecteur avec une cible en environnement encombré, avec une perception de profondeur limitée par caméra, reste une source d'erreurs et de collisions coûteuses. En retirant marqueurs et calibration tout en gardant l'opérateur dans la boucle de décision, le système promet un déploiement plus rapide sur des cellules industrielles existantes. Le fait que retirer soit le module de collision, soit le module d'assistance provoque des échecs par des mécanismes différents montre que les deux briques sont complémentaires et non redondantes, un signal utile pour les intégrateurs qui évaluent la robustesse réelle de ces architectures avant tout achat. Le travail s'inscrit dans la convergence actuelle entre modèles vision-langage et téléopération assistée, où l'ancrage d'instructions textuelles dans la perception robotique gagne du terrain face aux interfaces manuelles pures. Les auteurs positionnent leur contribution comme une alternative légère aux pipelines nécessitant équipement dédié ou calibration lourde, et annoncent la possibilité de basculer vers une exécution autonome sur la même cible sans pipeline de perception séparé, ouvrant la voie à des essais plus poussés sur d'autres plateformes et tâches industrielles.

RecherchePaper

1 source

CrossMaps : cartographie sémantique à vocabulaire ouvert avec estimation de confiance pour la navigation de rovers

37

2arXiv cs.RO

CrossMaps : cartographie sémantique à vocabulaire ouvert avec estimation de confiance pour la navigation de rovers

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (identifiant 2606.16935) les travaux relatifs à CrossMaps, un pipeline de cartographie sémantique en temps réel conçu pour la navigation de rovers autonomes. Le système exploite des données RGB-D pour construire des cartes interrogeables en langage naturel, en s'appuyant sur des embeddings CLIP multi-échelles fusionnés avec un mécanisme de pondération par confiance. L'architecture repose sur une mémoire duale : une mémoire court terme (STM) qui agrège les observations visuelles bruitées en combinant des métriques de confiance géométrique, sémantique et temporelle, et une mémoire long terme (LTM) dans laquelle sont promus les points d'intérêt stables et cohérents, constituant ainsi des repères sémantiques persistants. Le système est dimensionné pour fonctionner sur un UGV équipé d'un module Jetson Orin de NVIDIA, couplé à un pipeline SLAM, et génère des cartes de chaleur sémantiques interrogeables par requêtes en langage naturel. L'intérêt de CrossMaps réside dans sa gestion explicite de la qualité perceptive, fiabilité du capteur de profondeur, artefacts d'éclairage, densité des données, directement intégrée dans la représentation spatiale, un aspect souvent traité de façon ad hoc dans les systèmes concurrents. En distinguant observations transitoires et connaissances consolidées via la dualité STM/LTM, l'architecture vise à réduire le gap sim-to-real classique des systèmes de navigation sémantique déployés en conditions dégradées. Pour un intégrateur ou un responsable de flotte robotique, cela signifie potentiellement une navigation plus robuste dans des environnements industriels non-structurés sans nécessiter un réentraînement des modèles pour chaque nouveau vocabulaire d'objets. CrossMaps s'inscrit dans la lignée directe des VLMaps (travaux de Huang et al., 2023), qui ont popularisé la fusion de caractéristiques CLIP dans des cartes spatiales 3D pour la navigation en langage naturel. La différence revendiquée ici est la couche de gestion de la confiance et la séparation mémoire court/long terme, absentes dans VLMaps. L'article reste un preprint non encore évalué par les pairs, et les performances réelles sur un UGV physique en dehors de conditions contrôlées ne sont pas détaillées dans l'abstract, un point à vérifier dans le corps du papier avant toute extrapolation industrielle. Les suites naturelles incluent une comparaison quantitative face à ConceptFusion ou LERF, et un déploiement en environnements extérieurs non-structurés.

RecherchePaper

1 source

Feat2Go : estimation de valeur par ancrage visuel pour l'apprentissage par renforcement incarné

38

3arXiv cs.RO

Feat2Go : estimation de valeur par ancrage visuel pour l'apprentissage par renforcement incarné

Feat2Go est un framework de recherche présenté sur arXiv (2605.30795, mai 2026) qui s'attaque à un verrou persistant dans l'entraînement des modèles vision-langage-action (VLA) : générer automatiquement des signaux de récompense denses pour l'apprentissage par renforcement (RL) sur des tâches de manipulation longue portée. Le système décompose automatiquement un épisode robotique en étapes sémantiques via un clustering orienté tendances, puis mesure la progression par similarité au niveau patch entre l'état courant et des sous-objectifs visuels extraits d'un world model visuel pré-entraîné. Un modèle de valeur incarné prédit ensuite ce progrès à partir de l'observation et de l'instruction textuelle, et le signal est utilisé pour reformuler les récompenses terminales lors de l'optimisation de politique, sans ingénierie manuelle des récompenses. Les résultats sur deux benchmarks de référence sont nets : sur ManiSkill3, OpenVLA-OFT passe d'un taux de succès hors distribution de 17,5 % à 82,9 % tout en maintenant 96,9 % en distribution ; sur RoboTwin 2.0, Feat2Go atteint 88,8 % de succès moyen en domain randomization, dépassant les méthodes RL antérieures. Le framework est compatible avec PPO et GRPO, et couvre manipulation bras unique et bras bimanuels. L'intérêt de cette contribution est qu'elle attaque un problème structurel du RL robotique : soit on conçoit à la main des fonctions de récompense tâche par tâche, soit on reste captif de lourds datasets d'imitation. Feat2Go contourne ces deux contraintes en extrayant automatiquement un signal de progrès granulaire depuis un world model, ce qui le rend théoriquement compatible avec des architectures VLA existantes sans modification majeure du pipeline. Un saut de 17,5 % à 82,9 % hors distribution représente un écart brut significatif, mais il faut souligner que ces chiffres restent obtenus en simulation : la chaîne sim-to-real n'est pas validée sur hardware réel, une limite habituelle mais non négligeable. Cette approche s'inscrit dans une tendance large où le RL sert de couche de fine-tuning au-dessus de fondations VLA pré-entraînées, après des travaux récents comme π0 de Physical Intelligence, GROOT N2 de NVIDIA, ou les architectures de 1X et Figure AI. La question du signal de récompense était le chaînon manquant dans ce paradigme ; Feat2Go propose une réponse agnostique au modèle. Aucun partenariat industriel ni déploiement terrain n'est annoncé, la contribution restant académique à ce stade.

RechercheOpinion

1 source

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

44

4arXiv cs.RO

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

Une équipe de recherche publie sur arXiv (arXiv:2605.08511, mai 2026) une méthode pour corriger un défaut structurel des politiques de type flow matching appliquées à la manipulation robotique. Ces architectures apprennent des champs de vitesse continus pour convertir du bruit en séquences d'actions, permettant une inférence déterministe rapide. Le problème identifié est un écart fondamental entre entraînement et inférence : l'objectif d'entraînement optimise une vitesse ponctuelle, tandis que l'inférence requiert l'intégration numérique de ce champ sur une trajectoire complète. Les erreurs s'accumulent et dégradent les performances. La méthode proposée, baptisée TC-Flow, associe quatre correctifs complémentaires : une régression de vitesse par rectified flow auxiliaire pour une supervision uniforme sur l'intervalle temporel, un entraînement par cohérence de trajectoire multi-étapes qui supervise directement le déplacement intégré, une régularisation du champ de vitesse pour forcer la continuité temporelle, et un intégrateur de Runge-Kutta d'ordre 4 (RK4) à l'inférence pour réduire l'erreur de discrétisation. Un encodeur de nuage de points 3D à double vue, basé sur deux PointNet indépendants, complète l'architecture. Validée sur un bras Franka et un robot quadrupède Boston Dynamics Spot, la méthode atteint 70 % et 60 % de succès sur deux tâches longue-horizon multi-phases où les deux baselines de référence stagnent à 0 %, et 100 % sur une tâche de placement d'outil de précision. Trois tâches de simulation MetaWorld confirment les gains. Ce résultat est significatif pour les équipes qui développent des VLAs (vision-language-action) basées sur le flow matching : il démontre que le sim-to-real gap et l'échec sur les tâches longue-horizon ne viennent pas nécessairement de la représentation sensorielle ou de la politique en elle-même, mais du désalignement train-inférence. Le passage de 0 % à 60-70 % sur les mêmes tâches en corrigeant uniquement cet écart est un signal fort. L'ablation confirme que les quatre composants sont nécessaires en synergie : RK4 seul sans champ lisse échoue, et la régularisation sans supervision trajectoire dérive quand même. Dans le contexte du marché, le flow matching pour la robotique a été popularisé par Physical Intelligence avec pi-0, qui domine aujourd'hui les benchmarks de manipulation généraliste, et par des travaux comme ACT ou Diffusion Policy. TC-Flow se positionne comme une correction algorithmique orthogonale, applicable à toute architecture flow matching existante. Il s'agit d'un preprint arXiv sans code public annoncé à ce stade, ni déploiement industriel. Les prochaines étapes naturelles seraient une validation sur des tâches bi-manuelles ou sur des plateformes humanoïdes, terrain où les erreurs cumulées de trajectoire sont particulièrement pénalisantes.

RechercheOpinion

1 source

Apprentissage de correspondances fines par perception croisée pour l'estimation de pose 6D à vocabulaire ouvert

À lire aussi

De la perception à l'assistance : autonomie partagée à vocabulaire ouvert pour la manipulation robotique

CrossMaps : cartographie sémantique à vocabulaire ouvert avec estimation de confiance pour la navigation de rovers

Feat2Go : estimation de valeur par ancrage visuel pour l'apprentissage par renforcement incarné

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes