SAPS : autonomie partagée pour orienter la…

Combiner supervision manuelle et par téléopération pour la manipulation riche en contacts via des experts guidés par l'état

46

1arXiv cs.RO

Combiner supervision manuelle et par téléopération pour la manipulation riche en contacts via des experts guidés par l'état

Une équipe de chercheurs publie sur arXiv (réf. 2606.26603) une méthode hybride de collecte de données pour la manipulation robotique en contact, baptisée BRIDGE (Bi-modal Routing for Imitation Data via Gated Experts). L'approche combine deux modalités d'apprentissage par imitation: les systèmes portables de type UMI (Universal Manipulation Interface), qui permettent une collecte à grande échelle mais ne capturent que des "actions observées" depuis le démonstrateur humain, et la téléopération, qui fournit des "actions désirées" directement exploitables par le contrôleur robot, mais dont la collecte est coûteuse en temps. Sur trois tâches de manipulation riche en contacts, BRIDGE améliore le taux de succès jusqu'à 36,7% par rapport à une politique entraînée uniquement sur données portables. L'architecture repose sur un mélange d'experts en diffusion policy, routés dynamiquement selon la phase de tâche courante détectée à partir de l'état du robot. Le résultat le plus contre-intuitif mérite attention: mélanger naïvement des données portables et des démonstrations de téléopération dégrade les performances par rapport aux données portables seules. Ce n'est qu'en ségréguant explicitement les deux sources via un routeur conditionné sur l'état robot que le gain émerge. Pour les ingénieurs et intégrateurs en robotique industrielle, cela pointe une réalité souvent ignorée: la qualité de la supervision varie selon la phase de tâche, et une augmentation de données mal calibrée peut nuire à la politique apprise. En phase libre, les trajectoires portables sont valides; en phase de contact, le suivi de trajectoires observées à haute rigidité génère des forces de contact importantes et potentiellement dangereuses. BRIDGE résout ce mismatch sans exiger une téléopération complète de la tâche, réduisant significativement le coût de collecte tout en ciblant les segments réellement critiques. Le système UMI, issu des travaux de Cheng Chi et al. (Stanford/Columbia), s'est imposé comme référence pour la collecte scalable en manipulation; les diffusion policies, popularisées par ces mêmes travaux en 2023, forment le socle algorithmique de BRIDGE. Dans le panorama actuel de l'imitation learning, cette recherche se positionne face à des approches à grande échelle comme les VLA (pi-0 de Physical Intelligence, OpenVLA, GR00T N2 de NVIDIA), qui misent sur des volumes massifs de données hétérogènes. BRIDGE fait un pari différent: la qualité ciblée plutôt que l'échelle brute. Il s'agit d'une prépublication arXiv, non encore évaluée par les pairs, et les trois tâches testées restent des benchmarks de laboratoire. La généralisation à des environnements industriels réels, avec variabilité de pièces et contraintes de cycle time, reste entièrement à démontrer.

RecherchePaper

1 source

Communication orientée objectif pour une détection et récupération rapide des pannes en robotique

34

2arXiv cs.RO

Communication orientée objectif pour une détection et récupération rapide des pannes en robotique

Une équipe de chercheurs a publié sur arXiv (2601.18765v2) un cadre baptisé Goal-oriented Communication (GoC), conçu pour accélérer la détection et la récupération de pannes (Fault Detection and Recovery, FDR) dans les robots industriels autonomes déployés en usines intelligentes. La méthode repose sur une co-conception de la boucle communication-calcul-contrôle (3C) orientée explicitement vers l'objectif FDR, plutôt que de traiter ces trois niveaux indépendamment. Pour la détection, GoC extrait un graphe de scène 3D (3D-SG) comme représentation sémantique de l'environnement et surveille les changements de relations spatiales entre objets pour identifier les anomalies. Pour la récupération, le cadre fine-tune un petit modèle de langage (SLM) via Low-Rank Adaptation (LoRA), renforcé par distillation de connaissances depuis un LLM, et génère les trajectoires de récupération. Un module de jumeau numérique léger, ne reconstituant que les contours d'objets pertinents à la tâche, affine ces trajectoires quand un contrôle fin est nécessaire. En simulation, GoC réduit le temps de FDR jusqu'à 82,6 % et améliore le taux de succès des tâches (ex. tri de pièces) jusqu'à 76 % par rapport aux frameworks de référence utilisant des VLM pour la détection et des LLM pour la récupération. Ces résultats sont toutefois issus exclusivement de simulations; aucun déploiement physique ni banc d'essai industriel réel n'est rapporté. L'intérêt industriel de GoC tient à deux arbitrages clairs. D'abord, remplacer un VLM ou LLM embarqué par un SLM spécialisé réduit la latence de façon significative, ce qui est critique dans des cellules robotisées où une anomalie non détectée en quelques dizaines de millisecondes peut provoquer des collisions ou des rebuts coûteux. Ensuite, la représentation par graphe de scène 3D offre une abstraction compacte et interprétable de l'espace de travail, potentiellement plus robuste aux variations d'éclairage ou de texture qu'une approche purement pixellique. Pour les intégrateurs et les OEM qui déploient des bras ou des cellules pick-and-place, cela suggère une voie vers des systèmes FDR embarquables sur des contrôleurs à ressources contraintes, sans passer par un cloud ou un serveur GPU dédié. La distinction SLM/LLM va dans le sens d'une tendance de fond: l'industrie cherche à internaliser l'intelligence, pas à l'externaliser. Ce travail s'inscrit dans un corpus actif de recherches sur la robotique cognitive en milieux industriels incertains, en réponse aux limites bien documentées des architectures réactives classiques face aux pannes atypiques. Les approches concurrentes les plus citées mobilisent GPT-4V ou des modèles de la famille LLaVA comme détecteurs de pannes visuelles, au prix d'une latence incompatible avec les exigences temps-réel des lignes de production. GoC ne nomme pas d'entreprise partenaire ni de pilote terrain; il reste à ce stade un prototype académique dont le transfert industriel nécessiterait une validation sur hardware réel, en particulier sur la robustesse du graphe de scène 3D face aux occlusions et aux environnements encombrés. Aucun acteur européen n'est impliqué dans l'étude publiée. Les prochaines étapes naturelles seraient une validation physique et une comparaison sur des benchmarks standardisés comme FaultBench ou les scénarios de la NIST Assembly Task Board.

RecherchePaper

1 source

Apprentissage de politiques ancrées en simulation pour la manipulation bimanuelle de corde à partir de données de téléopération humaine

38

3arXiv cs.RO

Apprentissage de politiques ancrées en simulation pour la manipulation bimanuelle de corde à partir de données de téléopération humaine

Une équipe de recherche publie sur arXiv (ref. 2605.16043) une étude comparative sur la manipulation bimanuelle de cordes par robot, en se concentrant sur la tâche de démêlage de nœuds. Les chercheurs ont entraîné deux politiques de contrôle basées sur le framework ACT (Action Chunking with Transformers) à partir des mêmes données de télé-opération humaine : la première reçoit en entrée deux flux vidéo RGB provenant de caméras montées sur les poignets du robot, la seconde utilise un état 3D particulaire de la corde, extrait par fusion multi-vues puis propagé dans un simulateur xPBD (eXtended Position-Based Dynamics). Évaluée en boucle ouverte sur une configuration de corde inédite, la politique à base d'état réduit l'erreur L1 de 30,8 % sur l'action initiale de saisie et de traction, par rapport à son homologue visuelle. Ce résultat isole une cause souvent sous-estimée des échecs de généralisation en apprentissage par imitation : non pas l'architecture du réseau ni le volume de données, mais l'espace d'observation lui-même. Les objets linéaires déformables (DLO) comme les câbles et les cordes posent un problème d'auto-occultation fréquente sous caméra ego-centrique, rendant la perception purement visuelle peu robuste sur des configurations non vues à l'entraînement. En ancrant la représentation dans un état physique cohérent simulé par xPBD, les chercheurs comblent partiellement ce "gap d'observabilité" entre pixels bruts et état mécanique réel, ouvrant la voie à un apprentissage plus efficace en données depuis un faible nombre de démonstrations humaines. La manipulation de DLOs est un problème ouvert de longue date en robotique, car leur espace de configuration est théoriquement infini-dimensionnel. L'approche par télé-opération bimanuelle est bien établie depuis les travaux sur ACT (Stanford/Berkeley, 2023), mais sa dépendance à de grands volumes de données limite la scalabilité industrielle. Cette étude s'inscrit dans un courant qui cherche à compenser le manque de données par une meilleure structure de représentation, comparable aux travaux sur les VLA (Vision-Language-Action models) mais ici centré sur la physique plutôt que le langage. Les prochaines étapes naturelles incluent la validation en boucle fermée et l'évaluation sur des câbles industriels, contexte où des acteurs comme Cobot Systems ou des labos européens spécialisés câblage automobile pourraient trouver un intérêt direct.

UEImpact indirect : les équipementiers et laboratoires européens spécialisés dans le câblage automobile pourraient exploiter cette approche pour réduire le volume de données de téléopération requis, un goulot d'étranglement réel dans ce secteur.

RecherchePaper

1 source

De la perception à l'assistance : autonomie partagée à vocabulaire ouvert pour la manipulation robotique

42

4arXiv cs.RO

De la perception à l'assistance : autonomie partagée à vocabulaire ouvert pour la manipulation robotique

Des chercheurs présentent un système d'autonomie partagée pour la téléopération de bras manipulateurs en environnement industriel, publié le 24 juillet 2026 sur arXiv (référence 2607.17323). Le dispositif repose sur une seule caméra RGB-D qui capture les mouvements du bras et les gestes de la main de l'opérateur, sans combinaison connectée, marqueur fiduciaire ni étape de calibration préalable. La cible à saisir est désignée par une simple consigne textuelle en langage libre, interprétée par un modèle vision-langage via la caméra embarquée sur le préhenseur, puis suivie en continu par un modèle de segmentation vidéo promptable sur les caméras du robot, ce qui isole en permanence un repère de saisie de la carte des obstacles. Un contrôleur prédictif (MPC) accéléré par GPU exécute chaque commande tout en évitant les collisions avec l'environnement et avec le robot lui même, grâce à une reconstruction volumétrique calculée en temps réel, pendant qu'un champ de potentiel corrige la trajectoire de l'opérateur lors de l'approche finale. Testé sur un manipulateur mobile quadrupède, le système atteint une précision de positionnement de 59 mm d'erreur quadratique moyenne par rapport à une référence de capture de mouvement, et maintient le bras à au moins 18 cm des obstacles même lorsque l'opérateur tente délibérément une collision de 6 cm. Sur une tâche de manipulation de vanne industrielle et une tâche de prise dépose, le framework complet réussit tous les essais, tandis que le mode entièrement autonome, déclenché par geste, réussit quatre essais sur cinq par tâche. L'intérêt pour l'industrie robotique tient au problème visé: en téléopération classique, aligner précisément un effecteur avec une cible en environnement encombré, avec une perception de profondeur limitée par caméra, reste une source d'erreurs et de collisions coûteuses. En retirant marqueurs et calibration tout en gardant l'opérateur dans la boucle de décision, le système promet un déploiement plus rapide sur des cellules industrielles existantes. Le fait que retirer soit le module de collision, soit le module d'assistance provoque des échecs par des mécanismes différents montre que les deux briques sont complémentaires et non redondantes, un signal utile pour les intégrateurs qui évaluent la robustesse réelle de ces architectures avant tout achat. Le travail s'inscrit dans la convergence actuelle entre modèles vision-langage et téléopération assistée, où l'ancrage d'instructions textuelles dans la perception robotique gagne du terrain face aux interfaces manuelles pures. Les auteurs positionnent leur contribution comme une alternative légère aux pipelines nécessitant équipement dédié ou calibration lourde, et annoncent la possibilité de basculer vers une exécution autonome sur la même cible sans pipeline de perception séparé, ouvrant la voie à des essais plus poussés sur d'autres plateformes et tâches industrielles.

RecherchePaper

1 source

SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné

À lire aussi

Combiner supervision manuelle et par téléopération pour la manipulation riche en contacts via des experts guidés par l'état

Communication orientée objectif pour une détection et récupération rapide des pannes en robotique

Apprentissage de politiques ancrées en simulation pour la manipulation bimanuelle de corde à partir de données de téléopération humaine

De la perception à l'assistance : autonomie partagée à vocabulaire ouvert pour la manipulation robotique