Aller au contenu principal
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
IA physiquearXiv cs.RO6j

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50.

Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court.

Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

Impact France/UE

La disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 Le point de vue du dev

16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

À lire aussi

DexTwist : téléopération en réalité mixte pour la saisie en torsion avec une main dextérique
1arXiv cs.RO 

DexTwist : téléopération en réalité mixte pour la saisie en torsion avec une main dextérique

Une équipe de recherche a publié DexTwist, un framework de téléopération dextre via réalité mixte (MR) ciblant les manipulations rotationnelles en contact riche : ouverture de bouchons, rotation de clés, vissage de boulons. L'article, déposé sur arXiv (arXiv:2605.12182) en mai 2026, documente un échec connu des approches classiques de retargeting : minimiser l'erreur d'angle articulaire ou de position des doigts ne suffit pas quand les morphologies humaine et robot divergent. DexTwist opère en trois étapes - détection d'une prise tripode (pouce-index-majeur), estimation en temps réel de l'axe hélicoïdal (screw axis) et de la magnitude de torsion souhaitée, puis raffinement résiduel dans l'espace articulaire minimisant quatre termes simultanément : angle atteint, cohérence de l'axe, fermeture des doigts, stabilité tripode. Les expériences en simulation et en conditions réelles montrent des gains en suivi angulaire et en stabilité de l'axe par rapport à une baseline de retargeting vectoriel classique. Le problème central est l'embodiment gap : les différences de longueurs de segments, d'axes articulaires et de géométrie des phalanges distales entre main humaine et main robot provoquent un glissement tangentiel des doigts plutôt qu'une rotation stable de l'objet, phénomène désigné comme screw axis drift. Ce glissement dégrade directement la qualité des démonstrations collectées pour l'imitation learning ou les modèles VLA (Vision-Language-Action). Or, la téléopération MR est l'une des rares méthodes scalables pour générer des données de manipulation dextre à volume, et sa fiabilité sur les tâches rotationnelles conditionne directement la qualité des datasets sur lesquels reposent les futurs modèles généraux. La téléopération MR pour les mains robotiques s'est imposée ces dernières années comme alternative aux gants haptiques (DEXMO, SenseGlove) et à la capture de mouvement, avec un déploiement moins contraignant. Des travaux antérieurs comme DexPilot ou AnyTeleop avaient posé les bases du retargeting générique, sans adresser spécifiquement les mouvements de vissage. DexTwist se positionne dans un espace qui inclut également les approches par renforcement pur ou les diffusion policies pour mains dextres commerciales (Allegro, Shadow Hand, LEAP Hand). L'étape suivante naturelle serait d'intégrer ce retargeting fonctionnel dans un pipeline d'imitation learning complet afin de vérifier si la meilleure qualité de démonstration améliore effectivement les politiques autonomes en aval - un gap sim-to-real que l'article n'adresse pas encore.

IA physiqueOpinion
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
2arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

IA physiqueOpinion
1 source
Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots
3arXiv cs.RO 

Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots

Des chercheurs ont publié sur arXiv (2603.17510v2) une architecture permettant à un robot mobile de naviguer en environnement partagé en tenant compte des préférences exprimées en langage naturel par ses utilisateurs. Le système repose sur trois couches distinctes : un modèle vision-langage (VLM) qui analyse en continu les images de la caméra embarquée pour extraire un contexte environnemental structuré, un grand modèle de langage (LLM) qui traduit les retours verbaux des utilisateurs en règles comportementales interprétables, stockées dans une mémoire persistante et modifiable, puis un module de traduction des préférences qui convertit ces règles et ce contexte en vecteurs numériques injectés à la volée dans une politique de navigation par apprentissage par renforcement multi-objectif (MORL) préentraînée. L'évaluation couvre des déploiements réels dans plusieurs environnements intérieurs, une étude utilisateur et des mesures quantitatives par composant, sans que l'abstract précise les effectifs ni les métriques chiffrées de performance. Ce travail adresse un verrou concret pour les déploiements en milieu professionnel : aujourd'hui, un robot de livraison intérieure ou un AMR logistique optimise vitesse et sécurité selon des paramètres fixes, incapable d'adapter son comportement si un opérateur lui dit "ralentis dans la zone de picking" ou "évite le couloir principal le matin". L'architecture proposée résout ce problème sans réentraînement : la mémoire de règles est mise à jour à chaud via langage naturel, ce qui réduit dramatiquement le coût d'intégration pour un déploiement B2B. La séparation claire entre raisonnement sémantique de haut niveau (VLM/LLM) et contrôle temps-réel (MORL) est également un argument industriel sérieux, car elle permet de changer le backbone LLM sans toucher à la politique de bas niveau. Ce type d'approche s'inscrit dans une tendance académique forte depuis 2023 : l'utilisation de fondational models comme couche d'interprétation au-dessus de politiques de contrôle classiques, popularisée notamment par les travaux sur les VLA (Vision-Language-Action models) chez Google DeepMind ou Stanford. La différence ici est la persistance explicite des règles en mémoire et l'utilisation de MORL plutôt que d'une politique end-to-end, ce qui offre davantage de contrôle et de transparence. Aucun partenaire industriel ni timeline de commercialisation ne sont mentionnés, ce travail restant pour l'instant une contribution de recherche. La prochaine étape naturelle serait de valider le système sur des robots commerciaux comme le Spot de Boston Dynamics ou des AMR de Locus Robotics, et d'étendre les expériences aux environnements extérieurs ou aux contextes multi-utilisateurs.

IA physiqueOpinion
1 source
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
4arXiv cs.RO 

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes. L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle. Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.

IA physiqueOpinion
1 source