RecherchearXiv cs.RO7sem

De la saisie à l'insertion : assemblage de précision assisté par retour tactile sous tolérances inférieures au millimètre

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en mai 2026 sur arXiv (2605.04649) une méthode en deux étapes pour l'assemblage robotique sous tolérances sub-millimétriques, combinant apprentissage par imitation (IL) et apprentissage par renforcement (RL) augmentés par retour tactile. Le premier module IL apprend l'approche et la saisie du peg, tandis qu'un second module RL se charge de l'insertion proprement dite, incluant la récupération sur contact. Deux contributions techniques encadrent le système : le "tactile group sampling", qui augmente la couverture des segments de contact critiques en entraînement, et un "tactile critic" pour une meilleure évaluation des politiques. Testée sur cinq géométries de trous et trois niveaux de jeu, la méthode atteint un taux de réussite de 67 % sous le jeu le plus sévère (0,05 mm), tout en réduisant la force de contact maximale de 60 % et le couple de 44 % par rapport aux approches de référence.

L'assemblage sous tolérances inférieures à 0,1 mm est l'un des goulots d'étranglement persistants de la robotique industrielle : une erreur de pose de quelques centièmes suffit à provoquer un coincement (jamming) ou la destruction d'une pièce à haute valeur. Que ce travail maintienne des forces basses tout en conservant un taux de succès substantiel répond directement aux critères des équipementiers électroniques, médicaux et de la mécanique fine. L'approche confirme surtout que les capteurs tactiles, longtemps relégués derrière la vision, peuvent combler le sim-to-real gap dans les tâches contact-riches, là où la caméra manque de résolution locale, un argument de poids pour les intégrateurs qui dimensionnent leurs cellules.

Ce travail s'inscrit dans la lignée des recherches peg-in-hole initiées par les labos MIT et Stanford, mais l'accent sur la sécurité des forces le distingue des approches orientées performance brute. Sur le marché, les fabricants de bras collaboratifs (Universal Robots, FANUC, ABB) et les spécialistes du capteur tactile (Contactile, Xela Robotics, Touchlab) seront attentifs à la reproductibilité sur hardware réel. Le preprint reste au stade de la preuve de concept en laboratoire, sans pilote industriel annoncé ; les prolongements logiques incluent des géométries asymétriques, des matériaux déformables et une validation temps-réel embarquée pour tenir les cadences de production.

Impact France/UE

Les fabricants européens de bras collaboratifs (Universal Robots, ABB) et les intégrateurs de cellules d'assemblage de précision pourraient s'appuyer sur cette approche pour adresser les goulots d'étranglement dans l'électronique et le médical, secteurs où les tolérances sub-millimétriques sont la norme.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

Des chercheurs ont publié sur arXiv (arXiv:2511.17774, version 3) une étude portant sur l'application de l'apprentissage par diffusion à l'assemblage robotique dans le secteur de la construction. Le cas d'usage retenu est l'assemblage tenon-mortaise en bois, une jonction à contact riche soumise à des contraintes de friction et de géométrie strictes, avec des jeux inférieurs au millimètre. Les politiques de diffusion sensori-motrices ont été entraînées à partir de démonstrations téléopérées collectées sur un poste de travail robotique industriel équipé de capteurs force/couple. L'évaluation s'est déroulée en deux phases : une baseline en conditions nominales et un test de robustesse avec des perturbations positionnelles aléatoires allant jusqu'à 10 mm, soit un ordre de grandeur au-delà de la tolérance d'assemblage. La politique la plus performante atteint 100 % de taux de succès en conditions nominales et 75 % en moyenne sous perturbation. Ce résultat est notable car il adresse directement un verrou industriel structurel : l'accumulation de tolérances dans la construction empêche depuis longtemps l'automatisation fiable des tâches d'assemblage à contact. Le fait qu'une politique diffusion parvienne à compenser des désalignements de 10 mm pour des jeux sub-millimétriques suggère que ces architectures apprennent implicitement une stratégie de compliance active via le retour d'effort, sans modélisation géométrique explicite. Pour un intégrateur industriel ou un bureau de méthodes, cela signifie que le sim-to-real gap sur des tâches de précision en construction pourrait être en partie résorbé par l'apprentissage par imitation couplé à la force/couple, sans recalibration manuelle systématique. L'assemblage tenon-mortaise n'est pas un choix anodin : cette technique millénaire est revenue en force dans la construction bois massive (CLT, charpente lamellée-croisée), un segment en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann. Les politiques de diffusion appliquées à la robotique manipulatrice ont été popularisées par des travaux comme le Diffusion Policy de Chi et al. (2023, Columbia/Toyota) et sont désormais explorées par des labos comme Physical Intelligence (pi) avec Pi-0, ou par Boston Dynamics Research. Cette étude se distingue en ciblant explicitement la construction industrielle plutôt que la cuisine ou la logistique. La prochaine étape logique serait un déploiement en conditions chantier réelles, avec variation de matériaux et de géométries, ce que les auteurs n'ont pas encore testé.

UELe segment construction bois massive (CLT, charpente lamellée-croisée) est en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann ; une automatisation fiable des assemblages à contact ouvrirait une voie d'industrialisation directement applicable sur les chantiers européens.

RecherchePaper

1 source

2arXiv cs.RO

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)

Des chercheurs proposent T³VF (Test-Time Training Visual Foresight VLA), une méthode d'adaptation à l'inférence publiée sur arXiv en mai 2025 (réf. 2605.08215). Les architectures Visual Foresight VLA, qui figurent parmi les plus performantes pour le contrôle de robots manipulateurs, fonctionnent en deux temps : elles prédisent d'abord une image future représentant l'état visuel attendu après l'action, puis génèrent la commande motrice à partir de cette prédiction. Cette dépendance en cascade crée une vulnérabilité double aux situations hors-distribution (OOD) : une prédiction visuelle dégradée corrompt directement la décision motrice en aval. T³VF exploite l'écart entre l'image future prédite et l'observation réellement reçue comme signal de supervision naturel, permettant au modèle de s'ajuster en continu pendant l'exécution, sans modification architecturale ni modules auxiliaires. Un mécanisme de filtrage adaptatif sélectionne les mises à jour pertinentes pour éviter la dérive par accumulation d'erreurs indiscriminée. Pour les équipes de déploiement, l'enjeu est direct : les VLA sont benchmarkés en laboratoire mais confrontés en production à des variations de scène (éclairage, textures, disposition des objets) rarement couvertes par les données d'entraînement. T³VF propose une adaptation sans annotation humaine ni nouvelle session d'entraînement, le robot se corrigeant à partir de ses propres observations, avec un surcoût d'inférence qualifié de modeste par les auteurs, une affirmation à vérifier selon les environnements cibles. Si les résultats se confirment à plus grande échelle, la méthode pourrait réduire les cycles de re-fine-tuning lors du passage en production, un poste de coût opérationnel significatif pour les intégrateurs industriels. Les VLA s'imposent depuis 2023 comme architecture dominante en manipulation robotique, portés par des modèles comme RT-2 (Google DeepMind), OpenVLA ou Pi-0 de Physical Intelligence. Les variantes Visual Foresight, qui ajoutent une prédiction d'état futur avant l'action, ont montré des gains sur les tâches de précision, mais leur fragilité face aux shifts de distribution restait peu adressée dans la littérature. Ce travail s'inscrit dans un courant croissant de Test-Time Training (TTT) appliqué à la robotique, distinct du fine-tuning classique en ce qu'il n'exige aucune supervision externe. Aucun partenariat industriel ni timeline de transfert technologique n'est mentionné : ce pré-print académique ne décrit pas de produit ou de déploiement commercialisé associé.

RechercheOpinion

1 source

3arXiv cs.RO

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Des chercheurs ont publié sur arXiv (2606.11743) TacCoRL, un framework destiné à intégrer le retour tactile dans les modèles vision-langage-action (VLA) pour la manipulation robotique. L'approche combine un co-entraînement simulation-réel et de l'apprentissage par renforcement (RL) en simulation, sans nécessiter de pré-entraînement tactile à grande échelle ni d'exploration extensive sur hardware réel. Évalué sur quatre tâches bimanuelles à riche contact (insertion, assemblage, manipulation d'objets déformables), le système atteint un taux de succès moyen de 72,5 % contre 50,0 % pour la baseline VLA visuelle seule, soit un gain relatif de 45 % sur ces benchmarks spécifiques. L'apport technique central n'est pas simplement d'ajouter la touche comme entrée supplémentaire, mais d'apprendre comment les lectures de contact doivent moduler la réponse motrice dans les états de quasi-échec, états rares dans les démonstrations humaines et risqués à collecter sur robot physique. TacCoRL utilise un simulateur aligné sur le réel comme environnement fermé pour les interactions de contact : des trajectoires mixtes (simulées et réelles) initialisent d'abord les actions conditionnées au tactile dans la politique pré-entraînée, puis le RL avec récompenses vérifiables optimise la politique sur des rollouts simulés, tandis qu'un objectif supervisé sur trajectoires réelles ancre la distribution visuelle, tactile et d'action au domaine de déploiement. Le résultat se transfère directement sur robot réel, sans état simulé privilégié ni RL en ligne. C'est une réponse directe au "demo gap" des VLA actuels : les politiques vision-seule échouent précisément sur les phases de contact que la caméra ne résout pas. Le contexte est celui d'une compétition intense autour des VLA polyvalents : Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses dérivés, ainsi que les efforts de génération suivante (GR00T N2 de NVIDIA, OpenVLA). Tous partagent la même limitation structurelle : l'observation visuelle reste insuffisante pour les tâches à fort contact. La piste tactile est explorée depuis plusieurs années (capteurs GelSight, SynTouch, Digit de Meta), mais son intégration dans des architectures VLA de grande taille restait un verrou de scalabilité. TacCoRL propose une voie pragmatique sans dataset tactile massif, ce qui abaisse la barrière d'adoption pour les laboratoires et intégrateurs. Les prochaines étapes logiques seraient l'extension à des capteurs tactiles commerciaux standardisés et des évaluations sur des tâches industrielles réelles, hors conditions de laboratoire contrôlées.

RechercheOpinion

1 source

4arXiv cs.RO

TouchDrive : interface tactile sans électronique pour l'aide à la préhension

Des chercheurs ont publié sur arXiv (réf. 2605.06432) TouchDrive, une interface de retour tactile entièrement passive destinée à la préhension robotique assistive. Le système repose sur un clapet pneumatique normalement fermé, un réservoir d'air comprimé, un élément de captation mécanique et un actionneur haptique, sans aucun composant électronique. Le principe est direct : les forces de contact générées lors de la saisie sont converties en pression pneumatique qui actionne le retour haptique vers l'opérateur dans une boucle mécanique unique, sans microcontrôleur, sans firmware, sans couche logicielle intermédiaire. Le système a été validé sur plusieurs plateformes robotiques et testé sur un panel de 20 objets représentatifs, dont des fruits et des articles du quotidien, couvrant à la fois des objets compliants et des objets fragiles. L'intérêt industriel et médical de TouchDrive tient à sa rupture architecturale : là où les interfaces tactiles concurrentes empilent capteurs à résistance variable ou piézoélectriques, unités de traitement embarquées et buses d'actuation pilotées par microcontrôleur, TouchDrive condense sensing, génération de signal et retour haptique dans un seul circuit pneumatique passif. Cette compression de la chaîne de traitement réduit directement le coût de fabrication, la surface de défaillance et les contraintes réglementaires liées aux dispositifs électroniques en milieu médical. Pour un COO qui intègre des bras robotiques dans des environnements sensibles ou à budget contraint, l'absence d'électronique signifie aussi une maintenance simplifiée et une certification potentiellement plus rapide. La capacité à moduler la force de préhension en temps réel via retour tactile est ce qui permet la manipulation précise d'objets déformables, un problème non résolu par les systèmes de contrôle en position pure. Le champ de la manipulation assistive est actuellement dominé par des capteurs tactiles électroniques comme GelSight (MIT), DIGIT (Meta AI) ou les solutions embarquées de Touchlab et Contactile, tous dépendants de GPU ou de microcontrôleurs pour le traitement. TouchDrive se positionne explicitement à contre-courant, en ciblant l'accessibilité et la robustesse plutôt que la densité d'information. Il s'agit pour l'heure d'un prototype de laboratoire publié sous forme de preprint, sans partenaire industriel ni calendrier de commercialisation annoncé. La prochaine étape logique serait une validation sur des tâches à contraintes de force plus strictes et un test en conditions d'usage réelles avec des utilisateurs en situation de handicap moteur.

RecherchePaper

1 source