Aller au contenu principal
RecherchearXiv cs.RO2h

TactileReflex : contrôle réflexe vision-tactile piloté par les statistiques du bruit pour la manipulation sensible à la force

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

TactileReflex est un contrôleur en boucle fermée à trois canaux pour la manipulation de contenants déformables fragiles, comme des gobelets plastiques remplis de liquide. Publié sur arXiv (2605.23568), il utilise deux capteurs visuo-tactiles pour extraire, à environ 12 Hz, trois métriques image : l'intensité de cisaillement (Sy), l'intensité de contact (Fn) et le centre de pression (C), pilotant en parallèle la suppression du glissement, le relâchement adaptatif au poids et la protection contre les surcharges de force. La calibration est entièrement automatique : les seuils de contrôle sont dérivés du bruit intrinsèque des capteurs via un court protocole de maintien statique et déchargement, sans modèles physiques spécifiques aux matériaux ni réglage manuel par essais-erreurs. Les résultats sont nets : en tests d'ablation sur déformation de contenant, le système complet atteint 5/5 succès contre au maximum 1/5 pour les configurations partielles ; sur une tâche de versement dynamique, les approches à effort fixe échouent 10 fois sur 10, contre 9/10 pour TactileReflex sur deux volumes d'eau distincts.

La difficulté de saisir un gobelet plastique tient à une marge de force extrêmement étroite : trop peu de pression entraîne le glissement, trop la déforme irrémédiablement. C'est un angle mort récurrent des politiques VLA (vision-language-action) et de la téléopération sans retour haptique, qui opèrent à l'aveugle face aux variations de rigidité et de poids des objets manipulés. TactileReflex est présenté comme une couche de sécurité "plug-and-play" pouvant s'intercaler sous tout pipeline de manipulation haut niveau. L'absence de calibration externe et l'interprétabilité du contrôleur réduisent le coût d'intégration, un argument concret pour les intégrateurs déployant des bras robotiques polyvalents sur des lignes incluant des produits fragiles ou déformables.

Les capteurs visuo-tactiles de type GelSight ou DIGIT permettent depuis plusieurs années d'imager le contact à l'échelle millimétrique, mais leur intégration dans des boucles de contrôle temps réel avec des seuils fiables reste un défi ouvert. Dans la course actuelle à la manipulation généraliste, Figure AI, Physical Intelligence (Pi-0) et Google DeepMind (RT-2) travaillent principalement avec des objets rigides aux marges de force confortables, laissant la manipulation déformable en marge des grandes démonstrations. L'article reste un preprint non évalué par les pairs, sans affiliation institutionnelle clairement identifiée ni partenaire industriel ni timeline de déploiement annoncés. Sa compatibilité revendiquée avec les pipelines VLA et la téléopération VR ouvre néanmoins une voie vers les frameworks de collecte de données robotiques, un terrain où des acteurs européens comme Enchanted Tools (France) sont actifs.

À lire aussi

Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues
1arXiv cs.RO 

Contrôle d'admittance sensible aux torseurs pour la manipulation de charges utiles inconnues

En avril 2026, des chercheurs ont présenté sur arXiv (réf. 2604.19469) un framework de contrôle en admittance pour la manipulation robotique d'objets à masse inconnue, validé expérimentalement sur un bras UR5e de Universal Robots. Lorsque le centre de masse d'un objet saisi ne coïncide pas avec le point central outil (TCP), la charge génère un couple parasite au poignet, amplifié par l'inertie de l'objet pendant le déplacement. Sans compensation, ce couple est interprété par le contrôleur comme une force d'interaction extérieure, déclenchant des déviations de trajectoire, des erreurs de suivi et une précision de dépose dégradée. La solution exploite le capteur force-couple du poignet selon deux modes séquentiels : une excitation translationnelle sur trois axes atténue l'effet de la charge en transit sans raidir le robot, puis, après la saisie, le contrôleur estime successivement la masse de l'objet et l'offset de son centre de masse par rapport au TCP en analysant les mesures collectées lors du mouvement. Pour les intégrateurs industriels, ce travail cible un problème récurrent : adapter un cobot à des lignes à références multiples sans recalibration manuelle à chaque changement de produit. Les contrôleurs en admittance sont le standard de fait pour les applications collaboratives (ISO/TS 15066), mais leur sensibilité aux perturbations non modélisées au niveau du capteur de couple les rend fragiles sur des tâches d'empilage ou de palettisation à charges variables. La méthode démontre qu'il est possible de préserver la compliance mécanique, garante de la cohabitation humain-robot, tout en corrigeant activement les biais de charge, sans recours à l'apprentissage par renforcement. Les résultats expérimentaux indiquent des gains en transport et en précision de dépose par rapport à la commande non corrigée, bien que l'abstract ne fournisse pas de métriques quantitatives détaillées permettant d'évaluer l'ampleur réelle des améliorations. Le contrôle en admittance, formalisé par Neville Hogan au MIT dans les années 1980, est aujourd'hui intégré nativement dans les plateformes Universal Robots et Franka Robotics. Ce travail s'inscrit dans un courant concurrent des approches VLA (vision-language-action) portées par Physical Intelligence (pi-0) ou Google DeepMind, qui misent sur l'apprentissage massif plutôt que sur la modélisation analytique de la physique. L'avantage différenciant de cette approche est sa traçabilité pour la certification industrielle et l'absence totale de données d'entraînement. Les extensions naturelles incluent la prise en compte des couples en rotation et la validation sur des architectures multi-bras pour la manipulation coordonnée d'objets asymétriques.

UECette méthode de contrôle en admittance robuste aux charges inconnues est directement applicable aux cobots UR5e (Universal Robots, Danemark) et Franka (Allemagne) largement déployés dans l'industrie européenne, facilitant la conformité ISO/TS 15066 sur les lignes à références multiples sans recalibration manuelle.

RecherchePaper
1 source
Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes
2arXiv cs.RO 

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes

Une équipe de recherche publie sur arXiv (référence 2605.16056) un modèle VLA (Vision-Language-Action) capable d'adapter son comportement à la dégradation physique d'un robot, une problématique distincte des pannes de tâches habituellement ciblées par la littérature. L'approche repose sur l'injection d'un module "Health Projector" dans l'architecture VLA-Adapter : le modèle reçoit en entrée un vecteur de santé encodant l'amplitude articulaire et le couple disponible pour chaque joint. Entraîné sur 128 épisodes téléopérés collectés dans l'environnement de simulation LIBERO (benchmark Libero-Spatial), il parvient à compléter des tâches de manipulation spatiale avec des configurations de joints dégradés où le modèle de référence VLA-Adapter Libero-Spatial-Pro échoue systématiquement. Le code et le jeu de données seront prochainement disponibles sur GitHub (h-arslan/health-aware-vla). L'intérêt industriel est réel : dans les déploiements terrain, les robots accumulent des dégradations mécaniques progressives (usure articulaire, perte de couple, grippage de préhenseur) sans nécessairement déclencher d'alarme critique. Un contrôleur aveugle à cet état physique maintient ses consignes nominales et accumule les erreurs ; un modèle conditionné à la santé peut recalculer ses trajectoires à la volée. La modification proposée est présentée comme légère, ce qui suggère une intégration possible dans des pipelines VLA existants sans refonte complète. Cependant, les résultats restent limités à la simulation LIBERO avec 128 épisodes seulement, un jeu de données particulièrement restreint, et aucune validation sur robot physique n'est présentée, laissant le gap sim-to-real entièrement ouvert. Ce travail s'inscrit dans l'expansion rapide des VLA depuis 2023, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA ou la famille RoboVLMs. VLA-Adapter, utilisé comme base ici, est une variante qui réduit les coûts de fine-tuning en gelant le backbone visio-langagier pour n'entraîner qu'un adaptateur léger. La résilience robotique est jusqu'ici majoritairement traitée côté contrôle bas niveau (détection de fautes, compensation par redondance articulaire) plutôt qu'au niveau de la politique visuo-langagière, ce qui rend l'angle de cette recherche original. Aucun acteur européen n'est impliqué dans cette publication. La prochaine étape logique serait une validation sur hardware réel avec des dégradations induites mécaniquement et un dataset substantiellement élargi pour crédibiliser le passage à l'échelle.

RechercheOpinion
1 source
ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile
3arXiv cs.RO 

ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile

Une équipe de chercheurs a publié en juin 2025 ViTacFormer, une architecture d'apprentissage de représentations multi-modales pour la manipulation dextre robotique. Le système couple un encodeur cross-attention fusionnant vision haute résolution et données tactiles avec une tête de prédiction autoregressive des signaux de contact futurs, entraîné selon un curriculum progressif allant des tâches simples aux plus complexes. La représentation apprise pilote un module d'imitation learning pour des mains anthropomorphes multi-doigts. Sur des benchmarks réels en laboratoire, ViTacFormer dépasse les systèmes état de l'art précédents d'environ 50 %, enchaîne jusqu'à 11 étapes séquentielles sans intervention humaine et maintient une opération continue de 2,5 minutes sur des tâches de manipulation de précision. L'architecture répond à un verrou concret de la manipulation fine : les occlusions visuelles rendent la vision seule insuffisante lorsque la main cache l'objet, un problème que les capteurs tactiles résolvent mais que peu de systèmes intègrent de façon apprenante. La prédiction anticipée des contacts plutôt que leur simple détection réactive réduit la latence de contrôle, décisive pour les gestes de précision. La capacité à enchaîner 11 sous-tâches ouvre une voie pour l'assemblage multi-étapes industriel, où les robots classiques nécessitent actuellement une programmation explicite à chaque étape. Ces résultats restent cependant des benchmarks de laboratoire contrôlés ; la distance avec un déploiement en ligne de production réelle, où la variabilité des pièces et la robustesse du capteur tactile dans le temps sont critiques, demeure entière. ViTacFormer s'inscrit dans une vague de travaux combinant modèles VLA (Vision-Language-Action) et retour haptique, explorée également par Google DeepMind (Robotic Transformer), Physical Intelligence (Pi-0) et des startups comme Dexterous AI. Côté matériel, la dépendance aux mains anthropomorphes multi-doigts reste un frein à la commercialisation : Shadow Robot (UK) et Inspire-Robots (CN) dominent ce segment, mais à des coûts et avec une fiabilité mécanique qui limitent encore les déploiements industriels à grande échelle. Le travail est publié sous forme de preprint arXiv (arXiv:2506.15953), sans code ni dataset public annoncé à ce stade ; la transition vers des résultats reproductibles et des pilotes hors laboratoire constitue l'étape critique à surveiller.

RechercheOpinion
1 source
CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche
4arXiv cs.RO 

CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche

Une équipe de chercheurs propose CoRAL (Contact-Rich Adaptive LLM-based control), un framework publié en preprint sur arXiv (2605.02600) en mai 2025, conçu pour résoudre l'une des limites persistantes des grands modèles de langage appliqués à la robotique : la manipulation en contact riche, c'est-à-dire les tâches nécessitant des interactions physiques précises et réactives. L'architecture repose sur un découplage strict entre raisonnement de haut niveau et exécution de bas niveau. Contrairement aux approches VLA (Vision-Language-Action) qui emploient le modèle comme contrôleur direct, CoRAL utilise le LLM comme concepteur de fonctions de coût pour un planificateur par échantillonnage (MPPI, Model Predictive Path Integral). Un VLM fournit des priors sémantiques sur les paramètres physiques de l'environnement - masse et friction - affinés en temps réel par identification de système en ligne, tandis qu'une mémoire par récupération permet de réutiliser des stratégies validées sur des tâches récurrentes. Sur des scénarios incluant le retournement d'objets contre des murs via des contacts extrinsèques, CoRAL affiche un taux de succès supérieur de plus de 50 % en moyenne aux baselines VLA testées, sur des tâches jamais vues en entraînement, aussi bien en simulation que sur hardware réel. L'intérêt principal pour les intégrateurs réside dans la résilience au gap sim-to-real : en adaptant dynamiquement sa représentation des paramètres physiques lors des premières interactions, le système corrige en vol ses erreurs stratégiques sans nécessiter de re-entraînement. La séparation raisonnement/exécution garantit en outre une stabilité temps réel, le LLM étant par nature trop lent pour s'insérer dans une boucle de contrôle réactif. C'est un argument concret contre les VLA pures, qui peinent précisément sur les tâches à fort contact car leurs politiques apprises ne s'adaptent pas aux incertitudes physiques non vues. Le gain de 50 % mérite cependant d'être pondéré : les baselines exactes et le périmètre précis des tâches de test ne sont pas détaillés dans le résumé, et ce travail reste un preprint non relu par les pairs. CoRAL s'inscrit dans un champ de recherche actif qui cherche à hybrider planification symbolique et modèles de fondation pour dépasser les limites des VLA comme Pi-0 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA. Ces modèles ont montré des capacités convaincantes sur des tâches de manipulation standards mais buttent sur les contacts complexes et les environnements non vus. Le planificateur MPPI est une méthode stochastique éprouvée en robotique, ce qui ancre CoRAL dans un socle technique solide plutôt que dans une approche purement émergente. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade - la prochaine étape naturelle serait une validation sur un spectre plus large de tâches industrielles, comme l'assemblage ou la manipulation d'objets déformables, pour mesurer la généralisation réelle de l'approche.

RecherchePaper
1 source