Dossier arXiv cs.RO — page 18

2263 articles · page 18 sur 46

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

851arXiv cs.RO RecherchePaper

UniTac : modèle multimodal unifié pour la compréhension et la génération tactiles multi-capteurs

Une équipe de recherche présente UniTac, décrit comme le premier modèle multimodal unifié (UMM) conçu spécifiquement pour la compréhension et la génération de données tactiles, dans un article publié sur arXiv (2606.31451v1). Le système modélise le processus tactile comme une transition entre l'absence de contact et le contact, via une représentation à deux niveaux qui encode à la fois les attributs du capteur utilisé et ceux de l'objet touché. Pour la compréhension, UniTac introduit deux tâches inédites : la description des propriétés physiques d'un objet et l'identification du capteur à l'origine du signal. Pour la génération, les auteurs proposent un entraînement en deux étapes, reconstruction puis alignement, complété par une stratégie d'échantillonnage basée sur les caractéristiques propres à chaque capteur afin de simuler des contacts réalistes. Entraîné sur des jeux de données tactiles multi-capteurs à grande échelle, le modèle revendique des performances état de l'art en compréhension tactile et une capacité à générer des signaux tactiles crédibles quel que soit le capteur d'origine. L'enjeu principal touche à la fragmentation du capteur tactile en robotique : les technologies existantes (capteurs optiques type GelSight ou DIGIT, capteurs magnétiques comme ReSkin, etc.) produisent des signaux de formats incompatibles, ce qui oblige généralement à ré-entraîner un modèle par type de capteur. Un modèle unifié capable à la fois d'interpréter et de générer du signal tactile à travers différents capteurs ouvrirait la voie à un transfert d'apprentissage sans recollecte massive de données, et à une augmentation synthétique des jeux de données tactiles pour l'entraînement de politiques de manipulation. C'est un pas potentiel vers l'intégration du toucher dans les modèles vision-langage-action (VLA) qui structurent aujourd'hui la robotique humanoïde, où la perception reste très majoritairement centrée sur la vision. Ce travail s'inscrit dans la continuité des modèles multimodaux unifiés développés pour l'image et le texte, ici transposés au domaine tactile encore largement sous-exploré selon les auteurs. Il ne s'agit à ce stade que d'une publication de recherche, sans capteur commercial ni intégration robotique annoncée : l'article ne précise ni partenariat industriel, ni calendrier de déploiement, ce qui en fait une contribution méthodologique plutôt qu'un produit prêt à l'emploi.

Dossier arXiv cs.RO — page 18

UniTac : modèle multimodal unifié pour la compréhension et la génération tactiles multi-capteurs

IA incarnée : DVG-WM génère des vidéos découplées pour un modèle du monde efficace en manipulation robotique

Coordination multirobot pour la planification sous incertitude contextuelle

Robot mobile autonome basé sur l'apprentissage par renforcement multi-objectif coordonné et guidé par échantillonnage

LARA : alignement des représentations d'actions latentes pour les modèles vision-langage-action

Robot de sécurité pour l'inspection industrielle : un benchmark multimodal

Terrain robotisé pour un rover planétaire à suspension activement articulée

SPACE : champs de phéromones pour l'exploration adaptative d'essaims sans collision

Optimisation de trajectoire sans collision pour la fabrication additive multi-axes par projection de gradient contraint

WoVR : des modèles du monde comme simulateurs fiables pour l'entraînement post-déploiement des politiques VLA par renforcement

Mémoire analytique centrée sur les concepts pour la manipulation incarnée à base d'agents

CORE : régularités communes issues de démonstrations visuelles sans actions pour la manipulation robotique

Modèles vision-langage pour la navigation de robots sociaux déployables : relier le raisonnement sémantique et le contrôle de bas niveau

Apprentissage de dynamiques transférables : des modèles d'action aux modèles du monde

CSAR : architecture système conteneurisée pour la robotique

HUMEMBR : apprentissage des routines humaines pour la navigation incarnée prédictive

RetrDex : récupération efficace d'objets dans des environnements encombrés avec une main dextérique

SCREP : génération de trajectoires perceptuelles par régression de coordonnées de scène et apprentissage évidentiel

PhysisForcing : simulateur du monde renforcé par la physique pour la manipulation robotique

Apprendre à lancer : livraison agile et précise de charge utile suspendue par câble avec un quadrirotor

Apprentissage résiduel multi-échelle et adaptation en ligne pour manipulateurs aériens

DexCompose : réutiliser des politiques dextériques pour la manipulation multi-tâche avec une seule main

StereoVLA : améliorer les modèles vision-langage-action grâce à la vision stéréoscopique

E-TTS : un nouveau cadre de mise à l'échelle au moment de l'inférence pour la manipulation robotique

Pilotage du comportement robotique à l'inférence par reconfiguration physiquement informée de la structure de tâche

Les modèles d'action du monde permettent un apprentissage par imitation continu avec rejeu génératif récurrent

SSI-Policy : apprentissage d'interfaces de scène structurées pour la manipulation robotique vision-langage

Tactile-WAM : modèle d'action du monde sensible au toucher avec attention asymétrique tactile

ReaDy-Go : simulation dynamique réel-vers-sim par Gaussian Splatting 3D pour la navigation visuelle avec obstacles mobiles

ARTOO-DARTU : étude de la collaboration humain-robot en réalité augmentée avec atténuation des occlusions pour les tâches d'entrepôt

Récupération mémorielle dans les politiques visuomotrices pour le contrôle robotique à long horizon

TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence

FORCE : affinage par renforcement efficace de modèles VLA via préchauffage calibré par valeur et auto-distillation

Découplage de la sémantique et de l'ancrage géométrique : prompts visuels spatiaux pour l'apprentissage par imitation guidé par le langage

RoboRouter : sélection de politiques sans entraînement pour la manipulation robotique

ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action

WOLF-VLA : framework de locomotion optimale corps entier pour humanoïdes avec apprentissage vision-langage-action

MinInter : minimiser l'interpolation de trajectoire lors de l'augmentation de données pour l'apprentissage par imitation

Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service

Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots

InSight : acquisition autonome de compétences via des VLA pilotables

ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain

Co-VLA : modélisation structurée des actions intégrant la coordination pour systèmes VLA bi-bras

MirrorDuo : apprentissage visuo-moteur cohérent par paires de démonstrations en miroir

Pose6DAug : substitution d'objets multi-vues physiquement plausible pour l'augmentation de données en robotique

ImageWAM : les modèles action-monde ont-ils vraiment besoin de génération vidéo, ou seulement d'édition d'images ?

Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique

VEGA : apprentissage de VLA de navigation depuis des vidéos égocentriques réelles avec supervision géométrique

HALOMI : apprentissage de la loco-manipulation humanoïde avec perception active à partir de démonstrations humaines

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente