Dossier arXiv cs.RO — page 9

2027 articles · page 9 sur 41

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

401arXiv cs.RO RecherchePaper

NoContactNoWorries : estimation du contact par vision et proprioception pour la manipulation dextérique en main

Une équipe de chercheurs présente NoContactNoWorries, un cadre multimodal basé sur des transformers qui fusionne la vision RGB-D et la proprioception du robot pour estimer des états de contact binaires pendant la manipulation en main. Publié en prépublication sur arXiv (référence 2506.24450), le système entraîne un unique modèle de prédiction de contact sur plusieurs objets distincts et valide l'approche à la fois en simulation et sur un robot physique. Le signal de contact inféré sert d'entrée pseudo-tactile pour des agents d'apprentissage par renforcement chargés de la réorientation d'objets tenus en main, avec généralisation démontrée sur des objets non vus durant l'entraînement. L'intérêt pour les intégrateurs robotiques est direct : les capteurs tactiles dédiés, qu'il s'agisse de solutions de type GelSight, DIGIT ou de nappes piézorésistives, se heurtent à trois obstacles récurrents en environnement industriel, à savoir le coût unitaire élevé, la fragilité mécanique et la complexité d'intégration sur des mains multi-doigts. NoContactNoWorries contourne ces contraintes en exploitant uniquement des caméras RGB-D et les données proprioceptives déjà disponibles sur la grande majorité des bras et mains robotiques commerciaux. La limitation reste substantielle : la détection est purement binaire (contact ou absence de contact), sans estimation de force ni de distribution de pression, ce qui restreint l'applicabilité aux tâches nécessitant un retour haptique fin, comme l'assemblage de composants fragiles ou la manipulation de textiles. L'approche s'inscrit dans une tendance plus large de la manipulation dextre cherchant à éliminer les capteurs spécialisés au profit de modalités perceptuelles génériques, dans la continuité des travaux sur les politiques visuomotrices à grande échelle (VLA). Le domaine du toucher artificiel reste actif, avec des acteurs comme Contactile (Australie), Touchlab (Écosse) ou les équipes du MIT CSAIL qui développent des capteurs embarqués haute résolution. À ce stade, NoContactNoWorries est un résultat académique en prépublication, non encore soumis à révision par les pairs, et les auteurs n'annoncent aucun calendrier de transfert industriel.

Dossier arXiv cs.RO — page 9

NoContactNoWorries : estimation du contact par vision et proprioception pour la manipulation dextérique en main

CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle

Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information

MirrorDuo : apprentissage visuo-moteur cohérent par paires de démonstrations en miroir

Apprentissage robotique ludique à base d'agents

Mem-World : modèles du monde conditionnés par l'action et augmentés par la mémoire pour la manipulation robotique persistante

Les modèles VLA maîtrisent-ils les bases ? Évaluation de la rétention du sens commun et des connaissances du monde

Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots

DREAM-Chunk : regroupement d'actions réactif avec modèle du monde latent

R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique

Guava : un cadre efficace et universel pour la manipulation incarnée

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

Surveillance respiratoire sans contact sur robots mobiles hétérogènes : un cadre multimodal de calcul embarqué

Un cadre d'optimisation hybride pour la synthèse de saisie sous observations partielles

Quel point de départ pour générer des actions ? Un prior source apprenable pour les politiques robotiques génératives

Adaptation aux dommages en quelques secondes pour les matériaux architecturés

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

WireCraft : un benchmark de simulation pour la manipulation industrielle de câbles flexibles

DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine

Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques

Identification d'un modèle de consommation électrique basé sur la physique pour le bras humanoïde Unitree G1

Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot

LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche

QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux

La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques

IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement

Prise de décision bio-inspirée dans les essaims de robots soumis à des biais

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA

Pilotage de politique d'inférence par vision et toucher

Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA

PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Fourier Features permet aux agents d'apprendre des politiques haute précision par apprentissage par imitation

PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire

Analyse de la locomotion d'un quadrupède sur le sol granulaire lunaire

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire

Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques