Recherche — page 2

2549 articles · page 2 sur 51

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Humanoïdes IA physique Industriel FR/EU ecosysteme Chine/Asie Business Exosquelettes Regulation Infrastructure Societe/Ethique Autre

51arXiv cs.RO RechercheActu

N₀-VTLA : passage à l'échelle du modèle vision-tactile-langage-action grâce à des tokens tactiles latents

Voici l'article : Une équipe de recherche présente N0-VTLA, un modèle fondation vision-tactile-langage-action (VTLA) conçu pour la manipulation fine en contact avec des objets, combinant perception tactile et contrôle par retour tactile. Décrit dans un article publié sur arXiv (2607.23782), le système repose sur trois étapes d'entraînement : un pré-entraînement visuo-tactile sur NeoData, un vaste jeu de données robotiques propriétaire combinant vision et toucher, une intégration progressive d'un canal tactile dédié, puis une amélioration de politique hors ligne baptisée ALTER. Les auteurs revendiquent le premier modèle VTLA pré-entraîné sur des données tactiles à cette échelle. Sur les neuf tâches du benchmark réel NeoReal, N0-VTLA l'emporte face à toutes les méthodes concurrentes testées. Sur une suite de vingt tâches en simulation, il atteint 63,8% de réussite moyenne, contre 44,0% pour la meilleure référence. Les politiques entraînées avec ALTER atteignent 75 à 95% de réussite sur trois tâches réelles à horizon long. Ces résultats ciblent un point de friction connu de la robotique manipulatrice : les modèles vision-langage-action actuels gèrent mal les tâches nécessitant un contact fin et continu, comme la manipulation d'objets déformables, faute d'un signal tactile correctement intégré. En démontrant qu'un canal tactile prédictif, distillé à partir de priors appris à grande échelle, améliore significativement la réussite sur des tâches de préhension délicate, l'étude apporte un argument concret pour l'intégration systématique du toucher dans les futures architectures VLA, un sujet jusqu'ici moins mature que la seule perception visuelle. La méthode ALTER, qui transforme des comparaisons de progression et d'événements de trajectoire en étiquettes d'avantage binaires, offre aussi une piste pour exploiter des corpus de déploiement déjà collectés sans reconstruire un pipeline de reward complexe. Le travail s'inscrit dans la vague récente de modèles VLA génériques (Pi-0, GR00T N2, Helix) qui cherchent à généraliser la manipulation robotique au-delà de tâches scriptées, mais reste à ce stade une contribution académique évaluée sur des benchmarks internes aux auteurs plutôt qu'un produit ou un déploiement industriel documenté. Aucune date de disponibilité, aucun partenariat commercial ni acteur français ou européen n'est mentionné dans l'article ; les prochaines étapes annoncées concernent l'extension du jeu de données NeoData et l'application d'ALTER à d'autres familles de tâches de manipulation contact-riches.

Recherche — page 2

N₀-VTLA : passage à l'échelle du modèle vision-tactile-langage-action grâce à des tokens tactiles latents

Vue-Langage-Action : agir, réfléchir ou s'abstenir selon la complexité perçue

Structured Observation Language pour la navigation vision-langage efficace et généralisable

DeReCo : découpler l'apprentissage de la représentation et de la coordination pour le transport coopératif décentralisé multi-robots adaptatif à l'objet

Apprentissage de priors moteurs hybrides réutilisables pour la locomotion humanoïde par imitation de mouvement

Modèle de cognition du monde pour l'interaction humain-robot généralisable

Modèle du monde visuo-tactile FeelWorld pour la prédiction et la planification hiérarchiques du contact

SHARE : vers une réalité augmentée montée sur casque avec SLAM centré utilisateur en espace de travail humain-robot partagé

Stress-tester des agents LLM dans un laboratoire de chimie robotisé

Manipulation prensile et non prensile simultanées : une approche pratique des tâches dextres multi-étapes

PAC-DP : apprentissage de politiques de diffusion par une approche PAC-bayésienne

WorldDiT : une architecture de diffusion unifiée pour la modélisation du monde et des actions

Vol anticipé guidé par les risques : un apprentissage par renforcement pour voler en sécurité dans un environnement dynamique encombré

FutureRTC : exécution robotique en temps réel par regroupement d'actions conditionné par anticipation

Interface KAI : une approche tenant compte de la cinématique pour la manipulation efficace d'objets articulés

Sling2Sim2Real : identification élastique en un seul essai pour l'apprentissage de politiques de fronde non destructif

Modèle du monde ancré : alignements latents prédictifs pour l'action (LeapBot-WA)

WARL : apprentissage par renforcement augmenté par la clé pour l'apprentissage indépendant de la tâche chez les robots à pattes

Manipulateurs souples à câbles : estimation à horizon glissant et commande prédictive non linéaire

Modèle de fondation à base d'agents : combler la lacune d'orchestration des robots généralistes grâce à l'agentivité physique

Un bras observe l'autre : coopération multi-agents dynamique pour une manipulation bimanuelle efficiente en environnement dynamique

Robot conforme : cadre modulaire pour l'impédance variable en ligne avec axes de compliance orientés arbitrairement

StARS : recommandation d'actions robotiques socialement appropriées via un système de recommandation

ACME : jeu de données multiculturel et multi-incarnation pour la navigation sociale

GRACE : génération d'actions robotiques sans gradient par estimation de la moyenne a posteriori combinant diffusion et MPPI

Robot à peau artificielle : évaluation humaine des réflexes tactiles de retrait

Mag4D-SLAM : un jeu de données géomagnétique 4D multimodal à traversées répétées pour la localisation et la cartographie

Impédance de manipulateurs embarqués sur navire via dynamique inverse dans l'espace des tâches basée sur l'optimisation

IA incarnée et prédictive : le contrôle par apprentissage sûr pour les systèmes robotiques ego-monde

Aviation autonome : évaluation zéro-shot des agents MLLM au niveau mission

ViTacWorld : passage à l'échelle des modèles du monde visuo-tactiles pour la manipulation robotique riche en contacts

Modèles de génération de graphes de scènes 2D géométriques

DB-VIO : odométrie visuelle-inertielle à double branche avec représentation visuelle-inertielle améliorée

Main humanoïde monolithique à pliage origami asymétrique et actionneurs à double chambre

Robot-Factored World Models via le rendu de robots

Modélisation de récompense de progression pour l'apprentissage robotique : une étude complète

Modèle Vision-Langage-Action pour la manipulation multi-mains via recherche dans les espaces d'assignation et nuls

Robot Serpent : Locomotion Ondulatoire Adaptative en Milieu Visqueux Dynamique via Apprentissage par Renforcement Profond

Robot apprend à communiquer via des abstractions visuelles projetées

Ordered Action Tokens pour l'apprentissage de politiques visuomotrices

Apprentissage de tâches humanoïdes variées via des scénarios vidéo synthétiques, sans données du monde réel

Chargement en 30 000 heures de données tactiles comble le fossé de l'IA incarnée : XinZhi Embodied et l'université Fudan publient trois rapports techniques sur la perception haptique

Robot-araignée à quatre pattes conçu pour repérer et récupérer des personnes dans l'eau

AXIS : un moteur de données communautaire évolutif pour la manipulation robotique à grande échelle

VPWEM : politique visuomotrice non markovienne à mémoire de travail et épisodique

Ce qui compte pour le transfert de l'apprentissage par renforcement en simulation vers l'apprentissage en ligne sur des robots réels

Robotisation de laboratoire à faible coût et évolutive : plateforme robotique intégrée à un jumeau numérique pour la manipulation autonome de liquides (RAINBOT™)

TOPReward : les probabilités de tokens comme récompenses cachées zéro-shot pour la robotique

IA incarnée : FORGE-plus régule l'effort de récupération pour l'assemblage à contact riche via un superviseur LLM figé

Automatisation en temps réel de la perception RGB-D pour marteaux-piqueurs autonomes en mine : autofiltrage, segmentation des roches et génération de poses de fragmentation