Dossier arXiv cs.RO — page 3

2842 articles · page 3 sur 57

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

101arXiv cs.RO RecherchePaper

Le contexte peut-il combler l'écart de réalité ? Transfert simulation-réel des politiques sensibles au contexte

Le sim-to-real transfer, c'est-à-dire le passage d'une politique de contrôle entraînée en simulation vers un robot réel, reste l'un des obstacles majeurs de l'apprentissage par renforcement (RL) en robotique. Une équipe de recherche propose dans cet article (arXiv:2511.04249, version révisée) d'intégrer un module d'estimation du contexte, c'est-à-dire une estimation des paramètres dynamiques de l'environnement, directement dans le pipeline d'entraînement basé sur la Domain Randomization (DR). Les chercheurs comparent plusieurs stratégies de supervision de cet estimateur de contexte, considérées comme état de l'art, et évaluent les politiques résultantes sur deux terrains : un benchmark de contrôle standard en simulation, et une tâche réelle de poussée d'objet (pushing) exécutée avec un bras robotique Franka Emika Panda. L'enjeu dépasse la seule prouesse technique : la Domain Randomization, qui consiste à exposer la politique à une large gamme de dynamiques aléatoires pendant l'entraînement pour la rendre robuste, améliore le transfert vers le réel mais dégrade souvent les performances, car la politique doit rester valable pour tous les cas randomisés plutôt que de s'optimiser pour un seul. En conditionnant la politique sur une estimation du contexte plutôt qu'en l'entraînant à l'ignorer, les auteurs cherchent à réconcilier robustesse et performance, un compromis central pour quiconque déploie du RL sur du matériel réel en usine ou en logistique. Les résultats montrent que les politiques context-aware surpassent systématiquement la baseline context-agnostic sur tous les scénarios testés, ce qui confirme l'intérêt de cette approche, mais sans stratégie de supervision universelle : le choix optimal dépend de la tâche. Ce travail s'inscrit dans une lignée de recherches visant à combler l'écart de réalité (reality gap) qui limite le RL appliqué à la robotique depuis plusieurs années, la DR classique restant la référence malgré ses limites connues. En publiant une version révisée sur arXiv, les auteurs affinent une méthode déjà proposée plutôt que d'annoncer un nouveau système. La validation reste à ce stade circonscrite à une tâche de manipulation simple sur un seul bras robotique commercial ; l'étape suivante consisterait à tester la généralisation de cette approche sur des tâches plus complexes et des plateformes variées avant d'envisager une adoption industrielle.

Dossier arXiv cs.RO — page 3

Le contexte peut-il combler l'écart de réalité ? Transfert simulation-réel des politiques sensibles au contexte

UAV-ON : un référentiel pour la navigation aérienne autonome vers des objets en monde ouvert

Mémoire pour attention : re-perception conditionnée par le langage avec une carte vision-langage-mouvement

Vue-Langage-Action : agir, réfléchir ou s'abstenir selon la complexité perçue

CReF : fusion croisée et récurrente pour la locomotion humanoïde conditionnée par la profondeur

N₀-VTLA : passage à l'échelle du modèle vision-tactile-langage-action grâce à des tokens tactiles latents

FloAff-Kitchen : relier navigation et manipulation par apprentissage canonique et progressif de l'affordance du sol

NEO : NeRF Une Fois, Éditer Plusieurs Fois pour la Manipulation Continue d'Objets

IA incarnée : représentations polynomiales pour le contrôle moteur structuré par l'interaction

Object SLAM sémantique semi-incrémental sans association de données

IA incarnée et prédictive : le contrôle par apprentissage sûr pour les systèmes robotiques ego-monde

Milo, un chien-guide robotique entièrement autonome pour intérieur et extérieur

RAPT : détection de dérive et diagnostic de défaillance par prédiction de modèle pour le déploiement sim-vers-réel d'humanoïdes

Reasoning à double tranchant : architecture et robustesse inter-étapes des modèles vision-langage-action

RoboTTT : mise à l'échelle du contexte pour les politiques robotiques

DECO : transformateur de diffusion multimodal découplé pour la manipulation dextre bimanuelle avec adaptateur tactile enfichable

Effets du toucher robotique sur des personnes âgées guidées à la marche par un robot humanoïde

DemoBridge : une boîte à outils de simulation en boucle pour le retargeting de démonstrations humaines en vue unique

Reconnaissance gestuelle tactile par capteurs articulaires intégrés pour robots industriels

Modèles vision-langage-action (VLA) : retours d'expérience sur une plateforme UR5 réelle

Le paradoxe de l'accélération : repenser le compromis vitesse-qualité à l'inférence dans les tâches incarnées

WatchAct : un benchmark de manipulation robotique fondée sur le comportement

Action ControlNet : un adaptateur léger sensible aux délais pour un contrôle asynchrone fluide dans les modèles VLA

EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact

Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques

Démontage de batteries lithium-ion 18650 en fin de vie par robot humanoïde à deux bras guidé par vision

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action

AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux

IA incarnée sous contrôle : gouvernance à l'exécution pour agents contraints par des politiques

RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés

IA incarnée multi-agents : la dégradation du consentement en chaîne, un pont entre gouvernance des agents et éthique robotique

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

OpenSGA : alignement efficace de graphes de scènes 3D en monde ouvert

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

Livraison multi-agents avec correspondances multiples

Gaze4HRI : benchmark zero-shot des réseaux de neurones pour l'estimation du regard en interaction humain-robot

AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Sécurité de l'IA incarnée : panorama des risques, attaques et défenses

Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs

AnchorD : ancrage métrique de la profondeur monoculaire par graphes de facteurs

Revue complète des modèles du monde pour l'apprentissage robotique

Navigation omnidirectionnelle par vision : apprentissage par distillation enseignant-élève avec estimation de profondeur monoculaire

Coordination par relais pour la collecte et livraison multi-robots économe en énergie

Fausse faisabilité dans le MPC à impédance variable pour la locomotion sur pattes

Planification hybride tâche-mouvement et gestion réactive des collisions pour le démontage multi-robots de batteries VE