Dossier arXiv cs.RO — page 5

1607 articles · page 5 sur 33

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

201arXiv cs.RO IA physiqueOpinion

GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique

Une équipe de chercheurs propose GenHOI (arXiv:2606.12995, juin 2026), un cadre logiciel permettant à des robots humanoïdes d'interagir avec des objets variés en mode zéro-shot, sans entraînement spécifique à la tâche ni données de démonstration physique. Le système prend en entrée une commande en langage naturel et une image du premier plan de la scène robot-objet reconstruite en simulation, à partir desquels un modèle génératif produit une vidéo d'interaction synthétique orientée tâche. Cette vidéo est analysée pour identifier les événements de contact pertinents et estimer les régions de contact main-objet, encodés sous forme de contraintes géométriques centrées sur l'objet. Ces contraintes servent de priors d'optimisation pour raffiner la trajectoire de référence extraite de la vidéo 2D, résolvant l'ambiguïté d'échelle inhérente à la génération vidéo, et adaptent une trajectoire unique à des poses relatives robot-objet non vues à l'entraînement. Un contrôleur de suivi en boucle fermée assure l'exécution finale. Les tâches validées en simulation et en réel incluent la saisie de boîtes, le transport bimanuel asymétrique d'une chaise, le soulèvement d'une table par en-dessous et l'enveloppement d'objets cylindriques. Il s'agit d'un preprint académique, pas d'un produit déployé. L'enjeu central est la rupture avec le paradigme d'entraînement par tâche, principal goulot d'étranglement du déploiement industriel des humanoïdes. Les approches existantes exigent soit des centaines d'heures de collecte de démonstrations physiques par tâche, soit rejouent des trajectoires rigides incapables de s'adapter à des variations de pose ou d'objet. GenHOI contourne ces deux limites en substituant la génération vidéo à la démonstration réelle, tout en maintenant une conscience physique du contact via des contraintes géométriques explicites. La capacité d'adaptation à des configurations inédites robot-objet sans réentraînement est particulièrement significative pour les intégrateurs industriels devant déployer rapidement un humanoïde sur de nouvelles références produit. La problématique de l'interaction humanoïde-objet est activement travaillée par plusieurs acteurs concurrents : Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et les équipes de Figure AI ou Boston Dynamics opèrent dans un espace voisin, mais s'appuient majoritairement sur du fine-tuning tâche par tâche ou du reinforcement learning avec simulateurs massivement parallèles. GenHOI se positionne comme une approche complémentaire, plus légère en données, exploitant la capacité des générateurs vidéo récents à produire des séquences physiquement plausibles. La principale limite non adressée est la robustesse à l'échelle sur des centaines de tâches distinctes et la gestion des objets déformables. Les prochaines étapes naturelles seraient une évaluation sur des plateformes commerciales comme l'Unitree G1 ou l'Agility Digit, et une intégration avec des policies de bas niveau plus génériques.

Dossier arXiv cs.RO — page 5

GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique

Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs

Perception sémantique active

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

G-MAPP : planification et perception multi-agents accélérées par GPU pour la génération de mouvement réactif

Apprentissage de réseaux d'oscillateurs visuellement interprétables pour robots souples continus à partir de vidéos

Repenser la régularisation pour un lissage efficace des politiques

Contrôle PI basé sur Lyapunov pour le suivi robuste de trajectoire d'un robot à quatre roues indépendantes : conception et validation expérimentale

Vers une préhension séquentielle fiable d'objets en environnement encombré : solution finaliste du RGMC 2025

LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques

GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable

Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

Apprentissage par imitation robuste aux distorsions pour le routage autonome de câbles

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

HandCept : un cadre de fusion visuo-inertielle pour la proprioception précise des mains dextériques

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques

Apprentissage par renforcement dans un espace d'embedding linéaire pour un contrôle généralisable sur différentes configurations de robots souples

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire

Revisiter la perception des parties articulées en manipulation robotique

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres

VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)

Auto-encodeurs épars ancrés dans les événements pour les politiques VLA

Apprentissage par renforcement contraint par la sécurité avec vérification d'atteignabilité post-entraînement pour la navigation robotique

Un stack d'autonomie unifié : vers un schéma directeur pour l'autonomie robotique généralisable

Muninn : un modèle de diffusion de trajectoires, désormais plus rapide

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?

Octopus Protocol : découverte et contrôle du matériel en une passe pour les agents IA via l'infrastructure-en-prompts

GATO : optimisation de trajectoire accélérée par GPU et par lots pour la commande prédictive par modèle embarquée et évolutive

Large Video Planner permet un contrôle robotique généralisable

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

SOAR : optimisation conjointe en temps réel pour l'allocation des commandes et l'ordonnancement des robots mobiles

Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation

Les modèles VLA sont restreints mais capables de généraliser à des instructions inédites

Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé

Relations en forme fermée et approximations d'ordre supérieur des dérivées premières et secondes de l'opérateur tangent sur SE(3)

Comment fonctionnent réellement les VLA en environnements ouverts

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation

π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes