Dossier arXiv cs.RO — page 7

2027 articles · page 7 sur 41

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

301arXiv cs.RO InfrastructureOpinion

Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique

Un groupe de chercheurs impliqués dans l'élaboration de la norme ISO/WD 26264-1 au sein du comité technique ISO/TC 299/WG 16 publie un préprint arXiv (2606.19769, juin 2026) posant que la standardisation des données constitue le prochain verrou critique pour les robots humanoïdes. Leur thèse centrale: le goulot d'étranglement n'est pas seulement la rareté des données, mais leur caractère non cumulatif, causé par des coûts de collecte élevés, des silos organisationnels et des protocoles d'évaluation incompatibles. Les auteurs identifient trois conditions pour qu'un jeu de données soit réutilisable: l'expérience physique doit rester liée au corps du robot, à la tâche et au contexte d'exécution; les flux multimodaux doivent partager synchronisation temporelle, repères de coordonnées, calibration et unités documentées; les données doivent enfin être versionnées et traçables pour s'accumuler entre projets et organisations. L'enjeu est direct pour les équipes qui entraînent des modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI. Sans grammaire commune (métadonnées, provenance, versioning), chaque acteur repart de zéro à chaque nouveau déploiement. Pour un intégrateur industriel, cela signifie concrètement que des données collectées sur un site ne peuvent pas réentraîner un modèle sur un autre, même avec du matériel identique. L'article recadre le "sim-to-real gap" non pas comme un problème de simulation, mais comme un déficit d'alignement des référentiels physiques entre jeux de données: les hypothèses de synchronisation et de cinématique, si elles ne sont pas documentées, rendent les flux non interopérables dès le départ. La norme proposée s'articule en deux couches: une infrastructure horizontale couvrant le cycle de vie, les métadonnées, la qualité, le versioning et la traçabilité, et des parties spécifiques par capacité (manipulation, locomotion, interaction humain-robot, cognition). Le contexte est celui d'un secteur ou Figure AI, Boston Dynamics, Tesla (Optimus Gen 3), Unitree et 1X accumulent des données de manière cloisonnée, tandis que des initiatives ouvertes comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace) posent des bases communes sans force normative. Le préprint est en phase WD (Working Draft) sans date de ratification annoncée: c'est une prise de position académique, pas une norme publiée ni un déploiement industriel.

UESi ratifiée, la norme ISO/WD 26264-1 structurera les pratiques de données des acteurs européens de la robotique humanoïde ; HuggingFace (Paris) est déjà cité comme contributeur aux bases ouvertes communes (LeRobot), sans force normative à ce stade.

Dossier arXiv cs.RO — page 7

Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique

Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

Fail-RAG : un cadre fondé sur la RAG pour l'identification des défaillances des robots

Coordination par dépliage profond

VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP

VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage

One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras

RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel

RSLCPP : simulations déterministes avec ROS 2

ZiMPedance : modélisation et contrôle ZMP intégrant l'impédance pour robots quadrupèdes transportant des charges

PAIWorld : un modèle fondation du monde en 3D cohérent pour la manipulation robotique

Quantification de l'incertitude pour les modèles VLA à base de flux

AnnotateAnything : annotation automatique d'objets 3D pour la manipulation robotique

Apprentissage des résidus d'erreur de tâche pour le jonglage avec cinq balles sur robot réel

Suivi binaire pour la QA spatiale et la navigation avec des modèles vision-langage ouverts

SimWeaver : transfert simulation-réel RGB sans entraînement pour la manipulation d'objets déformables

Préhension universelle pour humanoïdes

ORCA : une plateforme open source pour la recherche en dextérité

Attaques trojans sur les contrôleurs de réseaux de neurones pour systèmes robotiques

Fibre de détection de contrainte et de toucher, peu coûteuse, facile à fabriquer et très flexible, pour la robotique

μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Exécution en temps réel avec des politiques autorégressives

Évaluation multimodale de la perception robotique en environnements naturels

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

ros2probe : observabilité non intrusive et sélective au niveau noyau pour le middleware ROS 2

Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

FiberTune : préserver les résidus visuels des fibres d'action dans le fine-tuning des modèles VLA

C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences

Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)

Commande prédictive avec impédance pour l'interaction physique humain-robot : rejet prédictif des perturbations et sécurité des limites articulaires

ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples

Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés

VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)

NVIDIA Isaac Sim : une simulation GPU accélérée et évolutive pour la robotique

De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles

Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques

RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

RoboTrustBench : évaluation de la fiabilité des modèles du monde vidéo pour la manipulation robotique

Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA

Le mensonge euclidien dans les politiques VLA, corrigé par score matching dans l'espace tangent

Les dynamiques prédites peuvent-elles exister dans le monde physique ?