Dossier arXiv cs.RO — page 30

2642 articles · page 30 sur 53

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

1451arXiv cs.RO RecherchePaper

SPEAR : un simulateur d'IA incarnée photoréaliste pour la recherche

Voici l'article en français, sans titres ni séparateurs : Une équipe de recherche présente SPEAR (Simulator for Photorealistic Embodied AI Research), un nouveau simulateur conçu pour entraîner des agents incarnés (embodied agents) et générer des données visuelles synthétiques photoréalistes. Publié sur arXiv début juillet 2026, SPEAR se présente comme une bibliothèque Python capable de se connecter à n'importe quelle application Unreal Engine (UE) et de la piloter via une architecture de plugins modulaires. Elle expose plus de 14 000 fonctions UE uniques à Python, soit un gain d'un ordre de grandeur en fonctionnalités programmables par rapport aux simulateurs UE existants. Côté performance, une seule instance de SPEAR peut rendre des images photoréalistes en 1920x1080 directement dans un tableau NumPy à 73 images par seconde, également dix fois plus rapide que les plugins UE existants, tout en fournissant des modalités de vérité terrain inédites, comme la décomposition intrinsèque non diffuse, les IDs de matériaux ou les paramètres de shading physiquement basé (PBR). Pour un ingénieur en robotique ou en IA incarnée, l'enjeu dépasse la simple prouesse technique : la plupart des simulateurs photoréalistes actuels souffrent d'un compromis entre réalisme visuel et vitesse de rendu, ou entre flexibilité de programmation et généralité. En combinant vitesse élevée, richesse des modalités de sortie et contrôle programmatique fin de scènes UE complexes, SPEAR vise à réduire l'écart entre simulation et réalité (sim-to-real) pour l'entraînement d'agents visuels, un point critique pour la robotique mobile, les véhicules autonomes et les modèles vision-langage-action (VLA). Les chercheurs démontrent l'outil sur des cas variés : contrôle de multiples agents aux espaces d'action distincts (humains, voitures, robots) dans des projets UE existants, rendu d'environnements urbains à grande échelle, manipulation des systèmes de génération procédurale de contenu d'UE, rendu multi-vues synchronisé de visages humains détaillés, co-simulation avec le moteur physique MuJoCo, et édition de scènes en langage naturel via un assistant de code IA. SPEAR s'inscrit dans la lignée des simulateurs bâtis sur Unreal Engine comme AirSim ou CARLA, mais cherche à en dépasser les limites de généralité et de vitesse.

Dossier arXiv cs.RO — page 30

SPEAR : un simulateur d'IA incarnée photoréaliste pour la recherche

VOTE : optimisation vision-langage-action par vote d'ensemble de trajectoires

Multi-agent : contrôle robotique par modèles vision-langage embarqués

Robots miniatures modulaires : des graphes de synchronisation programmables pour plus d'adaptabilité et de tolérance aux pannes

IA incarnée, HumAIN : la navigation sociale implicite du robot conscient des humains

Modèle vision-langage-action partagé et modulaire pour le contrôle universel de la morphologie en MDP contextuels

RoboVAST : validation automatisée de robots par scénarios, à grande échelle

RynnWorld-4D : des modèles du monde incarnés en 4D pour la manipulation robotique

Planifier puis évaluer : la planification multi-cibles améliore les pipelines de préhension par apprentissage

Thor : vers des réactions corporelles globales de niveau humain dans des environnements intenses à fort contact

Apprentissage d'a priori géométriques 4D pour des modèles d'action du monde efficaces en inférence

ThorArena : évaluation de l'interaction physique humanoïde à partir de démonstrations humaines de mouvement et de force

Au-delà de la sémantique liée aux points : champs sémantiques centrés sur l'objet pour une manipulation généralisable

Arbres de croyance gaussiens en temps continu pour la planification de mouvement

Transition de phase de nuée et réponses aux menaces dans des essaims de drones autonomes bio-inspirés

MOSAIC : planification de manipulation centrée sur les compétences par simulation physique

SEAM : exécution fluide de mouvements segmentés en actions pour les politiques vision-langage-action (VLA)

IndustryNav : explorer le raisonnement spatial des agents incarnés dans la navigation industrielle dynamique

DSWAM : un modèle fondation à double système pour la manipulation robotique fine

XS-VLA : associe distillation spatiale à gros grain et appariement de flux latent pour un contrôle robotique léger

ManipArena : évaluation exhaustive en conditions réelles de la manipulation robotique généraliste orientée raisonnement

Robots à bras multiples : apprentissage neuronal de l'accessibilité Hamilton-Jacobi pour la planification décentralisée de trajectoires sûres

Distiller les dynamiques collaboratives dans un espace latent pour une coordination implicite en manipulation multi-agents décentralisée

« Guidage de sécurité neuro-symbolique pour modèles vision-langage-action via appariement de flux contraint »

Bridge-WA : prédire où et comment le monde change pour l'action robotique

Robuste contrôle dans l'espace opérationnel avec bornes de perturbation conformes pour une manipulation redondante sûre

Modélisation de représentations volumétriques pour l'apprentissage de politiques de manipulation : VolumeDP

Domain Arithmetic : adaptation VLA en un essai face aux changements environnementaux

HABIT : jeu de données pour l'entraînement de la manipulation robotique sensible aux comportements humains

IA physique appliquée à la reconstruction 3D sous occlusion manuelle grâce à la proprioception et au toucher multi-contact

Robustesse de la manipulation robotique : fondations et perspectives

Robotique mobile en flotte : génération de feuilles de route en espace continu avec contraintes de distance et discrétisation géométrique

Freeform Preference Learning pour la manipulation robotique

Communication d'exécution robotique consciente du réseau pour l'inférence cloud sous connectivité spatialement hétérogène

TactX : apprentissage de représentations tactiles partagées entre capteurs variés

CSAR : architecture système conteneurisée pour la robotique

AeroPlace-Flow : placement d'objets guidé par le langage pour manipulateurs aériens via prévision visuelle et flux d'objets

PAMAE : mélange d'experts d'action sensible aux phases pour des politiques VLA fiables par flow matching

RelAfford6D : graphes d'affordance 6D relationnels pour la manipulation robotique guidée par contraintes

ReaDy-Go : simulation dynamique réel-vers-sim par Gaussian Splatting 3D pour la navigation visuelle avec obstacles mobiles

RoDyn : apprivoiser un modèle du monde 2.5D interactif pour la manipulation robotique

ARTOO-DARTU : étude de la collaboration humain-robot en réalité augmentée avec atténuation des occlusions pour les tâches d'entrepôt

Reflective VLA : les conséquences d'actions en contexte améliorent la généralisation des modèles VLA

Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service

SWAP : modèle du monde symétrique équivariant pour le parkour robotique agile

GCNGrasp-VP : planification de vue guidée par les affordances pour une préhension efficace orientée tâche

Comparaison des espaces d'action en apprentissage par renforcement pour la manipulation robotique basée sur la vision

Allocation de tâches et planification du mouvement en environnements dynamiques encombrés via CBBA et graphes d'ensembles convexes

ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique

PATCH : suivi des innovations de patchs latents conditionné par les séquences d'actions pour la manipulation robotique