Dossier arXiv cs.RO — page 31

2706 articles · page 31 sur 55

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

1501arXiv cs.RO RecherchePaper

ActiveFly-Bench : aligner la réponse à des questions incarnée avec un modèle vision-langage-action pour la perception aérienne incarnée

Une équipe de recherche publie ActiveFly-Bench, un nouveau benchmark visant à combler le fossé entre le raisonnement en environnement virtuel et l'interaction physique pour la perception active des drones. Décrit dans un article déposé sur arXiv (2607.10180v1), ce benchmark décompose la perception active en trois tâches hiérarchiques: le question-réponse incarné aérien (Air-EQA), la planification du comportement d'observation (OBP) et le contrôle fin du drone guidé par le langage (FLUC), reliant explicitement la compréhension de tâches de haut niveau, la planification comportementale et le contrôle bas niveau. Les jeux de données combinent des environnements extérieurs réels et simulés, utilisés à la fois pour l'entraînement et l'évaluation. Les auteurs ont aussi développé ActiveFly, un agent en boucle fermée qui associe raisonnement vision-langage et contrôle fin, effectivement déployé sur une plateforme UAV physique, et non testé uniquement en simulation. L'enjeu dépasse le simple exercice académique: les tests menés avec des modèles vision-langage (VLM) et des modèles vision-langage-action (VLA) représentatifs montrent que les agents actuels peinent encore sur la planification comportementale, l'ajustement de point de vue et l'accomplissement robuste de tâches en perception active. Autrement dit, la promesse des architectures VLA généralistes, popularisées au sol par des systèmes comme GR00T N2 ou Helix, ne se transpose pas automatiquement au domaine aérien: piloter un drone qui doit décider où regarder, comment se repositionner et quand agir reste un problème ouvert. Pour les intégrateurs de drones d'inspection, d'agriculture ou de surveillance, ce constat tempère l'enthousiasme autour des copilotes autonomes tout-en-un et souligne que le sim-to-real n'est pas résolu pour l'aérien comme il commence à l'être pour la manipulation au sol. Ce travail s'inscrit dans la lignée des benchmarks d'IA incarnée (embodied QA) déjà développés pour les robots terrestres et les bras manipulateurs, mais transposés pour la première fois de façon systématique au domaine UAV, où les contraintes de vol, de vent et de champ de vision changent la donne. Face à des acteurs commerciaux comme DJI ou Skydio qui vendent déjà de l'autonomie de vol assistée, ActiveFly-Bench propose un cadre d'évaluation académique standardisé plutôt qu'un produit, avec l'ambition de devenir une référence pour mesurer les progrès futurs des agents aériens embarquant du raisonnement multimodal.

Dossier arXiv cs.RO — page 31

ActiveFly-Bench : aligner la réponse à des questions incarnée avec un modèle vision-langage-action pour la perception aérienne incarnée

PIER-Flow : un flux rectifié efficace et informé par la physique pour la navigation en temps réel des robots mobiles

SUREFlow : appariement de flux résiduel adapté à l'incertitude dans l'espace d'états pour une manipulation robotique robuste

TactiDex : un référentiel tactile réel pour la manipulation dextre proche de l'humain

Manipulation Tactile et Visuelle Centrée sur le Contact pour la Manipulation du Bras Complet

Coordination de comportements implicites à partir de démonstrations de sous-tâches non étiquetées pour des tâches de réarrangement

SpikeATac : un doigt tactile multimodal à détection dynamique taxélisée pour la manipulation dextérique

SplatCtrl : couplage perception-action via représentations de scène gaussiennes et contrôle robotique réactif

Main d'AnyDexRT : retargeting dextérique sans calibration guidé par peu de démonstrations humaines

SeFA-Policy : apprentissage rapide et précis de politiques visuomotrices par alignement de flux sélectif

Modèle vision-langage-action partagé et modulaire pour le contrôle universel de la morphologie en MDP contextuels

VOTE : optimisation vision-langage-action par vote d'ensemble de trajectoires

SPEAR : un simulateur d'IA incarnée photoréaliste pour la recherche

IA incarnée, HumAIN : la navigation sociale implicite du robot conscient des humains

Robots miniatures modulaires : des graphes de synchronisation programmables pour plus d'adaptabilité et de tolérance aux pannes

Multi-agent : contrôle robotique par modèles vision-langage embarqués

ThorArena : évaluation de l'interaction physique humanoïde à partir de démonstrations humaines de mouvement et de force

Apprentissage d'a priori géométriques 4D pour des modèles d'action du monde efficaces en inférence

Thor : vers des réactions corporelles globales de niveau humain dans des environnements intenses à fort contact

RoboVAST : validation automatisée de robots par scénarios, à grande échelle

RynnWorld-4D : des modèles du monde incarnés en 4D pour la manipulation robotique

Planifier puis évaluer : la planification multi-cibles améliore les pipelines de préhension par apprentissage

MOSAIC : planification de manipulation centrée sur les compétences par simulation physique

Au-delà de la sémantique liée aux points : champs sémantiques centrés sur l'objet pour une manipulation généralisable

DSWAM : un modèle fondation à double système pour la manipulation robotique fine

Arbres de croyance gaussiens en temps continu pour la planification de mouvement

Transition de phase de nuée et réponses aux menaces dans des essaims de drones autonomes bio-inspirés

SEAM : exécution fluide de mouvements segmentés en actions pour les politiques vision-langage-action (VLA)

IndustryNav : explorer le raisonnement spatial des agents incarnés dans la navigation industrielle dynamique

XS-VLA : associe distillation spatiale à gros grain et appariement de flux latent pour un contrôle robotique léger

Robots à bras multiples : apprentissage neuronal de l'accessibilité Hamilton-Jacobi pour la planification décentralisée de trajectoires sûres

ManipArena : évaluation exhaustive en conditions réelles de la manipulation robotique généraliste orientée raisonnement

Distiller les dynamiques collaboratives dans un espace latent pour une coordination implicite en manipulation multi-agents décentralisée

Bridge-WA : prédire où et comment le monde change pour l'action robotique

« Guidage de sécurité neuro-symbolique pour modèles vision-langage-action via appariement de flux contraint »

Modélisation de représentations volumétriques pour l'apprentissage de politiques de manipulation : VolumeDP

Domain Arithmetic : adaptation VLA en un essai face aux changements environnementaux

Robuste contrôle dans l'espace opérationnel avec bornes de perturbation conformes pour une manipulation redondante sûre

Robotique mobile en flotte : génération de feuilles de route en espace continu avec contraintes de distance et discrétisation géométrique

IA physique appliquée à la reconstruction 3D sous occlusion manuelle grâce à la proprioception et au toucher multi-contact

Robustesse de la manipulation robotique : fondations et perspectives

Communication d'exécution robotique consciente du réseau pour l'inférence cloud sous connectivité spatialement hétérogène

Freeform Preference Learning pour la manipulation robotique

TactX : apprentissage de représentations tactiles partagées entre capteurs variés

HABIT : jeu de données pour l'entraînement de la manipulation robotique sensible aux comportements humains

AeroPlace-Flow : placement d'objets guidé par le langage pour manipulateurs aériens via prévision visuelle et flux d'objets

CSAR : architecture système conteneurisée pour la robotique

RelAfford6D : graphes d'affordance 6D relationnels pour la manipulation robotique guidée par contraintes

PAMAE : mélange d'experts d'action sensible aux phases pour des politiques VLA fiables par flow matching

RoDyn : apprivoiser un modèle du monde 2.5D interactif pour la manipulation robotique