Aller au contenu principal

Dossier arXiv cs.RO — page 5

206 articles · page 5 sur 5

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels
201arXiv cs.RO RechercheOpinion

Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels

Un préprint déposé le 24 avril 2026 sur arXiv (réf. 2604.21391) présente ResVLA, une nouvelle architecture de politique VLA (Vision-Language-Action) pour le contrôle robotique. Le problème ciblé est le décalage spatiotemporel entre compréhension sémantique de haut niveau et contrôle physique de bas niveau : les VLA actuels génèrent des actions directement "à partir du bruit" (paradigme Generation-from-Noise), produisant une inefficacité de représentation et un alignement faible avec les instructions. ResVLA bascule vers un paradigme "Refinement-from-Intent" : via une analyse spectrale, le mouvement robotique est décomposé en une composante déterministe basse fréquence (l'intention globale) et une composante stochastique haute fréquence (la dynamique locale). Un pont de diffusion résiduel affine ensuite uniquement cette dynamique locale, ancré sur l'intention prédite. Les résultats déclarés incluent une convergence plus rapide que les baselines génératives standards, une robustesse aux perturbations linguistiques et aux variations d'embodiment, et des performances validées en conditions réelles, bien que le papier ne précise pas les plateformes matérielles testées ni les métriques exactes de déploiement physique. Ce travail s'attaque à une limite structurelle des VLA génératifs : ignorer la hiérarchie naturelle du mouvement nuit à l'alignement entre instruction et action. La robustesse à l'embodiment est un point concret pour les intégrateurs travaillant sur des flottes robotiques hétérogènes, où réentraîner un modèle complet par plateforme représente un coût prohibitif. La validation partielle en conditions réelles renforce la crédibilité de l'approche, même si l'absence de métriques détaillées (taux de succès par tâche, temps de cycle, nombre de démos d'entraînement) invite à la prudence avant d'extrapoler les résultats de simulation vers des déploiements industriels. Ce préprint s'inscrit dans une dynamique de recherche intense autour des VLA généralistes. Pi-0 de Physical Intelligence, OpenVLA (UC Berkeley) et les travaux RT-2 de Google DeepMind constituent les références immédiates du domaine. L'approche par résidu spectral est conceptuellement distincte des architectures de diffusion uniformes, mais ResVLA reste une contribution académique sans code public ni produit annoncé. La prochaine étape sera de voir si l'approche se confirme sur des benchmarks partagés comme LIBERO ou BridgeData V2, et si elle influence des frameworks ouverts comme LeRobot de Hugging Face, qui fédère une partie importante de la communauté robotique open-source.

UEImpact indirect et spéculatif : si ResVLA est validé sur des benchmarks partagés, LeRobot (Hugging Face, France) pourrait intégrer cette approche résiduelle, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

1 source
Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football
202arXiv cs.RO 

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper
1 source
Modélisation du contact améliorée pour lier extéroception et proprioception dans les robots à croissance progressive
203arXiv cs.RO 

Modélisation du contact améliorée pour lier extéroception et proprioception dans les robots à croissance progressive

Une équipe de chercheurs présente dans un preprint arXiv (réf. 2507.10694v2) une approche permettant d'utiliser des robots souples "croissants" (soft growing robots) comme outils de cartographie autonome dans des environnements inconnus. Ces robots progressent en longueur depuis leur base sans déplacer leur corps, ce qui leur confère une aptitude naturelle aux espaces confinés et non structurés. Le coeur du travail consiste d'abord à caractériser précisément le comportement de collision lors des virages discrets, puis à construire un simulateur géométrique reproduisant les trajectoires en 2D. Le modèle est ensuite validé en situation réelle : un algorithme d'échantillonnage Monte Carlo sélectionne à chaque étape le prochain déploiement optimal en fonction de la carte déjà construite, sur des environnements aussi bien uniformes que non uniformes. L'apport conceptuel est de convertir la déformation passive, habituellement perçue comme une limitation à compenser, en source d'information tactile exploitable. En couplant extéroception (perception de la géométrie externe) et proprioception (état interne du robot), le système peut inférer la structure de son environnement à partir des seules déformations de contact, sans capteurs actifs de type LiDAR ou caméra. La convergence rapide de la sélection Monte Carlo vers des actions quasi-optimales, même dans des configurations irrégulières, suggère qu'une mécanique délibérément simple peut suffire à conduire une exploration utile. Pour des intégrateurs ciblant l'inspection de conduites, de tunnels ou de zones sinistrées, cette voie sans électronique embarquée complexe présente un intérêt opérationnel réel, même si les démonstrations restent limitées à la simulation 2D. Les soft growing robots ont été largement popularisés par les travaux du groupe Hawkes à l'UC Santa Barbara, dont plusieurs publications ont démontré la pénétration de milieux encombrés et l'évitement d'obstacles par déformation passive. Ce nouveau travail prolonge cet effort vers l'autonomie décisionnelle, jusqu'ici absente faute de modèles de contact fiables. Face aux approches classiques de cartographie (AMR à roues, drones miniatures), le robot souple reste marginal en termes de vitesse et de charge utile, mais occupe un créneau distinct pour les espaces très étroits. Les auteurs n'annoncent pas de timeline de commercialisation ni de partenariat industriel ; les prochaines étapes logiques porteront sur l'extension à des environnements 3D et l'intégration de boucles de contrôle temps réel.

RecherchePaper
1 source
GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale
204arXiv cs.RO 

GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17241) un nouveau framework vision-langage baptisé GaLa, conçu pour améliorer la planification procédurale dans les systèmes d'IA incarnée. Le système repose sur une représentation par hypergraphe : chaque objet détecté dans une scène devient un nœud, tandis que des hyper-arêtes agrègent ces objets selon leurs attributs fonctionnels et leur sémantique pour former des régions cohérentes. GaLa intègre également un encodeur baptisé TriView HyperGraph Encoder, qui impose une cohérence sémantique entre trois niveaux de représentation (vue nœud, vue zone, vue association nœud-zone) via apprentissage contrastif. Les expériences menées sur les benchmarks ActPlan1K et ALFRED montrent des gains significatifs sur le taux de succès d'exécution, le score LCS (Longest Common Subsequence) et la correction des plans générés, sans que les auteurs ne publient de chiffres absolus précis dans le résumé disponible. Ce travail cible un problème bien documenté dans la robotique d'interaction : les VLMs (Vision-Language Models) actuels raisonnent correctement sur du langage et de l'image de façon isolée, mais peinent à saisir les relations spatiales implicites et la hiérarchie fonctionnelle d'une scène réelle. Pour un robot devant exécuter une séquence de tâches domestiques (préparer un repas, ranger des objets), comprendre que le plan de travail et le réfrigérateur appartiennent à la même région fonctionnelle change radicalement la qualité du plan généré. GaLa propose une couche de structuration explicite en amont du raisonnement VLM, ce qui réduit la dépendance aux capacités d'inférence implicite des modèles de fondation et ouvre la voie à une meilleure généralisation sur des scènes non vues. Le benchmark ALFRED, développé par Allen AI, est devenu la référence standard pour évaluer la planification procédurale en environnement simulé domestique, et ActPlan1K cible des scénarios procéduraux plus complexes. La tendance actuelle dans ce sous-domaine consiste à enrichir les VLMs généralistes (GPT-4o, LLaVA, InternVL) avec des modules de représentation structurée, une approche que GaLa pousse plus loin que les travaux précédents via l'hypergraphe. Les concurrents directs incluent des travaux comme SQA3D, EmbodiedScan ou les pipelines VLA (Vision-Language-Action) de Physical Intelligence (pi0) et de Google DeepMind, qui cherchent eux aussi à réduire le gap simulation-réel. GaLa reste pour l'instant un résultat de recherche académique sans déploiement physique annoncé.

RechercheActu
1 source
Localisation par angle et contrôle de rigidité pour réseaux multi-robots
205arXiv cs.RO 

Localisation par angle et contrôle de rigidité pour réseaux multi-robots

Des chercheurs ont publié sur arXiv (référence 2604.11754v2) une contribution théorique et algorithmique portant sur la localisation par mesures d'angles et le maintien de rigidité dans les réseaux multi-robots, en 2D et en 3D. Le résultat central établit une équivalence formelle entre rigidité angulaire et rigidité de type "bearing" (orientation relative) pour des graphes de détection dirigés avec mesures en référentiel embarqué : un système dans SE(d) est infinitésimalement rigide au sens bearing si et seulement s'il est infinitésimalement rigide au sens angulaire et que chaque robot acquiert au moins d-1 mesures de bearing (d valant 2 ou 3). À partir de cette base, les auteurs proposent un schéma de localisation distribué et démontrent sa stabilité exponentielle locale sous des topologies de détection commutantes, avec comme seule hypothèse la rigidité angulaire infinitésimale sur l'ensemble des topologies visitées. Une nouvelle métrique, la valeur propre de rigidité angulaire, est introduite pour quantifier le degré de rigidité du réseau, et un contrôleur décentralisé par gradient est proposé pour maintenir cette rigidité tout en exécutant des commandes de mission. Les résultats sont validés par simulation. L'intérêt pratique de ce travail réside dans le choix des mesures angulaires plutôt que des distances ou des orientations absolues : les angles entre vecteurs de direction peuvent être extraits directement depuis des caméras embarquées à bas coût, sans capteur de distance actif ni accès GPS. Pour les intégrateurs de systèmes multi-robots, notamment en essaims de drones ou en robotique entrepôt avec coordination décentralisée, la robustesse sous topologies commutantes est critique, car les lignes de vue entre agents changent constamment. Le contrôleur proposé adresse ce problème en maintenant activement une configuration spatiale suffisamment rigide pour garantir l'observabilité du réseau, ce qui évite les dégradations silencieuses de localisation que l'on observe dans les déploiements réels. C'est une avancée sur le problème dit du "rigidity maintenance", encore peu traité dans la littérature avec des garanties formelles en 3D. La rigidité de réseau comme fondation pour la localisation distribuée est un domaine actif depuis les travaux fondateurs sur la formation control et les frameworks d'Henneberg dans les années 2010. Les approches concurrentes incluent la localisation par distances (nécessitant UWB ou radar), par bearings seuls (plus sensible aux ambiguïtés), ou par fusion IMU/SLAM embarqué par robot, chacune avec ses propres hypothèses de connectivité et de coût matériel. Ce papier se positionne dans le créneau "caméra seule, pas de métadonnées globales", pertinent pour les petits drones ou les robots à budget capteur contraint. Aucun déploiement ni partenaire industriel n'est mentionné, il s'agit d'une contribution académique pure. Les suites naturelles incluraient une validation sur plateforme physique (type Crazyflie ou quadrupèdes en formation) et l'extension aux perturbations de mesures bruitées en environnement non contrôlé.

RecherchePaper
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
206arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source