RecherchearXiv cs.RO 15 juin 2026

Friction asymétrique dans la locomotion géométrique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont soumis sur arXiv (référence 2512.22484, version 2) une extension formelle des modèles de mécanique géométrique appliqués à la locomotion. Ces modèles décrivent comment robots et animaux convertissent des changements de forme interne en déplacement net, une relation encodée dans une "carte de motilité". Le cadre classique reposait sur une friction anisotrope (coefficients différents selon les axes avant/arrière et gauche/droite), formalisée via des métriques riemanniennes sur chaque segment corporel. L'approche sous-riemannienne permettait d'identifier la vitesse de position qui minimise la puissance dissipée par friction pour une vitesse de forme donnée. La contribution du papier consiste à lever l'hypothèse de symétrie : la friction peut désormais être asymétrique, c'est-à-dire avec des coefficients distincts pour le mouvement vers l'avant et vers l'arrière sur un même axe. Formellement, les métriques riemanniennes sont remplacées par des métriques de Finsler, et l'approche sous-riemannienne se généralise en une approche sous-finslérienne.

Cette distinction a des conséquences pratiques directes. De nombreux locomoteurs opèrent sur des surfaces à friction asymétrique : les serpents se propulsent via des écailles dont la résistance au glissement avant et arrière est délibérément différente ; les pattes équipées de crampons, les robots rampants (crawling robots) et certains micro-robots présentent le même profil. Dans les modèles riemanniens classiques, cette asymétrie était ignorée ou approximée, ce qui introduit des erreurs systématiques dans la carte de motilité. Le papier démontre que la propriété "géométrique" fondamentale se maintient dans le cadre finslerian : le déplacement final dépend uniquement de la séquence de formes parcourues, pas de la vitesse d'exécution. Les auteurs identifient également l'analogue de la courbure de contrainte, un invariant clé qui caractérise les capacités de déplacement net du système.

Le cadre de mécanique géométrique appliqué à la locomotion a été principalement développé par Ross Hatton et Howie Choset à Carnegie Mellon University dans les années 2010, avec des applications à la locomotion serpentiforme et aux organismes microscopiques en régime à faible nombre de Reynolds. Ce travail s'inscrit dans cette lignée en levant une hypothèse restrictive qui en limitait le domaine d'applicabilité. Les approches concurrentes (méthodes numériques directes, apprentissage par renforcement) modélisent la friction asymétrique sans offrir les mêmes garanties d'interprétabilité analytique. La prochaine étape naturelle serait de valider ce cadre sub-finslerian sur des plateformes robotiques réelles à friction asymétrique prononcée, et d'explorer son apport pour la planification de trajectoires dans ces environnements.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.08288) introduit MotionVLA, une interface de mémoire motrice conçue pour améliorer les modèles vision-language-action appliqués à la manipulation robotique longue portée. Le principe : plutôt qu'alimenter le modèle avec une séquence d'images passées traitées indépendamment, MotionVLA convertit une courte fenêtre vidéo récente en tokens de champ de trajectoire (trajectory-field tokens), compacts et temporellement continus. Ces tokens encodent le mouvement cohérent entre les observations, et les tokens visuels courants les interrogent pour extraire les informations de mouvement pertinentes à la tâche en cours. Le tout est réinjecté dans le flux VLA via une supervision ancrée sur les trajectoires. Les auteurs rapportent des améliorations sur des benchmarks de simulation ainsi que des essais préliminaires sur robot réel, avec des exécutions décrites comme plus fluides et plus directes. L'enjeu est théorique, mais les implications pratiques sont directes. Les VLA actuels -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure) -- cherchent à résoudre l'ambiguïté des tâches longues en injectant toujours plus de contexte : historique d'images, profondeur, features 4D. L'hypothèse implicite est "plus de contexte spatio-temporel équivaut à une meilleure politique". MotionVLA conteste cette hypothèse : un contexte incohérent en termes de mouvement introduit de la dérive géométrique, des indices temporels fragmentés et une génération d'actions instable. Reformuler la mémoire comme un champ de mouvement plutôt que comme un empilement de frames résout le problème à la source, ce qui intéresse directement les équipes cherchant à stabiliser des VLA en déploiement industriel sans exploser le budget de calcul. Ce travail s'inscrit dans une course intense à l'architecture VLA optimale. Les approches concurrentes incluent les modèles à base de profondeur (SpatialVLA), de features 4D (CogACT), ou de diffusion de trajectoires (pi-0). MotionVLA se rapproche davantage des travaux sur le flot optique dense et les représentations de mouvement continu. Deux mises en garde s'imposent : les résultats sur robot réel sont explicitement qualifiés de "préliminaires" par les auteurs, et aucun chiffre de benchmark précis n'est disponible dans la publication actuelle. À ce stade, il s'agit d'une contribution de recherche, non d'un produit industrialisé ni d'une démonstration validée à l'échelle.

RechercheOpinion

1 source

2arXiv cs.RO

Au-delà de la géométrie : navigation topologique efficace dans des environnements 3D complexes

Des chercheurs ont publié sur arXiv (réf. 2605.17302) un framework de planification de trajectoire pour robots mobiles terrestres opérant dans des environnements intérieurs 3D complexes. Le système extrait automatiquement depuis un nuage de points 3D un espace d'états réduit composé uniquement des positions physiquement atteignables par le robot, en appliquant trois contraintes successives : support au sol vérifié, dégagement vertical suffisant pour la hauteur du robot, et connectivité sémantique via propagation par graine (seed-based). Évalué sur cinq scènes issues du dataset Matterport3D et trois scènes du benchmark PCT, le framework atteint une réduction de l'espace d'états supérieure à 80 % par rapport au voxel space brut, avec des temps de recherche A* inférieurs à la milliseconde sur les scènes Matterport3D. Le taux de succès de planification est de 100 % sur 300 requêtes testées. L'enjeu technique central que ce travail adresse est l'ambiguïté géométrique : dans un environnement intérieur dense, les surfaces de meubles (tables, étagères) partagent localement les mêmes propriétés géométriques que le sol navigable. Les approches purement géométriques confondent fréquemment ces surfaces, générant des trajectoires invalides ou des blocages de planification. En imposant une contrainte topologique explicite plutôt que de s'appuyer uniquement sur la courbure ou la normale de surface, le framework sépare structurellement le sol du reste. Pour les intégrateurs de flottes AMR ou AGV en entrepôt ou milieu hospitalier, cette distinction fiable entre navigable et non-navigable sans calibrage manuel représente un gain opérationnel direct, en particulier dans des espaces reconfigurés fréquemment. Ce type d'approche s'inscrit dans un mouvement plus large visant à dépasser les représentations voxel denses, trop coûteuses pour la planification temps-réel embarquée. Des travaux concurrents explorent les champs de distance neuronaux (NeRF-based planning), les graphes de visibilité sur maillages 3D, ou les approches d'apprentissage par renforcement simulé (sim-to-real). Le recours à des datasets standardisés comme Matterport3D et PCT facilite la comparaison reproductible, même si les scènes testées restent des environnements statiques sans agents dynamiques. Les auteurs n'annoncent pas de déploiement matériel, ce qui positionne ce travail comme une contribution algorithmique amont, dont l'intégration dans des stacks robotiques industriels (ROS 2, Nav2) reste à démontrer sur robot physique.

RecherchePaper

1 source

3arXiv cs.RO

CloSE : une représentation d'état du tissu indépendante de la forme géométrique

Des chercheurs ont publié sur arXiv (arXiv:2504.05033, version 3) une nouvelle représentation de l'état de déformation des textiles pour la manipulation robotique, baptisée CloSE (Cloth StatE). La méthode repose d'abord sur un intermédiaire appelé dGLI disk : une grille circulaire sur laquelle sont calculés des indices topologiques pour chaque segment de bord du tissu. La carte de chaleur (heatmap) ainsi générée fait apparaître des motifs stables qui caractérisent l'état du tissu indépendamment de sa forme, de sa taille ou de son orientation. Ces motifs sont ensuite condensés en une représentation circulaire compacte et continue : CloSE. Les auteurs démontrent que cette représentation prédit correctement l'emplacement des plis sur plusieurs jeux de données de simulation de vêtements, et qu'elle s'applique à deux tâches concrètes : l'étiquetage sémantique des parties du vêtement et la planification de tâches à haut et bas niveau. Le code et les données sont disponibles publiquement. La manipulation de textiles reste l'un des problèmes non résolus de la robotique industrielle : contrairement aux objets rigides, un tissu peut prendre un nombre quasi infini de configurations déformées, ce qui rend la prise de décision et la planification de trajectoire extrêmement difficiles. L'apport principal de CloSE est d'être agnostique à la géométrie du vêtement, ce qui signifie qu'un même pipeline de perception et de planification peut théoriquement s'appliquer à un T-shirt, une chemise ou un pantalon sans réentraînement. Pour un intégrateur ou un équipementier du secteur textile, c'est une propriété clé : elle réduit le coût de généralisation entre références produits. La représentation compacte facilite également son intégration dans des boucles de contrôle temps réel. Ce travail s'inscrit dans un effort académique soutenu autour de la manipulation de tissus, aux côtés d'approches comme les réseaux de points déformables (DenseFusion, FlingBot) ou les méthodes basées sur les graphes de tissu. La plupart des résultats présentés ici restent en simulation, ce que les auteurs n'occultent pas, mais la nature topologique des indices dGLI est conçue pour faciliter le transfert sim-to-real. Aucun déploiement industriel ou partenariat n'est annoncé à ce stade. Les prochaines étapes naturelles seraient une validation sur robot physique et une extension aux tissus opaques ou fortement déformés.

RecherchePaper

1 source

4arXiv cs.RO

Modèles de génération de graphes de scènes 2D géométriques

Une équipe de recherche propose une nouvelle méthode pour générer automatiquement des graphes de scène représentant les relations d'assemblage entre composants, sans recourir à des données sémantiques annotées et en fonctionnant avec un jeu de données très restreint. Le pipeline s'appuie d'abord sur un modèle Faster R-CNN pour détecter les composants et produire des représentations géométriques de leur position et de leur forme. Ces représentations passent ensuite par une architecture transformer chargée de générer une matrice d'adjacence, qui sert à son tour d'entrée à un réseau siamois. Ce dernier utilise un mécanisme de passage de messages fondé sur un réseau convolutionnel de graphe attentionnel (aGCN) pour caractériser précisément la nature des connexions entre pièces. La méthode a été validée sur un jeu de données d'étude composé de pièces de modèles réduits assemblables en véhicules de transport (type maquettes jouets). Pour la robotique d'assemblage, ce travail répond à un problème très concret : un bras robotique ne peut planifier ni exécuter un montage sans comprendre comment les pièces s'articulent entre elles, et les approches classiques de génération de graphes de scène reposent généralement sur de lourdes bases sémantiques annotées, coûteuses à constituer pour chaque nouveau produit industriel. En s'appuyant uniquement sur la géométrie détectée visuellement et en tolérant de petits volumes de données d'entraînement, cette approche vise à réduire le travail d'annotation nécessaire pour déployer un système de compréhension d'assemblage sur une nouvelle chaîne de production ou un nouveau produit, ce qui intéresse directement les intégrateurs et les équipes R&D en robotique industrielle. Ce travail s'inscrit dans la lignée des recherches sur la génération de graphes de scène (scene graph generation), initialement développée pour la compréhension d'images en vision par ordinateur, mais ici réorientée vers un cas d'usage industriel précis : la planification d'assemblage robotique. La combinaison Faster R-CNN plus transformer plus réseau siamois à base de aGCN constitue une architecture hybride originale, distincte des approches purement sémantiques dominantes dans ce domaine. Publiée sur arXiv, cette contribution reste à ce stade une preuve de concept testée sur un jeu de données jouet ; sa généralisation à des composants industriels réels, à des géométries plus complexes ou à des scènes encombrées reste une étape à valider.

RecherchePaper

1 source