Aller au contenu principal
Modèle JODA : dynamique articulaire composable pour objets articulés
RecherchearXiv cs.RO6sem

Modèle JODA : dynamique articulaire composable pour objets articulés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a déposé en mai 2026 sur arXiv (arXiv:2605.09954) JODA, un cadre de modélisation des dynamiques d'articulation pour objets articulés (composable Joint Dynamics for Articulated Objects), destiné à combler l'absence de comportements mécaniques fins dans les simulateurs robotiques et les environnements d'IA incarnée. La méthode encode la dynamique d'un joint sous la forme d'un champ à trois canaux couvrant son degré de liberté : forces conservatives (ressorts, butées de fin de course), frottement sec (holding friction, detents, snap-latching) et amortissement (soft-close). Ces composantes sont instanciées par interpolation cubique par morceaux avec contraintes de forme (PCHIP), produisant une représentation compacte, interprétable et compatible avec la simulation différentiable. Pour inférer ces paramètres depuis des observations visuelles, JODA utilise un modèle vision-langage (VLM) qui propose des primitives dynamiques structurées, composées en un champ unifié, éditable manuellement ou affiné par descente de gradient.

Le problème que JODA adresse est central en robotique de manipulation : le fossé simulation-réalité (sim-to-real gap). Les environnements comme MuJoCo, Isaac Sim ou Habitat modélisent la géométrie et la cinématique des objets articulés, mais ignorent les effets mécaniques de second ordre qui conditionnent le comportement tactile réel : résistance variable selon la position, crans d'arrêt, fermeture amortie, encliquetage. Pour un robot manipulant un tiroir de cuisine ou une vanne industrielle, ces dynamiques sont déterminantes. Une simulation plus fidèle devrait améliorer le transfert de politiques entraînées sur données synthétiques vers l'environnement physique, un enjeu clé pour les architectures VLA (Vision-Language-Action) en cours de déploiement à grande échelle.

Les approches existantes ignorent généralement ces dynamiques ou s'appuient sur des paramètres scalaires fixes (raideur constante, amortissement linéaire), sans capturer ni la non-linéarité du frottement ni les comportements multi-stables. JODA se distingue par sa représentation paramétrique interprétable couplée à un pipeline d'inférence fondé sur un VLM, ouvrant la voie à une annotation semi-automatique d'actifs 3D à grande échelle. Le code et les assets d'exemple seront publiés uniquement à la parution de l'article, ce qui place JODA au stade de preprint sans validation externe à ce jour. La méthode s'inscrit dans une dynamique plus large d'enrichissement des simulateurs robotiques par des propriétés physiques extraites de données multimodales, un axe de recherche actif chez Google DeepMind, Meta FAIR et dans le domaine des jumeaux numériques industriels.

À lire aussi

GSAM : un cadre robotique sûr et généralisable pour la manipulation d'objets articulés
1arXiv cs.RO 

GSAM : un cadre robotique sûr et généralisable pour la manipulation d'objets articulés

Des chercheurs ont publié sur arXiv (référence 2605.30740) GSAM, un framework conçu pour la manipulation d'objets articulés (tiroirs, portes, robinets) par des robots de service. Le système combine quatre modules : un percepteur visuel qui extrait les paramètres cinématiques (axe de rotation, amplitude de mouvement), un raffineur basé sur un VLM fine-tuné utilisant le raisonnement par chaîne-de-pensée (CoT) pour corriger les estimations brutes, un générateur de contraintes d'interaction qui encode la géométrie de l'objet et l'évitement d'obstacles, et un planificateur cinématique qui vérifie l'atteignabilité avant exécution. Sur 50 tâches de type charnière réparties en 5 catégories d'objets et 50 configurations initiales aléatoires de l'effecteur, GSAM améliore le taux de succès de 36,0 % par rapport à la meilleure baseline existante, avec une réduction de l'écart-type de 3,1 % indiquant une meilleure consistance comportementale. Ce résultat s'attaque directement au fossé démo-réalité sur une sous-tâche souvent ignorée : les interactions avec des objets mécaniquement contraints impliquent des trajectoires curvilignes et une compréhension de la géométrie interne que ni les politiques end-to-end entraînées en simulation ni les planificateurs purement visuels ne gèrent correctement. L'usage du raisonnement CoT pour corriger des estimations cinématiques erronées plutôt que pour générer un plan de haut niveau constitue un usage pragmatique et inhabituel des VLM en robotique. Pour les intégrateurs sur des robots de service industriels ou hospitaliers, la réduction des collisions destructrices a une valeur opérationnelle directe : forcer mécaniquement un joint en production est un incident matériel, pas une métrique abstraite. Le problème de manipulation articulée est étudié depuis plusieurs années dans des équipes comme Stanford (projet Where2Act, 2021), ETH Zurich et CMU. Les approches concurrentes comprennent les frameworks VLA tels que pi0 (Physical Intelligence) ou OpenVLA, ainsi que les méthodes de perception articulée comme PARIS ou CatGrasp. GSAM se distingue en combinant explicitement un LLM pour la génération de contraintes et un VLM pour la perception raffinée, plutôt qu'une politique implicite entraînée bout-en-bout. Le travail reste un preprint arXiv non soumis à une conférence majeure (ICRA, IROS, CoRL) : les gains annoncés sont encourageants mais nécessitent une validation sur robot physique en conditions non contrôlées.

RecherchePaper
1 source
RopeDreamer : modèle d'espace d'état récurrent cinématique pour la dynamique des objets linéaires déformables
2arXiv cs.RO 

RopeDreamer : modèle d'espace d'état récurrent cinématique pour la dynamique des objets linéaires déformables

Une équipe de chercheurs propose RopeDreamer, une architecture de dynamique latente pour la prédiction du comportement d'objets linéaires déformables (DLOs) tels que câbles, cordes ou tubes flexibles, publiée en préprint sur arXiv (identifiant 2604.28161). Le modèle combine un Recurrent State Space Model (RSSM) avec une représentation cinématique quaternionique : plutôt que d'encoder chaque noeud du DLO en coordonnées cartésiennes indépendantes, la structure est décrite comme une chaîne de rotations relatives, contraignant structurellement le réseau à des configurations physiquement valides et préservant la constance des longueurs de segment. Une architecture à double décodeur découple la reconstruction d'état de la prédiction future, forçant l'espace latent à capturer la physique de la déformation plutôt que de simples corrélations statistiques. Évalué sur un dataset simulé de trajectoires pick-and-place incluant des auto-intersections complexes, RopeDreamer affiche une réduction de 40,52 % de l'erreur de prédiction en boucle ouverte sur des horizons de 50 pas de temps, et réduit le temps d'inférence de 31,17 % par rapport à la baseline de référence. La manipulation de DLOs constitue un goulot d'étranglement industriel concret dans le câblage automobile (harnais), l'assemblage électronique et la chirurgie robotisée (sutures, cathéters). Les approches data-driven précédentes, basées sur des réseaux récurrents ou des graph neural networks, produisaient des déformations non physiques, notamment des étirements de segments et des intersections fantômes rendant la planification long terme peu fiable. L'encodage quaternionique de RopeDreamer adresse directement ces artefacts en opérant sur la variété des rotations plutôt que l'espace euclidien. La capacité à maintenir la cohérence topologique lors de croisements multiples ouvre la voie à des tâches comme le routage de câbles ou le nouage. Limite importante : toutes les évaluations sont réalisées en simulation uniquement, le sim-to-real gap restant un problème non adressé dans ce travail. La manipulation de DLOs est étudiée depuis les années 2000, d'abord avec des modèles mécaniques continus (éléments finis, modèles de Cosserat), avant que les approches data-driven s'imposent à partir de 2018, portées par des équipes à Berkeley, l'ETH Zürich et au MIT. Des simulateurs comme MuJoCo et Isaac Lab de NVIDIA intègrent désormais des primitives DLO, facilitant la génération de données d'entraînement à grande échelle. RopeDreamer se distingue par son emprunt à la cinématique de corps articulés, représentation standard en animation 3D et robotique humanoïde, une convergence méthodologique encore peu exploitée pour les objets souples. L'affiliation institutionnelle des auteurs n'est pas mentionnée dans le préprint disponible. Les prochaines étapes naturelles incluent une validation sur robot physique, un défi dans lequel des équipes européennes, notamment à l'INRIA et au CNRS, sont actives sur des problèmes adjacents de manipulation déformable.

UELes équipes INRIA et CNRS, actives sur la manipulation d'objets déformables, pourraient s'appuyer sur cette approche cinématique quaternionique pour leurs travaux en robotique chirurgicale et assemblage industriel, sous réserve d'une validation sim-to-real.

RecherchePaper
1 source
Améliorer automatiquement la physique de simulation des objets articulés
3arXiv cs.RO 

Améliorer automatiquement la physique de simulation des objets articulés

Une thèse publiée sur arXiv en mai 2026 (identifiant 2605.19136) propose une méthode automatisée pour corriger les propriétés physiques des objets articulés destinés aux simulateurs de robotique. L'approche introduit le concept d'"interaction-readiness", qui caractérise la capacité d'un objet à être simulé de façon fiable lors de tâches de manipulation. Le constat de départ est précis : les grands datasets 3D existants, comme PartNet-Mobility ou Objaverse, fournissent des représentations géométriques et cinématiques riches, mais omettent les paramètres physiques indispensables à une simulation stable (masse, friction, amortissement, limites d'articulations), contraignant les équipes à un travail manuel coûteux. La méthode proposée fusionne des informations géométriques, visuelles et sémantiques dans une boucle itérative avec le simulateur, qui affine ces propriétés automatiquement jusqu'à atteindre une cohérence physique suffisante pour des tâches de manipulation. L'enjeu est concret pour les équipes qui entraînent des politiques de contrôle robotique par apprentissage en simulation. Les expériences conduites sur des objets articulés variés montrent que la qualité des assets influe directement sur la stabilité de la simulation, le comportement lors des interactions, et les performances des politiques apprises, validant empiriquement ce que beaucoup d'équipes observaient sans pouvoir le quantifier. Construire manuellement un objet simulation-ready (tiroir, porte, boîte à couvercle) représente un effort d'ingénierie significatif qui freine la diversification des scénarios d'entraînement. Une pipeline automatisée réutilisant des assets géométriques existants pour y injecter des propriétés physiques réalistes pourrait débloquer la mise à l'échelle des données de simulation, un goulot d'étranglement reconnu dans la course aux VLA (Vision-Language-Action models) et aux politiques de manipulation généralistes. Cette problématique s'inscrit dans un effort collectif pour réduire le sim-to-real gap, domaine où NVIDIA (Isaac Lab) et Google DeepMind (MuJoCo) investissent massivement via la domain randomization et la génération procédurale d'environnements. Le cadre d'évaluation proposé, qui décompose l'"interaction-readiness" en composantes mesurables, constitue aussi une contribution méthodologique indépendante, potentiellement utile comme benchmark pour comparer des pipelines de génération d'assets. Aucune affiliation industrielle n'est précisée dans le préprint, et la méthode n'a pas encore été validée à l'échelle industrielle ; les prochaines étapes naturelles iraient vers des applications de bin-picking ou d'assemblage, où les objets articulés restent un défi ouvert pour les intégrateurs.

UEImpact indirect : les équipes de recherche françaises et européennes (INRIA, CEA-List) travaillant sur la manipulation robotique et les politiques VLA pourraient exploiter cette pipeline pour réduire le coût d'ingénierie lié à la création d'assets simulation-ready.

RecherchePaper
1 source
DynaMOMA : prédiction instantanée des poses de saisie pour la manipulation mobile d'objets dynamiques
4arXiv cs.RO 

DynaMOMA : prédiction instantanée des poses de saisie pour la manipulation mobile d'objets dynamiques

Des chercheurs présentent DynaMOMA, un cadre logiciel pour la manipulation mobile d'objets en mouvement, publié sur arXiv en juin 2026. L'architecture combine deux blocs : un modèle de diffusion ancré (anchor-based diffusion model) qui génère des trajectoires de préhension à court horizon de façon temporellement cohérente, et une politique de contrôle corps entier par apprentissage par renforcement qui pilote simultanément la base mobile et le bras robotique. Un mécanisme nommé anticipation-guided reward ajuste la cible de la politique en substituant progressivement l'observation instantanée à la trajectoire prédite, poussant le système à anticiper plutôt qu'à simplement réagir. Les expériences ont été conduites dans Isaac Gym (NVIDIA), complétées par des validations sur robot physique en environnement réel. L'enjeu industriel est concret : la majorité des systèmes de picking déployés sur convoyeur ou en transfert humain-robot supposent une cible statique ou à trajectoire parfaitement prévisible. Coordonner une base mobile et un bras multi-axes face à un objet dont la pose évolue en continu cumule deux difficultés distinctes : prédire des trajectoires de saisie cohérentes dans le temps, et fermer la boucle de commande corps entier à faible latence. L'usage d'un modèle de diffusion pour la prédiction de trajectoires de préhension (et non pour la génération d'images ou de politiques textuelles) prolonge une tendance récente incluant Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La démonstration d'un transfert sim-to-real fonctionnel constitue l'élément le plus significatif pour les intégrateurs robotiques. Il s'agit à ce stade d'un preprint académique sans affiliation industrielle déclarée, et l'abstract ne fournit ni chiffres de cadence (cycle time) ni de charge utile (payload), ce qui rend toute comparaison directe avec des solutions commerciales impossible. Isaac Gym facilite la reproductibilité, mais la question du sim-to-real gap sur des scènes dynamiques complexes reste ouverte. DynaMOMA s'inscrit dans le même espace de recherche que Physical Intelligence, Agility Robotics ou Apptronik sur la généralisation de la manipulation, sans cibler un segment commercial précis. Des validations sur objets déformables ou partiellement occultés constitueraient l'extension naturelle vers des cas d'usage industriels réels.

RecherchePaper
1 source