Aller au contenu principal
Modèle JODA : dynamique articulaire composable pour objets articulés
RecherchearXiv cs.RO19h

Modèle JODA : dynamique articulaire composable pour objets articulés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a déposé en mai 2026 sur arXiv (arXiv:2605.09954) JODA, un cadre de modélisation des dynamiques d'articulation pour objets articulés (composable Joint Dynamics for Articulated Objects), destiné à combler l'absence de comportements mécaniques fins dans les simulateurs robotiques et les environnements d'IA incarnée. La méthode encode la dynamique d'un joint sous la forme d'un champ à trois canaux couvrant son degré de liberté : forces conservatives (ressorts, butées de fin de course), frottement sec (holding friction, detents, snap-latching) et amortissement (soft-close). Ces composantes sont instanciées par interpolation cubique par morceaux avec contraintes de forme (PCHIP), produisant une représentation compacte, interprétable et compatible avec la simulation différentiable. Pour inférer ces paramètres depuis des observations visuelles, JODA utilise un modèle vision-langage (VLM) qui propose des primitives dynamiques structurées, composées en un champ unifié, éditable manuellement ou affiné par descente de gradient.

Le problème que JODA adresse est central en robotique de manipulation : le fossé simulation-réalité (sim-to-real gap). Les environnements comme MuJoCo, Isaac Sim ou Habitat modélisent la géométrie et la cinématique des objets articulés, mais ignorent les effets mécaniques de second ordre qui conditionnent le comportement tactile réel : résistance variable selon la position, crans d'arrêt, fermeture amortie, encliquetage. Pour un robot manipulant un tiroir de cuisine ou une vanne industrielle, ces dynamiques sont déterminantes. Une simulation plus fidèle devrait améliorer le transfert de politiques entraînées sur données synthétiques vers l'environnement physique, un enjeu clé pour les architectures VLA (Vision-Language-Action) en cours de déploiement à grande échelle.

Les approches existantes ignorent généralement ces dynamiques ou s'appuient sur des paramètres scalaires fixes (raideur constante, amortissement linéaire), sans capturer ni la non-linéarité du frottement ni les comportements multi-stables. JODA se distingue par sa représentation paramétrique interprétable couplée à un pipeline d'inférence fondé sur un VLM, ouvrant la voie à une annotation semi-automatique d'actifs 3D à grande échelle. Le code et les assets d'exemple seront publiés uniquement à la parution de l'article, ce qui place JODA au stade de preprint sans validation externe à ce jour. La méthode s'inscrit dans une dynamique plus large d'enrichissement des simulateurs robotiques par des propriétés physiques extraites de données multimodales, un axe de recherche actif chez Google DeepMind, Meta FAIR et dans le domaine des jumeaux numériques industriels.

À lire aussi

RopeDreamer : modèle d'espace d'état récurrent cinématique pour la dynamique des objets linéaires déformables
1arXiv cs.RO 

RopeDreamer : modèle d'espace d'état récurrent cinématique pour la dynamique des objets linéaires déformables

Une équipe de chercheurs propose RopeDreamer, une architecture de dynamique latente pour la prédiction du comportement d'objets linéaires déformables (DLOs) tels que câbles, cordes ou tubes flexibles, publiée en préprint sur arXiv (identifiant 2604.28161). Le modèle combine un Recurrent State Space Model (RSSM) avec une représentation cinématique quaternionique : plutôt que d'encoder chaque noeud du DLO en coordonnées cartésiennes indépendantes, la structure est décrite comme une chaîne de rotations relatives, contraignant structurellement le réseau à des configurations physiquement valides et préservant la constance des longueurs de segment. Une architecture à double décodeur découple la reconstruction d'état de la prédiction future, forçant l'espace latent à capturer la physique de la déformation plutôt que de simples corrélations statistiques. Évalué sur un dataset simulé de trajectoires pick-and-place incluant des auto-intersections complexes, RopeDreamer affiche une réduction de 40,52 % de l'erreur de prédiction en boucle ouverte sur des horizons de 50 pas de temps, et réduit le temps d'inférence de 31,17 % par rapport à la baseline de référence. La manipulation de DLOs constitue un goulot d'étranglement industriel concret dans le câblage automobile (harnais), l'assemblage électronique et la chirurgie robotisée (sutures, cathéters). Les approches data-driven précédentes, basées sur des réseaux récurrents ou des graph neural networks, produisaient des déformations non physiques, notamment des étirements de segments et des intersections fantômes rendant la planification long terme peu fiable. L'encodage quaternionique de RopeDreamer adresse directement ces artefacts en opérant sur la variété des rotations plutôt que l'espace euclidien. La capacité à maintenir la cohérence topologique lors de croisements multiples ouvre la voie à des tâches comme le routage de câbles ou le nouage. Limite importante : toutes les évaluations sont réalisées en simulation uniquement, le sim-to-real gap restant un problème non adressé dans ce travail. La manipulation de DLOs est étudiée depuis les années 2000, d'abord avec des modèles mécaniques continus (éléments finis, modèles de Cosserat), avant que les approches data-driven s'imposent à partir de 2018, portées par des équipes à Berkeley, l'ETH Zürich et au MIT. Des simulateurs comme MuJoCo et Isaac Lab de NVIDIA intègrent désormais des primitives DLO, facilitant la génération de données d'entraînement à grande échelle. RopeDreamer se distingue par son emprunt à la cinématique de corps articulés, représentation standard en animation 3D et robotique humanoïde, une convergence méthodologique encore peu exploitée pour les objets souples. L'affiliation institutionnelle des auteurs n'est pas mentionnée dans le préprint disponible. Les prochaines étapes naturelles incluent une validation sur robot physique, un défi dans lequel des équipes européennes, notamment à l'INRIA et au CNRS, sont actives sur des problèmes adjacents de manipulation déformable.

UELes équipes INRIA et CNRS, actives sur la manipulation d'objets déformables, pourraient s'appuyer sur cette approche cinématique quaternionique pour leurs travaux en robotique chirurgicale et assemblage industriel, sous réserve d'une validation sim-to-real.

RecherchePaper
1 source
HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique
2arXiv cs.RO 

HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique

Des chercheurs ont publié sur arXiv (référence 2602.11758v2) un framework baptisé HAIC, Humanoid Agile Object Interaction Control, destiné à doter les robots humanoïdes d'une capacité de manipulation d'objets à dynamique indépendante, sans recours à des capteurs externes d'état. Le système repose sur un prédicteur de dynamique qui estime la vitesse et l'accélération d'un objet en contact uniquement à partir de l'historique proprioceptif du robot, c'est-à-dire ses propres données articulaires, sans caméra ni lidar dédié à l'objet. Ces estimations sont projetées sur des priors géométriques statiques pour générer une carte d'occupation dynamique spatialement ancrée, permettant au contrôleur d'inférer les limites de collision et les affordances de contact même dans les zones de l'espace occultées. Les tâches validées expérimentalement sur robot humanoïde incluent le skateboard, la poussée et traction de chariot sous charges variables, et le transport d'un carton sur terrain irrégulier avec plusieurs objets en interaction simultanée. L'apport industriel de HAIC est de combler un angle mort structurel de la robotique humanoïde actuelle : la quasi-totalité des méthodes d'interaction humain-objet (HOI) supposent que l'objet est rigidement couplé au robot et entièrement actionné. Cette hypothèse exclut les objets sous-actionnés à dynamique propre, roues, chariots, caisses sur sol glissant, qui sont précisément les objets courants en entrepôt logistique ou en atelier industriel. En gérant les forces de couplage et les perturbations inertielles de façon proactive, HAIC réduit la dépendance aux capteurs périphériques coûteux et améliore la robustesse aux variations de charge. Le mécanisme d'apprentissage asymétrique (asymmetric fine-tuning), où le world model s'adapte en continu à la politique apprise, adresse directement le problème de distribution shift, un point de fragilité classique des pipelines sim-to-real. La publication s'inscrit dans une course ouverte autour du contrôle whole-body pour humanoïdes, dominée par des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les travaux internes de Figure AI et Agility Robotics. HAIC se distingue en privilégiant une architecture model-based compacte plutôt qu'un grand modèle fondation, un choix de conception qui favorise la latence basse et l'embarquabilité. Le papier ne mentionne pas de partenaire industriel ni de timeline de déploiement ; il reste à ce stade une démonstration en laboratoire sur humanoïde non nommé, sans benchmark standardisé externe, ce qui rend la comparaison directe avec d'autres systèmes difficile à établir.

RechercheActu
1 source
Le futur est-il compatible ? Diagnostic de la cohérence dynamique dans les modèles d'action du monde
3arXiv cs.RO 

Le futur est-il compatible ? Diagnostic de la cohérence dynamique dans les modèles d'action du monde

Une équipe de recherche a soumis le 12 mai 2026 sur arXiv (référence 2605.07514) une étude ciblant un angle mort des World Action Models (WAMs) : la cohérence dynamique entre les actions prédites et les transitions d'état qu'elles sont supposées engendrer. Les WAMs sont des modèles capables de générer des "rollouts" imaginés, c'est-à-dire des séquences futures simulées d'observations et d'actions, pour guider la prise de décision d'un agent robotique. Les auteurs montrent, à travers une étude systématique de modèles de joint-prediction et d'inverse-dynamics, que ces futurs imaginés peuvent être visuellement plausibles tout en étant dynamiquement incompatibles avec la séquence d'actions associée. Ils définissent formellement l'action-state consistency comme l'alignement entre les actions prédites et les transitions d'état induites, et établissent empiriquement que cette métrique distingue fiablement les rollouts réussis des rollouts échoués sur une large variété de tâches. En s'appuyant sur ces résultats, ils proposent une stratégie dite "value-free consensus" pour la sélection à l'inférence : les candidats rollouts sont classés par accord entre futurs prédits, sans recours à un modèle de récompense ni à un entraînement supplémentaire. Cette stratégie améliore les taux de succès sur les benchmarks RoboCasa et RoboTwin 2.0. L'enjeu pratique est direct pour les équipes qui déploient des politiques basées sur des world models : une inconsistance action-état non détectée peut propager des erreurs tout au long d'une séquence planifiée, rendant les rollouts trompeurs même lorsqu'ils semblent visuellement convaincants. Le fait que la métrique suive des tendances similaires aux estimations de valeur apprises suggère qu'elle capture une structure pertinente pour la décision, au-delà du réalisme perceptif. La stratégie consensus sans valeur est notable car elle élimine le besoin d'un reward model, souvent coûteux à entraîner et fragile à distribuer, ce qui la rend directement utilisable dans des pipelines de déploiement existants. Les WAMs s'inscrivent dans le courant plus large des VLAs (Vision-Language-Action models) et des approches de planification par world model, où des systèmes comme DreamerV3 ou des dérivés de modèles de diffusion cherchent à faire planifier un agent dans un espace latent imaginé. Les benchmarks utilisés, RoboCasa et RoboTwin 2.0, sont des environnements de manipulation simulée de référence dans la communauté. Les auteurs identifient également un phénomène limite qu'ils nomment "background collapse" : les trajectoires échouées à faible dynamique peuvent paraître artificiellement cohérentes car prédire un futur statique est plus facile, ce qui constitue un biais à surveiller lors de l'utilisation de cette métrique. Les prochaines étapes naturelles seraient de valider la stratégie consensus sur des plateformes physiques et d'étendre l'analyse à des modèles de type diffusion policy.

RechercheActu
1 source
Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots
4arXiv cs.RO 

Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots

Des chercheurs ont publié sur arXiv (réf. 2604.13366) une étude comparative portant sur l'identification de systèmes robotiques par méta-apprentissage en contexte, en opposant des modèles de séquences déterministes à des approches génératives basées sur la diffusion. L'équipe reformule le problème classique de l'identification de dynamiques robotiques comme une tâche de méta-apprentissage in-context : le modèle observe une séquence de paires (commande, observation) pour inférer les paramètres dynamiques d'un robot sans re-entraînement. Deux architectures de diffusion sont introduites et évaluées face à une baseline Transformer déterministe : une diffusion par inpainting (inspirée de Diffuser), qui apprend la distribution jointe entrée-observation, et des modèles de diffusion conditionnés sur les entrées de contrôle, déclinés en versions CNN et Transformer. Les expériences sont menées à grande échelle dans des simulations randomisées couvrant des régimes en distribution et hors distribution. Ces résultats sont significatifs pour la commande basée sur modèle (model-based control), qui exige des prédictions de dynamique précises et robustes. L'étude montre que les modèles de diffusion surpassent nettement la baseline déterministe lorsque les conditions d'exécution s'écartent de la distribution d'entraînement, un scénario courant dans les déploiements industriels réels où les robots rencontrent des charges utiles variables, des surfaces inattendues ou de l'usure mécanique. La diffusion par inpainting obtient les meilleures performances globales. Un résultat clé concerne la contrainte temps réel : grâce à un échantillonnage à démarrage chaud (warm-started sampling), les modèles de diffusion parviennent à opérer dans les fenêtres temporelles exigées par les boucles de contrôle, levant ainsi un obstacle majeur à leur adoption pratique. Ce travail s'inscrit dans un courant de recherche actif qui cherche à combiner les capacités génératives des modèles de diffusion avec les exigences de robustesse et de latence du contrôle robotique. La diffusion appliquée à la planification de trajectoires et à la prédiction de dynamiques a émergé avec des travaux comme Diffuser (Janner et al., 2022) et se confronte ici à un scénario de méta-apprentissage, plus réaliste pour des robots déployés dans des environnements variables. Les concurrents directs incluent les approches probabilistes bayésiennes et les réseaux neuronaux récurrents pour l'identification en ligne. La prochaine étape naturelle sera une validation sur hardware réel, notamment pour confirmer que les gains hors distribution observés en simulation résistent au sim-to-real gap.

RecherchePaper
1 source