Transfert simulation-réel pour robots à…

Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active

37

1arXiv cs.RO

Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active

Une équipe de chercheurs propose dans un article arXiv (2601.08454) un pipeline Real2Sim piloté par l'intention, qui automatise la construction d'environnements de simulation physiquement précis à partir d'une instruction en langage naturel. Un modèle vision-langage (VLM) analyse une observation visuelle et une description de simulation incomplète pour identifier le sous-ensemble minimal de paramètres physiques manquants (masse des objets, géométrie de surface, friction), puis génère automatiquement un arbre de comportement (Behavior Tree, BT) composé de primitives motrices et sensorielles atomiques pour les acquérir par interaction physique avec l'environnement. Les expériences ont été conduites sur un bras Franka Emika Panda à contrôle en couple (7 DOF), manipulateur standard en recherche robotique. Les résultats indiquent des gains d'efficacité opérationnelle significatifs par rapport aux méthodes d'exploration exhaustive, validés par des études d'ablation sur plusieurs VLMs de référence, mais les chiffres précis de performance ne sont pas fournis dans l'abstract, ce qui limite la comparabilité externe. L'apport principal est le remplacement de pipelines d'identification système manuels par une stratégie sémantique : au lieu d'explorer exhaustivement l'environnement, le système ne collecte que les données pertinentes pour la tâche demandée, réduisant les interactions redondantes. Pour les équipes travaillant sur des jumeaux numériques industriels, cela représente un gain potentiel en temps de calibration avant déploiement. Le BT joue également un rôle de filtre de sécurité déterministe : sa hiérarchie réactive intercepte les hallucinations du VLM et prévient les anomalies physiques dangereuses, ce qui est non-négligeable pour une application en conditions réelles. Cette combinaison, intelligence sémantique du VLM associée à la robustesse déterministe du BT, constitue l'aspect architectural le plus notable du travail. La construction de simulations fidèles au réel est un verrou classique du déploiement robotique : un jumeau numérique mal calibré amplifie le sim-to-real gap qui dégrade les politiques apprises en simulation, problème central pour les VLA (Vision-Language-Action) actuels. Côté concurrence, Physical Intelligence (pi0), Google DeepMind (successeurs de RT-2) et des projets open-source comme LeRobot de Hugging Face investissent tous dans des pipelines sim-to-real plus robustes. L'utilisation des BT comme couche d'interprétabilité face aux modèles génératifs s'inscrit dans une tendance plus large visant à rendre les LLM/VLM compatibles avec des contraintes de sécurité industrielle. Les prochaines étapes logiques seraient d'étendre le pipeline à des robots mobiles ou des plateformes humanoïdes, et de publier des benchmarks complets permettant une comparaison rigoureuse avec les méthodes d'identification système existantes.

RecherchePaper

1 source

44

2arXiv cs.RO

Re³Sim : générer des données de simulation photoréalistes en 3D par transfert réel-vers-simulation pour la manipulation robotique

Cette annonce arrive du côté recherche académique plutôt que de l'industrie commerciale : une équipe présente RE³SIM, un système de simulation photoréaliste en 3D destiné à combler l'écart entre entraînement simulé et déploiement réel en robotique manipulatrice. Publié sur arXiv (version 4, remplaçant une précédente), le papier décrit un pipeline qui reconstruit fidèlement des scènes réelles grâce à des techniques avancées de reconstruction 3D et de rendu neuronal, permettant un rendu en temps réel de caméras virtuelles multi-angles au sein d'un simulateur physique. En s'appuyant sur des informations privilégiées pour générer efficacement des démonstrations expertes en simulation, puis en entraînant des politiques robotiques par apprentissage par imitation, les chercheurs rapportent un taux de réussite moyen supérieur à 58% en transfert "zero-shot" vers le réel, c'est-à-dire sans aucune donnée réelle utilisée pour l'entraînement, uniquement des données simulées. Ils ont aussi constitué un jeu de données de simulation à grande échelle pour tester la généralisation des politiques apprises sur des objets variés. Le résultat compte parce qu'il s'attaque directement à l'un des goulots d'étranglement les plus coûteux du secteur : la collecte de données réelles pour entraîner des robots manipulateurs, qui exige des opérateurs qualifiés et du matériel onéreux. Si le fossé sim-to-real (géométrique et visuel) peut être réduit de manière fiable grâce à des reconstructions photoréalistes plutôt qu'à des environnements simulés génériques, cela change la donne pour les intégrateurs et les équipes de R&D qui cherchent à multiplier les scénarios d'entraînement sans multiplier les essais physiques. Un taux de 58% en zero-shot reste toutefois modeste comparé aux standards de fiabilité industrielle, et mérite d'être lu comme une preuve de concept académique plutôt qu'une solution prête à l'emploi pour la production. RE³SIM s'inscrit dans la lignée des travaux récents sur les politiques vision-langage-action (VLA) et les pipelines d'apprentissage par imitation, un axe de recherche également poursuivi par des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T). La démarche real-to-sim-to-real, où l'on capture d'abord le monde réel avant de simuler dessus, distingue cette approche des simulateurs purement synthétiques et pourrait influencer les futurs outils de génération de données pour l'entraînement de robots. Le code et des démonstrations sont disponibles sur le site du projet (re3sim.github.io), signe que l'équipe cherche une adoption élargie par la communauté robotique plutôt qu'une simple publication isolée.

RecherchePaper

1 source

Modèles physiques pour le transfert simulation-réel au tennis de table robotique de niveau professionnel

44

3arXiv cs.RO

Modèles physiques pour le transfert simulation-réel au tennis de table robotique de niveau professionnel

Des chercheurs ont soumis sur arXiv (arXiv:2606.28805, juin 2026) un ensemble de modèles physiques haute-fidélité destinés à améliorer le sim-to-real transfer en robotique, appliqués au tennis de table de niveau professionnel. À des vitesses et effets compétitifs, une balle de ping-pong suit des trajectoires complexes et contre-intuitives que le robot doit anticiper en une fraction de seconde. Les modèles proposés couvrent trois domaines : la dynamique aérodynamique du vol de balle, avec les coefficients de traînée et de force de Magnus modélisés en fonction du nombre de Reynolds et du rapport de rotation ; le contact balle-table, intégrant les effets de déformation (buckling) de la balle sur le coefficient de restitution ainsi que des termes résiduels ; et le contact balle-raquette, via un réseau de neurones résiduel combiné à des coefficients de restitution normale et tangentielle et un amortissement torsionnel. Ces modèles ont servi à entraîner des politiques par apprentissage par renforcement (RL), aboutissant à ce que les auteurs décrivent comme le premier agent robotique capable d'affronter des joueurs professionnels en conditions réelles. L'intérêt technique dépasse le cadre sportif. La nature adversariale du tennis de table impose une contrainte rarement aussi explicite ailleurs : toute zone où la simulation diverge de la réalité devient exploitable par l'adversaire, forçant une précision de modélisation sans concession. Les travaux antérieurs en robotique ping-pong se cantonnaient à des plages étroites de vitesses et d'effets, insuffisantes pour reproduire les comportements balistiques du jeu professionnel. Que ce pipeline simulation-vers-réalité soit suffisamment fidèle pour approcher ce niveau valide l'approche pour des tâches de manipulation rapide en milieu industriel, où les essais réels restent coûteux ou dangereux, et renforce l'hypothèse que le sim-to-real gap est soluble par la précision physique plutôt que par l'accumulation de données réelles. Ce travail s'inscrit dans la continuité directe des recherches publiées par Google DeepMind en 2024, qui avaient démontré qu'un robot pouvait battre des joueurs amateurs confirmés en conditions réelles. Ce nouveau papier documente les fondations physiques qui rendent possible le saut qualitatif vers le niveau professionnel. Plusieurs équipes concurrentes utilisent le ping-pong comme benchmark de robotique agile, mais peu ont publié des modèles de contact aussi détaillés pour les phases raquette-balle et balle-table. La revendication de compétitivité face à des professionnels reste à confirmer par des évaluations indépendantes, le papier étant une prépublication non encore évaluée par les pairs. Les suites logiques incluent la généralisation de ces modèles de contact résiduels à d'autres objets déformables et leur transposition à des tâches industrielles de manipulation précise à haute cadence.

RecherchePaper

1 source

NeuralTouch : des descripteurs neuronaux pour un contrôle tactile précis en transfert simulation-réel

42

4arXiv cs.RO

NeuralTouch : des descripteurs neuronaux pour un contrôle tactile précis en transfert simulation-réel

Une équipe de chercheurs a publié sur arXiv (réf. 2510.20390v2) NeuralTouch, un framework multimodal combinant les Neural Descriptor Fields (NDF) avec le retour haptique pour améliorer la précision de préhension des robots manipulateurs. Le principe repose sur deux étages : les NDF génèrent une représentation implicite de la géométrie de contact cible à partir de données visuelles, puis une politique d'apprentissage par renforcement profond (deep RL) affine la saisie en temps réel via des capteurs tactiles. Le système a été validé sur des tâches de manipulation fine, insertion de cheville dans un trou (peg-out-in-hole) et ouverture de bouchon de bouteille, avec un transfert zéro-shot du simulateur vers l'environnement physique, sans fine-tuning supplémentaire. Les études d'ablation en simulation et les tests réels montrent une amélioration significative de la précision et de la robustesse par rapport aux baselines, bien que les métriques quantitatives précises ne figurent pas dans le résumé publié. Le problème adressé est bien connu des intégrateurs : les NDF seuls souffrent d'imprécisions dues à une calibration caméra imparfaite, des nuages de points incomplets et la variabilité géométrique des objets. À l'inverse, les approches tactiles existantes restent cantonnées à des géométries de contact prédéfinies et simples, ce qui limite leur déployabilité industrielle. NeuralTouch contourne cette dualité en conditionnant la politique RL sur les descripteurs neuronaux sans nécessiter de spécification explicite du type de contact, ce qui est précisément le verrou que le secteur cherche à lever pour rendre les bras manipulateurs économiquement viables dans des environnements non structurés. La capacité de généralisation inter-catégories d'objets sans ré-entraînement représente un argument concret pour les COO industriels cherchant à réduire les coûts d'intégration. Ce travail s'inscrit dans un courant actif autour du sim-to-real pour la manipulation de précision, où Stanford, MIT et CMU rivalisent avec des acteurs industriels comme Sanctuary AI, 1X Technologies et Physical Intelligence, dont le modèle pi-0 cible également la manipulation généraliste. NeuralTouch se distingue par son approche hybride vision-tactile conditionnée sur des descripteurs neuronaux, évitant la fragmentation habituelle entre les pipelines purement visuels et les politiques haptiques spécialisées. Reste à démontrer la robustesse du framework sur une gamme plus large de géométries et sur des plateformes robotiques commerciales, étapes qui conditionneront le passage d'une démonstration académique à un outil industriellement pertinent.

RecherchePaper

1 source

Transfert simulation-réel pour robots à actionneurs musculaires via réseaux d'actionneurs généralisés

À lire aussi

Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active

Re³Sim : générer des données de simulation photoréalistes en 3D par transfert réel-vers-simulation pour la manipulation robotique

Modèles physiques pour le transfert simulation-réel au tennis de table robotique de niveau professionnel

NeuralTouch : des descripteurs neuronaux pour un contrôle tactile précis en transfert simulation-réel