Aller au contenu principal
Un nouveau système d'IA aide les robots à transférer leur entraînement virtuel vers des tâches réelles
RechercheInteresting Engineering7sem

Un nouveau système d'IA aide les robots à transférer leur entraînement virtuel vers des tâches réelles

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs de l'Aston University et de l'University of Birmingham ont publié dans Scientific Reports une méthode d'entraînement robotique visant à réduire le "sim-to-real gap", ce fossé persistant entre les performances d'un robot en simulation et son comportement réel. L'approche, développée dans le cadre du projet REBELION financé par UK Research and Innovation, utilise un générateur de variations d'environnement piloté par IA : pendant la phase de simulation, le système introduit automatiquement des perturbations (bruit capteur, variabilité des matériaux, forces inattendues) pour entraîner le robot à des conditions plus proches du terrain. La validation expérimentale porte sur des tâches de manipulation et de découpe impliquant une interaction physique avec des matériaux, puis un ajustement avec un volume minimal de données réelles. Le cas d'usage mis en avant est le recyclage de batteries lithium-ion, où les robots doivent opérer autour de cellules endommagées ou potentiellement dangereuses, rendant les cycles de test physiques coûteux et risqués.

L'intérêt industriel est direct : la dépendance à de longs cycles de test en environnement réel est l'un des principaux freins au déploiement rapide de robots dans des lignes de production ou des ateliers de recyclage. En permettant de compresser l'essentiel de l'apprentissage en simulation tout en garantissant un transfert fiable avec peu de données réelles, cette approche pourrait raccourcir significativement les timelines d'intégration et réduire les coûts opérationnels pour les industriels. Elle valide aussi une hypothèse qui fait débat dans le secteur depuis plusieurs années : que le sim-to-real gap n'est pas une fatalité, mais un problème d'exposition à la variance pendant l'entraînement. La vision formulée par le Dr. Alireza Rastegarpanah, assistant professor en applied AI and robotics à Aston University, est celle de systèmes robotiques "plug-and-play", entraînés une fois en simulation et redéployés rapidement dans un nouveau contexte sans reconfiguration lourde. C'est une promesse ambitieuse, et les résultats publiés restent limités à un périmètre de tâches contrôlées ; aucun chiffre de performance comparative (taux de succès, cycles de recalibration) n'est rendu public dans la version relayée.

Le sim-to-real gap est un problème structurel documenté depuis les premières applications de reinforcement learning en robotique. Des acteurs comme Boston Dynamics, Agility Robotics ou encore Wandercraft (France, exosquelettes) utilisent des combinaisons de domain randomization et de transfert par imitation pour y répondre, avec des niveaux de maturité variables selon les tâches. Le projet REBELION s'inscrit dans un effort européen plus large sur l'automatisation du recyclage de batteries, filière en forte croissance avec l'essor des véhicules électriques. Les prochaines étapes annoncées par l'équipe visent à élargir la méthode à des environnements industriels plus incertains et à des applications en manufacturing avancé et opérations autonomes, sans calendrier précis communiqué.

Impact France/UE

La méthode du projet REBELION (financé UKRI, inscrit dans un effort européen) pourrait accélérer le déploiement de robots dans les filières EU de recyclage de batteries lithium-ion, secteur stratégique pour la transition électrique.

À lire aussi

Une nouvelle puce pourrait aider les petits robots à traverser des environnements complexes
1MIT News Robotics 

Une nouvelle puce pourrait aider les petits robots à traverser des environnements complexes

Des chercheurs du MIT ont conçu un système-sur-puce baptisé Gleanmer, capable de générer des cartes 3D en temps réel à partir d'un flux de caméra de profondeur, avec une consommation d'environ 6 milliwatts, soit l'équivalent d'une LED. Cette performance s'obtient grâce à une co-conception algorithme-matériel : l'équipe, menée par la professeure Vivienne Sze (EECS/RLE) et le professeur Sertac Karaman (aéronautique, directeur du LIDS), a couplé leur algorithme de cartographie GMMap à un accélérateur matériel dédié. Les co-premiers auteurs Zih-Sing Fu et Peter Zhi Xuan Li ont présenté ces travaux à l'IEEE Very Large-Scale Integrated Circuits Symposium. L'application cible annoncée : de petits UAVs à batterie limitée, comme ceux qui pourraient inspecter des conduits HVAC industriels pour détecter des fuites de gaz en naviguant dans des espaces confinés avec évitement d'obstacles. La différence technique réside dans la représentation géométrique. Là où les approches classiques modélisent l'espace en voxels, des cubes 3D qui demandent de charger et retraiter chaque image de profondeur plusieurs fois, Gleanmer utilise des gaussiennes, des ellipsoïdes dont la taille, la forme et l'orientation s'adaptent librement à la géométrie des objets. Un seul ellipsoïde allongé peut remplacer des dizaines de voxels pour représenter une surface courbe, ce qui réduit drastiquement l'empreinte mémoire. L'innovation clé est une technique de génération de gaussiennes en un seul passage sur l'image de profondeur : une fois traitée, l'image est effacée et n'a pas besoin d'être stockée. Résultat : des cartes denses incluant obstacles et espace libre, suffisantes pour planifier un chemin sans collision, générées sans le GPU ni la mémoire vive que requièrent habituellement les pipelines de cartographie dense. Pour un intégrateur robotique, cela signifie qu'il devient envisageable d'embarquer de la navigation autonome sur des plateformes où la contrainte énergétique était jusqu'ici rédhibitoire. Ce travail s'inscrit dans un effort plus large de miniaturisation des capacités de cartographie et de localisation simultanées (SLAM). Les systèmes embarqués actuels capables de cartographie 3D dense en temps réel, qu'il s'agisse de solutions comme Intel RealSense couplées à des SBC, ou des implémentations GPU embarquées type Nvidia Jetson, consomment plusieurs watts à quelques dizaines de watts, plusieurs ordres de grandeur au-dessus des 6 mW de Gleanmer. Les auteurs mentionnent aussi un second débouché : les casques de réalité augmentée légers, pour des applications médicales ou de maintenance industrielle, où l'autonomie de la batterie conditionne l'usage prolongé. Le composant n'est pour l'instant qu'un prototype de recherche présenté en symposium ; aucun partenariat industriel ni calendrier de productisation n'a été annoncé. Les prochaines étapes naturelles seraient une validation sur plateforme réelle en vol, et une intégration dans une chaîne SLAM complète incluant localisation, pas seulement cartographie.

RecherchePaper
1 source
Coordination du changement de tâches dans un système multi-agents robotique à l'aide d'arbres de comportement
2arXiv cs.RO 

Coordination du changement de tâches dans un système multi-agents robotique à l'aide d'arbres de comportement

L'équipe ThundeRatz de l'Universidade de São Paulo a publié en juin 2026 un article (arXiv:2606.01170) présentant une nouvelle architecture de coordination pour ses robots de football miniature, dans le cadre de la catégorie IEEE Very Small Size Soccer (VSSS). Ce format de compétition met en jeu deux équipes de trois robots chacune, évoluant dans un environnement particulièrement dynamique. Pour gérer les changements de rôle et de comportement en temps réel, l'équipe a remplacé son système historique à base d'automates finis (FSM, Finite State Machine) par une architecture fondée sur des arbres de comportement (Behavior Trees, BT). La comparaison entre les deux approches a été conduite sur le simulateur FIRASim, puis validée lors d'une compétition académique réelle. Le passage FSM vers BT représente un choix architectural significatif dans le domaine de la coordination multi-agents en robotique. Les FSM sont réputés fragiles à mesure que le nombre d'états croît : chaque nouvelle transition requiert une mise à jour manuelle de l'ensemble du graphe, ce qui génère rapidement un code difficile à maintenir dans des environnements où les comportements doivent être recomposés dynamiquement. Les Behavior Trees offrent, à l'inverse, une structure modulaire et hiérarchique qui facilite le changement de tâche en cours d'exécution. Appliqué au football multi-robots, cela signifie une meilleure réactivité aux situations de jeu imprévues, attaquant, défenseur, gardien pouvant échanger leurs rôles de manière coordonnée sans régression comportementale. Ce type de résultat, même dans un cadre académique et à petite échelle, alimente directement les travaux sur la coordination de flottes de robots industriels (AMR, bras collaboratifs) où la commutation de tâche est un point de défaillance récurrent. La compétition VSSS existe depuis plusieurs années sous l'égide de l'IEEE et constitue un banc d'essai reconnu en robotique collective, notamment en Amérique du Sud. ThundeRatz est l'une des équipes historiques du circuit, et ses publications alimentent régulièrement la littérature sur la coordination embarquée à faibles ressources. Sur le plan concurrentiel, les approches BT sont désormais adoptées par plusieurs frameworks robotiques majeurs, dont ROS 2 via BehaviorTree.CPP, ainsi que par des acteurs industriels comme Boston Dynamics pour la gestion comportementale de Spot. L'article ne détaille pas de métriques de performance chiffrées dans son résumé, ce qui rend difficile toute comparaison directe avec d'autres travaux ; les résultats complets restent à consulter dans le corps du papier.

RecherchePaper
1 source
Les robots apprennent à se relever après des chutes dans les escaliers grâce à un système de stabilisation intelligent
3Interesting Engineering 

Les robots apprennent à se relever après des chutes dans les escaliers grâce à un système de stabilisation intelligent

Des chercheurs du ROAR Laboratory (Robotics and Automation Research) de l'Université de Technologie et de Design de Singapour (SUTD) ont publié une étude sur la mitigation des chutes de robots en escalier, présentant un système basé sur l'apprentissage par renforcement couplé à un bras mécanique à trois degrés de liberté (3 DOF). Le dispositif est monté à l'arrière d'une plateforme mobile à chenilles et intervient activement pendant la chute, au lieu de se limiter à la prévention. Entraîné entièrement en simulation sur cinq modes de chute répertoriés (chute arrière droite, pivotements latéraux, effondrements de côté), le contrôleur atteint un taux de succès moyen de 69,4 % pour stopper et stabiliser le robot, contre 38,6 % pour une méthode de contrôle codée à la main. Lorsqu'il réussit, le système stabilise la plateforme en 4,25 secondes en moyenne, bien en deçà du seuil interne fixé à 10 secondes. Testé sur des robots 10 % plus grands ou plus petits et sur des escaliers aux dimensions variables, le meilleur contrôleur atteint 87 % de succès sur une plateforme plus grande. Le résultat le plus significatif n'est pas le taux de succès en lui-même mais le changement de paradigme qu'il représente : le secteur s'est longtemps concentré sur la prévention des chutes via la planification de trajectoire et la détection d'obstacles, en présupposant que le risque résiduel était marginal. Une étude de terrain sur plusieurs années citée par l'équipe indique pourtant que les robots conçus pour les escaliers tombent au moins 35 fois plus souvent sur ce type de surface qu'en terrain plat. Le professeur Mohan Rajesh Elara, directeur du ROAR Lab, formule l'enjeu en termes d'adoption industrielle : tant que les opérateurs ne disposent pas d'une réponse crédible au risque résiduel, ces plateformes resteront perçues comme une source de responsabilité plutôt que comme un outil. Le fait que le contrôleur généralise à des géométries non vues pendant l'entraînement est également notable pour les intégrateurs : il suggère qu'un seul modèle pourrait couvrir une flotte hétérogène sans réentraînement par plateforme. Le système n'est pas prêt pour un déploiement commercial : les chercheurs reconnaissent explicitement qu'il ne satisfait pas la norme de sécurité fonctionnelle IEC 61508, qui impose des niveaux d'intégrité stricts pour les systèmes embarqués en environnement humain. Les prochaines étapes portent sur l'amélioration de la fiabilité, l'ajout de sécurités mécaniques redondantes et la validation expérimentale hors simulation. Dans le paysage concurrentiel, Boston Dynamics (Spot, Atlas), Agility Robotics (Digit) et les acteurs humanoïdes (Figure AI, 1X, Unitree) investissent massivement dans la stabilité dynamique, mais peu publient des données quantifiées sur la récupération post-chute. Ce travail de la SUTD se positionne davantage comme recherche fondamentale que comme annonce produit, mais il fournit une baseline méthodologique utile pour comparer les approches à venir.

UEAucun acteur européen impliqué, mais la référence explicite à la norme IEC 61508 (certification fonctionnelle européenne) positionne ce travail comme une étape préliminaire obligatoire avant tout déploiement commercial en UE de robots mobiles en environnement humain.

RecherchePaper
1 source
IDEA : robustesse aux écarts de dynamique par alignement des effets pour le transfert sim-vers-réel multi-agents
4arXiv cs.RO 

IDEA : robustesse aux écarts de dynamique par alignement des effets pour le transfert sim-vers-réel multi-agents

Une équipe de recherche a publié en juin 2026 sur arXiv (réf. 2606.26575) un article présentant IDEA, acronyme de "Insensitive to Dynamics mismatch via Effect Alignment", une méthode de transfert simulation-vers-réel pour les systèmes de contrôle multi-agents. Le problème ciblé est le "dynamics mismatch" : l'écart entre les paramètres physiques simulés et la réalité dégrade sévèrement les politiques apprises dès lors qu'elles opèrent à bas niveau (couples moteurs, vitesses d'actionneurs), où de légères erreurs de modélisation s'amplifient et rendent le système fragile en déploiement. IDEA combine trois éléments : randomisation de la structure environnementale, actions sémantiques discrètes plutôt que commandes à bas niveau, et contrôle en boucle fermée, ce qui élève la politique à un niveau d'abstraction moins sensible aux écarts physiques. Un mécanisme de synchronisation des actions gère en plus les décalages temporels entre agents. Les expériences portent sur quatre tâches de navigation multi-agents et montrent une meilleure efficacité d'entraînement et des taux de succès plus élevés en conditions réelles par rapport aux méthodes de transfert standard. Pour les intégrateurs travaillant sur des flottes d'AMR ou de systèmes robotiques coopératifs, le sim-to-real gap reste le principal obstacle entre prototype convaincant et déploiement fiable. Les approches classiques exigent une identification précise du système (masses, frictions, délais d'actionneurs), opération coûteuse et souvent inexacte sur des flottes hétérogènes. En travaillant au niveau sémantique, IDEA réduit cette dépendance. Le mécanisme de synchronisation inter-agents répond à un problème concret : les latences réseau asymétriques entre robots désynchronisent les décisions et génèrent des comportements instables. Ces résultats restent toutefois circonscrits à des tâches de navigation en laboratoire ; aucune donnée sur la manipulation ou des environnements industriels réels n'est présentée, ce qui relativise la portée des conclusions. Le transfert sim-to-real est un chantier de recherche actif depuis l'application du deep reinforcement learning à la robotique (2017-2018). Les approches dominantes incluent la domain randomization (OpenAI Dactyl), les modèles de monde (DreamerV3) et le contrôle hiérarchique. IDEA s'inscrit dans ce courant mais déplace le levier vers l'abstraction sémantique, une tendance que partagent les architectures VLA récentes comme Pi-0 d'Intrinsic ou GR00T N2 de NVIDIA, bien que celles-ci ciblent principalement la manipulation mono-bras. Aucune affiliation institutionnelle ni partenariat industriel ne figurent dans le préprint, et aucun déploiement au-delà des expériences de laboratoire n'est annoncé. La validation sur des tâches de manipulation et des environnements non contrôlés constitue l'étape logique suivante.

RecherchePaper
1 source