Aller au contenu principal
Apprentissage d'une variété de trajectoires kinodynamiques pour l'interception souple d'objets rapides avec gestion de l'impact
RecherchearXiv cs.RO2h

Apprentissage d'une variété de trajectoires kinodynamiques pour l'interception souple d'objets rapides avec gestion de l'impact

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont déposé sur arXiv (2605.28462) une méthode pour permettre à un bras robotique de rattraper des objets en vol libre à grande vitesse. Le problème cumule trois difficultés : temps de réaction très court, incertitude à l'impact, et contraintes cinédynamiques (cinématiques et dynamiques couplées). L'approche utilise l'apprentissage par renforcement en simulation pour collecter des trajectoires de rattrapage réussies, encodées ensuite dans une variété basse dimension appelée kinodynamic trajectory manifold. À l'exécution, l'état initial estimé de l'objet est mappé directement vers une trajectoire de référence, sans optimisation non linéaire en temps réel. Un contrôle compliant prend le relais près du contact pour absorber les impacts et stabiliser la prise.

L'intérêt principal est computationnel : les méthodes classiques de planification exigent une optimisation non linéaire à chaque cycle, trop lente pour des objets rapides. Remplacer ce calcul par un mapping appris réduit la latence décisionnelle de plusieurs ordres de grandeur. Le contrôle compliant au contact, qui relâche la rigidité du contrôleur au bon moment, s'attaque à un problème bien documenté : les chocs rigides provoquent rebonds, ratés de préhension, et contraintes mécaniques excessives sur les actionneurs.

Ce travail s'inscrit dans la lignée des recherches RL-sim-to-real appliquées à la manipulation dynamique, domaine actif depuis les travaux sur le jonglage robotique (DeepMind) et le rattrapage en chute libre (ETH Zurich). La limite principale de ce preprint est l'absence de validation sur robot physique : les résultats restent simulés, et le gap sim-to-real pour des trajectoires d'impact n'est pas quantifié. Les prochaines étapes attendues incluent une validation expérimentale pour éprouver la robustesse du manifold appris face aux bruits réels de perception.

Dans nos dossiers

À lire aussi

Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions
1arXiv cs.RO 

Apprentissage de dynamiques d'objets équivariantes augmentées par réseau de neurones à partir de peu d'interactions

PIEGraph est un modèle hybride de dynamique d'objets pour la manipulation robotique, présenté dans un preprint arXiv publié en mai 2025 (arXiv:2605.02699). Conçu pour opérer avec peu de données d'interaction réelles, il repose sur deux composants couplés : un modèle analytique basé sur des particules physiquement informé, implémenté comme un système masse-ressort, et un réseau de neurones graphique équivariant (GNN équivariant) qui exploite les symétries des interactions entre particules pour corriger et guider ce modèle analytique. Les objets sont représentés comme des ensembles de particules 3D, une convention répandue dans la recherche en manipulation d'objets déformables. PIEGraph a été évalué sur des tâches de réorientation et de repositionnement impliquant des cordes, du tissu, des peluches et des objets rigides, à la fois en simulation et sur hardware robotique physique, où il surpasse les approches de référence actuelles selon les auteurs. Le problème que PIEGraph cherche à résoudre est bien identifié dans le domaine : les modèles purement neuronaux de dynamique de particules perdent la cohérence physique sur des horizons temporels longs et exigent de larges volumes de données d'entraînement, deux contraintes rédhibitoires pour un déploiement industriel. L'approche hybride, avec des contraintes physiques analytiques comme biais inductif et une correction par GNN équivariant, démontre que l'intégration explicite de symétries et de lois physiques dans l'architecture améliore la généralisation à partir de peu d'expériences réelles. Pour les intégrateurs robotiques qui manipulent des pièces souples (textiles, câbles, joints), c'est un signal pertinent : le sim-to-real gap pour les objets déformables n'est pas uniquement un problème de qualité de simulation, mais aussi de structure du modèle d'apprentissage lui-même. La représentation d'objets par nuages de particules 3D est au cœur de travaux antérieurs comme DPI-Net, RoboCraft ou les approches issues de PlasticineLab. Les GNN purs ont montré leurs limites pour la prédiction à long terme et hors distribution d'entraînement. La direction "physique hybride et apprentissage" est partagée par plusieurs groupes, notamment autour de DiffTaichi et des formulations position-based dynamics (PBD). PIEGraph s'inscrit dans cette lignée en ajoutant l'équivariance comme levier supplémentaire de data-efficiency. Une limite notable : le résumé disponible ne quantifie pas précisément le nombre d'interactions réelles nécessaires, un chiffre décisif pour juger de l'applicabilité industrielle. Les prochaines étapes naturelles seraient de tester sur des tâches impliquant des contacts déformable-rigide et de publier ces métriques de sample efficiency.

RecherchePaper
1 source
Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour
2arXiv cs.RO 

Au-delà des objets prédéfinis : modèle d'interaction pensée-apprentissage pour une robotique autonome et à jour

Une équipe de chercheurs publie sur arXiv (ref. 2605.23987, mai 2026) un modèle d'interaction pensée-apprentissage (thinking-learning interaction model) pour robots autonomes évoluant en environnements ouverts et changeants. Le problème visé est structurel : la quasi-totalité des méthodes d'apprentissage robot actuelles fixent à l'avance leurs objets d'apprentissage, qu'il s'agisse des features d'entrée, des catégories de sortie, de l'architecture réseau ou des séquences d'action, ce qui bloque toute adaptation lorsque l'environnement dérive en exploitation longue durée. Le modèle proposé repose sur un mécanisme bidirectionnel : la pensée guide l'apprentissage en identifiant les changements potentiels, en sélectionnant les preuves pertinentes et en planifiant des actions de vérification, tandis que l'apprentissage améliore en retour les processus de raisonnement. Les résultats expérimentaux font état d'une progression de la précision de reconnaissance de 0,419 à 0,845 en adaptation de features, d'une réduction de la longueur moyenne des séquences d'action de 13,0 à 4,0 étapes, et d'une hausse du taux de sélection de preuves utiles de 0,272 à 0,965. L'enjeu est concret pour quiconque déploie des robots en environnement non structuré sur la durée. Les approches VLA (vision-language-action) et d'apprentissage par renforcement supposent généralement un espace d'états relativement stable : toute dérive contextuelle, nouvelle référence produit sur une ligne, réaménagement d'entrepôt, apparition d'obstacle inédit, impose un recalibrage humain ou un nouveau cycle d'entraînement coûteux. Un système capable de redéfinir ses propres catégories de sortie et de reconstruire ses routines d'action sans intervention extérieure réduirait considérablement le coût total de maintenance dans des contextes à forte variabilité, comme la logistique ou le manufacturing discret. Ces résultats restent toutefois issus d'expériences de laboratoire sur des scénarios contrôlés, et la généralisation à des déploiements industriels réels n'est pas encore démontrée. Ce travail s'inscrit dans un courant actif autour de l'apprentissage continu (continual learning), en réponse aux limites du fine-tuning ponctuel. Les approches concurrentes incluent le meta-apprentissage (MAML), les architectures à mémoire épisodique, et les agents LLM embarqués pour la planification robotique comme SayCan (Google DeepMind) ou Code-as-Policies. La spécificité de la contribution est de viser l'autonomie dans la définition des objets d'apprentissage eux-mêmes, pas seulement dans l'exécution de tâches prédéfinies. Le papier est un preprint sans annonce de déploiement ni partenariat industriel ; les prochaines étapes naturelles seraient une validation sur des benchmarks standardisés comme RLBench ou Open X-Embodiment, et des tests sur des plateformes physiques diversifiées.

RecherchePaper
1 source
Convex-Neural RRT* : échantillonnage guidé par apprentissage pour une planification de trajectoire robotique rapide et fiable
3arXiv cs.RO 

Convex-Neural RRT* : échantillonnage guidé par apprentissage pour une planification de trajectoire robotique rapide et fiable

Une équipe de recherche a publié en mai 2026 sur arXiv (réf. 2605.25006) les travaux sur Convex-Neural RRT, une variante de l'algorithme de planification de chemin RRT intégrant un guidage neuronal pour accélérer la recherche de trajectoires optimales. Le principe : un réseau de neurones prédit des régions "waypoints" prometteuses autour des chemins de haute qualité, puis des zones convexes sont extraites de ces prédictions pour concentrer l'exploration sur les zones géométriquement pertinentes tout en maintenant une couverture globale de l'espace. Évalué sur 18 cartes de benchmark réparties en 3 types d'environnements, l'algorithme réduit le temps de calcul de 30 à 75 % par rapport aux variantes neurales existantes (Neural RRT, Neural Informed RRT), et de 88 à 98 % par rapport à LTA. La longueur des chemins produits diminue en moyenne de 5 % par rapport au RRT classique, avec des gains plus marqués dans les environnements complexes. Le taux de succès reste supérieur à 99 % quelle que soit la densité d'obstacles. Ces résultats s'attaquent à un goulot d'étranglement bien documenté du planning probabiliste : les méthodes à base d'échantillonnage sont théoriquement complètes mais lentes à converger vers des solutions de qualité, ce qui freine leur déploiement embarqué où le temps de réponse est critique (robots mobiles, bras industriels, véhicules autonomes). L'utilisation de zones convexes comme proxy des prédictions neuronales est une décision d'ingénierie notable : elle préserve les garanties de convergence de RRT* tout en rendant l'heuristique géométriquement tractable, évitant les dérives habituelles des méthodes purement apprises qui échouent hors distribution. À noter que les gains de 5 % en longueur de chemin restent modestes et que les benchmarks sont réalisés en simulation ; aucune validation sur robot physique n'est rapportée. RRT (Rapidly-exploring Random Tree Star), introduit par Karaman et Frazzoli en 2011, est devenu un standard en planification de mouvement robotique. Ses variantes neurales récentes ont cherché à apprendre des heuristiques d'échantillonnage depuis des données de trajectoires, mais au prix d'une surcharge computationnelle qui annulait souvent le bénéfice. Convex-Neural RRT s'inscrit dans cette lignée en ajoutant une contrainte géométrique qui assainit les prédictions. Les concurrents directs incluent LTA, IRRT et les approches par diffusion (Motion Planning Diffusion). Cette publication préliminaire ne mentionne aucun déploiement industriel ; les prochaines étapes attendues sont une validation sur robots physiques et une extension aux espaces de configuration de haute dimension, notamment les bras 6-7 DOF et les humanoïdes.

RecherchePaper
1 source
Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos
4arXiv cs.RO 

Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos

Une nouvelle méthode d'apprentissage par imitation pour robots humanoïdes vient d'être publiée sur arXiv (2605.23762, mai 2026), proposant un cadre à étape unique baptisé Direct Dynamic Retargeting (DDR). L'objectif est d'apprendre des comportements moteurs complexes à partir de simples vidéos monoculaires de démonstration humaine, sans capteurs de mouvement ni combinaisons de capture. Le défi central est morphologique : un humain et un robot humanoïde ne partagent ni les mêmes proportions, ni les mêmes centres de masse, ni les mêmes contraintes articulaires, ce qui rend la transposition directe des trajectoires impossible. Les approches standards, dites Geometric Retargeting ou Indirect Dynamic Retargeting, projettent d'abord le mouvement humain dans un espace cinématique intermédiaire avant de générer les commandes robot, introduisant ce que les auteurs appellent un biais géométrique qui restreint l'espace de solutions et produit des comportements sous-optimaux. DDR supprime cette étape intermédiaire en formulant le problème directement dans l'espace des tâches (task space), couplé à un solveur de contrôle prédictif par modèle (Model Predictive Control, MPC) à base d'échantillonnage, exécuté au sein d'un simulateur physique. Ce couplage permet au système d'optimiser nativement les séquences de contact sol-pied tout en limitant la dérive des entrées, garantissant la faisabilité dynamique des trajectoires générées. Les expériences montrent que DDR surpasse les méthodes de référence en précision de suivi des démonstrations. Plus significatif pour les praticiens : fournir ces références physiquement viables à un agent d'apprentissage par renforcement accélère la convergence de l'entraînement et améliore l'exécution finale de comportements agiles et d'équilibrage dynamique. L'apprentissage par imitation à partir de vidéo est devenu un axe majeur de la robotique humanoïde, porté par des travaux comme Pi-0 de Physical Intelligence ou les pipelines de données de téléopération développés chez Figure AI et Agility Robotics. Ces approches cherchent à exploiter l'immense corpus de vidéos de mouvements humains disponibles en ligne pour réduire le coût prohibitif de la collecte de données sur robot. DDR s'inscrit dans cette tendance mais attaque le problème par la dynamique plutôt que par la géométrie, un pari prometteur qui reste à valider en conditions réelles : aucun résultat physique sur robot n'est présenté dans cet article, uniquement des évaluations en simulation. Le code source sera rendu public, ce qui permettra à la communauté de reproduire et d'étendre ces résultats.

RecherchePaper
1 source