Aller au contenu principal
Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique
IA physiquearXiv cs.RO2j

Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du RPM Lab de l'Université du Minnesota présentent dans un preprint arXiv (2512.11173v3) un framework d'imitation learning pour la navigation au "dernier mètre" d'un robot manipulateur mobile quadrupède. L'enjeu : positionner la base du robot à quelques centimètres de l'objet cible avant toute action de manipulation, une phase où les systèmes RGB existants échouent, ne garantissant qu'une précision métrique insuffisante. Le système n'utilise que des caméras RGB embarquées et fonctionne avec trois entrées : des images objectif, des observations RGB multi-vues, et un prompt texte nommant l'objet cible. Un module de segmentation guidé par le langage et un décodeur de matrice de score spatial gèrent l'ancrage de l'objet et le raisonnement en pose relative. Entraîné sur une seule instance physique par catégorie, le système atteint 74,58 % de succès en edge-alignment (évaluation sur l'orientation réelle) et 89,42 % en object-alignment sur des instances et environnements inédits, y compris avec des conditions d'éclairage et de fond difficiles.

Ce résultat comble un angle mort structurel de la manipulation mobile : les politiques de manipulation sont entraînées sur des configurations précises, et un positionnement approximatif suffit à les faire sortir de leur distribution d'entraînement, causant des échecs en chaîne à l'exécution. Supprimer LiDAR, capteurs de profondeur et cartes préalables tout en conservant une précision centimétrique rend le pipeline nettement plus déployable sur des plateformes sans capteurs premium. La généralisation catégorielle (une seule démonstration réelle, des dizaines d'instances inconnues) réduit massivement le coût de collecte de données, un verrou majeur pour la manipulation hors environnement contrôlé.

Ce travail s'inscrit dans la dynamique des VLA (Vision-Language-Action) qui cherchent à unifier perception, langage et action dans des politiques généralisables. Les acteurs dominants sur la manipulation mobile incluent Physical Intelligence (Pi-0), Figure AI et les équipes académiques de Stanford et CMU, qui investissent massivement dans la collecte de données téléopérées à grande échelle. L'approche ici contraste délibérément : une seule démonstration par catégorie plutôt que des milliers d'épisodes. Ce résultat reste un démonstrateur académique sans déploiement industriel annoncé ni partenaire B2B identifié, mais une page projet avec des démonstrations visuelles est disponible en ligne.

À lire aussi

NavOL : une politique de navigation par apprentissage par imitation en ligne
1arXiv cs.RO 

NavOL : une politique de navigation par apprentissage par imitation en ligne

NavOL est une approche d'apprentissage en ligne par imitation pour les politiques de navigation robotique, présentée dans un preprint arXiv (2605.11762) en mai 2026. Le système repose sur une politique de diffusion préentraînée qui projette des observations locales vers des waypoints futurs. Son apprentissage s'organise en boucle rollout-mise à jour : en phase de rollout, la politique agit dans un simulateur et interroge un planificateur global disposant d'un accès privilégié à l'environnement complet pour obtenir des segments de trajectoire optimaux comme labels de référence ; en phase de mise à jour, la politique s'entraîne sur ces paires observation-trajectoire collectées en ligne. Construit sur IsaacLab avec rendu parallèle haute fidélité et randomisation de domaine (pose de caméra, paires départ-arrivée), le système s'entraîne simultanément sur 50 scènes sur 8 GPU RTX 4090, collectant plus de 2 000 trajectoires nouvelles par heure, chacune comptant en moyenne plus de 400 pas. Les auteurs introduisent également un benchmark de navigation visuelle en intérieur avec des positions de départ et d'arrivée prédéfinies, conçu pour évaluer la généralisation zéro-shot. NavOL s'attaque à deux blocages classiques de la navigation robotique autonome : le décalage de distribution de l'imitation hors ligne, qui génère des erreurs composées lors du déploiement réel, et la nécessité de concevoir des fonctions de récompense pour l'apprentissage par renforcement. En entraînant la politique sur ses propres rollouts explorés plutôt que sur un corpus statique, le système réduit ce gap de manière plus systématique. Le volume de données généré automatiquement (2 000+ trajectoires/heure) et les gains de performance cohérents sur le benchmark NavDP ainsi que sur le benchmark propriétaire des auteurs indiquent que l'approche pourrait remplacer des pipelines de collecte de données expertes coûteux pour les intégrateurs travaillant sur la navigation en intérieur structuré. Les politiques de navigation visuelle pour robots mobiles constituent un champ actif, avec des approches récentes comme les VLA (Vision-Language-Action models) et les politiques de diffusion qui cherchent à généraliser sans reward engineering. NavOL s'inscrit dans cette dynamique en exploitant IsaacLab, le simulateur d'NVIDIA, pour un entraînement massivement parallèle requérant 8 GPU RTX 4090 haut de gamme. Un point de vigilance : les expériences en conditions réelles mentionnées dans le papier restent peu détaillées dans le résumé, et la performance en simulation peut diverger significativement des résultats terrain, un écart (sim-to-real gap) que ce type d'approche prétend atténuer sans nécessairement le supprimer. Les prochaines étapes naturelles concerneraient l'évaluation sur des environnements extérieurs plus ouverts et l'intégration avec des VLA pour des tâches impliquant un raisonnement sémantique plus riche.

IA physiqueActu
1 source
PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration
2arXiv cs.RO 

PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration

Une équipe de chercheurs présente PGDG (Physically Grounded Data Generation), un cadre qui permet d'entraîner une politique de manipulation bimanuelles robuste à partir d'une seule démonstration humaine. Déposé sur arXiv en mai 2026 (réf. 2605.21710), le système attaque un problème structurant du behavior cloning : tout écart par rapport à la trajectoire apprise plonge le robot dans des états hors distribution, sans signal de récupération disponible dans les données d'entraînement. PGDG génère automatiquement, sans annotation humaine supplémentaire, un ensemble compact de trajectoires physiquement plausibles couvrant ces comportements de récupération manquants. Il alterne entre un échantillonneur ancré en physique et un curateur de données qui oriente progressivement l'exploration vers les modes sous-représentés, complété par un reétiquetage d'actions correctives sur les états risqués. Sur la tâche RotateBox-Pitch, manipulation bimanuelles par contact, le taux de succès passe de 38 % à 93 % en simulation et de 35 % à 82 % en transfert zéro-shot vers le robot réel. Appliqué au fine-tuning de GR00T, le modèle de fondation vision-langage-action de NVIDIA, la méthode améliore le taux de succès de 46 % à 77 %. Le résultat le plus notable pour les intégrateurs est le transfert zéro-shot : la politique entraînée exclusivement sur données synthétiques fonctionne directement sur le robot physique, sans adaptation terrain. Ce résultat valide empiriquement que la génération ancrée en physique peut combler le sim-to-real gap pour les tâches en contact, historiquement le talon d'Achille de la manipulation dextère. La compatibilité avec GR00T (un VLA) ouvre également une voie pour enrichir les modèles de fondation à faible coût de collecte : une démonstration unique remplace les centaines typiquement requises en téléopération, ce qui modifie le calcul économique pour tout projet de déploiement à grande variété de configurations. Ce travail s'inscrit dans la course à l'efficacité des données en robotique manipulatrice. L'augmentation spatiale classique, premier concurrent direct, est systématiquement surpassée sur les quatre tâches testées. Les approches alternatives misent soit sur la collecte massive comme ACT/ALOHA (des milliers de démonstrations), soit sur le pré-entraînement multi-tâche à grande échelle comme pi-0 de Physical Intelligence. PGDG se distingue par son paradigme "une démonstration suffit", potentiellement attractif dès que la diversité des pièces ou des configurations rend la collecte par tâche prohibitive. La validation reste pour l'instant en environnement laboratoire ; une évaluation sur des tâches industrielles réelles constituerait la prochaine étape logique.

💬 Une démo au lieu de mille, et le robot fonctionne directement sur le physique sans adaptation terrain. Le sim-to-real sur de la manipulation par contact, c'était le blocage structurel depuis des années, et là ils sortent 82% en zéro-shot sur le robot réel, c'est pas un résultat qu'on voit souvent. Reste à tenir hors labo.

IA physiqueOpinion
1 source
Apprendre une politique robotique généralisable à partir de vidéos de démonstration humaine
3arXiv cs.RO 

Apprendre une politique robotique généralisable à partir de vidéos de démonstration humaine

Des chercheurs présentent dans un preprint arXiv (2505.20795, soumis en mai 2025) un framework en deux étapes permettant à un robot d'apprendre une nouvelle tâche de manipulation en regardant simplement une vidéo de démonstration humaine, sans collecter de données de téléopération ni effectuer de fine-tuning du modèle. Le système repose d'abord sur un modèle de génération vidéo entraîné par cross-prediction sur un dataset mixte humain-robot, pour construire une représentation latente commune aux deux modalités. Ensuite, une perte contrastive prototypique ("prototypical contrastive loss") aligne cet espace de représentation avec un espace d'action partagé entre humain et robot. À l'inférence, une vidéo de démonstration humaine sert directement de prompt : le robot exécute la tâche correspondante sans aucune adaptation. Les validations portent sur des tâches de manipulation dextre en environnement réel. L'enjeu industriel est direct : la collecte de données de téléopération reste le goulot d'étranglement majeur du robot learning, coûteuse, lente, dépendante d'opérateurs qualifiés. Si l'approche tient à l'échelle, elle réduirait drastiquement le coût d'onboarding d'une nouvelle tâche, passant de plusieurs heures de collecte à quelques secondes de vidéo. C'est précisément le type de capacité qui intéresse les intégrateurs industriels et les startups d'AMR cherchant à déployer des politiques généralisables sans retraining continu. Cela dit, le papier reste un preprint académique : les résultats portent sur un nombre limité de tâches de manipulation, et l'absence de métriques comparatives détaillées (nombre de démonstrations, taux de succès absolu, diversité des saisies) rend l'évaluation de la robustesse difficile à ce stade. La question du "demonstration gap" humain-robot est travaillée depuis plusieurs années, notamment via les travaux sur les video-language-action models (VLA) et des approches comme ACT ou Diffusion Policy chez des labos comme Stanford, CMU, ou encore Physical Intelligence (Pi-0). L'originalité ici réside dans le découplage explicite entre représentation et action via la cross-prediction, plutôt que l'alignement direct de trajectoires. Des acteurs comme 1X, Sanctuary AI ou Figure (avec son modèle Helix) explorent des pistes similaires côté industriel. La prochaine étape logique pour cette ligne de recherche est la généralisation à des objets non vus et à des scènes plus encombrées, deux conditions qui font souvent échouer les approches zero-shot en déploiement réel.

IA physiqueOpinion
1 source
Apprentissage de la continuation native pour les politiques de flux par découpage d'actions
4arXiv cs.RO 

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Des chercheurs ont publié sur arXiv (arXiv:2602.12978v2) une méthode d'entraînement baptisée Legato, conçue pour éliminer un problème structurel des politiques robotiques de type VLA (Vision Language Action) : les discontinuités aux jonctions de blocs d'actions prédits. Les modèles VLA actuels découpent leurs séquences en "chunks" pour s'exécuter en temps réel, mais ce découpage provoque des à-coups mécaniques quand le robot transite d'un bloc au suivant. La solution dominante jusqu'ici, le Real-Time Chunking (RTC), traite ce problème en aval, hors du modèle, en lissant post-hoc les transitions. Legato prend le chemin inverse : il intègre la continuité directement dans la phase d'entraînement, en initialisant le débruitage (denoising) à partir d'un mélange pondéré d'actions déjà connues et de bruit, selon un calendrier (schedule) appris. La méthode restructure également la dynamique de flux pour garantir la cohérence entre entraînement et inférence, et utilise des conditions de schedule aléatoires pour s'adapter à des délais variables. Sur cinq tâches de manipulation en conditions réelles, Legato surpasse RTC avec environ 10 % de gain sur la fluidité de trajectoire et le temps de complétion de tâche. Ce chiffre de 10 % mérite d'être mis en contexte : il est mesuré en conditions réelles, non en simulation, ce qui lui confère un poids pratique que les benchmarks purement virtuels ne peuvent pas revendiquer. Le problème de fond que Legato résout, le "spurious multimodal switching", soit le comportement hésitant du robot coincé entre plusieurs configurations valides à chaque frontière de chunk, est un verrou concret pour les déploiements industriels. Le RTC, en tant que couche externe, introduit précisément ces changements de mode intempestifs parce qu'il ne connaît pas l'intention du modèle. En internalisant la régularité dans l'entraînement, Legato produit des trajectoires dont le comportement à l'inférence est cohérent avec ce qui a été appris, ce qui simplifie la validation en production. Pour les intégrateurs qui cherchent à fiabiliser des cellules de manipulation, la prévisibilité du mouvement est souvent aussi critique que sa vitesse. L'action chunking a été popularisé par ACT (Action Chunked Transformer, Stanford/UC Berkeley, 2023) et repris dans des architectures flow-based comme pi0 de Physical Intelligence. La prolifération des VLA en manipulation, portée par Physical Intelligence, Google DeepMind (RT-2), 1X Technologies, et des laboratoires académiques, a rendu ce problème de frontière de chunk de plus en plus visible hors simulation. Legato s'inscrit dans un courant actif visant à réconcilier la génération par blocs, nécessaire pour la latence temps réel, avec la continuité motrice, nécessaire pour la précision. La méthode (version v2, 2025) n'est pas encore associée à un déploiement industriel annoncé, mais ses résultats sur hardware réel en font un candidat crédible à l'intégration dans les pipelines de fine-tuning VLA existants. Les suites naturelles incluent des tests sur architectures diffusion plus larges et une évaluation sur des plateformes bi-manuelles.

IA physiqueOpinion
1 source