Aller au contenu principal
Vidéo du vendredi : la découverte de mouvements robotiques révèle des comportements inattendus
RechercheIEEE Spectrum Robotics13h

Vidéo du vendredi : la découverte de mouvements robotiques révèle des comportements inattendus

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

La semaine robotique de mi-juin 2026 a été marquée par la présentation de MotionDisco, un framework conçu pour découvrir des comportements de loco-manipulation "contact-rich" sur des horizons longs, sans recourir à la téléopération ni au retargeting de démonstrations humaines. Contrairement aux approches classiques fondées sur des milliers d'exemples capturés par mocap, MotionDisco génère ces comportements moteurs à partir de zéro en explorant l'espace des configurations physiques de manière autonome. Les séquences produites incluent des comportements qualifiés d'"atypiques" même par leurs auteurs, dont certains surprennent par leur aspect non-anthropomorphe. En parallèle, ROBOTIS a dévoilé AI Sapiens, un pipeline permettant à un humanoïde d'apprendre des mouvements depuis une vidéo capturée par smartphone, sans équipement de motion capture professionnel, avec une mise en open source annoncée. LUMOS Robotics a lancé Project EDGE en proposant 100 robots NIX gratuits à des partenaires universitaires et laboratoires sélectionnés à l'échelle mondiale. L'ESA a diffusé un timelapse du robot Dextre, positionné en bout de Canadarm2 sur l'ISS, opéré depuis le sol pour décharger des équipements depuis le compartiment non pressurisé de la capsule Dragon de SpaceX.

L'intérêt de MotionDisco pour les équipes d'ingénierie tient à sa promesse de contourner le principal goulot d'étranglement du développement en robotique humanoïde : la collecte de données de démonstration. Les approches VLA (Vision-Language-Action) et les méthodes par imitation requièrent des volumes importants de données de haute qualité, coûteuses à produire par téléopération ou mocap. Un framework capable de "découvrir" des comportements moteurs complexes sans données humaines initiales réduirait ce coût d'entrée, avec un impact direct pour les intégrateurs qui externalisent aujourd'hui cette phase à des prestataires spécialisés. Cela dit, aucune métrique de robustesse, de taux de succès ni de généralisation n'est fournie dans la présentation publique, ce qui limite l'interprétation : les vidéos sélectionnées montrent des résultats visuellement convaincants, pas une validation de déploiement. L'annonce d'AI Sapiens par ROBOTIS signale une démocratisation possible du motion learning : si un smartphone suffit pour entraîner un humanoïde, le besoin en infrastructure de mocap type Vicon ou OptiTrack disparaît pour les laboratoires à budget limité.

MotionDisco s'inscrit dans un axe de recherche en expansion depuis 2024, porté par des travaux comme DeepMimic (UC Berkeley) et AMP (Adversarial Motion Priors), qui cherchent à automatiser la génération de comportements locomoteurs sans supervision humaine directe. ROBOTIS, fabricant coréen connu pour la gamme de servos Dynamixel et ses plateformes humanoïdes éducatives (OP3, DARWIN), positionne AI Sapiens comme une brique accessible pour les labos dépourvus de pipelines téléopérés coûteux, face à des acteurs comme Unitree ou Fourier Intelligence qui misent eux aussi sur la réduction du coût de collecte de données. LUMOS Robotics reste peu documentée publiquement : Project EDGE ressemble davantage à un programme d'early adopters qu'à un déploiement commercial établi. Les opérations Dextre sur l'ISS rappellent que la téléopération spatiale demeure le segment le plus mature pour la manipulation dextère à distance dans des conditions réelles contraintes. Les étapes à surveiller : la publication éventuelle du code MotionDisco et le calendrier de la mise en open source du pipeline ROBOTIS.

Impact France/UE

L'ESA est le seul acteur européen cité, avec une opération de routine du robot Dextre sur l'ISS ; aucun impact opérationnel ou commercial direct pour la France ou l'UE.

À lire aussi

Découverte guidée de nouveaux comportements par politiques de diffusion
1arXiv cs.RO 

Découverte guidée de nouveaux comportements par politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.08743v1, juin 2026) un cadre algorithmique pour diversifier les comportements générés par les diffusion policies en robotique. Ces politiques basées sur des modèles de diffusion modélisent efficacement des distributions multimodales de trajectoires d'action, mais souffrent d'un biais documenté : avec peu de démonstrations, l'échantillonnage standard reproduit les comportements dominants et ignore les modes rares mais valides. Les auteurs combinent des correcteurs de Feynman-Kac, outil issu des processus stochastiques, avec un potentiel de guidage orientant l'échantillonnage vers des trajectoires prometteuses mais sous-représentées. Ces trajectoires candidates sont ensuite affinées par optimisation par échantillonnage, puis réintégrées dans le jeu d'entraînement pour réentraîner la politique. Les expériences portent sur plusieurs environnements de manipulation en simulation, où la méthode découvre systématiquement de nouveaux comportements exécutables. L'enjeu est concret pour les équipes travaillant sur l'apprentissage par imitation en robotique industrielle ou de service. Un robot entraîné sur peu de données converge vers une seule stratégie même lorsque plusieurs solutions existent : ce cadre propose d'explorer l'espace des comportements sans collecter davantage de démonstrations humaines, ce qui touche directement à l'efficacité des données dans les pipelines de robot learning. Les auteurs positionnent leur approche contre les méthodes de guidage classiques, qui poussent les échantillons vers des régions infaisables, et contre le couplage RL+diffusion, qui peine à sortir des minima locaux. Les résultats restent cependant limités à la simulation de manipulation; aucune validation sur robot réel n'est rapportée dans ce préprint. Les diffusion policies ont connu une adoption rapide depuis les travaux de Chi et al. en 2023, supplantant progressivement les politiques comportementales classiques sur des tâches de manipulation complexes. Le domaine est aujourd'hui concurrentiel, avec Physical Intelligence (pi0), Google DeepMind et plusieurs laboratoires universitaires poussant les limites de ces modèles génératifs. L'approche Feynman-Kac s'inscrit dans une tendance plus large de réutilisation d'outils de la physique statistique pour le contrôle robotique. Les prochaines étapes naturelles seraient une validation sur hardware réel et une extension à des tâches à horizon long, où la diversité des trajectoires est encore plus critique.

UELes laboratoires européens travaillant sur l'apprentissage par imitation (INRIA, CEA-List) pourraient exploiter ce cadre pour réduire leur dépendance aux données de démonstration, mais aucun acteur ou déploiement européen n'est impliqué dans ce préprint.

RecherchePaper
1 source
MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes
2arXiv cs.RO 

MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes

Des chercheurs ont publié sur arXiv (réf. 2606.06139, juin 2026) MotionDisco, un cadre méthodologique capable de générer automatiquement des séquences de mouvements corps entier pour robots humanoïdes, sans recourir à la téleopération ni au retargeting de mouvements humains. Le système couple une recherche évolutionnaire guidée par un grand modèle de langage (LLM) sur des séquences d'interactions de contact, un optimiseur de trajectoire cinodynamique séquentiel et une stratégie d'élagage. Les trajectoires ainsi découvertes servent à entraîner des politiques de suivi par apprentissage par renforcement (RL), déployées ensuite sur un robot humanoïde physique dans des tâches de loco-manipulation longue durée. Des études d'ablation documentent que la recherche guidée par LLM produit des trajectoires corps entier cohérentes sur plusieurs tâches à long horizon impliquant des contacts riches avec l'environnement. L'enjeu principal est de contourner la téleopération, aujourd'hui le principal mode d'acquisition de données pour les humanoïdes en manipulation, approche coûteuse et difficile à passer à l'échelle. La difficulté est fondamentalement combinatoire: le nombre d'interactions de contact possibles croît exponentiellement avec l'horizon temporel et le nombre d'objets en scène. En automatisant la découverte de compétences, MotionDisco ouvre une voie potentiellement scalable pour les intégrateurs industriels sans infrastructure de téleopération. Le transfert sim-to-real sur robot physique est démontré, ce qui distingue ce travail de nombreuses contributions demeurant en simulation. Les auteurs revendiquent une première mondiale: la découverte et le déploiement de compétences humanoïdes loco-manipulation longue durée par recherche évolutionnaire entièrement automatisée, une affirmation qui reste à valider indépendamment par la communauté. Ce travail s'inscrit dans un paysage où les principaux acteurs humanoïdes, tels que Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), Unitree et NVIDIA (GR00T N2), misent massivement sur la téleopération et les démonstrations humaines pour entraîner leurs politiques de manipulation. L'utilisation d'un LLM comme moteur de recherche pour guider l'exploration de contacts s'apparente aux travaux récents sur les VLA (Vision-Language-Action models), mais positionnée en amont comme générateur de curriculum plutôt que comme politique de contrôle direct. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, qui demeure une contribution de recherche fondamentale sans affiliation ou plateforme matérielle spécifiée. Les extensions naturelles porteraient sur des scènes multi-objets plus complexes et la validation sur une gamme élargie de plateformes humanoïdes commerciales.

RecherchePaper
1 source
Découverte de modes comportementaux pour l'affinage de politiques génératives multimodales
3arXiv cs.RO 

Découverte de modes comportementaux pour l'affinage de politiques génératives multimodales

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.11387) une méthode pour affiner des politiques génératives pré-entraînées par apprentissage par renforcement (RL) sans sacrifier la diversité comportementale. Le problème ciblé est le "mode collapse" : appliqué à une politique diffusion (un modèle génératif produisant des distributions d'actions multimodales), le RL fait converger les comportements variés vers une unique stratégie maximisant la récompense. La solution proposée est un framework non supervisé qui identifie les modes comportementaux latents au sein de ces politiques, puis utilise l'information mutuelle entre ces modes et les trajectoires générées comme récompense intrinsèque. Ce signal régularise l'entraînement RL, forçant le modèle à conserver plusieurs stratégies d'exécution simultanément. Sur des benchmarks de manipulation robotique, la méthode surpasse les approches classiques en taux de succès tout en préservant des distributions d'actions plus riches. Cette contribution adresse une tension fondamentale dans le déploiement des politiques robotiques apprenantes : le RL améliore les performances moyennes mais réduit la robustesse aux imprévus en homogénéisant les comportements. Pour un intégrateur industriel, la diversité comportementale détermine concrètement si un robot peut adapter sa prise face à une pose objet inattendue ou récupérer d'une perturbation de surface, des situations que les métriques de succès moyen ne capturent pas. En préservant la multimodalité après fine-tuning, la méthode rend les politiques diffusion plus exploitables hors des conditions d'entraînement et suggère qu'optimisation par RL et robustesse opérationnelle, deux objectifs souvent antagonistes, peuvent être conciliés. Les politiques diffusion se sont imposées comme paradigme dominant en manipulation robotique depuis les travaux de Chi et al. (2023) et alimentent aujourd'hui les modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou OpenVLA de Berkeley. Le fine-tuning RL de ces architectures est une direction très active, notamment avec DPPO (Diffusion Policy Policy Optimization). La méthode proposée se positionne comme complément générique à ces pipelines, applicable sans annotation supplémentaire. Point de vigilance : les auteurs ne mentionnent pas de validation sur robot physique, un gap récurrent pour les preprints arXiv dont les résultats restent à confirmer hors simulation.

RechercheOpinion
1 source
RoboAlign-R1 : alignement multimodal des récompenses pour les modèles du monde vidéo robotique
4arXiv cs.RO 

RoboAlign-R1 : alignement multimodal des récompenses pour les modèles du monde vidéo robotique

Des chercheurs ont publié le 6 mai 2026 sur arXiv (arXiv:2605.03821) un framework baptisé RoboAlign-R1, conçu pour améliorer l'alignement des modèles vidéo du monde robotique avec les objectifs réels de prise de décision. Le coeur du travail repose sur un benchmark inédit, RobotWorldBench, qui rassemble 10 000 paires vidéo-instruction annotées issues de quatre sources de données robotiques, et sur un juge multimodal, RoboAlign-Judge, capable d'évaluer les vidéos générées selon six dimensions distinctes (instruction following, manipulation accuracy, plausibilité physique, entre autres). Ce juge enseignant est ensuite distillé en un modèle récompense léger pour un post-entraînement par renforcement. En parallèle, les auteurs introduisent une stratégie d'inférence sans entraînement supplémentaire, le Sliding Window Re-encoding (SWR), qui rafraichit périodiquement le contexte de génération pour limiter la dérive lors des prédictions à long horizon. Les gains mesurés sont de 10,1 % sur le score agrégé à six dimensions par rapport au meilleur baseline, dont 7,5 % en précision de manipulation et 4,6 % en suivi d'instructions. Le SWR apporte quant à lui une réduction de 9,8 % en LPIPS et une hausse de 2,8 % en SSIM, avec seulement environ 1 % de latence additionnelle. Ce travail pointe un problème structurel rarement nommé aussi clairement dans la littérature : les modèles vidéo robotiques sont généralement optimisés pour des métriques visuelles basses (reconstruction pixel, SSIM) qui ne corrèlent pas avec la performance réelle en manipulation ou en suivi d'instructions. Autrement dit, un modèle peut produire des vidéos visuellement cohérentes tout en étant inutilisable pour le contrôle d'un bras robotique. En transposant la logique du post-entraînement par récompense, inspirée du RLHF appliqué aux LLM, aux world models vidéo, RoboAlign-R1 propose une voie pour aligner simulation et tâche réelle. Pour les équipes qui utilisent ces modèles comme simulateurs de planification ou générateurs de données synthétiques, l'évaluation multi-dimensionnelle de RoboAlign-Judge pourrait devenir un protocole de référence, à condition que le benchmark soit publié et reproductible. Cette publication s'inscrit dans une dynamique plus large d'application des techniques d'alignement (post-training, distillation, RL) à la robotique incarnée, un domaine où des travaux comme UniSim, GROOT de NVIDIA ou IRASim ont posé les bases des world models vidéo. Le code et les données ne sont pas encore disponibles publiquement au moment de la publication, ce qui limite l'évaluation indépendante des résultats. La prochaine étape naturelle serait une validation sur robot physique en dehors du protocole in-domain utilisé ici, car les gains mesurés en simulation n'impliquent pas directement un transfert sim-to-real amélioré.

RechercheOpinion
1 source