Aller au contenu principal

Dossier Manipulation robotique — page 3

446 articles · page 3 sur 9

La manipulation robotique : pinces dextres, peau électronique, grasping, benchmarks de tâches fines, le goulot d'étranglement principal des humanoïdes.

Action ControlNet : un adaptateur léger sensible aux délais pour un contrôle asynchrone fluide dans les modèles VLA
101arXiv cs.RO IA physiqueActu

Action ControlNet : un adaptateur léger sensible aux délais pour un contrôle asynchrone fluide dans les modèles VLA

Des chercheurs ont mis en ligne le 25 juin 2026 sur arXiv (réf. 2606.25985) Action ControlNet (ACNet), un adaptateur léger pour modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. Le problème ciblé : les VLA génèrent des actions par blocs ("chunks"), mais leur latence d'inférence impose une exécution asynchrone, c'est-à-dire que le robot continue à bouger pendant que le modèle calcule le chunk suivant. La jonction entre deux chunks produit alors des discontinuités (jitter d'action, ruptures de trajectoire) qui dégradent les performances, particulièrement dans les tâches en contact (assemblage, insertion). ACNet insère un module adaptateur qui conditionne la prédiction du prochain chunk sur le "motion suffix" déjà exécuté, permettant une transition cohérente avec l'état réel du robot au moment du handoff. Le backbone préentraîné reste figé ; seul l'adaptateur est entraîné, avec peu de paramètres supplémentaires. La méthode est compatible avec les têtes d'action de type diffusion et flow matching. Les évaluations couvrent les simulateurs Kinetix et Meta-World MT50 (50 tâches variées) ainsi qu'un bras réel SO-ARM101 ; ACNet surpasse le chunk stitching direct en fluidité et robustesse sous délai d'inférence, et reste plus léger qu'un réentraînement complet "delay-conditioned". Ce résultat intéresse directement les équipes de déploiement robotique : il propose une correction modulaire de l'asynchronisme sans toucher aux modèles de base. Les VLA de grande taille, notamment Pi-0 (Physical Intelligence), OpenVLA et Octo, souffrent tous du même problème ; une solution par adaptateur plug-in réduit sensiblement le coût d'adaptation. La compatibilité déclarée avec les têtes diffusion et flow matching couvre la majorité des architectures VLA actuelles, ce qui élargit la portée pratique. Nuance à retenir : les tests réels se limitent à un seul bras manipulateur à effecteur unique ; la généralisation à des configurations multi-bras ou à charge variable en environnement industriel reste à démontrer, et les benchmarks simulés ne reproduisent pas la complexité des lignes de production. Le problème de latence d'inférence dans les VLA est documenté depuis RT-2 (Google DeepMind, 2023) et a motivé des travaux comme Diffusion Policy et ACT (Action Chunking with Transformers). Les solutions existantes exigeaient soit un réentraînement complet du modèle avec conditionnement sur le délai, soit une logique de runtime spécifique à chaque architecture, deux contraintes qui freinent l'adoption industrielle. ACNet se positionne comme une alternative plus légère et plus générique. Dans l'écosystème concurrent, Physical Intelligence, Figure AI (Figure 03), 1X Technologies et Agility Robotics travaillent tous sur des pipelines VLA haut débit pour leurs plateformes humanoïdes et manipulateurs ; une intégration dans des frameworks open-source comme Lerobot (Hugging Face) pourrait accélérer le passage de la démonstration au déploiement réel. Ce preprint ne mentionne ni partenariat industriel ni timeline commercial.

UEUne intégration potentielle dans Lerobot (Hugging Face, Paris) pourrait permettre aux équipes R&D robotique européennes d'adopter cette correction d'asynchronisme sans réentraîner leurs modèles VLA de base.

1 source
Un jeu de données imprimable en 3D pour évaluer et comparer objectivement les capteurs tactiles
102arXiv cs.RO 

Un jeu de données imprimable en 3D pour évaluer et comparer objectivement les capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.25886, juin 2026) un jeu de données ouvert de textures imprimables en 3D, conçu spécifiquement pour évaluer et comparer les capteurs tactiles de manière reproductible. Le dataset comprend six motifs de surface générés paramétriquement à partir de combinaisons de fonctions sinusoïdales et de séries de Fourier, offrant une variation contrôlée en fréquence spatiale, amplitude et structure directionnelle. Ces textures ont été évaluées sur trois imprimantes 3D grand public et plusieurs types de filaments, en mesurant la variance des empreintes capturées par un capteur optique TacTip sous conditions de contact contrôlées. Des expériences de classification ont ensuite été menées avec des réseaux de neurones et des modèles PCA. Le problème que ce travail cherche à résoudre est fondamental pour la communauté de la robotique haptique : jusqu'ici, les benchmarks de perception tactile dépendaient des lectures d'un capteur spécifique interagissant avec des surfaces disponibles en laboratoire, rendant toute comparaison inter-capteurs structurellement biaisée. Ce dataset brise ce verrou en définissant les textures de manière mathématique plutôt que physique, ce qui permet leur fabrication indépendante dans n'importe quel laboratoire équipé d'une imprimante FDM. Les résultats montrent toutefois une limite importante : la généralisation intra-imprimante est robuste, mais la généralisation inter-imprimantes reste difficile en raison d'inconsistances géométriques liées à la qualité d'impression, notamment la netteté des pics et le phénomène de "stringing". Les imprimantes haut de gamme produisent des signatures tactiles significativement plus cohérentes. La perception tactile reste l'un des sens les moins standardisés en robotique, contrairement à la vision où des benchmarks comme YCB ou LINEMOD sont devenus des références universelles. Des plateformes comme le TacTip (Bristol Robotics Lab) ou le GelSight (MIT) ont chacune développé leurs propres protocoles d'évaluation, sans base commune. Ce dataset constitue, selon les auteurs, le premier benchmark tactile physiquement reproductible et ouvertement disponible. Les prochaines étapes naturelles concernent l'extension à des matériaux aux propriétés mécaniques variées (rigidité, élasticité) et l'intégration à des pipelines de manipulation robotique où la discrimination de texture conditionne la stratégie de saisie.

UELes laboratoires français et européens travaillant sur la perception haptique (INRIA, CEA-List, laboratoires universitaires) peuvent adopter ce benchmark ouvert pour standardiser leurs évaluations de capteurs tactiles, mais aucun acteur européen n'est directement impliqué dans ce travail.

RecherchePaper
1 source
DSP-SLAM++ : un cadre unifié pour le SLAM d'objets multi-classes haute fidélité en conditions réelles
103arXiv cs.RO 

DSP-SLAM++ : un cadre unifié pour le SLAM d'objets multi-classes haute fidélité en conditions réelles

Des chercheurs du laboratoire AUBVRL ont publié sur arXiv le 25 juin 2026 DSP-SLAM++, une extension du système DSP-SLAM conçue pour cartographier simultanément plusieurs classes d'objets en temps réel avec une fidélité géométrique élevée. Le système repose sur un pipeline de cartographie asynchrone, où le thread de mapping tourne indépendamment du thread de suivi, ce qui permet de traiter des séquences multi-classes à 25 Hz sans bloquer l'ensemble du pipeline. Couplé à une suite sensorielle fisheye monoculaire et LiDAR, DSP-SLAM++ réduit la latence maximale de traitement des objets jusqu'à 70 % par rapport à la baseline DSP-SLAM d'origine, tout en produisant des reconstructions 3D géométriquement complètes pour chaque objet détecté. Le code est disponible en open source sur GitHub (AUBVRL/DSP-SLAMpp). Ce résultat compte parce que le trilemme classique du SLAM orienté objets, choisir entre temps réel, support multi-classes et fidélité des modèles 3D, restait non résolu dans les systèmes existants. Un gain de 70 % sur la latence maximale (et non sur une latence moyenne, détail important) signifie que les cas extrêmes, ceux qui gelaient le thread de cartographie sur des scènes denses, sont maîtrisés. Pour un intégrateur qui équipe un véhicule autonome ou un bras de manipulation, c'est la différence entre un système testé en labo et un système opérationnel sur plateforme embarquée réelle. L'adaptation fisheye-LiDAR est également stratégique : ce binôme est devenu la configuration standard en robotique terrain et en conduite autonome niveau 2-3, là où les caméras rectilignes coûtent en champ de vue. DSP-SLAM, le prédécesseur direct, était lui-même une extension de SuperPoint SLAM publiée autour de 2021-2022 et avait démontré la viabilité des représentations implicites par réseaux de formes (DeepSDF-style) pour le SLAM objet, mais butait sur les performances en environnements multi-classes et multi-capteurs. Dans l'espace concurrent, on trouve EAO-SLAM, OrcVIO ou encore les approches NeRF-SLAM (iMAP, NICE-SLAM), qui privilégient la reconstruction de scènes complètes au détriment de la sémantique par objet. DSP-SLAM++ se positionne donc sur le créneau précis de la granularité objet à haute fidélité en temps réel, créneau directement utile pour la manipulation robotique (pick-and-place avec modèle 3D précis) et la détection d'obstacles typés en conduite autonome. Les prochaines étapes logiques incluent l'extension à des classes ouvertes via des fondations visuelles (SAM, DINO) et les tests sur plateformes embarquées contraintes comme Jetson Orin.

UELe code open source disponible sur GitHub est directement exploitable par les intégrateurs européens en robotique terrain et conduite autonome, sans dépendance commerciale envers un fournisseur tiers.

RecherchePaper
1 source
RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation
104arXiv cs.RO 

RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation

Des chercheurs ont publié sur arXiv (réf. 2606.22027) RARM, pour Reference-Anchored Reward Model, une approche visant à résoudre un verrou central de l'apprentissage par renforcement (RL) en manipulation robotique : la conception des fonctions de récompense. La méthode repose sur un comparateur visuel léger qui, à partir d'une seule démonstration réussie, génère automatiquement un signal de récompense dense et progressif. RARM est pré-entraîné une unique fois sur des vidéos généralistes via un objectif de contraste temporel, sans données robot-spécifiques ni étiquetage manuel. Au déploiement, il compare des extraits de la tentative courante à des clips de référence et ne délivre une récompense que lorsque la correspondance dépasse un seuil de confiance (d'où l'appellation confidence-gated). Évalué sur 9 tâches de manipulation simulées issues des benchmarks LIBERO et MetaWorld ainsi que sur 4 tâches réelles, RARM obtient les meilleurs taux de succès globaux en entraînement RL, avec des gains particulièrement marqués sur des tâches longue durée comme le pliage de tissu. Le verrou qu'attaque RARM est fondamental : les récompenses éparses (succès/échec en fin de séquence) produisent un signal trop faible pour les tâches longues, tandis que les récompenses denses codées manuellement exigent une ingénierie fastidieuse et se généralisent mal d'une tâche à l'autre. Les approches de progression existantes souffraient d'un biais critique : elles attribuaient des récompenses élevées à des états visuellement plausibles mais physiquement incorrects, ce que la porte de confiance de RARM réduit directement. L'implication concrète pour les intégrateurs est qu'une seule vidéo de démonstration humaine suffit désormais à bootstrapper l'entraînement RL sur une nouvelle tâche, sans ré-ingénierie de la fonction de récompense. RARM se positionne en concurrence directe avec EUREKA (OpenAI, génération de récompenses via LLM) et les méthodes d'imitation inverse (IRL), dont il se distingue par sa légèreté et l'absence de données robot-spécifiques. Son objectif de généralisation le rapproche des ambitions des modèles VLA comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La publication reste un preprint arXiv, pas encore un produit ni un déploiement industriel ; les prochaines étapes attendues incluent une validation sur des plateformes hardware diversifiées et une intégration dans des pipelines de fine-tuning de modèles fondationnels robotiques.

RecherchePaper
1 source
ForceBand : apprentissage de la manipulation de force par sEMG
105arXiv cs.RO 

ForceBand : apprentissage de la manipulation de force par sEMG

Une équipe de chercheurs a présenté ForceBand, un bracelet sEMG (électromyographie de surface) porté au poignet et conçu pour enrichir les démonstrations humaines destinées à l'apprentissage de politiques de manipulation robotique. Le système capture l'activité musculaire du poignet via des électrodes de surface et, combiné à une IMU, alimente un modèle pré-entraîné baptisé EMG2Force qui prédit les forces exercées par chaque doigt. Pour entraîner ce modèle, les chercheurs ont constitué un jeu de données multimodal de 10 heures combinant vidéo égocentrique, signaux sEMG, données inertielles et mesures de forces au bout des doigts, couvrant des actions et objets variés. Après une courte calibration propre à l'utilisateur, celui-ci peut collecter de nouvelles démonstrations avec seulement le bracelet et une caméra : EMG2Force étiquette automatiquement ces séquences avec les traces de force par doigt. Les expériences rapportent une réduction d'erreur de prédiction de force supérieure à 50 % par rapport aux baselines fondées uniquement sur la vision, et un taux de succès de 87 % sur des tâches de saisie, compression et dépose impliquant des objets de formes, tailles et poids variés. L'apport clé de ForceBand réside dans la résolution d'un angle mort structurel des pipelines d'imitation learning : les sources courantes de démonstrations humaines, capture de mouvement ou vidéos internet, fournissent trajectoire et apparence mais ignorent les forces de contact, pourtant déterminantes pour toute manipulation sensible au toucher. Serrer un emballage souple sans l'écraser, insérer un connecteur, manipuler des objets fragiles ou déformables sont des tâches où le contrôle en effort prime sur le contrôle en position. En rendant ces forces observables à faible coût matériel, le système ouvre la voie à des politiques VLA (vision-language-action) capables de généraliser sur des propriétés mécaniques d'objets non vus, sans capteurs de force onéreux montés sur le robot. Ce travail s'inscrit dans une dynamique active autour de l'augmentation des données de démonstration : plusieurs laboratoires explorent des gants haptiques, des capteurs tactiles intégrés aux mains robotiques ou des méthodes de reconstruction de force par vision stéréo. ForceBand se positionne comme une alternative légère et bon marché, accessible sans infrastructure de motion capture. L'article est pour l'instant un preprint arXiv (2606.26093), non encore soumis à une conférence majeure, et les résultats reposent sur un protocole contrôlé en laboratoire. La robustesse au bruit musculaire inter-sujets, à la fatigue et aux variations de placement du bracelet en conditions industrielles reste à démontrer. Les prochaines étapes naturelles impliqueront des tests sur des robots à mains dextrères (dexterous hands) et une validation sur des tâches d'assemblage réelles, là où la complémentarité avec des plateformes comme les mains Allegro ou Shadow est la plus directe.

RecherchePaper
1 source
ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action
106arXiv cs.RO 

ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action

Une équipe de chercheurs publie fin juin 2026 ROAD-VLA (arXiv:2606.25800), un cadre d'adaptation en ligne des modèles VLA (Vision-Language-Action) par auto-distillation guidée par avantage. Les VLA, à l'image de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou RT-2 (Google DeepMind), traduisent directement une entrée visuelle et une instruction en langage naturel en séquences d'actions robotiques. Le problème : affiner un tel modèle pré-entraîné sur de nouvelles tâches via apprentissage par renforcement (RL) génère des récompenses trop éparses pour superviser des politiques autoregressives de haute dimension. ROAD-VLA y répond en construisant un "enseignant proximal" dans l'espace des actions, perturbant les logits des tokens d'action avec des estimations d'avantage calibrées pour convertir des récompenses rares en supervision dense token par token. Évalué sur sept environnements de manipulation robotique, en distribution et hors distribution, le framework surpasse PPO (Proximal Policy Optimization, référence RL standard) dans la quasi-totalité des configurations. La découverte la plus saillante est l'existence d'un "modality gap" : les enseignants textuels conditionnés sur des démonstrations, des expériences récupérées ou des plans de haut niveau s'avèrent systématiquement inefficaces pour adapter les politiques d'action VLA. C'est une contradiction directe avec une hypothèse répandue selon laquelle le guidage symbolique ou langagier peut servir de supervision fiable lors du fine-tuning RL. ROAD-VLA démontre que la supervision doit opérer dans l'espace des actions, pas dans l'espace du langage. Pour un intégrateur déployant des bras manipulateurs basés sur VLA, cela ouvre une voie d'adaptation au domaine sans collecter de nouvelles démonstrations massives : le modèle se corrige via son propre comportement et les signaux de récompense de l'environnement réel. Le paradigme VLA a pris son essor avec RT-2 (Google DeepMind, 2023), puis s'est accéléré via Pi-0 (Physical Intelligence, 2024), GR00T N2 (NVIDIA, 2025) et Helix (Figure AI), accompagnés d'une vague de publications académiques. L'adaptation post-déploiement, soit ajuster un modèle généraliste à une géométrie de préhension spécifique ou à un flux industriel précis sans tout ré-entraîner, est désormais identifiée comme le verrou opérationnel suivant par les équipes terrain. Ce travail reste une annonce académique (arXiv, juin 2026), pas un produit livré ni un déploiement industriel réel, et la validation sur robots physiques en conditions industrielles reste à conduire. Aucun acteur français ou européen n'est impliqué dans cette recherche.

RechercheOpinion
1 source
AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine
107arXiv cs.RO 

AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine

Une équipe de chercheurs a publié sur arXiv (identifiant 2606.25503) un système de complétion de profondeur baptisé AISPO, destiné à améliorer la fiabilité de la perception 3D lors de la manipulation robotique d'objets à surfaces non-lambertiennes, c'est-à-dire transparents (verres, flacons, plastiques) ou fortement spéculaires (pièces métalliques polies). Ces matériaux posent un problème structurel aux capteurs RGB-D : les mesures de profondeur y sont systématiquement corrompues ou absentes, car ces surfaces ne diffusent pas la lumière infrarouge de façon prévisible. AISPO combine une fusion multi-échelle de caractéristiques RGB-D avec un prior de forme affine-invariant, qui impose une cohérence géométrique locale et corrige les défaillances de profondeur avant qu'elles ne se propagent au planificateur de mouvement et ne génèrent des poses de préhension invalides. L'intérêt industriel est direct : les objets non-lambertiens sont omniprésents en logistique pharmaceutique, en agroalimentaire et en assemblage électronique. La plupart des méthodes de complétion de profondeur existantes sont optimisées pour la précision moyenne sur des benchmarks standardisés, sans garantir la plausibilité physique des cartes de profondeur produites, ce qui suffit pour la reconstruction 3D mais pas pour générer des trajectoires de grasping exécutables. AISPO se distingue en priorisant l'intégrité structurelle des prédictions plutôt que la métrique globale. Les expériences de préhension réelle montrent une amélioration des taux de succès sur objets transparents, bien que l'article ne quantifie pas précisément cet écart, un manque de rigueur notable pour un travail qui se positionne sur la fiabilité. AISPO s'inscrit dans un champ de recherche actif autour de la perception d'objets difficiles à mesurer, aux côtés de travaux comme ClearGrasp (Google Research, 2019) et des jeux de données TransCG et DREDS. La contribution clé est le prior de forme affine-invariant, qui permet une généralisation à des objets et scènes non vus à l'entraînement, un enjeu central du sim-to-real gap. Aucune entreprise industrielle ni laboratoire européen n'est associé à ce travail, qui reste un préprint arXiv sans évaluation par les pairs. Les prochaines étapes naturelles seraient une intégration dans des pipelines de manipulation existants comme OpenVLA ou Pi-0 de Physical Intelligence, et une comparaison quantitative plus rigoureuse sur des benchmarks comme GraspNet-1B.

RecherchePaper
1 source
GRAFT : transfert d'affordances à base de graphes par correspondance de parties
108arXiv cs.RO 

GRAFT : transfert d'affordances à base de graphes par correspondance de parties

Des chercheurs ont publié sur arXiv (identifiant 2606.25241) GRAFT, un cadre de transfert d'affordance par correspondance de parties pour la manipulation robotique d'objets inconnus. Le principe : à partir d'un seul exemple par objet stocké dans un buffer de démonstrations, GRAFT permet à un robot de manipuler des instances qu'il n'a jamais vues, sans réentraînement. Chaque objet est représenté sous forme de graphe structuré par parties fonctionnelles, avec deux niveaux de descripteurs : des descripteurs au niveau des parties pour retrouver l'instance la plus proche fonctionnellement et géométriquement dans le buffer, puis des descripteurs au niveau des sommets pour localiser les points de contact précis à propager sur le nouvel objet. Ce que GRAFT apporte de concret, c'est la prise en compte explicite de la géométrie, là où les approches précédentes de transfert d'affordance s'appuyaient uniquement sur la similarité sémantique. Retrouver qu'une cafetière et une théière appartiennent à la même catégorie ne suffit pas si leurs anses diffèrent morphologiquement : le point de préhension optimal change, et un robot guidé uniquement par sémantique rate la saisie. En combinant alignement fonctionnel et correspondance géométrique fine des parties, GRAFT vise à réduire les échecs sur les variantes d'un même objet. Pour des intégrateurs en cellule flexible ou des équipes de bin-picking, cela signifie théoriquement moins de démonstrations à collecter pour couvrir la diversité d'un flux de pièces réel. La généralisation à de nouveaux objets avec peu d'exemples est un frein majeur en manipulation depuis des années : les méthodes d'imitation classiques requièrent typiquement des dizaines à des centaines de démonstrations par objet. Des approches récentes comme AnyGrasp, GraspNet ou les méthodes par affordance visuelle fondées sur CLIP (F3RM, CLIP-Fields) cherchent à réduire ce coût via des fondations vision-langage. GRAFT prend le pari inverse, en misant sur la correspondance structurelle de parties plutôt que sur le langage. Il s'agit d'une pré-publication arXiv sans institution mentionnée dans l'abstract et sans résultats quantitatifs accessibles sans lire le papier complet : les benchmarks de référence (YCB, OCID, RLBench) et les comparaisons avec les baselines restent à consulter dans le corps du travail avant toute conclusion sur les performances réelles.

RecherchePaper
1 source
IA robuste pour manipuler les tissus grâce au raffinement en temps réel par simulation
109arXiv cs.RO 

IA robuste pour manipuler les tissus grâce au raffinement en temps réel par simulation

Une équipe de recherche a publié le 24 juin 2026 sur arXiv (arXiv:2606.24552) une méthode permettant à un robot de manipuler des textiles souples à partir d'une unique image RGB, sans capteur de profondeur ni données haptiques. L'approche repose sur trois composants : un simulateur d'objets déformables appelé FLASH, conçu pour équilibrer fidélité physique, stabilité numérique et vitesse de rollout ; un module real-to-sim entraîné exclusivement sur données synthétiques, qui convertit une image couleur en état de tissu compatible avec la simulation en fusionnant des features visuelles préentraînées avec des tokens canoniques apprenables ; enfin un planificateur en ligne MPPI (Model Predictive Path Integral) guidé par une politique distillée hors ligne, qui évalue des lots de trajectoires candidates en parallèle dans le simulateur et sélectionne la meilleure action à chaque pas. Les expériences sur robot réel montrent des taux de succès et une robustesse supérieurs aux méthodes de référence, bien que les chiffres précis ne soient pas communiqués dans le résumé public. Ce travail est significatif parce qu'il étend le paradigme "simulator-in-the-loop" aux objets déformables, un verrou majeur en manipulation robotique. Jusqu'ici, cette famille de méthodes était cantonnée aux objets rigides, dont l'état et les contacts restent relativement faciles à modéliser. Le textile pose un problème radicalement plus difficile : l'espace de configuration est continu et de très haute dimension, les contacts sont multiples et transitoires, et le sim-to-real gap explose dès que le simulateur ne capture pas fidèlement les plis. Le fait que la méthode ne nécessite qu'une caméra RGB standard abaisse le coût d'intégration en contexte industriel, notamment pour le pliage de vêtements, la manipulation de sacs flexibles ou les lignes de confection textile. Pour un intégrateur B2B, c'est un signal que le sim-to-real pour déformables commence à sortir du laboratoire, même si les performances annoncées restent à valider sur un spectre large de matières et de géométries. La manipulation de textiles reste l'un des problèmes ouverts les plus cités en robotique d'entrepôt depuis les travaux fondateurs de Maitin-Shepard (2010) sur le pliage de serviettes, et le champ a longtemps stagné faute de simulateurs déformables suffisamment rapides pour un usage en boucle fermée. FLASH s'inscrit dans une vague récente de simulateurs spécialisés (DiffCloth, FleX, CLOTH3D) cherchant ce compromis fidélité/vitesse. Côté concurrence, les approches dominantes pour la manipulation de textiles restent les politiques imitatives par diffusion (comme Pi-0 de Physical Intelligence) ou le transfert pur sim-to-real par domain randomization. L'originalité ici est de placer le simulateur directement dans la boucle d'inférence plutôt qu'uniquement à l'entraînement. La prochaine étape naturelle sera de tester à plus grande échelle de variabilité de tissus et d'intégrer des retours tactiles pour les cas où la vision seule est insuffisante ; l'article ne mentionne pas de partenariats industriels ni de calendrier de déploiement.

RecherchePaper
1 source
MinInter : minimiser l'interpolation de trajectoire lors de l'augmentation de données pour l'apprentissage par imitation
110arXiv cs.RO 

MinInter : minimiser l'interpolation de trajectoire lors de l'augmentation de données pour l'apprentissage par imitation

Une équipe de chercheurs a publié en juin 2026 sur arXiv (arXiv:2606.24078) une méthode baptisée MinInter (Minimizing Interpolation), destinée à améliorer la qualité des données synthétiques générées lors de l'apprentissage par imitation pour la manipulation robotique. Le principe est ciblé : lorsqu'un pipeline d'augmentation de données recompose des démonstrations d'experts à partir de configurations initiales variées, il doit typiquement intercaler des segments d'interpolation entre les morceaux de trajectoire, segments qui ne correspondent à aucun comportement expert et dégradent la qualité des données générées. MinInter résout ce problème en sélectionnant, pour chaque configuration initiale échantillonnée, la démonstration source qui nécessite le moins d'interpolation pour former une trajectoire complète. Sur le benchmark MimicGen, la méthode a été évaluée sur 12 tâches de manipulation couvrant 26 variantes, et améliore systématiquement à la fois les taux de succès de génération de données et les taux de succès des politiques apprises, avec les gains les plus importants sur les tâches dites contact-rich (en contact physique intensif), long-horizon (longues séquences d'actions) et high-variance (configurations initiales très dispersées). L'intérêt principal de MinInter réside dans sa capacité à améliorer la qualité des données sans modifier l'architecture du pipeline d'augmentation existant : la méthode est compatible avec les frameworks actuels et agit uniquement sur la stratégie de sélection de trajectoire. C'est un levier pratique pour les laboratoires qui cherchent à réduire le coût humain de la collecte de démonstrations tout en maintenant la qualité des politiques apprises. Les résultats sur les tâches contact-rich sont particulièrement notables, car ce type de tâche est historiquement difficile à traiter par augmentation synthétique, les dynamiques de contact étant sensibles aux discontinuités introduites par les segments d'interpolation. La surperformance face à SkillGen, un framework récent et plus complexe, questionne l'utilité d'approches sophistiquées quand une heuristique de sélection bien ciblée suffit. Le contexte est celui de la montée en puissance de l'apprentissage par imitation (IL) comme alternative au reinforcement learning pour la robotique de manipulation, notamment avec des méthodes comme BC (Behavioral Cloning), ACT ou Diffusion Policy. MimicGen, le benchmark utilisé, est devenu une référence du domaine pour comparer les méthodes d'augmentation de trajectoire. MinInter s'inscrit dans la même lignée que SkillGen (2024), mais avec une philosophie de minimalisme algorithmique. La prochaine étape logique serait de valider ces gains sur du matériel réel, où les dynamiques de contact et la variabilité du monde physique dépassent largement ce que les simulateurs capturent, et où le sim-to-real gap reste la principale incertitude non résolue.

UELes laboratoires européens travaillant sur l'apprentissage par imitation (INRIA, CEA-List, universités techniques) peuvent intégrer directement MinInter dans leurs pipelines d'augmentation MimicGen sans modifier leur architecture existante.

RecherchePaper
1 source
Mouvement primitif en robotique : une étude approfondie
111arXiv cs.RO 

Mouvement primitif en robotique : une étude approfondie

Publiée sur arXiv sous l'identifiant 2601.02379v2, une revue encyclopédique sur les movement primitives en robotique recense et compare l'ensemble des cadres théoriques développés ces trente dernières années pour représenter les trajectoires de contrôle de robots à partir de démonstrations humaines. Ces primitives de mouvement, blocs élémentaires de motion analogues aux phonèmes du langage, permettent à un système autonome de décomposer un geste complexe en segments réutilisables et recombinables. Les approches couvertes incluent les Dynamic Movement Primitives (DMP), formulés comme des systèmes dynamiques de type amortisseur-ressort, les Probabilistic Movement Primitives (ProMP) couplant statistiquement plusieurs démonstrations, et les extensions neuronales adaptées aux espaces d'état de haute dimension. La revue présente ces frameworks en ordre chronologique, évalue leurs forces et faiblesses, et identifie des applications concrètes : saisie d'objets, mouvements balistiques, enchaînements de tâches en manipulation robotique. Pour les praticiens (intégrateurs, équipes R&D en manipulation, COO industriels), cette synthèse positionne les primitives de mouvement comme une couche intermédiaire critique entre démonstration brute et politique généraliste de bout en bout. Elles permettent le transfert de compétences motrices sans rejeu complet des données d'entraînement et restent interprétables, contrairement aux architectures VLA (Vision-Language-Action) comme π0 de Physical Intelligence ou OpenVLA. La revue souligne en particulier des défis non résolus que ces dernières n'ont pas encore surmontés à l'échelle industrielle : segmentation automatique des démonstrations, passage à l'échelle en environnements non structurés, et couplage de contraintes en temps réel. Les primitives de mouvement ont émergé au début des années 2000 avec les travaux d'Auke Ijspeert, Jun Nakanishi et Stefan Schaal sur les DMP, puis étendues par Paraschos et al. avec les ProMP en 2013. Le champ s'est depuis fragmenté en nombreuses variantes sans synthèse unifiée. Face aux approches purement neuronales (ACT, Diffusion Policy) popularisées par les groupes de Sergey Levine et Chelsea Finn, les primitives se repositionnent comme solution modulaire et interprétable. Les auteurs identifient leur intégration dans des architectures de type foundation model pour la robotique comme prochaine étape structurante, un axe qui mobilise des acteurs aux États-Unis (Boston Dynamics AI Institute, CMU) comme en Europe (DLR, LAAS-CNRS).

UELAAS-CNRS est explicitement identifié comme un acteur européen clé sur l'intégration des primitives de mouvement dans les architectures foundation model pour la robotique, ce qui positionne la recherche française au cœur d'un axe stratégique face aux approches VLA purement neuronales.

RecherchePaper
1 source
TactSpace : apprendre un espace latent partagé enrichi par la physique pour le transfert sim-vers-réel tactile
112arXiv cs.RO 

TactSpace : apprendre un espace latent partagé enrichi par la physique pour le transfert sim-vers-réel tactile

Une équipe de recherche a publié sur arXiv (identifiant 2606.18959) TactSpace, un cadre d'apprentissage de représentations multi-modales conçu pour résoudre l'un des verrous majeurs de la manipulation robotique : le transfert sim-to-real des capteurs tactiles. Le problème est structurel : les simulateurs actuels sont incapables de reproduire fidèlement la mécanique de déformation et de transduction des capteurs tactiles physiques, rendant inutilisables en conditions réelles les politiques entraînées en simulation. TactSpace contourne ce problème en alignant des modalités tactiles hétérogènes dans un espace latent partagé, sans jamais avoir besoin de simuler le signal brut du capteur. Des encodeurs spécifiques à chaque modalité projettent des observations aussi différentes que la profondeur de pénétration simulée et la capacitance mesurée sur un capteur réel dans un embedding commun. L'entraînement combine des objectifs de reconstruction croisée et d'alignement contrastif. Évalué sur trois tâches, identification de formes d'indenteur, prédiction de force et reconstruction géométrique, le système entraîné exclusivement en simulation transfère directement sur des mesures réelles sans fine-tuning : zéro-shot. Les gains mesurés atteignent 16,7 % de réduction d'erreur en prédiction de force et 45,8 % en reconstruction de forme par rapport aux baselines. Ces résultats adressent un goulot d'étranglement critique pour l'ensemble de la robotique de manipulation dextre. Le tactile est indispensable pour les tâches d'assemblage fin, de tri délicat ou de manipulation d'objets déformables, segments où les bras industriels classiques butent faute de retour de contact fiable. Jusqu'ici, la difficulté à simuler correctement les capteurs tactiles forçait soit à collecter massivement des données réelles, coûteuses et lentes, soit à se passer du tactile. TactSpace propose une troisième voie : accepter que simulation et réalité restent physiquement dissemblables, et apprendre malgré tout des représentations invariantes aux modalités mais riches en information de contact. La publication accompagne le code d'une implémentation Warp-based du simulateur tactile pénalité intégrée à Isaac Lab, la plateforme de simulation physique de NVIDIA, ce qui ouvre la génération de données tactiles scalable à la communauté. Le contexte de cette recherche s'inscrit dans une effervescence autour des capteurs tactiles à haute résolution, portée notamment par GelSight (MIT, aujourd'hui GelSight Inc.), DIGIT (Meta AI) et les capteurs capacitifs embarqués dans plusieurs plateformes humanoïdes. Isaac Lab, qui sert de base à ce travail, est devenu un standard de facto pour l'entraînement de politiques robotiques en simulation, utilisé par Figure, 1X et Agility entre autres. TactSpace reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme physique commerciale. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation réelles bout-en-bout et une intégration dans des pipelines Vision-Language-Action (VLA) où le retour tactile pourrait renforcer la robustesse en conditions industrielles.

RecherchePaper
1 source
HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique
113arXiv cs.RO 

HT-Bench : évaluation et apprentissage des représentations tactiles dextériques de la main par vision égocentrique

Une équipe de chercheurs a publié HT-Bench, un benchmark à grande échelle destiné à évaluer les représentations tactiles main entière dans la manipulation robotique dextre, avec un dataset de 10 millions de trames RGB et 7,8 millions de trames tactiles collectées sur 226 tâches distinctes. La publication (arXiv:2606.19161, juin 2026) propose une approche centrée sur la vision égocentrique couplée à des capteurs tactiles couvrant l'intégralité de la main robotique. Le benchmark structure l'évaluation autour de quatre tâches : récupération de similarité tactile fine, inpainting de trames masquées, synthèse vision-vers-tactile, et prédiction multimodale de trames tactiles. En parallèle, les auteurs introduisent HandTouch, un encodeur vision-tactile à quantification vectorielle (VQ), entraîné selon trois phases progressives : spatiale, cross-modale et temporelle. Les gains quantitatifs de HandTouch sur HT-Bench sont nets : le Recall@5 en récupération de similarité tactile passe de 74,65 % à 85,23 %, l'erreur quadratique moyenne (RMSE) en inpainting chute de 0,022 à 0,010, et le score cIoU hors-distribution (OOD) en synthèse vision-tactile progresse de 0,628 à 0,705. Pour l'industrie robotique, cela valide une hypothèse structurante : coupler vision égocentrique et retour tactile main entière constitue une base d'apprentissage généralisable, sans exiger des capteurs ou des embodiments standardisés. C'est un signal concret pour les intégrateurs et équipes R&D travaillant sur la manipulation dextre en environnements non structurés, où percevoir l'état d'une prise sans vision directe reste un verrou majeur. Le domaine du tactile en robotique souffre depuis longtemps d'une fragmentation des formats de capteurs et des protocoles, rendant les comparaisons entre travaux difficiles. HT-Bench s'inscrit dans une dynamique de benchmarking qui émerge en 2025-2026, aux côtés d'initiatives comme RoboSet, DROID ou LIBERO pour la manipulation généraliste. Des laboratoires comme le CMU Robotics Institute et le MIT CSAIL, ainsi que des entreprises comme Sanctuary AI, explorent des approches similaires de fusion tactile-visuelle. Aucun acteur européen n'est directement cité dans ce travail, mais des startups comme Enchanted Tools ou Wandercraft, actives sur la manipulation avancée, pourraient tirer parti d'un tel benchmark pour standardiser leurs évaluations internes. L'étape suivante logique serait l'intégration de HandTouch dans des pipelines VLA (Vision-Language-Action), où le retour tactile reste aujourd'hui largement absent.

RecherchePaper
1 source
Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée
114Pandaily 

Alibaba lance Qwen-Robot, sa première famille de modèles d'IA incarnée

Alibaba a publié mardi la suite Qwen-Robot, sa première famille de modèles d'IA incarnée, destinée à relier les grands modèles de langage à l'action robotique dans le monde physique. La suite comprend trois modèles : Qwen-RobotNav pour la navigation visuo-langagière, entraîné sur 15,6 millions d'échantillons en unifiant instruction following, navigation par cible et suivi d'objets ; Qwen-RobotManip pour la manipulation robotique via une architecture VLA (Visual Language Action) basée sur un backbone Qwen3.5-4B VL couplé à une tête de diffusion par flow matching, entraîné sur plus de 38 100 heures de données issues exclusivement de sources open source ; et Qwen-RobotWorld, un modèle de monde prédit des futurs physiquement cohérents pour la manipulation, la conduite et la navigation via une interface en langage naturel. La démonstration centrale met en scène un robot quadrupède Unitree Go2 sur hardware NVIDIA Jetson Thor, équipé d'une unique caméra basse résolution : sans cartographie préalable, il navigue dans un appartement inconnu en suivant des instructions verbales, avec une latence d'inférence de 196 millisecondes. Alibaba a également présenté Qwen-RobotClaw, un framework agent permettant aux modèles Qwen VLM d'appeler les outils Qwen-Robot pour gérer des tâches longues et la mémoire de contexte, et mis en open source Chat2Robot, une plateforme d'évaluation navigateur supportant Qwen-RobotManip sur 50 tâches via le dataset RoboTwin-Clean. Pour les intégrateurs et décideurs industriels, deux points méritent attention. L'entraînement de Qwen-RobotManip exclusivement sur des données open source est un choix architectural significatif : il abaisse les barrières de reproduction et contourne le verrou des données propriétaires qui bloque nombre d'acteurs du secteur. La latence de 196 ms sur Jetson Thor illustre la viabilité de l'inférence embarquée pour la navigation, même si cette performance a été mesurée dans un environnement contrôlé et non en production industrielle. La robustesse à grande échelle reste à démontrer : les vidéos présentées constituent une preuve de concept, pas un déploiement validé. L'architecture Qwen-RobotClaw adresserait un problème concret si elle tient ses promesses en production : la gestion de tâches multi-étapes sans reprogrammation manuelle, qui reste le verrou central de l'adoption robotique en environnements non structurés. Alibaba entre tardivement dans l'espace des modèles de fondation robotiques face à des acteurs déjà positionnés : Physical Intelligence (pi0, levée de 400 M$ en 2024), Figure AI (Figure 03, partenariat BMW), Google DeepMind et NVIDIA avec GR00T N2. En Chine, Unitree (fournisseur du Go2 de la démo), Zhiyuan Robot et Agibot développent leurs propres stacks logicielles embarquées. En Europe, Enchanted Tools et Pollen Robotics avancent sur des plateformes collaboratives, mais sans modèle VLA de cette envergure à ce stade. Les prochaines étapes annoncées incluent l'extension de Chat2Robot à de nouvelles plateformes et tâches robotiques, ainsi qu'une intégration commerciale potentielle via Alibaba Cloud.

UEL'entrée d'Alibaba avec une suite VLA entraînée sur données open source creuse l'écart technologique avec les acteurs européens (Enchanted Tools, Pollen Robotics) qui ne disposent pas encore de modèles de fondation robotiques comparables, même si la stack open source pourrait leur servir de base de développement.

Chine/AsieOpinion
1 source
ATOM-Bench : un benchmark réel pour les compétences atomiques et la généralisation compositionnelle dans les politiques de manipulation
115arXiv cs.RO 

ATOM-Bench : un benchmark réel pour les compétences atomiques et la généralisation compositionnelle dans les politiques de manipulation

Une équipe de chercheurs a publié ATOM-Bench, un benchmark de terrain conçu pour évaluer les politiques de manipulation robotique sur deux dimensions distinctes : l'acquisition de compétences atomiques et la généralisation compositionnelle. Le dispositif décompose la manipulation sur table en "atomes moteurs" (précision de préhension, trajectoire du poignet, force de contact) et en "atomes d'instruction" (comptage, filtrage logique, ancrage sémantique). Il comprend 30 tâches atomiques et 24 tâches compositionnelles inédites, testées sur des configurations bras unique et bras double. Les auteurs ont collecté 3 000 démonstrations humaines pour le fine-tuning et effectué 2 700 rollouts physiques sur cinq politiques de manipulation représentatives. Les métriques introduites, l'Atomic Score (AS) et le Compositional Failure Share (CFS), permettent d'isoler la source d'un échec : exécution moteur défaillante, mauvais ancrage instruction, ou incapacité à recombiner des compétences acquises. Les résultats remettent en cause un postulat courant dans le secteur : que des politiques performantes sur des tâches atomiques généralisent naturellement à des tâches compositionnelles. Ce n'est pas le cas. Malgré des scores atomiques corrects sur l'ancrage d'instructions simples, les modèles testés échouent systématiquement sur le comptage, le filtrage logique et les atomes moteurs fins. Plus significatif encore, une bonne performance atomique ne prédit pas fiablement la réussite sur les tâches compositionnelles hors distribution. Pour un intégrateur ou un décideur industriel, cela signifie que les benchmarks classiques sur tâches démontrées surestiment largement la robustesse opérationnelle des politiques dites "généralistes". ATOM-Bench s'inscrit dans un contexte où les politiques VLA (Vision-Language-Action) comme pi0 (Physical Intelligence), Octo, ou OpenVLA sont présentées comme des fondations universelles pour le contrôle robotique. Ce cadre d'évaluation comble l'absence de protocole standardisé pour tester la composabilité des compétences, un angle mort identifié depuis les travaux sur l'abstraction hiérarchique en RL. Les données de démonstration et les rollouts d'évaluation sont publiés en open access pour permettre une comparaison reproductible entre équipes. La prochaine étape logique serait d'intégrer ATOM-Bench comme protocole de validation dans les pipelines de fine-tuning des acteurs du secteur, notamment pour qualifier des déploiements réels en environnement industriel non contrôlé.

UELes laboratoires et intégrateurs européens travaillant sur des politiques de manipulation robotique peuvent adopter ATOM-Bench comme protocole de validation open-access pour qualifier la robustesse réelle de leurs systèmes avant déploiement industriel.

RecherchePaper
1 source
ContactWorld : ce qui compte dans les modèles du monde vision-tactile pour la manipulation par contact
116arXiv cs.RO 

ContactWorld : ce qui compte dans les modèles du monde vision-tactile pour la manipulation par contact

Des chercheurs ont publié ContactWorld, un benchmark et une étude empirique systématique des modèles du monde vision-tactile appliqués à la manipulation robotique en contact riche, disponible sur arXiv (2606.13877). L'étude couvre 12 tâches représentatives : insertion de pièces, désassemblage, vissage et interaction exploratoire. Les résultats quantitatifs sont nets : les observations par nuage de points (point cloud) portent le taux moyen de réussite en planification de 20,7 % (vue poignet) et 22,0 % (vue frontale) à 32,1 %. Combiner ces nuages de points avec des représentations tactiles de type champ de force (force-field), qui préservent la structure spatiale et la dynamique d'interaction, pousse ce taux à 36,1 %, meilleur résultat sur l'ensemble des configurations testées. L'étude identifie aussi que le retour tactile devient disproportionnellement critique lors des objectifs de planification à long horizon, là où les erreurs de prédiction se cumulent. Ce que prouve ContactWorld, c'est que la qualité de la représentation prime sur la quantité de capteurs. La compatibilité cross-modale entre vision et toucher, et non le simple ajout de modalités, détermine l'efficacité du retour tactile. Pour les intégrateurs industriels et les équipes R&D en robotique de précision, cela signifie que le choix du format de représentation en entrée du modèle est aussi critique que le choix du capteur lui-même. La planification à long horizon, indispensable pour des tâches d'assemblage réelles avec de multiples étapes, reste le talon d'Achille des world models actuels, et cette étude en quantifie les mécanismes d'échec avec rigueur. Les world models pour la manipulation en contact sont au cœur des efforts actuels de plusieurs laboratoires visant à dépasser les approches par imitation pure. Des frameworks comme Dreamer ou RSSM ont posé les bases, mais peu de benchmarks ciblent explicitement les tâches en contact riche, qui représentent pourtant 60 à 70 % des opérations d'assemblage manufacturier. ContactWorld comble ce vide méthodologique. Du côté capteurs tactiles, les acteurs comme GelSight (MIT), Touchlab ou Xela Robotics proposent des solutions commerciales dont l'intégration dans des pipelines de world models reste largement ouverte. L'étude, soumise en preprint et non encore évaluée par les pairs, pose un cadre de comparaison que les groupes de recherche en manipulation pourront désormais utiliser comme référence commune.

UEAucun acteur français ou européen impliqué directement ; le benchmark constitue néanmoins une référence ouverte exploitable par les équipes R&D européennes travaillant sur la manipulation robotique de précision.

💬 36% de réussite, ça paraît modeste, mais c'est pas le point. Ce que ContactWorld prouve, c'est que la représentation des données (point cloud plus tactile structuré façon champ de force) pèse autant que le choix du capteur lui-même, et personne ne le quantifiait vraiment avant. Pour les équipes R&D qui bossent sur de l'assemblage multi-étapes, ce benchmark va devenir une référence, enfin.

IA physiquePaper
1 source
Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé
117arXiv cs.RO 

Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé

Publiés sur arXiv en juin 2026 (arXiv:2606.14153), des chercheurs présentent un diagnostic simple aux conclusions contre-intuitives : l'encodeur visuel le plus performant sur un petit modèle VLA (Vision-Language-Action) ne l'est pas nécessairement sur un modèle plus grand. Pour le démontrer, l'équipe a développé un protocole de "greffe à backbone gelé" (frozen-backbone grafting), consistant à remplacer la tour visuelle d'un VLA publié par un encodeur candidat, tout en maintenant gelés le modèle de langage et l'expert d'action. Quatre encodeurs ont été testés sur deux backbones : SmolVLA-450M et π₀.₅-3.3B de Physical Intelligence, sur deux suites de benchmarks LIBERO, avec 40 runs de greffe principaux évalués par MSE d'action hors-ligne. Résultat : SigLIP (Google) domine sur SmolVLA pour les deux suites, tandis que sur π₀.₅, c'est DINOv2-small (Meta) qui prend la tête sur la suite spatiale, avec une quasi-égalité sensible aux seeds sur la suite objets. Sur 3 comparaisons backbone-suite sur 4, et 11 cellules sur 12 au niveau des seeds, les classements s'avèrent backbone-dépendants. Ce résultat remet en question une pratique courante dans la communauté VLA : hériter l'encodeur visuel d'un VLM upstream sans vérifier si ce choix tient à l'échelle cible. Le diagnostic révèle également que le protocole de greffe lui-même n'est pas neutre : il introduit un biais asymétrique de +45 à 56% de MSE sur la tour native de SmolVLA, mais de -50 à 52% sur π₀.₅, ce qui conditionne fortement l'interprétation des résultats. Pour les équipes qui construisent des VLAs à grande échelle, cela signifie concrètement qu'une ablation menée sur un backbone 450M ne prédit pas le classement sur un 3,3B, un surcoût de validation qui change structurellement les pipelines d'expérimentation. Les VLAs sont aujourd'hui au coeur de la robotique apprise de bout-en-bout, incarnés par des modèles phares comme π₀ et π₀.₅ de Physical Intelligence, GR00T N2 de NVIDIA ou encore OpenVLA. LIBERO, la suite utilisée ici pour la manipulation robotique en simulation, est un benchmark standard du champ. Les auteurs positionnent explicitement la greffe gelée comme un outil diagnostique pré-engagement à faible coût, à utiliser avant de figer le choix d'encodeur sur un backbone cible, et non comme une méthode de déploiement en boucle fermée. C'est une contribution méthodologique qui devrait modifier la façon dont les équipes structurent leurs campagnes d'ablation d'encodeurs dans la course aux VLAs à grande échelle.

UELes équipes européennes travaillant sur des VLAs (labs INRIA, CEA-List, startups robotique FR) peuvent intégrer le protocole de greffe gelée comme outil diagnostique à faible coût avant de figer le choix d'encodeur sur leur backbone cible.

RechercheActu
1 source
VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte
118arXiv cs.RO 

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte

Une équipe de chercheurs publie sur arXiv (juin 2026, ref. 2606.12028) VICX, un framework de manipulation robotique généraliste articulé autour d'une architecture découplée en deux blocs : un modèle de génération vidéo figé (non fine-tuné) produit des plans visuels de haut niveau conditionnés par langage naturel, tandis qu'un réseau baptisé V2T-ICON (Video-to-Trajectory In-Context Operator Network) traduit ces plans en trajectoires exécutables pour le robot. La particularité de V2T-ICON réside dans son fonctionnement par apprentissage en contexte : au moment de l'inférence, il récupère des paires image-état préenregistrées et travaille sur des images segmentées du seul bras robotique, permettant un mapping visuel-vers-état sans mise à jour des paramètres. Les expériences sont conduites sur Meta-World, un benchmark de simulation standard, et démontrent la généralisation inter-tâches, la correction en boucle fermée, et le transfert inter-corps (cross-embodiment). L'intérêt de cette approche pour les équipes de R&D réside dans sa modularité : en découplant planification visuelle et exécution motrice, VICX permet théoriquement de substituer l'un des deux blocs de façon indépendante, réduisant le coût d'adaptation à de nouvelles tâches sans réentraînement complet. Le mécanisme d'in-context learning évite de paramétrer le réseau pour chaque tâche inédite, ce qui est pertinent pour des environnements industriels changeants. Cela dit, les résultats restent cantonnés à Meta-World, un environnement de simulation simplifié : aucune validation sur robot physique n'est publiée dans ce preprint, une limite structurelle dans un domaine où le sim-to-real gap demeure l'obstacle central non résolu. VICX s'inscrit dans la vague des Visual Language Action models (VLA) cherchant à dépasser l'imitation learning classique via des représentations visuelles génératives. Les approches concurrentes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA adoptent des architectures majoritairement end-to-end et ont déjà fait l'objet de déploiements ou démonstrations sur hardware réel, ce qui les positionne en avance sur l'applicabilité industrielle à court terme. VICX constitue une contribution méthodologique solide sur la question de la généralisation, mais son chemin vers un déploiement concret reste entièrement à démontrer.

IA physiqueOpinion
1 source
Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques
119arXiv cs.RO 

Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques

MiDiGap (Mixture of Discrete-time Gaussian Processes) est une méthode d'apprentissage par imitation pour la manipulation robotique, publiée en mai 2025 en preprint arXiv (2505.03296v2) par des chercheurs de l'Université de Fribourg-en-Brisgau. Elle apprend des politiques de contrôle à partir de seulement cinq démonstrations, en utilisant uniquement des observations caméra, et converge en moins d'une minute sur CPU standard. Le spectre de tâches couvert est large: comportements à longue horizon comme préparer un café, mouvements très contraints comme ouvrir une porte, actions dynamiques comme manier une spatule, et tâches multimodales comme accrocher une tasse. Sur le benchmark simulé RLBench, la méthode affiche un gain de 76 points de pourcentage de succès sur les tâches contraintes, réduit le coût de trajectoire de 67%, et progresse de 48 points sur les tâches multimodales avec une efficacité d'échantillonnage multipliée par 20. En transfert cross-embodiment, c'est-à-dire l'adaptation d'une politique à un robot de morphologie différente sans réentraînement complet, le taux de succès est plus que doublé. Le code est publié en open-source. L'enjeu principal est le coût d'entrée à l'apprentissage par imitation. Les architectures actuellement dominantes, Diffusion Policy (Columbia), ACT (Stanford/Berkeley) ou les VLA comme Pi-0 de Physical Intelligence, nécessitent des milliers de démonstrations et des ressources GPU conséquentes. Une méthode compétitive opérant sur CPU en moins d'une minute élargit concrètement l'accès aux intégrateurs et PME robotiques sans infrastructure ML dédiée. La fonctionnalité de pilotage à l'inférence (inference-time steering) est aussi notable: en injectant des signaux de collision ou des contraintes cinématiques du robot directement à l'inférence, sans réentraînement, MiDiGap permet une adaptation dynamique aux contraintes physiques réelles, propriété rare dans les méthodes actuelles et potentiellement précieuse pour les déploiements industriels. L'Université de Fribourg-en-Brisgau s'impose ici comme un acteur européen de poids dans l'apprentissage robotique, aux côtés d'ETH Zurich et du DLR. MiDiGap entre en concurrence directe avec Diffusion Policy, ACT, mais aussi avec les fondations propriétaires comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). Un bémol important: toutes les métriques annoncées proviennent de RLBench, un benchmark entièrement en simulation. La robustesse sim-to-real, c'est-à-dire le maintien des performances sur des robots réels dans des conditions non contrôlées, reste à démontrer. La mise en open-source sur midigap.cs.uni-freiburg.de devrait permettre une évaluation indépendante et une validation sur plateformes réelles dans les prochains mois.

UEL'Université de Fribourg-en-Brisgau (Allemagne) produit un concurrent open-source direct aux fondations propriétaires américaines (Pi-0, GR00T N2), accessible sans GPU aux intégrateurs et PME robotiques européens, renforçant la capacité européenne en apprentissage robotique face aux acteurs US.

RecherchePaper
1 source
IMPACT : apprentissage d'une commande prédictive à modèle interne pour la manipulation robotique en force
120arXiv cs.RO 

IMPACT : apprentissage d'une commande prédictive à modèle interne pour la manipulation robotique en force

Une équipe de recherche a publié le 12 juin 2026 sur arXiv (référence 2606.10818) IMPACT, un framework d'apprentissage pour la manipulation robotique dite "forceful", c'est-à-dire impliquant des interactions physiques avec l'environnement : utilisation d'outils de masses variables, transport d'objets lourds, nettoyage de surface par contact prolongé. L'architecture découple le problème en deux blocs distincts : un planificateur de tâche de haut niveau, et un contrôleur prédictif basé sur un modèle interne (internal-model predictive control). Les expériences sont menées à la fois en simulation et sur robot réel, avec évaluation sur des objets non vus lors de l'entraînement. Les auteurs ne publient pas encore les métriques quantitatives précises dans l'abstract arXiv disponible, ce qui limite l'analyse indépendante à ce stade. Le verrou technique adressé est réel et sous-estimé dans les pipelines d'imitation learning actuels. Deux stratégies dominent aujourd'hui : la première laisse les forces émerger implicitement via les erreurs de suivi d'un contrôleur d'impédance, ce qui casse la généralisation dès que la masse de l'objet change ; la seconde commande explicitement les efforts via capteur force/couple ou capteur tactile au poignet, ce qui fonctionne mais alourdit l'intégration matérielle et fragilise les déploiements industriels. IMPACT propose une troisième voie en apprenant un modèle interne de la dynamique de contact, permettant au contrôleur prédictif d'anticiper les forces sans capteur dédié ni dégradation de généralisation. Les gains annoncés en taux de succès, sécurité et efficacité énergétique sont cohérents avec l'approche, mais restent à valider sur des benchmarks standardisés comme DROID ou RoboAgent. Ce travail s'inscrit dans un courant actif qui cherche à marier l'apprentissage par imitation avec les garanties du contrôle prédictif (MPC), après des travaux fondateurs comme ILC, DMP, et plus récemment les architectures VLA de type pi0 (Physical Intelligence) ou RoboDiff. Le problème de la manipulation forcée reste un angle mort des démos grand public, qui privilégient les tâches de pick-and-place sur objets légers. Les concurrents directs incluent les approches sim-to-real de CMU (DexVIP, ACT), d'ETH Zurich (ANYmal) et les travaux de Boston Dynamics Research sur la manipulation lourde. Côté européen, aucun acteur n'est directement cité, mais les travaux de Wandercraft et Enchanted Tools sur la dynamique de contact pourraient bénéficier de ce type de framework. La prochaine étape naturelle serait une validation sur manipulateurs industriels (UR, Franka) en conditions de production réelle.

RecherchePaper
1 source
Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion
121arXiv cs.RO 

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

Une équipe de chercheurs propose dans un preprint arXiv publié en juin 2026 (réf. 2606.08657) une architecture baptisée Latent Diffusion Policy (LDP), conçue pour améliorer les politiques visuomotrices basées sur la diffusion appliquées à la manipulation robotique. LDP fonctionne en deux étapes : un encodeur CVAE (variational autoencoder conditionnel) conditionné par l'observation absorbe d'abord la compréhension de la scène, puis un modèle de flow matching génère les trajectoires dans cet espace latent pré-structuré. Pour gérer les dépendances temporelles entre tokens, les auteurs introduisent un entraînement par diffusion forcing par token et un schéma d'inférence en escalier (staircase inference sampling) pour corriger le décalage de distribution qui en résulte. Ils proposent également la rFID (reconstruction FID) comme métrique proxy légère permettant de prédire le succès d'une tâche à partir des seules statistiques de l'espace latent, sans nécessiter d'évaluation complète en simulation. Sur le benchmark RoboTwin 2.0, LDP surpasse DP3 par une marge qualifiée de "substantielle", et les auteurs rapportent un transfert effectif vers des déploiements réels en manipulation bimanuelle. L'enjeu technique central que LDP cherche à résoudre est réel : les politiques de diffusion opérant directement dans l'espace d'action brut imposent à un seul processus de débruitage de gérer simultanément l'interprétation de la scène et la planification précise de trajectoires, ce qui augmente la complexité d'apprentissage et pénalise notamment les tâches exigeant une coordination temporelle fine entre plusieurs bras. Séparer ces deux responsabilités dans un cadre à deux étages est une approche structurellement cohérente. La rFID, si elle se confirme empiriquement, pourrait réduire significativement le coût d'évaluation des politiques en simulation. Cela dit, l'abstract ne fournit pas de chiffres de performance quantitatifs précis, ce qui rend difficile l'évaluation indépendante de la "marge substantielle" revendiquée face à DP3. Ce travail s'inscrit dans un champ très actif depuis la publication de Diffusion Policy (Chi et al., 2023) et de DP3, qui ont établi la diffusion comme paradigme dominant pour l'imitation de comportements robotiques complexes. Le flow matching, plus efficace que la diffusion classique en nombre d'étapes d'inférence, s'y impose progressivement. Les approches concurrentes incluent ACT, RDT-1B et pi-zero (Physical Intelligence), qui explorent d'autres voies pour combiner compréhension visuelle et contrôle moteur à grande échelle. LDP reste pour l'instant un résultat académique sans annonce de déploiement industriel ou de partenariat commercial, et RoboTwin 2.0 est un benchmark de simulation dont le gap sim-to-réel méritera une validation plus large.

RechercheOpinion
1 source
KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques
122arXiv cs.RO 

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

KPGrasp est un framework de génération de préhension dextère présenté dans un preprint arXiv (juin 2026), combinant flow matching et modèle Transformer pour apprendre des priors de saisie à grande échelle, sans recourir aux fonctions de coût contact-based ni au raffinement coûteux à l'inférence. L'approche repose sur une paramétrisation des mains par points-clés 3D en coordonnées euclidiennes pures, exprimés dans le même référentiel que le nuage de points de l'objet cible, évitant l'espace mixte SE(3)/angles articulaires conventionnel. Sur le benchmark Dexonomy, le modèle atteint 76,3% de taux de succès de préhension, soit +47,4% sur la meilleure baseline directement comparable, avec une profondeur de pénétration réduite à 2,4 mm. Sans fine-tuning spécifique, il obtient également les meilleures performances moyennes sur DexGrasp Anything. En inférence batch, chaque préhension est générée en 0,032 seconde. Des expériences réelles sur 20 objets variés confirment le passage au monde physique. La préhension dextère multi-doigts reste l'un des verrous techniques persistants de la manipulation robotique: saisir de façon stable des objets de formes variées exige une coordination articulaire complexe que les méthodes actuelles peinent à généraliser sans supervision dense ou raffinement coûteux. KPGrasp rompt avec ce paradigme en traitant le problème comme un apprentissage de distribution pure, entraîné uniquement avec la loss standard du flow matching. La scalabilité démontrée avec la taille du modèle, le volume de données et la taille des batchs suit la logique des grands modèles génératifs, signal fort pour les intégrateurs: davantage de données synthétiques de préhension pourrait suffire à améliorer les performances sans engineering de loss ad hoc. Le temps de 32 ms par grasp en inférence batch ouvre un déploiement temps-réel réaliste sur cellules robotiques industrielles équipées de mains dextères. La préhension dextère générative a émergé progressivement via les diffusion models (DexDiffuser, GraspDiffusion) et les réseaux de contacts avant que le flow matching ne s'impose. KPGrasp se positionne dans cette vague avec une prétention explicite de scalabilité data-driven que ses prédécesseurs n'affichaient pas. Les benchmarks Dexonomy et DexGrasp Anything sont devenus des références communautaires pour évaluer la généralisation inter-objets. Côté effecteurs, Shadow Robot, Schunk SVH et Inspire Hands sont les acteurs matériels naturellement concernés. Les suites logiques incluent le couplage avec des VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, qui assureraient la planification de haut niveau tandis que KPGrasp générerait les préhensions à bas niveau, comblant ainsi le gap entre policy de manipulation et génération de grasp.

UESchunk (Allemagne) figure parmi les fabricants d'effecteurs directement concernés, offrant aux intégrateurs robotiques européens une voie concrète vers la manipulation dextère temps-réel sans engineering de loss ad hoc.

💬 +47% de taux de succès sur le benchmark, c'est pas anodin. Ce qui me frappe, c'est la décision de virer complètement les fonctions de coût contact-based et de traiter ça comme un pur problème de distribution, avec le flow matching comme loss standard, ça simplifie vraiment le pipeline là où tout le monde s'obstinait à rajouter des couches. 32 ms par préhension en batch, ça commence à ressembler à quelque chose d'exploitable en industrie, bon, faut encore voir ce que ça donne hors benchmarks sur des objets vraiment sales ou déformés.

IA physiquePaper
1 source
L-SDPPO : optimisation de politique par diffusion à impulsions pour la manipulation robotique en véhicule
123arXiv cs.RO 

L-SDPPO : optimisation de politique par diffusion à impulsions pour la manipulation robotique en véhicule

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.06049) un framework baptisé L-SDPPO, conçu pour la manipulation robotique à bord des engins spatiaux. L'objectif : permettre à des bras robotiques opérant à l'intérieur de vaisseaux habités de réaliser des tâches précises, comme l'ouverture de trappes ou le bouchage de contenants, dans des conditions de micropesanteur. Le système combine une politique de diffusion à spics neuronaux (Spiking Diffusion Policy, SDP) avec un algorithme d'apprentissage par renforcement de type PPO. À cela s'ajoute un mécanisme original, le SDLI (state-dependent latency injection), qui module dynamiquement le timing des signaux d'entrée en imitant les délais biologiques des neurones. Les auteurs rapportent des taux de succès supérieurs à l'état de l'art sur cinq tâches représentatives, avec une consommation énergétique réduite par rapport aux architectures classiques. Le défi adressé est réel : dans un environnement sans gravité, les objets dérivent librement et de manière imprévisible, rendant les distributions d'actions multimodales difficiles à modéliser. Les politiques de diffusion classiques (Diffusion Policy, DP) gèrent bien cette complexité, mais leur processus d'échantillonnage itératif est coûteux en énergie, ce qui pose problème dans des systèmes embarqués aux budgets énergétiques serrés. Le recours aux réseaux de neurones à impulsions (spiking neural networks), naturellement plus frugaux, combiné à l'optimisation par RL, constitue une réponse architecturale cohérente. Si les résultats présentés sont prometteurs, les benchmarks utilisés restent des simulations de tâches intravéhiculaires, et aucune validation en conditions orbitales réelles n'est rapportée à ce stade. Ce travail s'inscrit dans un effort plus large pour doter les stations spatiales et vaisseaux habités de robots capables d'assister ou de remplacer les astronautes lors de tâches répétitives ou risquées, une priorité affichée par la NASA et l'ESA. Côté concurrence académique, des travaux antérieurs ont exploré les politiques de diffusion en robotique terrestre (Pi-0 de Physical Intelligence, par exemple), mais leur adaptation aux contraintes orbitales reste largement ouverte. La prochaine étape naturelle serait une validation sur hardware embarqué, voire un test en environnement parabolique ou en orbite basse, un saut qui conditionne l'adoption réelle de ce type de système.

UEL'ESA figure parmi les organisations dont la feuille de route en robotique spatiale est directement concernée par ce type de travaux, mais l'absence de validation hors simulation limite l'impact concret à court terme.

RecherchePaper
1 source
Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données
124arXiv cs.RO 

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01047) MATE (Multi-Modal Trajectory Policies), un cadre de prédiction de trajectoires pour la manipulation robotique construit sur une architecture Mixture-of-Experts (MoE). MATE traite simultanément des entrées hétérogènes, observations visuelles, instructions en langage naturel et représentations de trajectoires, en introduisant un routeur cosinus cross-modal qui garantit une affectation stable entre experts spécialisés, indépendamment de l'échelle des représentations. Un mécanisme de routage à température contrôlée avec injection de bruit stochastique prévient l'effondrement prématuré des experts (expert collapse). Sur le benchmark LIBERO, MATE améliore le taux de succès moyen de 4,75% par rapport aux politiques guidées par trajectoires existantes, particulièrement dans des scénarios à faible volume de données d'entraînement. Des tests en conditions réelles sur un robot jouant au ping-pong complètent la validation expérimentale. Le problème ciblé est la "modality interference" : quand une politique transformer unique traite dans le même espace de paramètres des signaux aussi disparates que des images RGB, du texte et des coordonnées de trajectoire, les représentations se perturbent mutuellement et les performances chutent. C'est un goulot d'étranglement bien documenté dans le développement des VLAs (Vision-Language-Action models) : les données de démonstration de qualité coûtent cher à collecter en environnement industriel. En proposant un découplage fin au niveau sub-token par spécialisation d'experts, MATE réduit cette interférence sans nécessiter de données supplémentaires. Pour les équipes robotique opérant avec des budgets de téléopération limités, c'est un signal positif, bien que les gains absolus (+4,75%) restent modestes et mesurés sur un benchmark académique contrôlé. La manipulation robotique généraliste est sous forte compétition depuis l'émergence des architectures transformer dédiées à la robotique vers 2022-2023. Des travaux comme ACT, Diffusion Policy, puis les VLAs OpenVLA (Berkeley/Stanford), pi0 de Physical Intelligence et GR00T N2 de NVIDIA ont progressivement unifié vision, langage et action. L'approche MoE reste moins explorée en robotique qu'en LLMs (GPT-4, Mixtral, DeepSeek-MoE), et MATE tente d'en résoudre les instabilités de routage propres aux modalités hétérogènes. Le benchmark LIBERO, développé par des institutions académiques américaines, est devenu une référence standard pour évaluer la généralisation en manipulation. À ce stade, il n'y a pas de déploiement industriel ni de partenariat annoncé : MATE est une preuve de concept académique, avec validation réelle limitée à un robot de ping-pong.

RechercheOpinion
1 source
SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA
125arXiv cs.RO 

SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA

Des chercheurs en sécurité informatique ont publié sur arXiv (référence 2601.14323) une attaque baptisée SilentDrift, ciblant les modèles Vision-Language-Action (VLA) utilisés pour piloter des robots manipulateurs. L'attaque exploite deux mécanismes devenus standards dans les architectures VLA modernes : l'action chunking, qui consiste à générer des séquences de K actions d'un coup plutôt qu'action par action, et la représentation en delta de pose, qui encode chaque mouvement sous forme d'incrément relatif à la position précédente. Cette combinaison crée une boucle ouverte visuelle intra-chunk : une fois la séquence lancée, le robot l'exécute sans relire le flux caméra à chaque pas. Des perturbations imperceptibles à l'échelle d'un pas s'accumulent alors par intégration, déviant la trajectoire finale de manière significative. Sur le benchmark LIBERO, SilentDrift atteint un taux de succès d'attaque de 93,2 % avec un taux d'empoisonnement inférieur à 2 % des données d'entraînement, tout en maintenant un taux de réussite sur tâches propres de 95,3 %, rendant la backdoor pratiquement indétectable par les métriques standards. L'impact pour les intégrateurs et décideurs B2B est direct : les VLA comme pi-0 de Physical Intelligence, OpenVLA ou les variantes de RT-2 s'appuient précisément sur ces mécanismes d'action chunking pour obtenir des mouvements fluides et cohérents. Un attaquant ayant accès à une fraction marginale des données d'entraînement peut donc compromettre un système de manipulation robotique déployé en environnement industriel sans déclencher d'alarme sur les métriques de performance habituelles. Les trajectoires empoisonnées sont visuellement identiques aux démonstrations saines, ce qui invalide les audits visuels comme contrôle de qualité suffisant. La stratégie dite "keyframe attack" de SilentDrift cible spécifiquement la phase d'approche critique d'une saisie, maximisant l'effet de déviation tout en minimisant l'exposition du trigger. Ce travail s'inscrit dans un courant de recherche naissant sur la sécurité des modèles de fondation pour la robotique, un champ largement ignoré jusqu'ici face à l'effervescence autour des performances. Les VLA connaissent une adoption rapide depuis 2023, portée par des acteurs comme Physical Intelligence (pi-0), Google DeepMind (RT-2, GR00T N2 de Nvidia) et les laboratoires académiques via des benchmarks comme LIBERO ou Open-X Embodiment. SilentDrift est une attaque en boîte noire, ce qui signifie qu'elle ne nécessite pas d'accès au modèle entraîné, uniquement aux données. Les auteurs n'annoncent pas de contre-mesure, ouvrant un chantier de recherche défensive urgent à mesure que ces modèles approchent de déploiements réels dans la logistique et l'assemblage manufacturier.

UELes intégrateurs européens qui déploient ou évaluent des VLA (pi-0, OpenVLA, RT-2) dans la logistique ou l'assemblage doivent intégrer l'audit de sécurité des données d'entraînement dans leurs processus de qualification, car les métriques de performance standards ne détectent pas ce vecteur d'attaque.

RechercheOpinion
1 source
Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel
126arXiv cs.RO 

Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel

Une équipe du laboratoire RobIn de l'Université du Texas à Austin publie une étude systématique sur l'apprentissage par renforcement continu (Continual RL, CRL) appliqué aux modèles Vision-Language-Action (VLA), soumise sur arXiv en mars 2026 (2603.11653, v2). Le résultat central contredit un postulat solidement établi dans la littérature : le fine-tuning séquentiel simple (Seq. FT) couplé à LoRA (Low-Rank Adaptation, adaptation paramétrique par matrices de faible rang) suffit à entraîner continuellement de grands VLAs sans oubli catastrophique significatif. Testé sur plusieurs benchmarks lifelong RL dans des environnements ouverts et évolutifs, Seq. FT + LoRA atteint une forte plasticité, conserve une généralisation zero-shot robuste, et surpasse fréquemment des méthodes CRL nettement plus complexes. Ce constat redessine les prérequis techniques pour l'adaptation continue de robots génériques en production. Si l'on n'a pas besoin de replay mémoire, de régularisation élastique de type EWC ni d'architectures modulaires pour éviter l'oubli catastrophique, les équipes embarquant des VLAs dans des cycles de mise à jour continus gagnent une simplicité opérationnelle considérable. L'étude attribue ce comportement à une synergie entre trois facteurs : la large capacité de représentation du modèle pré-entraîné, l'adaptation paramétrique légère de LoRA, et la nature on-policy du renforcement utilisé. Cette combinaison reconfigure le compromis classique stabilité-plasticité, rendant l'adaptation scalable sans infrastructure CRL dédiée. Le résultat invite aussi à reconsidérer l'utilité réelle des méthodes sophistiquées de continual learning dans le régime des grands modèles, où la complexité algorithmique semble parfois être une réponse à un problème que le scaling a déjà partiellement résolu. Les VLAs de grande taille comme RT-2 (Google DeepMind), OpenVLA (Berkeley) ou pi-0 (Physical Intelligence) s'imposent progressivement comme socle de la robotique généraliste, mais leur recyclage continu sur de nouvelles tâches sans régression restait un verrou ouvert. UT Austin RobIn, déjà actif sur les approches RL pour la manipulation robotique, positionne ici le Seq. FT comme baseline solide plutôt que comme anti-pattern à éviter, ce qui tranche avec l'orthodoxie des équipes de CMU, Stanford ou Google DeepMind. Les startups robotiques travaillant avec des architectures VLA (Figure AI, Apptronik, ou Enchanted Tools côté européen) seront attentives à ces résultats si leur généralisation hors benchmarks contrôlés se confirme. Le code est publié sur GitHub (UT-Austin-RobIn/continual-vla-rl), ce qui devrait accélérer la reproduction et l'intégration dans des pipelines de déploiement réels.

UEEnchanted Tools (startup française) est explicitement citée parmi les bénéficiaires potentiels : si ces résultats se généralisent hors benchmarks, les équipes VLA européennes pourraient simplifier significativement leurs pipelines d'entraînement continu en abandonnant les méthodes CRL complexes au profit de Seq. FT + LoRA.

💬 Ce qui me frappe : des années à chercher comment éviter l'oubli catastrophique sur les gros VLAs, et la réponse c'est LoRA + fine-tuning séquentiel bête et méchant, sans EWC ni replay mémoire. Bon, sur le papier ça semble trop propre pour être vrai. Mais le code est public et si ça tient hors benchmarks, Figure AI et les autres vont simplifier leurs pipelines d'un coup.

IA physiqueOpinion
1 source
Commande prédictive par intégrale de chemin informée par objets pour la manipulation robotique sans préhension
127arXiv cs.RO 

Commande prédictive par intégrale de chemin informée par objets pour la manipulation robotique sans préhension

Des chercheurs ont présenté une formulation hiérarchique du contrôle MPPI (Model Predictive Path Integral) appliquée à la manipulation non-préhensile, c'est-à-dire au déplacement d'objets par poussée sans saisie physique. Publiée sur arXiv (référence 2605.30778), la méthode décompose le problème en deux niveaux : un premier plan est calculé en supposant que l'objet peut être actionné directement, puis cette trajectoire sert de référence pour résoudre le problème couplé robot-objet. Les expériences ont été conduites sur un bras xArm6 à 6 degrés de liberté de UFactory, avec pour tâche de pousser un objet vers une cible tout en contournant des obstacles statiques. En simulation, la méthode augmente le taux de succès de 40 % et accélère la fréquence de contrôle de 26 % par rapport à un MPPI standard. Sur matériel réel, le gain de succès atteint 20 % pour un coût de calcul comparable. Cette décomposition hiérarchique répond à un problème fondamental de la planification à long horizon : l'espace de recherche conjoint robot-objet est trop vaste pour être exploré efficacement dans des délais temps-réel. En résolvant d'abord un sous-problème centré sur l'objet, l'algorithme oriente l'échantillonnage stochastique vers des régions prometteuses, réduisant le gaspillage computationnel sans nécessiter de hardware spécialisé. Pour un intégrateur industriel, cela signifie que des tâches impliquant poussées ou réorientations sans préhension deviennent planifiables en temps réel sur des cellules robotiques standard, un verrou qui limitait jusqu'ici l'automatisation de nombreuses opérations de manutention. Le MPPI est une méthode de contrôle prédictif par échantillonnage stochastique introduite par Theodorou et Williams à Georgia Tech, et popularisée en robotique par NVIDIA via ses environnements de simulation. La manipulation non-préhensile reste un domaine actif, avec des contributions récentes de MIT CSAIL, ETH Zurich et Stanford sur la gestion des contacts discontinus. Ce travail reste à ce stade un preprint non évalué par les pairs, et les benchmarks se limitent à des scénarios de poussée en espace plan avec obstacles statiques : des configurations plus complexes, obstacles dynamiques ou objets déformables, n'ont pas été testés.

RecherchePaper
1 source
Hypothèses futures guidées par LLM pour une exploration à horizon temporel en manipulation robotique multi-étapes
128arXiv cs.RO 

Hypothèses futures guidées par LLM pour une exploration à horizon temporel en manipulation robotique multi-étapes

Une équipe de recherche a publié fin mai 2026 un article (arXiv:2605.29864) présentant Future-Experience Conditioning (FEC), une méthode destinée à améliorer la manipulation robotique multi-étapes en conditionnant les politiques de contrôle sur de courtes vidéos futures générées synthétiquement. Le pipeline fonctionne en trois étapes : un raisonneur LLM opérant sur une ontologie de tâche initialisée depuis l'état courant de la scène, un jumeau numérique sans robot qui simule le mouvement attendu des objets, puis un modèle de diffusion vidéo sans masque qui synthétise un clip futur cohérent avec la configuration robotique, sans nécessiter de segmentation à l'inférence. Les expériences sont conduites sur deux benchmarks de simulation standards, RoboCasa et CALVIN, en comparant quatre conditions : absence de futur (NoFuture), futur de référence (GTFuture), futur généré (GenFuture) et futur incorrect (WrongFuture), avec trois familles de politiques testées, BC pur, BC+RL, et une Streaming Flow Policy (SFP). Les résultats indiquent que les futurs générés améliorent systématiquement les performances par rapport à l'absence de signal futur, tandis que des futurs incorrects dégradent l'apprentissage jusqu'à bloquer la progression à zéro sur l'ensemble de la courbe d'apprentissage. L'instantiation BC+RL obtient les meilleurs résultats globaux, et l'analyse sur 8 tâches CALVIN montre que GenFuture permet une convergence plus rapide et à un niveau supérieur à NoFuture. Ces résultats tendent à valider l'hypothèse que des vidéos futures imparfaites, mais structurellement cohérentes avec la tâche, constituent des priors utiles pour l'exploration en renforcement, même sans vérité terrain. C'est un résultat non trivial : la qualité du prior conditionne directement la qualité de l'exploration, ce qui renforce l'intérêt des modèles génératifs comme guides de politique plutôt que comme simples augmentations de données. FEC s'inscrit dans un courant actif qui cherche à exploiter les Video Language Models (VLMs) et les modèles de diffusion vidéo comme substituts aux simulateurs physiques pour la planification à horizon court. Des approches concurrentes comme UniSim, SuSIE ou les travaux de Dreamer en model-based RL avaient déjà exploré le conditioning sur des futurs imaginés, mais FEC se distingue par son pipeline modulaire évitant la segmentation à l'inférence, un obstacle pratique souvent sous-estimé en déploiement réel. Le projet dispose d'un site dédié (enact2026.github.io) et reste pour l'instant cantonné à la simulation, sans résultats sim-to-real publiés.

RechercheOpinion
1 source
Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle
129arXiv cs.RO 

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Des chercheurs ont publié le 23 mai 2026 sur arXiv (réf. 2605.23477) un cadre d'apprentissage pour la manipulation robotique compositionnelle baptisé SMoDP (Semantically Structured Mixture-of-Experts Diffusion Policy). L'approche combine des politiques de diffusion avec une architecture Mixture-of-Experts (MoE) guidée sémantiquement : un prédicteur de compétences léger, supervisé par des annotations hors-ligne générées par des modèles vision-langage (VLM), route des séquences d'actions vers des experts spécialisés par phase comportementale (saisie, transport, insertion). La cohérence du routage est assurée par une double stratégie d'alignement contrastif, inter-modal pour ancrer les observations multimodales dans des sémantiques définies en langage naturel, et intra-modal pour maintenir un routage cohérent entre comportements visuellement distincts mais fonctionnellement équivalents. Sur des benchmarks multi-tâches, SMoDP surpasse les baselines diffusion et MoE existantes avec une meilleure efficacité paramétrique, et supporte le transfert vers de nouvelles tâches via fine-tuning frugal. L'enjeu est réel : les politiques de diffusion haute performance sont coûteuses en inférence, tandis que les versions allégées peinent à généraliser dès que le nombre de tâches augmente. Les architectures MoE classiques, qui n'activent qu'un sous-ensemble de paramètres, souffrent d'un défaut de conception : leur routage basé sur des statistiques latentes fragmente les comportements réutilisables entre experts, réduisant l'interprétabilité et la transférabilité. En ancrant la spécialisation dans la structure sémantique de la tâche, SMoDP rend les experts plus modulaires, un avantage direct pour les intégrateurs déployant des robots polyvalents sans réentraîner l'ensemble du modèle. Ce travail s'inscrit dans une course intense à l'efficacité des politiques robotiques. Depuis 2023, les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence) ont supplanté les approches classiques, et les succès des MoE dans les LLM (Mixtral, Qwen-MoE) ont incité les chercheurs en robotique à adapter ces architectures, avec des résultats mitigés faute d'un bon mécanisme de routage. SMoDP se rapproche des pipelines VLA (Vision-Language-Action) comme OpenVLA ou GR00T N2 de NVIDIA, en intégrant la supervision sémantique par VLM comme lien entre langage et action. À ce stade, il s'agit d'une contribution académique validée en simulation et en environnement de laboratoire, sans annonce de déploiement industriel ni de partenaire commercial ; l'étape logique suivante serait une validation sur plateformes matérielles réelles à grande diversité de tâches.

💬 Le vrai problème des MoE en robotique, c'était le routage : les experts se spécialisaient sur des statistiques latentes sans rapport avec ce que le robot faisait vraiment. Ancrer la spécialisation sur des phases comportementales concrètes, saisir, transporter, insérer, c'est le bon sens qui manquait, et les benchmarks suivent. Reste à confirmer ça sur du matériel réel, pas juste en simulation.

IA physiqueOpinion
1 source
Apprentissage de points latents structurels pour des représentations visuelles efficaces en manipulation robotique
130arXiv cs.RO 

Apprentissage de points latents structurels pour des représentations visuelles efficaces en manipulation robotique

Une équipe de recherche propose, dans un prépublication arXiv (identifiant 2605.21258, mai 2026), un nouveau cadre de pré-entraînement pour la perception 3D appliquée à la manipulation robotique. L'idée centrale est une représentation hybride baptisée "structural latent points" : les auteurs insèrent un variational autoencoder (VAE) point-à-point dans l'espace latent d'un autoencoder de nuages de points (point cloud), en régularisant simultanément les coordonnées et les features vers une distribution gaussienne. Le résultat est une représentation compacte qui capture des tendances structurelles globales, une forme approximative et une information sémantique, sans encoder une géométrie précise. Le pipeline de rendu repose sur la 3D Gaussian Splatting (3DGS), délibérément allégée pour laisser la capacité représentationnelle au module latent frontal. Les évaluations sont menées sur RLBench, ManiSkill2, et une plateforme robot réelle, avec des ablations confirmant la contribution de chaque composant. L'intérêt de cette approche tient à un problème connu des intégrateurs et des équipes de recherche en manipulation : les représentations implicites (champs neuronaux, NeRF) sont expressives mais manquent de repères structurels exploitables, tandis que les représentations explicites (primitives géométriques, meshes) préservent la géométrie au prix d'une résolution limitée et d'une faible généralisation hors distribution. L'architecture proposée tente de cumuler les avantages des deux familles. Les auteurs revendiquent des gains en taux de succès de tâche, en efficacité d'échantillonnage et en robustesse aux variations de point de vue, trois métriques directement pertinentes pour le déploiement industriel. Nuance à noter : l'abstract ne fournit aucun chiffre absolu, ce qui rend la comparaison indépendante impossible sans lire les tableaux complets du papier. Cette publication s'inscrit dans une vague dense de travaux sur le pré-entraînement 3D pour la manipulation incarnée, domaine en ébullition depuis l'émergence des VLA (Vision-Language-Action models) et des politiques diffusion comme pi0 ou ACT. Les benchmarks choisis, RLBench (simulation tabletop, DeepMind) et ManiSkill2 (simulation GPU-parallèle, UCSD), sont des standards de facto du domaine. L'absence de mention d'affiliation institutionnelle ou industrielle dans l'abstract empêche tout positionnement concurrentiel précis, mais la direction prise converge avec les efforts de groupes comme Physical Intelligence, Google DeepMind ou CMU sur la représentation perceptuelle robuste comme socle pour la généralisation des politiques de manipulation.

RecherchePaper
1 source
FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable
131arXiv cs.RO 

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

Des chercheurs ont publié FuncCanon sur arXiv (réf. 2509.19102, deuxième révision), un framework qui décompose les tâches de manipulation robotique à long horizon en séquences d'"action chunks", des triplets structurés (acteur, verbe, objet), pour apprendre des politiques généralisables à partir de démonstrations humaines. L'idée centrale est de centrer l'apprentissage sur les actions elles-mêmes, pas sur des tâches isolées, ce qui ouvre la voie à la composition et à la réutilisation de primitives. La brique technique originale est la "canonicalisation fonctionnelle d'objets" : les objets sont projetés dans des repères fonctionnels partagés en s'appuyant sur des cues d'affordance extraites de grands modèles vision-langage (VLM). Ce mapping automatique permet de transférer des trajectoires de manipulation entre instances d'une même catégorie sans nouvelles démonstrations. La politique apprise, FuncDiffuser, est une politique de diffusion centrée objet et action, entraînée sur ces données alignées et évaluée sur des benchmarks en simulation et en déploiement réel. L'abstract ne fournit pas de métriques précises (temps de cycle, taux de succès chiffré, nombre de DOF testés), ce qui limite l'évaluation indépendante à ce stade. Le problème que FuncCanon attaque directement est la généralisation hors distribution des politiques end-to-end issues de l'imitation learning, un obstacle bien documenté qui bloque le passage à l'échelle industrielle. En normalisant la pose et la fonctionnalité des objets avant l'apprentissage, FuncDiffuser n'a pas besoin de voir chaque instance d'une catégorie lors de l'entraînement, ce qui réduit structurellement le volume de démonstrations nécessaires par référence produit. Pour un intégrateur industriel, c'est un levier économique potentiellement significatif : le coût de télé-opération pour collecter des données reste l'un des principaux freins au déploiement de bras robotiques en production. Les auteurs revendiquent également une robustesse sim-to-real, mais sans chiffres publiés dans l'abstract, cette affirmation reste à vérifier sur les benchmarks complets disponibles sur le site du projet. FuncCanon s'inscrit dans une vague de travaux visant à dépasser les limites des politiques de diffusion pures (Diffusion Policy, Chi et al., 2023) en ajoutant des représentations sémantiques intermédiaires. Les approches concurrentes incluent Pi-0 de Physical Intelligence, qui exploite une architecture VLA (vision-language-action) pour la généralisation zéro-shot, et GR00T N2 de NVIDIA, qui mise sur un entraînement massif sur données synthétiques. ACT (Action Chunking with Transformers, Zhao et al., 2023) partage la logique de découpage en chunks mais sans canonicalisation fonctionnelle. L'utilisation des VLMs pour extraire des affordances plutôt qu'apprendre des représentations ad hoc est une tendance forte portée par RT-2 de Google DeepMind et OpenVLA. FuncCanon reste pour l'instant une contribution académique sans partenaire industriel ni timeline de commercialisation annoncée.

RechercheOpinion
1 source
Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique
132arXiv cs.RO 

Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2507.01099, version 4) un modèle de génération vidéo 4D destiné à améliorer la planification et la manipulation robotique. L'approche prend en entrée une seule image RGB-D par point de vue, c'est-à-dire une image couleur couplée à une carte de profondeur, et génère des séquences vidéo futures alignées spatialement et temporellement depuis de nouveaux angles de caméra, sans nécessiter la connaissance préalable des poses de caméra. La cohérence géométrique multi-vue est imposée pendant l'entraînement par une supervision fondée sur l'alignement de nuages de points inter-vues (cross-view pointmap alignment), forçant le modèle à construire une représentation 3D partagée de la scène. Les vidéos 4D prédites sont ensuite exploitées par un tracker de pose 6DoF disponible sur étagère pour reconstituer les trajectoires de l'effecteur terminal du robot, produisant des politiques de manipulation qui généralisent à des points de vue inédits. Les expériences portent sur plusieurs jeux de données robotiques simulés et réels, avec de meilleures performances visuelles et spatiales que les approches de référence. Ce résultat s'attaque directement à l'un des verrous majeurs du déploiement industriel de la manipulation robotique : la dépendance à une calibration précise des caméras et à leur positionnement fixe. En apprenant implicitement la géométrie de la scène plutôt qu'en la recevant comme entrée explicite, le modèle produit des prédictions visuellement stables là où les approches concurrentes dérivent dès qu'on change l'angle de vue. Pour un intégrateur ou un COO industriel, cela signifie qu'une cellule robotisée pourrait potentiellement réutiliser une politique apprise sans reconfigurer l'ensemble du système de vision si une caméra est déplacée. L'utilisation d'un tracker 6DoF hors catalogue pour extraire les trajectoires limite par ailleurs le besoin d'infrastructure propriétaire et simplifie l'intégration. Ce travail s'inscrit dans la vague des "world models" appliqués à la robotique, aux côtés d'approches comme UniSim ou des modèles VLA (Vision-Language-Action) à grande échelle qui cherchent eux aussi à donner aux robots une compréhension prédictive de leur environnement. La principale réserve est que le papier est une prépublication arXiv, sans validation industrielle annoncée ni partenaire de déploiement identifié : c'est de la recherche amont, pas un produit expédié. Les méthodes concurrentes s'appuyant sur des poses de caméra explicites, comme les approches NeRF ou 3D Gaussian Splatting pour la manipulation, offrent parfois une précision supérieure dans des environnements très contrôlés, mais au prix d'une configuration plus contraignante. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation plus complexes, une montée en échelle sur des plateformes comme les bras Franka ou UR, et une intégration dans des pipelines de politique complète de type diffusion ou transformer.

IA physiquePaper
1 source
RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel
133arXiv cs.RO 

RoboFlow4D : un modèle du monde de flux léger pour la manipulation robotique guidée par flux en temps réel

Des chercheurs ont publié le 22 mai 2026 sur arXiv (référence 2605.17522) les travaux autour de RoboFlow4D, un modèle de planification en flux 3D destiné à la manipulation robotique temps réel. L'approche repose sur ce que les auteurs appellent un "flow world model" : plutôt que d'empiler plusieurs sous-modèles spécialisés dans un pipeline modulaire classique, RoboFlow4D prédit directement des flux de mouvement 3D sur plusieurs trames temporelles à partir d'observations visuelles et d'instructions textuelles. Ce flux explicite sert de plan intermédiaire pour guider la génération d'actions motrices, bouclant ainsi un cycle perception-planification-exécution en une seule architecture de bout en bout. L'exécution repose sur une collaboration dite "slow-fast" entre le prédicteur de flux et le contrôleur d'action, visant à réduire la latence globale. Les résultats présentés couvrent des benchmarks en simulation et des expériences en environnement réel, avec des gains annoncés sur les taux de succès de manipulation et sur l'efficacité computationnelle, sans que les chiffres précis soient détaillés dans l'abstract. L'intérêt de cette direction de recherche réside dans la réduction de la charge de calcul associée aux pipelines VLA (Vision-Language-Action) contemporains. Les architectures modulaires dominantes, comme celles utilisées dans Pi-0 (Physical Intelligence) ou les variantes de GR00T N2 (NVIDIA), impliquent des inférences en cascade coûteuses qui limitent la réactivité en conditions industrielles. RoboFlow4D tente de consolider perception et planification dans un seul modèle léger, ce qui, si les performances se confirment à l'échelle, pourrait abaisser les exigences matérielles pour déployer des politiques de manipulation dextres sur des robots à ressources contraintes. Du côté du contexte compétitif, le domaine des planificateurs par flux optique 3D est actif depuis les travaux sur UniFlow et Flowbot3D, mais leur intégration dans des boucles temps réel reste un défi ouvert. RoboFlow4D se positionne comme une réponse légère à ces limitations. Il s'agit pour l'instant d'un preprint non évalué par les pairs, sans code ni modèle publiés, ce qui invite à la prudence avant tout benchmark indépendant. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés type RLBench ou LIBERO, et une comparaison directe avec les baselines modulaires qu'il prétend dépasser.

RechercheOpinion
1 source
Les robots ont-ils vraiment besoin de mains anthropomorphiques ? Comparaison entre mains humaines et robotiques
134arXiv cs.RO 

Les robots ont-ils vraiment besoin de mains anthropomorphiques ? Comparaison entre mains humaines et robotiques

Une revue systématique publiée sur arXiv (2508.05415) pose une question directe : les robots ont-ils vraiment besoin de mains anthropomorphes ? Après analyse de 125 articles scientifiques couvrant 2019 à 2025, les auteurs concluent que les mains à cinq doigts, souvent présentées comme l'objectif ultime de la manipulation robotique, ne sont pas nécessaires pour la majorité des tâches. En comparant les propriétés biomécaniques de la main humaine (degrés de liberté, capteurs cutanés, contrôle moteur) avec les mains robotiques commerciales disponibles aujourd'hui, ils montrent que la complexité mécanique ne se traduit pas systématiquement par une meilleure dextérité pour la manipulation en main (in-hand manipulation). Des mécanismes à deux ou trois doigts se révèlent souvent aussi efficaces pour des applications industrielles ciblées. Pour les intégrateurs et les décideurs industriels, ce résultat remet en cause une hypothèse répandue : reproduire la morphologie humaine ne garantit pas des performances humaines. La revue établit qu'une main à cinq doigts augmente l'étendue des tâches réalisables, mais apporte peu d'avantage pour la manipulation fine d'objets déjà saisis. Plus significatif encore, l'intégration de capteurs et les stratégies de manipulation intelligentes restent sous-exploitées dans la littérature, car la recherche se concentre sur la réplication du nombre de doigts et des DOF plutôt que sur la robustesse mécanique et la compliance. Les auteurs soulignent que des mains plus souples et robustes permettraient un meilleur apprentissage par contact environnemental et une intégration plus dense de capteurs, deux leviers actuellement sacrifiés au profit de l'esthétique biomimétique. Cette remise en question survient dans un contexte de course au design anthropomorphe, portée par les humanoïdes de Figure (Figure 03), Tesla (Optimus Gen 3), 1X Technologies et Agility Robotics, dont les mains à cinq doigts sont systématiquement mises en avant dans les communications marketing. La question n'est pourtant pas nouvelle : les grippers industriels bi-digitaux de Robotiq, OnRobot et Schunk dominent les lignes d'assemblage depuis des années. L'accumulation de preuves empiriques sur 125 publications donne à cet argument une base scientifique que les annonces de lancement ne pouvaient pas offrir. Les auteurs plaident pour des critères d'évaluation standardisés, un manque criant alors que chaque laboratoire définit ses propres benchmarks, condition nécessaire pour que le secteur sorte du cycle annonce/démo et entre dans une phase d'industrialisation mesurable.

UELes conclusions valident empiriquement l'approche des fabricants de grippers industriels européens comme Schunk (DE) et OnRobot (DK), dont les solutions bi/tri-digitales dominent les lignes d'assemblage face à la tendance anthropomorphe des humanoïdes américains.

RecherchePaper
1 source
SkiP : quand ignorer et quand affiner pour une manipulation robotique efficace
135arXiv cs.RO 

SkiP : quand ignorer et quand affiner pour une manipulation robotique efficace

Une équipe de chercheurs présente SkiP (Skip Policy), une nouvelle méthode d'apprentissage par imitation pour la manipulation robotique, publiée en prépublication sur arXiv (arXiv:2505.15536). Le constat de départ est simple : les politiques actuelles, qu'il s'agisse de Diffusion Policy, ACT ou d'architectures de type VLA, génèrent une prédiction d'action à chaque pas de contrôle, que le robot traverse un espace libre ou exécute un contact précis. SkiP introduit un mécanisme dit d'"action relabeling" : dans les segments dits "skip", la cible d'entraînement par clonage comportemental est remplacée par l'action d'entrée du prochain segment clé, permettant à la politique de sauter les étapes redondantes en une seule décision. La détection automatique de ces segments repose sur "Motion Spectrum Keying" (MSK), une procédure agnostique à la tâche qui analyse la complexité locale du signal d'action sans annotation manuelle. Validée sur 72 tâches de manipulation simulées et trois tâches en robotique réelle, la méthode réduit le nombre de pas exécutés de 15 à 40 % tout en maintenant ou améliorant les taux de réussite selon le backbone de politique utilisé. L'intérêt industriel est réel, même si les conditions expérimentales restent académiques. Réduire de 15 à 40 % la charge computationnelle d'une politique en inférence, sans dégrader les performances sur des phases critiques comme la saisie ou l'alignement de pièces, ouvre une voie concrète vers le déploiement sur des contrôleurs embarqués à ressources limitées. Contrairement aux approches hiérarchiques qui nécessitent un planificateur de saut séparé, SkiP s'exécute dans un réseau unique, ce qui simplifie l'intégration. Le fait que la méthode soit backbone-agnostic, compatible avec Diffusion Policy, ACT et autres, facilite son adoption sans refonte de pipeline. Cependant, les résultats sur robot réel se limitent à trois tâches, et les vidéos de démonstration restent à vérifier : la généralisation à des environnements industriels non structurés reste à prouver. Sur le plan académique, SkiP s'inscrit dans une vague de travaux cherchant à rendre l'imitation learning plus efficace en termes de calcul, aux côtés de méthodes comme BESO ou RISE, qui s'attaquent respectivement au coût du score matching et à la résolution de la prédiction d'action. La compression temporelle des trajectoires est aussi explorée par des équipes comme Physical Intelligence (pi.ai) dans le contexte de pi-0, ou par des groupes académiques autour des VLA (Vision-Language-Action models). Aucun acteur européen ou français n'est directement impliqué dans ce travail, issu d'une institution non identifiée dans le résumé arXiv disponible. Les prochaines étapes naturelles seraient une validation sur des tâches à plus longue temporalité, un test en conditions industrielles réelles, et une intégration dans des pipelines de fine-tuning rapide, domaine où la réduction des pas d'exécution devient un levier de coût non négligeable.

IA physiqueOpinion
1 source
OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique
136arXiv cs.RO 

OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2605.15971) un cadre appelé OHP-RL (Online Human Preference as Guidance in Reinforcement Learning) pour améliorer l'apprentissage par renforcement appliqué à la manipulation robotique en conditions réelles. L'approche introduit une "preference gate" dépendante de l'état du robot, qui détermine dynamiquement quand et dans quelle mesure les interventions humaines doivent influencer l'apprentissage de la politique de contrôle. Contrairement aux méthodes existantes qui traitent ces interventions comme de simples signaux d'imitation, OHP-RL les interprète comme des expressions de préférences relatives entre comportements, intégrant des contraintes de sécurité et de tâche. Le système a été évalué sur trois tâches de manipulation en contact réel sur un robot Franka, où il obtient des taux de réussite élevés, une convergence plus rapide et un volume d'interventions humaines significativement réduit par rapport aux approches antérieures. L'enjeu est bien connu des équipes de robotique industrielle : le RL en environnement réel souffre d'une exploration inefficace et potentiellement dangereuse, ce qui freine son déploiement hors laboratoire. Les méthodes humain-dans-la-boucle existantes comme HIRL ou IWR exploitent les corrections humaines comme des démonstrations à imiter, une hypothèse qui surestime la précision et la cohérence des opérateurs réels. OHP-RL change de paradigme en traitant l'intervention non pas comme une action idéale à reproduire, mais comme un signal de préférence entre deux comportements, ce qui correspond mieux à la réalité opérationnelle. Un opérateur peu expert ou fatigué génère ainsi un signal utile, et le système tolère une supervision intermittente. Pour un intégrateur ou un responsable de production, cela signifie un coût de supervision réduit pendant l'apprentissage et un déploiement potentiellement plus rapide sur des tâches de manipulation en contact, vissage, assemblage, insertion, que les pipelines de programmation classiques peinent encore à automatiser. OHP-RL se positionne à l'intersection du RLHF (Reinforcement Learning from Human Feedback, popularisé par les LLMs) et du HiL-RL pour la robotique physique, un rapprochement conceptuel qu'explorent aussi Physical Intelligence avec pi0, Google DeepMind sur les plateformes Aloha et Franka, et plusieurs labos académiques travaillant sur les VLA (Vision-Language-Action models). L'utilisation du Franka Research 3, référence académique mondiale, facilite la comparaison directe avec ces concurrents. Le papier reste un preprint arXiv sans revue par les pairs confirmée, il convient donc de lire les résultats comme prometteurs plutôt que validés ; les prochaines étapes naturelles seraient une validation sur des bras industriels à plus fort payload et une intégration dans des pipelines de déploiement continu.

UEImpact indirect : les intégrateurs européens spécialisés en manipulation en contact (assemblage, vissage, insertion) pourraient suivre cette approche pour réduire le coût de supervision lors du déploiement de RL en production, sans lien direct avec une entreprise ou réglementation française ou européenne.

IA physiquePaper
1 source
MALLVI : un cadre multi-agents pour la manipulation robotique généralisée et intégrée
137arXiv cs.RO 

MALLVI : un cadre multi-agents pour la manipulation robotique généralisée et intégrée

Une équipe de chercheurs a publié MALLVI (Multi-Agent Large Language and Vision Interface), un framework d'orchestration multi-agents pour la manipulation robotique généraliste, dont la cinquième révision vient d'être déposée sur arXiv (2602.16898). Le système prend en entrée une instruction en langage naturel et une image de la scène, puis génère des actions atomiques exécutables pour un bras manipulateur. L'architecture coordonne quatre agents spécialisés: un Decomposer chargé de découper la tâche en sous-étapes, un Localizer pour la détection et la localisation visuelle, un Thinker pour le raisonnement et la planification de haut niveau, et un Reflector dédié à la détection d'erreurs et à la récupération ciblée. Un cinquième agent optionnel, le Descriptor, maintient une mémoire visuelle de l'état initial de l'environnement. La boucle fermée est pilotée par un modèle de vision-langage (VLM) qui évalue les retours environnementaux après chaque action et décide si l'étape doit être rejouée ou si le robot peut passer à la suivante. Les expériences en simulation et en environnement réel indiquent des gains de taux de réussite sur des tâches de manipulation zero-shot par rapport aux approches classiques en boucle ouverte. Ce que MALLVI cherche à résoudre est un problème structurel bien documenté de la manipulation pilotée par LLM: les systèmes open-loop, qui n'interrogent pas l'état réel du monde après chaque action, accumulent les erreurs sans possibilité de correction en cours d'exécution. L'apport du Reflector est notable sur ce point, puisque plutôt que de déclencher une replanification complète en cas d'échec, il identifie les agents pertinents à réactiver, limitant la latence et la consommation de tokens. Pour les intégrateurs et les équipes R&D, l'intérêt réside dans la capacité zero-shot du système, sans fine-tuning ni prompt engineering spécifique à chaque tâche. Toutefois, les métriques de taux de succès restent difficiles à contextualiser faute d'indications précises sur le nombre de DOF du bras utilisé, la complexité des scènes de test, ou les conditions d'occultation. Le framework s'inscrit dans un courant très actif depuis 2023 autour de l'utilisation des grands modèles pour la planification robotique, avec des travaux fondateurs comme SayCan (Google DeepMind) et Code-as-Policies, et des architectures VLA (Vision-Language-Action) récentes comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La spécificité de MALLVI est son découpage en agents modulaires plutôt qu'un modèle monolithique, une approche qui facilite le débogage et la spécialisation par composant. Le code source est disponible publiquement sur GitHub (iman1234ahmadi/MALLVI). Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade, ce qui en fait pour l'instant une contribution académique à suivre davantage qu'un produit opérationnel.

RechercheOpinion
1 source
IntentVLA : modélisation des intentions à court terme pour la manipulation robotique ambiguë
138arXiv cs.RO 

IntentVLA : modélisation des intentions à court terme pour la manipulation robotique ambiguë

Des chercheurs ont publié le 15 mai 2026 sur arXiv (référence 2605.14712) une nouvelle architecture de politique robotique baptisée IntentVLA, conçue pour résoudre un problème structurel des modèles vision-langage-action (VLA) appliqués à la manipulation : le conflit entre séquences d'actions consécutives. Le cœur du problème est l'ambiguïté des données d'imitation humaine, deux observations visuelles quasi-identiques peuvent légitimement déboucher sur des trajectoires différentes, selon l'intention à court terme du démonstrateur, la phase de la tâche en cours ou le contexte récent. IntentVLA répond à cela en encodant les observations visuelles récentes en une représentation compacte d'intention à court horizon, qui conditionne ensuite la génération du chunk d'actions courant. Les auteurs ont également construit AliasBench, un benchmark de 12 tâches conçu explicitement pour isoler ce phénomène d'aliasing, déployé sur le simulateur RoboTwin2, avec données d'entraînement et environnements d'évaluation appariés. Les résultats montrent une stabilité d'exécution améliorée et des performances supérieures aux baselines VLA de référence sur quatre environnements : AliasBench, SimplerEnv, LIBERO et RoboCasa. L'apport technique central est l'introduction du conditionnement par historique dans les VLA, là où les architectures existantes, dites frame-conditioned, n'exploitent que l'observation courante et l'instruction textuelle. Sous observabilité partielle, condition fréquente en manipulation réelle, ces politiques peuvent rééchantillonner des intentions différentes à chaque étape de replanification, générant des conflits inter-chunks qui se traduisent par des exécutions instables ou des échecs de tâche. IntentVLA formalise ce mécanisme via une représentation d'intention latente, compacte et exploitable à chaque pas de décision. Pour les intégrateurs robotiques et les équipes de recherche en apprentissage par imitation, c'est une validation expérimentale que l'historique visuel proche est un signal utile, distinct de l'instruction langagière, et qu'il peut être encodé de façon efficace sans alourdir le pipeline d'inférence. AliasBench constitue en soi une contribution méthodologique : les benchmarks existants ne distinguaient pas explicitement les situations d'aliasing, rendant difficile l'évaluation ciblée de ce défaut. Le contexte est celui d'une course à la généralisation des politiques de manipulation, portée par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI. Ces architectures VLA de grande taille partagent le même défaut potentiel : inférence chunk par chunk sans mémoire explicite de l'intention récente. IntentVLA s'inscrit dans une ligne de travaux académiques cherchant à corriger ce manque sans abandonner l'architecture transformer sous-jacente. L'absence d'institution identifiée dans le preprint et le fait qu'il ne s'agisse que d'un résultat sur simulateurs, sans déploiement réel annoncé, invitent à la prudence sur la portée immédiate. Les prochaines étapes attendues sont un transfert sim-to-real et une intégration dans des pipelines de fine-tuning de modèles VLA existants.

RechercheOpinion
1 source
SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations
139arXiv cs.RO 

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations

Des chercheurs ont présenté SID (Sliding into Distribution), un cadre structuré pour la manipulation robotique capable de généraliser à partir de seulement deux démonstrations humaines. Évalué sur six tâches réelles variées (saisies, manipulations d'objets), SID atteint environ 90 % de taux de succès dans des configurations hors-distribution (OOD), c'est-à-dire avec des poses d'objets, des points de vue ou des conditions d'éclairage non vus lors de l'entraînement. La dégradation reste inférieure à 10 % en présence de distracteurs visuels ou de perturbations physiques externes. Le système s'appuie sur deux composants clés : un champ de mouvement centré sur l'objet, appris depuis des démonstrations "canonicalisées" (normalisées en pose), et une politique d'exécution égocentrique légère entraînée par flow matching conditionné, complétée par une augmentation de données par reprojection de nuage de points cinématiquement cohérente. L'intérêt de SID tient à sa frugalité en données : là où les politiques visuomotrices end-to-end standard (type ACT, Diffusion Policy) réclament des dizaines à centaines de démonstrations, SID opère à deux. C'est un signal fort pour les intégrateurs industriels qui peinent à collecter des données en volume sur cellule réelle. Le mécanisme de correction distributional est particulièrement notable : le champ de mouvement génère de larges corrections quand le robot s'écarte de la trajectoire démontrée, puis s'annule naturellement à l'approche de la zone fiable, avant de passer la main à la politique locale. Ce découplage explicite entre récupération hors-distribution et exécution fine constitue une alternative architecturale aux approches purement régressives. Les résultats suggèrent que le "sim-to-real gap" n'est pas le seul problème à résoudre : gérer le glissement distributional en ligne, sans recollecte de données, est un levier sous-exploité. Cette publication s'inscrit dans une vague de travaux sur la manipulation à faible donnée qui cherchent à dépasser les limites des transformeurs d'actions (ACT, π0 de Physical Intelligence, GR00T N2 de NVIDIA) en introduisant des structures géométriques explicites plutôt que de tout apprendre de bout en bout. Le flow matching, popularisé ces deux dernières années comme alternative plus stable à la diffusion pour la génération de trajectoires, est ici combiné à une représentation canonique de l'objet, une approche qui rappelle les travaux sur les réseaux de catégorie neurale (NCF) ou les politiques basées sur des keypoints. Le papier ne mentionne pas de partenaires industriels ni de timeline de déploiement, et reste pour l'instant au stade de preuve de concept académique sur banc réel. Les prochaines étapes naturelles seraient une extension à des objets déformables et une validation sur des bras commerciaux (Franka, xArm) dans des environnements moins contrôlés que le labo.

RecherchePaper
1 source
RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données
140arXiv cs.RO 

RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données

RoboEvolve est un framework de recherche publié en preprint arXiv (réf. 2605.13775, mai 2025) dont l'objectif est de résoudre la rareté des données d'interaction physique alignées sur les tâches de manipulation robotique. Le système couple un planificateur basé sur un modèle vision-langage (VLM) et un simulateur basé sur un modèle de génération vidéo (VGM) dans une boucle co-évolutive auto-renforçante, opérant à partir de seulement 500 images non annotées, soit une réduction de 50x par rapport aux baselines entièrement supervisées. Le mécanisme alterne une phase d'exploration diurne, qui génère des trajectoires ancrées physiquement via une récompense multi-granulaire à contrôle sémantique, et une phase de consolidation nocturne, qui exploite les échecs "near-miss" pour stabiliser l'optimisation de politique. Les résultats publiés indiquent une amélioration de 30 points absolus sur les planificateurs de base, une hausse de 48 % du taux de succès des simulateurs, et un apprentissage continu robuste sans oubli catastrophique. Ces chiffres adressent directement le principal verrou économique des pipelines de manipulation à grande échelle : la collecte de données téléopérées, qui freine aujourd'hui des systèmes commerciaux comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). La co-évolution VLM-VGM contourne deux limitations bien documentées : les VLM seuls souffrent d'un désalignement sémantique-spatial (compréhension correcte de la tâche mais imprécision dans le positionnement 3D), tandis que les VGM seuls produisent des hallucinations physiques (vidéos synthétiques qui violent les contraintes physiques réelles). Un curriculum progressif automatique fait évoluer le système d'actions atomiques simples vers des tâches composites complexes, approche concrète au problème de généralisation hiérarchique encore non résolu à l'échelle commerciale. Ce travail s'inscrit dans une tendance émergente visant à substituer la génération synthétique de données à la collecte terrain coûteuse, tendance accélérée depuis Diffusion Policy (2023) et l'essor des modèles VLA (vision-language-action). Le résumé disponible ne précise ni affiliation institutionnelle des auteurs ni plateforme matérielle de validation, une limite importante avant tout transfert industriel. Aucun déploiement physique ni partenariat constructeur n'est annoncé : RoboEvolve reste à ce stade une contribution académique dont la transposition sim-to-real sur hardware réel reste entièrement à démontrer.

RechercheOpinion
1 source
Des futurs imaginés aux actions exécutables : mélange d'actions latentes pour la manipulation robotique
141arXiv cs.RO 

Des futurs imaginés aux actions exécutables : mélange d'actions latentes pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2605.12167, mai 2026) une méthode baptisée MoLA, pour Mixture of Latent Actions, destinée à améliorer la manipulation robotique en exploitant les modèles génératifs de vidéo comme mécanisme d'anticipation. L'idée centrale : un robot peut "imaginer" la trajectoire visuelle future d'une tâche avant de l'exécuter, mais transformer ces séquences générées en commandes moteur concrètes reste un problème ouvert. MoLA introduit une interface dite orientée contrôle qui, au lieu de passer directement les images prédites à la politique de contrôle, mobilise un ensemble de modèles inverses de dynamique (IDM) pré-entraînés pour en extraire des actions latentes. Ces IDM sont multimodaux : ils capturent des indices sémantiques, de profondeur et de flux optique, fournissant une représentation structurée et physiquement ancrée des transitions d'état. L'approche a été évaluée sur les benchmarks simulés LIBERO, CALVIN et LIBERO-Plus, ainsi que sur des tâches de manipulation en conditions réelles, avec des gains annoncés en taux de succès, en cohérence temporelle et en généralisation. Le problème que MoLA tente de résoudre est structurel dans le domaine des VLA (Vision-Language-Action models) : les modèles de génération vidéo optimisent la fidélité perceptuelle, pas la pertinence pour le contrôle. Lorsqu'une politique est conditionnée sur des frames prédites, elle hérite de cette inadéquation, produisant un contrôle indirect et instable. En substituant aux frames brutes des représentations latentes inférées par des IDM complémentaires, MoLA réduit ce fossé structurel. Pour les intégrateurs et les équipes de recherche appliquée, c'est un signal important : l'imagination visuelle peut effectivement améliorer les politiques robotiques, à condition de disposer d'une couche de traduction adaptée plutôt que d'un couplage direct image-action. Ce travail s'inscrit dans un courant actif autour des world models appliqués à la robotique, où des approches comme DreamerV3 (DeepMind) ou SuSIE ont exploré des pistes similaires pour le reinforcement learning et la manipulation. Côté manipulation guidée par vidéo, UniSim et les travaux autour de Pi-0 de Physical Intelligence ont popularisé l'utilisation de prédictions futures pour structurer le comportement. MoLA se distingue par son architecture modulaire à IDM mixtes plutôt qu'un seul encodeur unifié. Aucune affiliation industrielle ni timeline de déploiement n'est mentionnée dans la publication, ce qui en fait pour l'instant une contribution de recherche fondamentale, dont la valeur pratique dépendra de la reproductibilité des gains annoncés en dehors des benchmarks de référence.

RechercheOpinion
1 source
De la réaction à l'anticipation : un graphe de tâches à base d'agents pour la reprise proactive en manipulation robotique
142arXiv cs.RO 

De la réaction à l'anticipation : un graphe de tâches à base d'agents pour la reprise proactive en manipulation robotique

Une équipe de recherche a publié en mai 2025 sur arXiv (identifiant 2605.11951) AgentChord, un système multi-agents qui anticipe les pannes de manipulation robotique avant l'exécution plutôt qu'en les traitant de manière réactive. L'architecture repose sur un graphe de tâches dirigé enrichi, en amont de toute exécution, de branches de récupération pré-compilées et contextualisées selon chaque étape critique. Trois agents spécialisés structurent ce pipeline : un "composer" modélise la tâche nominale, un "arranger" greffe les branches de récupération anticipées, et un "conductor" orchestre les transitions via des moniteurs à faible latence. Les expériences portent sur des tâches de manipulation bimanuelle à horizon long ; les auteurs rapportent une amélioration "substantielle" des taux de succès sans publier de métriques chiffrées précises dans l'abstract disponible. Le principal apport est d'éliminer la latence inhérente au pipeline classique "détecter-raisonner-récupérer", dans lequel chaque échec déclenche un nouvel appel à un LLM ou à un planificateur symbolique. En pré-compilant les correctifs avant le début de la tâche, AgentChord permet une réponse immédiate sans re-planification dès qu'un moniteur détecte une déviation. Pour les intégrateurs industriels qui automatisent des opérations en cellule non structurée, cette architecture de graphe anticipatif pourrait réduire les arrêts imprévus liés aux échecs de manipulation. L'approche présente néanmoins une limite structurelle : les branches pré-compilées ne couvrent que les pannes anticipées, non les défaillances inédites ou hors-modèle. La robustesse de la manipulation en conditions réelles reste l'un des goulots d'étranglement centraux de la robotique commerciale, que ce soit pour les bras industriels ou les humanoïdes en phase de déploiement comme Optimus de Tesla ou les robots de Figure AI. AgentChord s'inscrit dans un courant qui exploite les LLMs comme orchestrateurs de logique de haut niveau, en complément de politiques d'action de bas niveau. Des approches concurrentes comme les VLA Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA intègrent la récupération de manière implicite dans le réseau de politique, là où AgentChord opte pour une représentation explicite en graphe, plus transparente mais potentiellement moins générique face à la variabilité du monde réel. La page projet est accessible sur shengxu.net/AgentChord ; la validation hors banc de test académique reste la prochaine frontière.

RecherchePaper
1 source
SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données
143arXiv cs.RO 

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

Des chercheurs publient sur arXiv (arXiv:2605.11114, mai 2025) une méthode baptisée SEVO (Semantic-Enhanced Virtual Observation) visant à résoudre l'un des problèmes les plus documentés des politiques VLA (Vision-Language-Action) et d'apprentissage par imitation : leur effondrement dès qu'elles quittent l'environnement d'entraînement. Sans modification de l'architecture du modèle, SEVO agit sur le flux caméra RGB brut via trois mécanismes combinés : des caméras fixes sur le corps du robot dont les champs de vision couvrent l'intégralité de l'espace de manipulation, un éclairage actif en spectre rouge qui normalise physiquement l'apparence des objets, et une segmentation YOLO en temps réel qui produit une représentation sémantique invariante au fond. Les tests portent sur des bouteilles d'eau transparentes -- objets délibérément difficiles car ils se confondent visuellement avec leur environnement -- dans une tâche de pick-and-place répétée sur deux plateformes mobiles. Avec SEVO, la politique ACT atteint 95 % de succès en environnement d'entraînement et 85 % en environnement inédit ; SmolVLA atteint 83 % et 75 % respectivement. Sans SEVO, ces mêmes politiques plafonnent à 75 %/70 % en entraînement et s'effondrent à 30-35 % hors contexte. Ces résultats remettent directement en cause le paradigme dominant qui consiste à compenser le manque de robustesse par une mise à l'échelle des modèles. Les praticiens de la communauté open source rapportaient déjà des taux de transfert quasi nuls avec les benchmarks ACT et SmolVLA standards, pourtant affichant des scores élevés en laboratoire. SEVO démontre que la conception de l'observation -- ce que le robot "voit" et comment -- combinée à une diversification systématique des données de téléopération (variations d'éclairage, de fond, d'objets distracteurs) constitue le levier de généralisation le plus efficace, bien devant le choix du modèle. Pour un intégrateur ou un COO industriel, l'implication est directe : un robot à bas coût bien "observé" et entraîné sur des données variées surpasse un modèle plus sophistiqué entraîné dans des conditions homogènes. Le contexte est celui de l'essor des toolchains communautaires autour des VLA, notamment les frameworks lekiwi et SO-101 sur lesquels ACT et SmolVLA sont régulièrement évalués. La "sim-to-real gap" et le "domain shift" sont des problèmes ouverts depuis des années dans la manipulation robotique ; des approches comme domain randomization ou data augmentation tentaient déjà d'y répondre par le calcul. SEVO prend le parti inverse : agir sur le hardware d'observation et le protocole de collecte plutôt que sur l'architecture ou la puissance de calcul. Les suites logiques de ces travaux incluent l'extension à des tâches multi-étapes, à des objets plus variés, et potentiellement à des bases mobiles commerciales -- un terrain sur lequel des acteurs comme Boston Dynamics (Spot), AgileX ou les startups européennes de manipulation à coût réduit sont directement concernés.

UESmolVLA, développé par HuggingFace (entreprise franco-américaine), est directement évalué dans cette étude, les équipes européennes travaillant sur la manipulation VLA disposent d'un levier hardware-protocole immédiatement applicable pour multiplier leurs taux de succès hors environnement d'entraînement, sans changer d'architecture ni investir dans des modèles plus lourds.

💬 J'attendais quelqu'un pour le montrer proprement : le domain shift, c'est pas un problème de modèle, c'est un problème d'observation. SEVO passe de 30 à 85 % de succès hors environnement d'entraînement en contrôlant l'éclairage, les angles de caméra et la segmentation temps réel, sans changer une ligne d'architecture. Un robot bas coût bien observé bat un modèle sophistiqué entraîné dans une bulle.

IA physiqueOpinion
1 source
ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique
144arXiv cs.RO 

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Une équipe de recherche a publié en mai 2026 sur arXiv (référence 2605.08774) ProcVLM, un modèle vision-langage conçu pour générer des signaux de récompense denses dans les tâches de manipulation robotique à longue durée. Contrairement aux approches existantes qui s'appuient sur des étiquettes de succès en fin de trajectoire ou sur une interpolation temporelle, ProcVLM ancre son estimation de progression dans la structure procédurale de la tâche et dans les changements visuels au sein de chaque sous-étape. Le modèle adopte un paradigme "raisonner avant d'estimer" : il infère d'abord les actions atomiques restantes avant de chiffrer l'avancement global. Pour l'entraîner à grande échelle, les auteurs ont constitué ProcCorpus-60M, un corpus de 60 millions de trames annotées issues de 30 jeux de données embodied, dont est dérivé ProcVQA, un benchmark couvrant l'estimation de progression, la segmentation d'actions et la planification prospective. L'enjeu est direct pour les intégrateurs et les équipes travaillant sur la manipulation longue durée, comme l'assemblage multi-étapes, le conditionnement ou la maintenance industrielle. Les modèles de récompense classiques, en confondant temps écoulé et progression réelle, sont incapables de détecter stagnation, étapes manquées ou états d'échec intermédiaires. ProcVLM produit des estimations discriminantes intra-trajectoire, ce qui en fait un composant plus utile pour la policy optimization guidée par récompense. Les expériences publiées montrent des gains mesurés sur ProcVQA et sur des benchmarks de modèles de récompense face aux baselines représentatives. Ces résultats restent néanmoins dans le cadre de la simulation et de l'évaluation hors-ligne : aucun déploiement sur robot physique n'est annoncé. Ce travail s'inscrit dans une tendance de fond visant à améliorer la qualité des signaux de supervision pour les modèles vision-langage-action (VLA), un chantier central depuis la publication de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le problème du reward shaping dans les tâches manipulatoires longues est un verrou bien identifié : le sim-to-real gap se double d'un gap supervision-comportement quand les étiquettes de succès sont trop parcimonieuses. ProcVLM propose une réponse méthodologique à ce second verrou via un corpus de supervision synthétique à 60 millions de trames, mais demeure à ce stade un preprint académique sans validation sur hardware réel annoncée. La page projet (procvlm.github.io) est en ligne, sans date de release du code ou des données précisée.

RechercheOpinion
1 source
MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage
145arXiv cs.RO 

MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage

Des chercheurs ont publié MARVL (Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models, arXiv:2602.15872), une méthode visant à automatiser la conception de fonctions de récompense dense pour l'apprentissage par renforcement (RL) appliqué à la manipulation robotique. L'approche repose sur l'affinage (fine-tuning) d'un modèle de vision-langage (VLM) pour améliorer sa cohérence spatiale et sémantique, puis décompose chaque tâche en sous-tâches séquentielles. Un mécanisme dit de projection de direction de trajectoire (task direction projection) renforce la sensibilité du signal de récompense aux progrès réels de l'agent. Évalué sur le benchmark Meta-World, référence standard pour les tâches de manipulation à récompenses éparses, MARVL surpasse les méthodes VLM-reward existantes en efficacité d'échantillonnage et en robustesse. La contribution centrale de MARVL est de corriger trois défauts chroniques des approches naïves de récompense par VLM : le désalignement entre signal de récompense et avancement réel de la tâche, la faiblesse du grounding spatial, et la compréhension insuffisante de la sémantique d'une tâche robotique. Pour les équipes de recherche en RL robotique, l'enjeu est concret : la conception manuelle de fonctions de récompense dense est coûteuse, non scalable, et constitue un goulot d'étranglement majeur dans le déploiement de nouveaux comportements. Si la méthode confirme ses performances sur des benchmarks plus larges, elle représenterait un pas vers l'automatisation du cycle de reward design, réduisant la dépendance aux ingénieurs spécialisés et accélérant l'itération expérimentale. Les VLMs utilisés comme superviseurs pour le RL robotique constituent un axe de recherche actif depuis 2023, porté notamment par des travaux comme EUREKA (OpenAI/NVIDIA) ou VLP. MARVL se distingue par son affinage ciblé du VLM et sa décomposition multi-étapes, là où EUREKA s'appuie sur un LLM pour générer du code de récompense sans fine-tuning préalable. La validation se limite pour l'instant à Meta-World, un environnement entièrement simulé ; aucun résultat sur robot physique n'est rapporté dans cette version, ce qui laisse ouverte la question du sim-to-real gap. Les suites naturelles incluront une évaluation sur des plateformes matérielles et des benchmarks plus récents comme RLBench ou ManiSkill.

RechercheOpinion
1 source
SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique
146arXiv cs.RO 

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Des chercheurs présentent dans un preprint arXiv (2511.06754v3, troisième révision, mai 2026) SlotVLA, un framework de manipulation robotique multitatches qui repose sur des représentations centrées sur les objets et leurs relations plutôt que sur les plongements denses utilisés par la majorité des modèles VLA actuels. L'architecture combine trois composants : un tokeniseur visuel à slots qui maintient des représentations temporellement cohérentes pour chaque objet détecté dans la scène, un décodeur centré sur les relations entre objets pour produire des embeddings pertinents à la tâche, et un module LLM qui traduit ces embeddings en séquences d'actions exécutables. En parallèle, les auteurs publient LIBERO+, un benchmark de manipulation dérivé du jeu de données LIBERO existant, enrichi d'annotations objet-centriques au niveau des boîtes englobantes et des masques de segmentation, ainsi qu'un suivi temporel des instances entre frames. Les expériences conduites sur LIBERO+ montrent que les représentations à slots réduisent significativement le nombre de tokens visuels nécessaires tout en conservant des performances de généralisation comparables aux baselines denses. L'intérêt principal de cette approche réside dans la tension qu'elle adresse directement : les VLAs déployés à ce jour (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure) s'appuient sur des encodeurs visuels qui traitent la scène comme un champ dense, sans distinction explicite entre objets manipulables et arrière-plan. Cette architecture entraîne une redondance computationnelle et rend difficile l'audit du raisonnement du modèle, ce qui freine l'adoption industrielle dans des contextes certifiables. SlotVLA propose que des représentations structurées, inspirées de la cognition humaine sur les objets discrets, puissent constituer une base plus efficace et interprétable pour le contrôle visuomoteur. La réduction du nombre de tokens visuels est un levier concret de coût d'inférence pour des systèmes embarqués ou des flottes de robots. Il convient toutefois de noter que les résultats présentés restent confinés à l'environnement simulé LIBERO+ : aucune validation physique sur robot réel n'est rapportée dans ce preprint, ce qui laisse ouverte la question du sim-to-real gap pour ce type de représentation. Cette publication s'inscrit dans un courant actif de recherche sur les architectures objet-centriques pour la robotique, dont les travaux fondateurs incluent les modèles de slot attention de Locatello et al. (2020) et les approches OCRL. LIBERO avait déjà été introduit comme benchmark multitatches pour la manipulation, mais sans annotations objet-centriques fines : LIBERO+ vient combler ce manque pour faciliter l'évaluation comparative de ce type de représentation. Sur le plan concurrentiel, les laboratoires académiques (notamment ceux liés à CMU, Berkeley, Stanford) et industriels travaillent en parallèle sur des architectures plus interprétables pour répondre aux demandes croissantes de traçabilité dans l'automatisation industrielle. Les prochaines étapes naturelles seront la validation sim-to-real sur des plateformes physiques standard (Franka, UR, ou humanoïdes) et l'intégration dans des pipelines de fine-tuning avec des modèles fondateurs publics.

IA physiqueOpinion
1 source
VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable
147arXiv cs.RO 

VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable

Des chercheurs ont publié sur arXiv (ref. 2509.21723, quatrième révision) VLBiMan, un framework d'apprentissage pour la manipulation bimanuels robotique qui vise à réduire drastiquement le nombre de démonstrations humaines nécessaires à l'entraînement d'un robot à deux bras. Le principe central : à partir d'un seul exemple humain, le système décompose la tâche en primitives réutilisables dites "invariantes" (les composantes stables d'un geste, comme saisir un outil dans un axe donné) et en composantes "ajustables" (position exacte, orientation selon le contexte). Ces ajustements sont pilotés en temps réel par un ancrage vision-langage (VLA) qui parse sémantiquement la scène et applique des contraintes de faisabilité géométrique, sans nécessiter de réentraînement lorsque le fond change, qu'un objet est déplacé ou que du désordre visuel perturbe la scène. Le système prend également en charge un contrôle hybride des deux bras, autorisant une utilisation synchrone ou asynchrone selon la sous-tâche. L'intérêt industriel porte sur deux points. D'abord, la réduction du coût d'acquisition de données : les approches par imitation classiques exigent des dizaines à centaines de démonstrations pour couvrir les variations d'une tâche, VLBiMan en revendique une seule -- sans que le papier ne quantifie précisément ce ratio dans des conditions industrielles représentatives, ce qui mérite prudence. Ensuite, le transfert cross-embodiment : les primitives apprises à partir de démonstrations humaines se réinstancient sur différentes plateformes robotiques sans réentraînement, ce qui ouvrirait la voie à une bibliothèque de compétences portables. Les expériences couvrent des tâches d'utilisation d'outils et de manipulation multi-objets, et montrent une robustesse aux objets sémantiquement similaires mais visuellement inédits, ainsi qu'aux perturbations externes. Ce travail s'inscrit dans la vague des architectures VLA (Vision-Language-Action) qui cherchent à remplacer la collecte massive de données par une généralisation sémantique. Il se positionne face aux approches par imitation pure (comme ACT ou Diffusion Policy) qui saturent rapidement en capacité de généralisation, et aux méthodes modulaires classiques, moins flexibles dans les scènes dynamiques. Les concurrents directs incluent des frameworks comme RoboFlamingo, OpenVLA ou UniManipulate. VLBiMan reste à ce stade un travail académique sans déploiement industriel annoncé ni partenaire industriel cité, avec des validations conduites en environnement de laboratoire contrôlé.

RechercheOpinion
1 source
E²DT : Decision Transformer efficace avec échantillonnage guidé par l'expérience pour la manipulation robotique
148arXiv cs.RO 

E²DT : Decision Transformer efficace avec échantillonnage guidé par l'expérience pour la manipulation robotique

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.00159) un nouveau cadre d'apprentissage par renforcement pour la manipulation robotique, baptisé E²DT (Efficient and Effective Decision Transformer). Le système s'appuie sur l'architecture Decision Transformer (DT), qui traite l'apprentissage par renforcement comme un problème de modélisation de séquences, et y intègre un mécanisme de sélection d'expériences fondé sur un k-Processus Ponctuel Déterminantal (k-DPP). Concrètement, E²DT remplace le replay uniforme standard par un échantillonnage guidé combinant trois critères : le retour cumulatif attendu (return-to-go, RTG), l'incertitude prédictive du modèle, et la représentativité des phases de la tâche via une fréquence inverse. La méthode est évaluée sur des benchmarks de manipulation robotique en simulation et sur robot réel, et surpasse systématiquement les approches antérieures, selon les auteurs. Le problème adressé est concret et bien connu des équipes de R&D : le Decision Transformer standard tire ses trajectoires d'entraînement de façon uniforme depuis le replay buffer, ce qui aboutit à une mauvaise efficacité d'échantillonnage, une exploration limitée et une convergence sous-optimale, particulièrement pénalisant sur des tâches à long horizon où les transitions rares sont décisives. E²DT propose un noyau joint qualité-diversité qui force le modèle à sélectionner activement les expériences les plus informatives, en mesurant la diversité via les embeddings latents internes du DT lui-même. Pour les intégrateurs industriels travaillant sur des bras manipulateurs ou des cellules robotisées, cela ouvre un chemin vers des politiques robustes avec moins de données de démonstration, réduisant potentiellement les cycles de mise en production. Le Decision Transformer, introduit par Chen et al. en 2021, a rapidement été adopté comme référence dans de nombreux travaux de manipulation. Ses faiblesses liées au replay passif ont déjà motivé des variantes comme l'Online Decision Transformer ou des approches à experience replay prioritaire (PER). E²DT s'inscrit dans cette lignée en combinant diversité et qualité composite dans un unique cadre d'échantillonnage. Aucune affiliation industrielle ni timeline de déploiement n'est mentionnée dans le preprint : il s'agit d'une contribution académique, sans produit ni partenariat annoncé à ce stade.

RecherchePaper
1 source
ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites
149arXiv cs.RO 

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

Des chercheurs ont publié ROBOGATE (arXiv:2603.22126), un framework open-source de validation pré-déploiement pour les politiques de manipulation robotique, conçu pour identifier les zones de défaillance avant mise en production industrielle. Le système repose sur un échantillonnage adaptatif en deux étapes dans un espace de paramètres à huit dimensions : une première phase par Latin Hypercube Sampling (LHS) couvre l'espace global, puis une seconde phase concentre l'effort sur la zone de transition critique entre 30 % et 70 % de taux de réussite, là où les échecs sont les plus révélateurs. Le tout est exécuté dans NVIDIA Isaac Sim avec le moteur physique Newton, sur quatre morphologies robotiques : Franka Panda (7-DOF), UR3e, UR5e et UR10e (tous 6-DOF). Au total, plus de 50 000 expériences ont été simulées, produisant un modèle de régression logistique avec une AUC de 0,780 et une équation analytique fermée de la frontière de défaillance. Le framework a également benchmarké huit politiques VLA, dont une version fine-tunée de NVIDIA GR00T N1.6 (3 milliards de paramètres), entraînée sur LIBERO-Spatial pendant 20 000 étapes. Le chiffre le plus frappant de l'étude est un écart de 97,65 points de pourcentage entre les environnements de simulation : le même checkpoint GR00T N1.6 atteint 97,65 % de réussite sur le benchmark LIBERO sous MuJoCo, mais tombe à 0 % sur les 68 scénarios industriels de ROBOGATE sous Isaac Sim. Ce résultat met en lumière un problème structurel du déploiement des VLA : les scores de benchmark en simulation ne prédisent pas le comportement dans un simulateur différent, a fortiori dans le monde réel. Pour les intégrateurs et les décideurs industriels, cela signifie qu'un modèle validé sur benchmark standard peut être totalement non opérationnel dans leur environnement cible. ROBOGATE propose une couche de validation intermédiaire, inspirée du paradigme que NVIDIA a formalisé pour le calcul quantique avec Ising, transposé ici à l'IA physique. Le gap sim-to-real reste l'un des verrous majeurs de la robotique manipulatrice apprise, et la plupart des acteurs du secteur, de Figure AI (Figure 03) à Physical Intelligence (Pi-0) en passant par Boston Dynamics ou les équipes internes de NVIDIA, travaillent à le réduire via des pipelines sim-to-real renforcés ou de la synthèse de données domain-randomisée. ROBOGATE ne prétend pas résoudre ce gap mais fournit un outil de diagnostic structuré : cartographier les frontières d'échec avant déploiement, ce qui est précisément ce qui manque dans les workflows industriels actuels. Le framework est publié en open-source, ce qui devrait faciliter son adoption par les équipes de validation, en particulier celles qui travaillent sur des cellules pick-and-place standardisées avec des bras industriels UR ou Franka. Les prochaines étapes naturelles seraient l'extension à des morphologies mobiles-manipulatrices et l'intégration dans des pipelines CI/CD robotiques, un domaine encore embryonnaire mais en progression rapide chez des acteurs comme Intrinsic (Alphabet) ou Covariant.

UELes équipes R&D européennes travaillant sur des cellules robotiques avec bras UR (Universal Robots, Danemark) ou Franka Panda peuvent adopter ce framework open-source pour structurer leur validation pré-déploiement et éviter des échecs coûteux en production.

IA physiqueActu
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
150arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source