Aller au contenu principal

Dossier Manipulation robotique

367 articles

La manipulation robotique : pinces dextres, peau électronique, grasping, benchmarks de tâches fines, le goulot d'étranglement principal des humanoïdes.

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique
1arXiv cs.RO IA physiqueOpinion

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.13672) WEAVER (World Estimation Across Views for Embodied Reasoning), une architecture de modèle de monde (world model, WM) dédiée à la manipulation robotique. Le système, multi-vue, est entraîné à prédire des représentations latentes futures et des valeurs de récompense via une perte de flow-matching. Sur robot physique, WEAVER atteint une corrélation ρ = 0,870 entre trajectoires simulées et taux de succès réel en évaluation de politique (policy evaluation). Appliqué à l'amélioration de politique (policy improvement), il produit un gain de 38 % de taux de succès réel au-dessus du modèle de fondation robotique π₀.₅ de Physical Intelligence. En planification à l'inférence (test-time planning), il ajoute 14 % de succès supplémentaires, avec une vitesse de génération 5 à 10 fois supérieure aux WMs précédents. Le code, les modèles et les vidéos sont publiquement accessibles. Les modèles de monde représentent un levier structurant pour la robotique : évaluer ou améliorer des politiques de contrôle, planifier à l'exécution, sans multiplier les interactions coûteuses en environnement réel. Le verrou technique est triple, fidélité (les trajectoires simulées doivent refléter la réalité), cohérence sur longue horizon (les simulations ne doivent pas diverger dans le temps), et efficacité computationnelle. WEAVER satisfait simultanément ces trois critères là où les architectures précédentes échouaient généralement sur au moins l'un d'eux, en particulier sur la cohérence à long horizon pour des tâches de manipulation dynamique complexes. Le gain de 38 % sur π₀.₅ est particulièrement significatif : il démontre qu'un WM peut améliorer un modèle de fondation déjà performant sans collecte de données additionnelles en conditions réelles, réduisant ainsi les coûts de déploiement pour les intégrateurs industriels. Ce travail s'inscrit dans une compétition accélérée autour des world models pour la robotique embodied. Physical Intelligence avec π₀ et π₀.₅, Google DeepMind avec ses variantes RT et RoboDreamer, ainsi que des équipes académiques de Berkeley, CMU et Stanford ont chacun proposé des approches partielles. WEAVER se positionne comme une synthèse architecturale, avec un soin particulier apporté à la gestion de la mémoire et au traitement multi-vue. Aucun partenariat industriel ni calendrier commercial n'est annoncé à ce stade, et la validation reste circonscrite à des environnements de laboratoire contrôlés. La question centrale du sim-to-real gap à l'échelle, dans des environnements industriels non structurés, reste entièrement ouverte.

1 source
Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines
2arXiv cs.RO 

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

Des chercheurs ont déposé le 12 juin 2026 sur arXiv (référence 2606.12759) Sparse2Act, un cadre de pré-entraînement pour encodeurs de nuages de points 3D épars appliqués à la manipulation robotique. La méthode exploite les actions de l'effecteur terminal en espace tâche comme supervision géométrique : des tokens 3D masqués sont entraînés à organiser les features de scène autour du mouvement de l'espace de travail associé à l'observation. Sur le benchmark LIBERO-10, le système atteint 86,9 % de taux de succès moyen après seulement 500 étapes de fine-tuning. Le même encodeur pré-entraîné permet un transfert inter-domaines de LIBERO vers Meta-World, avec 73,4 % de succès moyen sur le benchmark Meta-World-5. En condition réelle, après pré-entraînement en simulation suivi d'un fine-tuning limité sur données réelles, le système obtient 72,5 % de succès sur quatre tâches de manipulation distinctes. Ce que démontre Sparse2Act, c'est qu'un encodeur 3D peut être pré-entraîné de façon générique et réutilisé tel quel par des politiques aux architectures et espaces d'action différents, y compris des commandes en espace articulaire. C'est un changement de paradigme par rapport aux représentations 3D apprises via des objectifs de tâche spécifiques, qui restent liées à une distribution de données particulière et ne se transfèrent pas. Le sim-to-real à 72,5 % avec fine-tuning limité est un résultat concret que les pipelines VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou OpenVLA peinent à reproduire proprement sur des tâches de manipulation fine. Les ablations publiées dans le papier confirment que le gain provient du signal d'alignement action-masque, et non de la capacité du décodeur, ce qui oriente les futures architectures vers une supervision géométrique légère. L'intérêt pour les représentations 3D explicites en manipulation robotique s'est accentué depuis 2023, en réponse aux limites des politiques purement pixel-based sur les saisies occludées ou en précision sub-centimétrique. Sparse2Act s'inscrit dans le courant du pré-entraînement de représentations robotiques génériques, aux côtés de R3M, MVP ou SPA, mais se distingue par l'usage des actions comme signal de supervision géométrique plutôt que du contrastif visuel ou de la reconstruction d'image. Les concurrents directs incluent les fondations visuelles fine-tunées (DINO, SAM) adaptées à la manipulation et les politiques diffusion-based comme Pi-0.2 ou RDT-1B. La prochaine étape naturelle pour ce travail est l'extension à des morphologies variées (bras bimanuel, robot mobile) et à des scènes hors environnements tabletop standardisés comme LIBERO et Meta-World.

RecherchePaper
1 source
RoboProcessBench : un benchmark pour évaluer la compréhension des processus dans la manipulation robotique vision-langage
3arXiv cs.RO 

RoboProcessBench : un benchmark pour évaluer la compréhension des processus dans la manipulation robotique vision-langage

Des chercheurs ont publié le 16 juin 2026 sur arXiv (référence 2606.13040) RoboProcessBench, un benchmark conçu pour évaluer la compréhension processuelle des modèles vision-langage (VLM) appliqués à la manipulation robotique. L'outil décompose cette capacité en deux axes complémentaires : la surveillance statique (static monitoring) et le raisonnement dynamique (dynamic reasoning), déclinés en 12 familles de questions diagnostiques couvrant la phase d'exécution, le contact physique, le mouvement, la coordination, la progression locale, l'ordre temporel, les résultats et les transitions entre primitives. Le corpus associé, ProcessData, regroupe environ 58 000 paires questions-réponses extraites de 260 tâches de manipulation physiquement simulées, divisé en deux sous-ensembles : ProcessData-SFT pour le fine-tuning et ProcessData-Eval pour l'évaluation. Appliqué à plusieurs VLM représentatifs du marché, le benchmark révèle des lacunes systématiques sur la quasi-totalité des 12 familles de tâches. Toutefois, après fine-tuning sur ProcessData-SFT, les modèles Qwen2.5-VL-7B (Alibaba) et InternVL-3-8B (Shanghai AI Lab) affichent des gains mesurables sur la détection d'état local, de mouvement, de progression et de primitives. Ce travail pointe une faille structurelle dans l'usage croissant des VLM comme critiques visuels, générateurs de récompenses et détecteurs d'échecs dans les pipelines de contrôle robotique : ces modèles sont habituellement évalués sur le succès final d'une tâche, pas sur la qualité de son déroulement. Or, pour un intégrateur ou un COO industriel qui déploie un bras manipulateur en production, la capacité d'un modèle à détecter un contact mal positionné en milieu de séquence ou un désalignement temporel entre deux primitives est aussi critique que le résultat terminal. RoboProcessBench fournit un cadre d'évaluation granulaire là où les benchmarks existants restaient aveugles à cette dimension intermédiaire. Les résultats montrent que les gains obtenus après fine-tuning ciblé sont réels mais localisés, ce qui suggère que la compréhension processuelle fine n'émerge pas spontanément à partir des données d'entraînement généralistes actuels. L'initiative s'inscrit dans une tendance de fond : depuis 2024, les laboratoires de robotique cherchent à intégrer les VLM comme modules de supervision autonomes, à la suite des travaux sur les Visual Language Action models (VLA) comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Le benchmark comble un angle mort laissé par des suites comme RoboSuite, LIBERO ou BehaviorBench, qui mesurent principalement les taux de succès end-to-end. Côté compétiteurs directs dans l'espace des benchmarks de compréhension robotique, on citera MECCANO et ProcTHOR, mais aucun n'adresse explicitement le suivi de primitives en contexte de manipulation physique. La page projet est publiquement accessible, et les données ProcessData sont présentées comme réutilisables pour l'entraînement, ce qui pourrait accélérer leur adoption dans les pipelines de RL basés sur des récompenses apprises. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'un preprint académique.

RecherchePaper
1 source
FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles
4arXiv cs.RO 

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.13102) FTP-1, une politique tactile fondatrice généraliste préentraînée sur environ 3 000 heures de données de manipulation tactile agrégées depuis 26 sources distinctes, couvrant des démonstrations humaines et robotiques sur 21 capteurs différents. L'architecture repose sur des encodeurs hétérogènes qui projettent des signaux tactiles de natures variées -- images, tableaux de valeurs, états discrets -- en tokens latents unifiés et conscients de la morphologie, traités ensuite par un Transformer tactile partagé. Lors des expériences de fine-tuning sur 5 configurations matérielles distinctes, FTP-1 améliore les performances en manipulation riche en contacts de +17,2 % sur les capteurs vus à l'entraînement, et atteint un gain de +31 % sur deux configurations de capteurs jamais rencontrées lors du préentraînement. Ces chiffres sont issus d'un preprint académique et n'ont pas encore été soumis à évaluation par les pairs. Le résultat clé ici n'est pas la performance absolue mais la généralisation hors distribution. Depuis plusieurs années, les politiques tactiles restent prisonnières de leur hardware : un modèle entraîné sur un capteur GelSight ne transfère pas sur un capteur BioTac ou un réseau de pression matriciel. FTP-1 casse cette contrainte en proposant un point de départ partagé au niveau modèle, analogue à ce que les grands modèles de vision-langage-action (VLA) comme Pi-0 ou OpenVLA ont fait pour la manipulation visuelle. Pour un intégrateur industriel ou un laboratoire robotique, cela signifie potentiellement réduire le coût de collecte de données par capteur cible, en capitalisant sur un préentraînement généraliste plutôt que de repartir de zéro à chaque changement de gripper ou de skin tactile. Le chantier des politiques tactiles généralisables reste neuf. Les approches précédentes, comme celles développées autour des capteurs DIGIT (Meta) ou des grippers instrumentés de Stanford et MIT, sont restées cantonnées à des benchmarks monosenseurs. FTP-1 s'inscrit dans la tendance plus large des foundation models appliqués à la robotique physique, portée notamment par Physical Intelligence (Pi-0), Google DeepMind (RoboVLMs) et Figure AI. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; les poids préentraînés, les données et le code d'entraînement sont mis à disposition publiquement sur le site du projet, ce qui pourrait accélérer l'adoption par la communauté académique et les startups robotiques cherchant une base tactile mutualisée.

UELes laboratoires et startups européens travaillant sur la manipulation en contact peuvent exploiter directement les poids, données et code open-source de FTP-1 pour démarrer le développement de politiques tactiles sur leurs propres capteurs sans collecter de données from scratch.

💬 Le +31% sur les capteurs jamais vus pendant l'entraînement, c'est ça le vrai chiffre à retenir. Depuis des années, chaque politique tactile restait coincée sur son hardware, impossible de capitaliser d'un gripper à l'autre sans tout recommencer de zéro. Là on a enfin une base commune open-source pour le toucher, et ça c'est du concret.

IA physiqueOpinion
1 source
Vers une préhension séquentielle fiable d'objets en environnement encombré : solution finaliste du RGMC 2025
5arXiv cs.RO 

Vers une préhension séquentielle fiable d'objets en environnement encombré : solution finaliste du RGMC 2025

Une équipe de chercheurs a présenté à l'ICRA 2025, la principale conférence mondiale en robotique, un système de préhension séquentielle en environnement encombré, décrochant la deuxième place dans la piste "Pick-in-Clutter" de la 10e édition du Robotic Grasping and Manipulation Competition (RGMC 2025). Le système s'évalue sur le Cluttered Environment Picking Benchmark (CEPB), un protocole standardisé conçu pour des scénarios de ramassage séquentiel d'objets hétérogènes entremêlés. La solution combine une pince multifonctionnelle sur mesure, un module de reconnaissance d'objets, des stratégies de désencombrement actif et une approche de préhension multimodale capable de traiter à la fois des pièces rigides et des objets déformables. L'architecture produit une représentation explicite de la distribution spatiale des objets et de leurs relations d'occlusion, permettant au robot de planifier l'ordre de saisie le plus efficace tout en évitant les collisions. Ce résultat est significatif pour les intégrateurs industriels parce qu'il adresse un verrou applicatif précis : non plus saisir un objet isolé avec un taux de succès élevé, mais rechercher et extraire séquentiellement des cibles dans un tas désordonné, cas d'usage courant en picking e-commerce, en tri logistique ou en désassemblage. La gestion des objets déformables (sachets, textiles, pièces souples) reste un différenciateur rare : la plupart des systèmes commerciaux contournent ce cas. Les auteurs distinguent explicitement les "taux de succès élevés sur la saisie unitaire" déjà atteints dans la littérature des "solutions matures pour le tri séquentiel", un écart que ce travail cherche à combler. La validation en conditions de compétition sous contrainte temps, avec des objets non sélectionnés par l'équipe, renforce la crédibilité par rapport aux démonstrations en conditions contrôlées. Le RGMC est organisé annuellement depuis 2011 en marge de l'ICRA et constitue l'une des références de benchmark en manipulation robotique. Sur ce segment, les concurrents directs incluent des systèmes basés sur des grippers adaptatifs (Robotiq, OnRobot) et des solutions de bin-picking comme celles de Photoneo, Mech-Mind ou Roboception, souvent couplées à des pipelines de vision 3D. Aucun acteur européen n'est mentionné dans ce travail. L'article, déposé sur arXiv sous l'identifiant 2606.12954, ne précise pas l'affiliation institutionnelle de l'équipe ni de feuille de route vers une commercialisation. Les prochaines étapes naturelles seraient la mise en open source du benchmark CEPB et une validation sur un spectre plus large d'objets industriels réels.

RecherchePaper
1 source
À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique
6Robotics Business Review 

À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique

X Square Robot a mis en open source XRZero-G0, un système de collecte de données robotiques combinant un casque VR PICO 4 à tracking spatial inside-out, une caméra frontale et deux caméras poignet, ainsi qu'une paire de grippers physiques duals, un gripper en H à actionnement par pression et un gripper en G à entraînement digital. Le dispositif assure une estimation de pose 6-DOF à précision millimétrique et intègre un parsing spatiotemporel embarqué pour synchroniser flux visuels, données de trajectoire et annotations langagières. En parallèle, la société publie le G0-Dataset : 2 000 heures de démonstrations humaines multimodales, disponibles sur HuggingFace avec le code source sur GitHub. Sous conditions expérimentales contrôlées, X Square Robot annonce une réduction des besoins en données réelles pouvant atteindre un facteur 20x : environ 10 épisodes collectés sans robot, combinés à un seul épisode sur robot réel, suffiraient à égaler les performances d'un entraînement purement issu de données robotiques. L'enjeu est direct pour les équipes qui développent des politiques de manipulation dextre : le goulot d'étranglement de l'embodied AI n'est pas le compute, c'est la donnée de qualité à grande échelle. XRZero-G0 formalise ce que le secteur cherche depuis plusieurs années, une pipeline fermée "collecte-inspection-entraînement-évaluation" qui filtre automatiquement les trajectoires invalides via cinématique inverse corps entier avec contraintes de collision et de limites articulaires, et valide par rejeu réel sur robot avant d'intégrer les épisodes à l'entraînement. Si les chiffres de réduction 20x se confirment sur des tâches variées hors conditions de labo, cela change structurellement l'économie de déploiement des VLA (Vision-Language-Action models) : les industriels pourraient composer leurs datasets sans immobiliser de flotte robotique pendant des semaines. Le transfert cross-embodiment revendiqué, démontration humaine transférable à des plateformes non vues à l'entraînement, reste la promesse la plus forte, et la plus à vérifier indépendamment. X Square Robot s'inscrit dans un mouvement plus large de standardisation de la collecte de données robotiques, aux côtés d'initiatives comme Open-X Embodiment (Google DeepMind, 2023), DROID (Berkeley, 2024) ou les efforts de Physical Intelligence autour de pi0. Le positionnement open source du G0-Dataset rappelle la stratégie d'Hugging Face avec LeRobot, visant à créer une infrastructure commune de benchmarking. Aucun concurrent européen direct n'est impliqué ici, bien qu'Enchanted Tools et Wandercraft opèrent sur des segments adjacents (interaction et mobilité bipède) qui pourraient bénéficier de telles ressources de préentraînement. Les prochaines étapes annoncées incluent l'utilisation du dataset pour du préentraînement à grande échelle et des expériences de transfert cross-embodiment, sans timeline commerciale précisée, ce projet reste pour l'instant dans le périmètre recherche.

UELes équipes R&D françaises et européennes (Enchanted Tools, Wandercraft) pourraient exploiter le G0-Dataset open source pour le préentraînement de leurs modèles VLA, réduisant potentiellement leur dépendance à la collecte de données robotiques en flotte, si le facteur 20x se confirme hors conditions contrôlées.

IA physiqueOpinion
1 source
HiPi : des capteurs piézorésistifs haute fidélité et reproductibles pour la manipulation robotique
7arXiv cs.RO 

HiPi : des capteurs piézorésistifs haute fidélité et reproductibles pour la manipulation robotique

Une équipe de recherche a publié en juin 2026 sur arXiv (arXiv:2606.11372) HiPi, un système de capteurs tactiles piézorésistifs conçu pour la manipulation robotique. Le dispositif atteint une fréquence d'acquisition de 220 Hz dans une configuration bimanuelles comprenant quatre matrices tactiles denses, soit 2 048 taxels au total. La carte de lecture est compatible avec les services de fabrication et d'assemblage PCB commerciaux, ce qui supprime le soudage manuel, point de friction majeur dans les déploiements laboratoire. Le microcontrôleur retenu est un module STM32 compact et peu coûteux, et les couches conductrices reposent sur des PCB flexibles (FPCB) qui simplifient la fabrication et l'empilement des capteurs. Dans des expériences avec des motifs de contact structurés imprimés en 3D, HiPi améliore l'IoU moyen de 0,428 à 0,797 et le score Dice moyen de 0,539 à 0,886 par rapport à une baseline reproductible de référence. Ces résultats pointent vers un verrou concret dans la robotique dextère: les capteurs tactiles piézorésistifs sont minces, légers et théoriquement scalables, mais les systèmes existants forçaient jusqu'ici un arbitrage entre facilité de reproduction et fidélité de lecture. Un capteur facile à fabriquer livrait des images de contact dégradées; un capteur haute fidélité restait difficile à assembler hors d'un environnement spécialisé. HiPi prétend lever cet arbitrage en standardisant l'ensemble de la pile matérielle autour de composants accessibles. Pour un intégrateur ou un laboratoire voulant instrumenter des mains robotiques bimanuelles ou multidoigts, cela réduit significativement le coût d'entrée et le temps de mise en oeuvre. Le domaine de la perception tactile pour robots est aujourd'hui fragmenté entre approches optiques (GelSight de MIT, Digit de Meta/CMU), capacitives (XELA Robotics, TACTAXIS) et piézorésistives. HiPi se positionne dans cette dernière catégorie en ciblant spécifiquement la scalabilité vers les grandes surfaces et les configurations multi-capteurs. Il convient de souligner qu'il s'agit d'un preprint académique sans déploiement industriel annoncé, et que les métriques de performance ont été mesurées sur des motifs de contact contrôlés en laboratoire. Aucune timeline de commercialisation ni partenaire industriel n'est mentionné. Les prochaines étapes naturelles seraient une validation sur tâches de manipulation réelles et une intégration dans des plateformes humanoïdes ou bimanuelles commerciales comme celles d'Agility, Figure ou Dexterous Robotics.

RecherchePaper
1 source
Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention
8arXiv cs.RO 

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

Des chercheurs ont publié sur arXiv (référence 2506.12109) un travail présentant InDex, un cadre d'adaptation permettant d'appliquer des modèles Vision-Language-Action (VLA) pré-entraînés aux mains dextres multi-doigts à haut degré de liberté (high-DoF), sans recourir à de larges volumes de données de démonstration. Le problème central adressé est le "morphology gap" : les VLA existants comme Pi-0, RT-2 ou OpenVLA sont presque exclusivement entraînés avec des préhenseurs parallèles à faible degré de liberté (1-DoF), alors que les mains dextres industrielles opèrent avec 12 à 24 DoF ou davantage. Adapter directement ces modèles par fine-tuning bout-en-bout sur mains multi-digitales provoque deux problèmes critiques : l'oubli catastrophique du raisonnement spatial acquis lors du pré-entraînement, et un effondrement de l'espace d'action causé par la rareté des données de démonstration. InDex y répond via une architecture découplée en deux étapes : la première aligne efficacement le backbone VLA pour prédire des trajectoires de bras et une intention de préhension scalaire continue ; la seconde fige ce backbone et utilise une tête de débruitage par diffusion, conditionnée sur cette intention, pour décoder les articulations fines des doigts. Tous les résultats présentés sont des benchmarks en simulation sur des tâches multi-étapes à contact riche, où InDex surpasse les baselines monolithiques. Ce travail identifie une limite structurelle des pipelines VLA que l'industrie commence à percevoir concrètement : passer d'un gripper à pince vers une main dextre n'est pas un simple problème de données supplémentaires, c'est une rupture topologique dans l'espace de contrôle. L'approche par héritage sémantique cross-morphologie réutilise le signal de préhension 1-DoF comme proxy macroscopique d'intention plutôt que de le jeter, ce qui préserve les priors spatiaux acquis. Pour un intégrateur ou un responsable R&D, la promesse est celle d'un fine-tuning efficace en données sur des end-effectors complexes sans repartir de zéro. Une réserve s'impose cependant : l'absence totale de résultats sur hardware réel laisse entière la question du sim-to-real transfer pour des contacts précis au niveau des phalanges, un défi encore non résolu dans le domaine. Le contexte dans lequel s'inscrit InDex est celui de la montée en puissance des VLA comme couche universelle de planification motrice. Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2, et NVIDIA avec GR00T N2 ont chacun démontré des capacités de généralisation remarquables en manipulation générale, mais systématiquement avec des grippers standards. Côté mains dextres, les fabricants Shadow Robot, Inspire Robots ou Schunk disposent d'hardware performant sans politiques visuomotrices généralisables. Des approches concurrentes tentent l'adaptation par apprentissage par renforcement ou par réseaux de diffusion dédiés, mais InDex parie sur la réutilisation maximale des priors VLA existants. La prochaine étape logique serait une validation sur robot réel avec des benchmarks normalisés comme DEXART ou Bi-DexHands ; en l'état, l'article reste une contribution théoriquement solide en simulation, prometteuse mais non encore validée en conditions industrielles.

IA physiqueOpinion
1 source
Capteur tactile déformable en main avec détection intégrée du glissement, de la vitesse, force/couple et carte de pression
9arXiv cs.RO 

Capteur tactile déformable en main avec détection intégrée du glissement, de la vitesse, force/couple et carte de pression

Une équipe de chercheurs présente sur arXiv (preprint 2606.11952, juin 2026) un capteur tactile compact pour la manipulation en main, capable d'intégrer simultanément trois modalités : mesure de vitesse de glissement, force/couple et cartographie de pression, dans un seul dispositif à surface de contact déformable. Le capteur fonctionne sur des géométries planes et courbées pour une large gamme de matériaux. Sa fabrication combine des circuits imprimés standard (PCB) et du prototypage rapide, visant un coût de production bas. Réunir détection de glissement (slip-aware), force/couple et carte de pression dans une seule structure compliante simplifie l'intégration pour les grippers industriels et les mains humanoïdes, qui recourent aujourd'hui à plusieurs capteurs distincts. Cette consolidation réduit la complexité mécanique, les points de défaillance et le câblage embarqué, trois obstacles courants à la commercialisation des robots manipulateurs. Les auteurs affirment être les premiers à combiner ces modalités dans une structure unique ; cette revendication de priorité, portée par un preprint non encore relu par les pairs, reste à confirmer. Le champ des capteurs tactiles souples est animé depuis une décennie par des travaux comme GelSight (MIT), DIGIT (Meta AI Research) et les solutions commerciales de Xela Robotics ou Touchlab. La détection de glissement reste un défi ouvert, directement lié à la fiabilité des saisies en manipulation dynamique. Ce preprint ne documente pas encore d'intégration sur un robot réel ni de tests en conditions industrielles. Les prochaines étapes naturelles seraient une validation sur gripper ou main humanoïde, suivie d'une soumission en conférence robotique (ICRA, IROS ou RSS).

RecherchePaper
1 source
GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique
10arXiv cs.RO 

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

Des chercheurs ont publié le 10 juin 2026 un preprint arXiv (2606.10025) présentant GHOST, un framework pour politiques visuomotrices de manipulation robotique capables de généraliser au-delà de leur distribution d'entraînement. L'architecture repose sur une factorisation hiérarchique en deux niveaux : une politique haut niveau qui prédit le prochain sous-objectif sous forme de distribution sur les poses 3D de l'effecteur terminal à partir d'observations RGB-D multi-vues, et un contrôleur bas niveau conditionné sur ces objectifs qui génère les actions spécifiques à l'embodiment physique du robot. Pour relier les deux niveaux, les auteurs introduisent une interface spatiale qui projette les sous-objectifs 3D prédits dans le plan image sous forme de heatmaps de l'effecteur, une représentation volontairement simple mais compatible avec les pipelines d'entraînement existants. La politique haut niveau est entraînée sur des vidéos de démonstrations humaines brutes, sans retargeting d'actions, tandis que la politique bas niveau reste entraînée exclusivement sur des données robot. Le résultat central est que cette décomposition hiérarchique améliore systématiquement les performances et la robustesse par rapport à une Diffusion Policy plate (architecture de référence populaire depuis les travaux de Chi et al. en 2023) sur une suite de tâches de manipulation. L'insight clé est que les sous-objectifs en espace cartésien de l'effecteur sont largement "embodiment-agnostic" : la même politique haut niveau peut s'appliquer à différentes architectures de robots sans réentraînement complet. Cela contourne un goulot d'étranglement majeur dans le domaine, le retargeting d'actions depuis les démonstrations humaines, qui introduit habituellement un bruit significatif et limite la qualité des données d'entraînement. GHOST s'inscrit dans un courant actif de recherche sur l'utilisation des vidéos humaines comme source de supervision low-cost pour la robotique de manipulation, aux côtés d'approches comme pi-0 de Physical Intelligence ou des travaux sur les VLA (Visual-Language-Action models) de Google DeepMind avec RT-2 et GR00T N2 de NVIDIA. La principale limitation à noter : il s'agit d'un preprint non encore peer-reviewed, sans données de déploiement réel ni métriques de cycle time en contexte industriel. Les résultats concernent une suite de tâches de laboratoire ; la tenue à l'échelle dans des environnements moins contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de commercialisation n'est annoncé.

RecherchePaper
1 source
UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI
11arXiv cs.RO 

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

Une équipe de recherche a déposé le 10 juin 2026 le preprint arXiv 2606.10382 décrivant UMI-Bench 1.0, présenté comme le premier benchmark entièrement dédié à l'évaluation en conditions réelles de politiques de manipulation robotique entraînées via l'Universal Manipulation Interface (UMI). Le benchmark cible la manipulation d'objets sur table (tabletop manipulation) et couvre l'intégralité de la chaîne de validation : collecte de données, réinitialisation de scène entre essais, exécution de politique, journalisation des résultats et analyse par facteurs de tâche. Il opère en mode "local-first", c'est-à-dire que les évaluations tournent directement sur robot réel, sans couche de simulation intermédiaire. L'UMI couple observations depuis une caméra montée au poignet, représentation des actions, collecte de démonstrations humaines et déploiement physique, une architecture dont les performances dépendent de la cohérence de chaque maillon. Ce benchmark répond à un problème structurel de l'apprentissage par imitation : l'absence de protocole standardisé conduit chaque équipe à évaluer ses politiques dans des conditions non comparables, ce qui rend la littérature difficile à arbitrer pour un intégrateur ou un décideur industriel. En rendant le processus reproductible et auditable, UMI-Bench permet de mesurer concrètement dans quelle mesure une politique entraînée sur des démonstrations généralise à des configurations physiques inédites, ce que les chercheurs appellent la sim-to-real (ici demo-to-real) generalization. C'est un enjeu central pour les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models), dont les performances en démonstration sélectionnée restent difficiles à quantifier sans infrastructure de test commune. L'UMI a été introduit en 2023-2024 par Cheng Chi et al. (Columbia University) comme interface portable de collecte de démonstrations : un opérateur guide un gripper équipé d'une caméra et d'un module de localisation, et les trajectoires servent directement à entraîner des politiques. Le paysage concurrent des benchmarks comprend LIBERO, DROID et le framework LeRobot de Hugging Face, qui proposent leurs propres protocoles mais sans calibration spécifique pour le pipeline UMI. L'étape logique suivante serait l'intégration de modèles fondationnels comme pi-0 (Physical Intelligence) ou OpenVLA dans ce protocole de référence, et l'extension à des tâches multi-étapes.

RecherchePaper
1 source
Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée
12arXiv cs.RO 

Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée

Un groupe de chercheurs a publié sur arXiv (réf. 2505.01458, version 2, mai 2025) un état de l'art sur l'utilisation des simulateurs physiques pour entraîner des robots à la navigation et à la manipulation dans le cadre de l'IA incarnée (Embodied AI). L'étude analyse comment les moteurs de simulation réduisent le "sim-to-real gap", c'est-à-dire l'écart de performance constaté quand un agent entraîné en simulation est déployé dans le monde réel. Le survey passe en revue les caractéristiques des principaux simulateurs, leurs contraintes matérielles, et propose un inventaire structuré de datasets de référence, métriques d'évaluation et méthodes existantes. Aucun code ou outil nouveau n'est publié: il s'agit d'une contribution bibliographique et méthodologique. Cette revue intervient alors que le sim-to-real gap demeure l'obstacle principal au déploiement industriel de robots humanoïdes et de bras manipulateurs. Entraîner directement sur du matériel réel est coûteux, lent et risqué, ce qui place la simulation au cœur des pipelines de développement des VLA (Vision-Language-Action models) et des systèmes de navigation autonome. En consolidant des propriétés peu documentées des simulateurs, le survey aide ingénieurs et chercheurs à sélectionner l'outil adapté à leurs contraintes hardware sans avoir à faire une veille exhaustive de la littérature. Les simulateurs en compétition dans cet espace incluent Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google), PyBullet, Webots et Genesis, un moteur GPU-natif récent. L'intérêt pour ce type de synthèse est alimenté par l'accélération du secteur: Figure AI, Physical Intelligence (pi zero), Boston Dynamics, Unitree et Agility Robotics multiplient les annonces de déploiements en environnements industriels réels. Ce survey constitue un point d'entrée structuré pour les équipes qui montent leur pipeline sim-to-real en 2025, à condition de ne pas attendre de benchmarks neutres et indépendants: l'évaluation des simulateurs reste largement conduite par leurs propres éditeurs.

RecherchePaper
1 source
SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante
13arXiv cs.RO 

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

Des chercheurs publient sur arXiv (2606.10305) SARM2, un modèle de récompense dense multi-tâches pour l'affinement de politiques vision-langage-action (VLA) en manipulation robotique, accompagné du framework SPIRAL (Self-Policy Improvement via Reward-Aligned Learning). L'approche combine un estimateur de stade fondé sur des primitives d'action et une tête de valeur Mixture-of-Experts multi-portes (MMoE) pour produire des récompenses denses à chaque étape sur dix tâches de manipulation distinctes. Sur ce benchmark, SARM2 réduit l'erreur quadratique moyenne d'estimation de valeur de 80 % par rapport aux meilleures méthodes existantes. Via SPIRAL, qui génère des rollouts autonomes et les recycle sans démonstrations humaines supplémentaires, le taux de succès progresse de 58 % à 100 % sur "Folding Shorts" et de 50 % à 90 % sur "Cleaning Whiteboard". Ces résultats pointent un levier concret pour réduire la dépendance au clonage comportemental (behavior cloning), approche encore dominante mais coûteuse : elle exige des démonstrations de haute qualité et bloque les politiques près de la distribution d'entraînement. Un reward model suffisamment dense et précis permet d'alimenter un data flywheel autonome, de réduire les cycles de supervision humaine, et d'adapter les politiques à de nouvelles tâches sans re-collecte de données. Le papier adresse aussi un écueil bien connu du secteur : les reward models VLM généralistes sont trop grossiers pour les tâches longue-horizon, tandis que les modèles spécialisés nécessitent des annotations par tâche. L'architecture MMoE multi-tâches vise précisément cet entre-deux, ce qui intéresse directement les intégrateurs devant déployer un même robot sur des variantes de tâches. Ce travail s'inscrit dans la course intense autour des politiques VLA -- Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), OpenVLA (UC Berkeley) -- où la phase de fine-tuning et d'amélioration continue reste un goulot d'étranglement non résolu. SARM2 et SPIRAL se positionnent en briques complémentaires au pré-entraînement, ciblant l'adaptation terrain. À ce stade, il s'agit d'un préprint académique sans déploiement industriel annoncé ni code public disponible, et les benchmarks sélectionnés (pliage de vêtements, nettoyage de tableau blanc) restent des tâches de laboratoire contrôlées. La combinaison reward model dense et self-improvement loop sans démonstrations humaines est néanmoins exactement le type de composant que les acteurs commerciaux comme Agility Robotics, Figure AI ou 1X Technologies cherchent à consolider pour abaisser les coûts d'adaptation en production.

IA physiqueOpinion
1 source
SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique
14arXiv cs.RO 

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

Des chercheurs ont publié fin mai 2026 SAFE-Pruner (arXiv:2605.29662), un framework d'élagage de tokens conçu pour accélérer l'inférence des modèles vision-language-action (VLA) en robotique. Les VLA combinent perception visuelle, compréhension du langage et génération de commandes motrices, mais leur charge computationnelle freine leur déploiement en temps réel. Les méthodes d'élagage existantes s'appuient sur les couches superficielles du réseau et risquent de supprimer des tokens visuels encore requis par les couches profondes. SAFE-Pruner intègre une stratégie prospective qui prédit la saillance future des tokens en exploitant la "semantic attention consistency" : la tendance des VLA à concentrer leur attention sur la même entité sémantique à travers les étapes successives d'exécution. Un second mécanisme, la division adaptative de sous-tâches, détecte les ruptures brusques d'attention pour affiner les prévisions. Sur simulation et en conditions réelles, la méthode atteint un gain de vitesse jusqu'à 1,89x avec une dégradation du taux de succès inférieure à 1,7%, surpassant l'état de l'art de jusqu'à 1,9%. Pour les intégrateurs industriels déployant des VLA sur du matériel embarqué à puissance limitée, un gain de 1,89x sans refonte d'infrastructure représente un levier concret. La contribution théorique sur la cohérence sémantique de l'attention ouvre aussi une piste pour mieux comprendre ce que les VLA perçoivent réellement lors de l'exécution de tâches, un angle utile pour le débogage et la sûreté fonctionnelle. Il faut toutefois rester prudent : les benchmarks présentés ne précisent pas les environnements de test, le matériel utilisé ni le spectre complet des tâches évaluées, un bémol habituel dans les papiers de recherche en manipulation. SAFE-Pruner s'inscrit dans un mouvement plus large d'optimisation des modèles fondation pour la robotique, porté notamment par RT-2 (Google DeepMind, 2023), OpenVLA (Berkeley, 2024) et Pi-0 de Physical Intelligence (2024). Face à des architectures combinant des backbones de plusieurs milliards de paramètres avec un policy head, la communauté explore en parallèle la quantification, la distillation et l'élagage adaptatif. Le framework se présente comme un module plug-and-play compatible avec les VLA existants, ce qui faciliterait l'adoption sans refonte des pipelines si la compatibilité est confirmée sur un panel représentatif de modèles. L'article est disponible en preprint sur arXiv ; aucune intégration dans un framework open-source ni déploiement sur robot commercial n'est annoncé à ce stade.

IA physiqueOpinion
1 source
MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL
15arXiv cs.RO 

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

Des chercheurs ont publié MIND-V, un modèle de monde hiérarchique conçu pour générer automatiquement des vidéos d'entraînement de manipulation robotique à long horizon, problème resté en grande partie non résolu jusqu'ici. L'architecture s'articule autour de trois modules : un Semantic Reasoning Hub (SRH) qui s'appuie sur un vision-language model pré-entraîné pour la planification de tâches, un Behavioral Semantic Bridge (BSB) qui traduit ces instructions abstraites en représentations invariantes au domaine, et un Motor Video Generator (MVG) chargé du rendu vidéo conditionnel. Pour garantir la cohérence physique des séquences générées, les auteurs ont introduit une phase de post-entraînement par reinforcement learning GRPO pilotée par une récompense inédite, la Physical Foresight Coherence (PFC), qui mobilise V-JEPA2 (le modèle de monde de Meta) comme arbitre de physique dans l'espace latent. Les expériences en simulation montrent des résultats état de l'art sur les benchmarks long-horizon, selon les auteurs. Le problème central que MIND-V adresse est la pénurie de données diversifiées pour l'intelligence incarnée : entraîner des politiques de manipulation requiert des milliers d'épisodes réussis sur des tâches enchaînées, données coûteuses à collecter en réel et difficiles à simuler de façon convaincante. L'approche est entièrement autonome, sans trajectoires définies manuellement, ce qui la distingue des générateurs de vidéos robotiques antérieurs limités à des clips courts et des gestes simples. La valeur opérationnelle est directe pour les équipes qui développent des VLA (Vision-Language-Action models) : des pipelines de synthèse de données à grande échelle pourraient réduire significativement la dépendance aux démonstrations téléopérées, principal goulot d'étranglement des robots comme Figure 03, Optimus ou 1X NEO. Ce travail s'inscrit dans une vague de recherche sur les world models pour la robotique, aux côtés de Dreamer, GAIA-1 adapté au robot, et du propre V-JEPA2 de Meta qu'il intègre comme brique de validation physique. L'article, initialement soumis en décembre 2024 (arXiv:2512.06628) et mis à jour en juin 2026, reste à ce stade un résultat en simulation uniquement : aucun déploiement physique ni intégration industrielle n'est mentionné, et le franchissement du sim-to-real gap reste à démontrer sur hardware réel.

IA physiqueOpinion
1 source
UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles
16arXiv cs.RO 

UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles

Une équipe de chercheurs a publié mi-juin 2026 sur arXiv (arXiv:2606.10683) un travail intitulé UniDexTok, proposant une représentation unifiée pour les états de mains dextres hétérogènes, humaines et robotiques. Le coeur du système est le Unified Dexterous Hand Model (UDHM), une interface sémantique partagée à 22 degrés de liberté (DoF) qui normalise les états articulaires de n'importe quelle main dans un espace commun. Sur cette base, UniDexTok est un tokenizer d'états appris exclusivement depuis des données réelles, sans recours au retargeting ni à la simulation. Les gains de précision par rapport à la baseline UniHM sont significatifs : l'erreur angulaire moyenne par articulation (MPJAE) chute de 15,63° à 0,16° (réduction de 98,98 %), et l'erreur de position par articulation (MPJPE) passe de 18,51 mm à 0,18 mm (réduction de 99,03 %), ramenant la reconstruction de l'échelle centimétrique à une précision sub-millimétrique. La portée industrielle de ce résultat tient moins aux chiffres absolus qu'à ce qu'ils rendent possible : un entraînement cross-embodiment sans pipeline de retargeting, qui a longtemps constitué un goulot d'étranglement dans la constitution de datasets pour mains dextres. Jusqu'ici, les données capturées sur une Shadow Hand, une Allegro ou une LEAP Hand étaient difficilement réutilisables pour un autre robot, faute de représentation commune. UniDexTok permet de les agréger : les expériences montrent que des données provenant d'autres embodiments améliorent la reconstruction sur l'embodiment cible, validant le principe de transfert cross-morphologie. Le système affiche également des capacités zero-shot et few-shot lors de l'introduction de nouvelles mains, ce qui réduit le coût d'intégration pour les intégrateurs qui déploient plusieurs plateformes en parallèle. La manipulation dextre reste l'un des défis les plus ouverts de la robotique humanoïde, avec une fragmentation des efforts entre labos (Dexterous Manipulation Group chez CMU, OpenAI Dactyl suspendu, Physical Intelligence avec Pi-0) et industriels (Tesla Optimus, Figure, Unitree). Les approches précédentes comme UniHM avaient posé la question de la représentation unifiée mais avec des erreurs de reconstruction trop élevées pour être exploitables en contrôle fin. UniDexTok s'inscrit dans un mouvement plus large vers des politiques robotiques génériques multi-embodiments, analogue à ce que les VLA (Vision-Language-Action models) tentent du côté de la perception. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat ; il s'agit d'une contribution de recherche fondamentale, dont l'intégration dans des pipelines de formation de politiques reste à démontrer en conditions réelles.

RecherchePaper
1 source
Bras robotique inspiré du poulpe : capteurs tactiles distribués pour une préhension adaptative
17Interesting Engineering 

Bras robotique inspiré du poulpe : capteurs tactiles distribués pour une préhension adaptative

Des ingénieurs ont développé un bras robotique souple inspiré de l'architecture sensorielle de la pieuvre, capable de saisir des objets de forme irrégulière sans s'appuyer uniquement sur le retour visuel. Le dispositif intègre des capteurs tactiles distribués sur l'ensemble d'un membre multi-segments en élastomère, capables d'enregistrer simultanément la force de contact, la géométrie de surface et les événements de glissement. Les capteurs fonctionnent comme des transducteurs piézorésistifs ou capacitifs disposés en grille dense sur la surface interne du bras, produisant une cartographie spatiale de la pression mise à jour en continu pendant la préhension. Une couche d'éléments de détection de forme est intégrée en parallèle, fournissant au contrôleur une estimation en temps réel de la configuration du membre, ce qui permet au bras de connaître sa propre géométrie sans retour visuel. Le système reste à ce stade un prototype démontrant la préhension sur une gamme variée de formes d'objets. L'intérêt de cette architecture réside dans le traitement local du signal tactile, avant toute transmission vers un contrôleur centralisé. En réduisant la latence de communication, le bras peut initier des mouvements correctifs, comme un resserrement autour d'un objet qui glisse, plus rapidement qu'un système à traitement centralisé ne le permettrait. Pour les intégrateurs travaillant sur des environnements non structurés, que ce soit en robotique chirurgicale, inspection sous-marine ou automatisation logistique, cela répond à un verrou réel : la géométrie des objets est rarement connue à l'avance, et l'occlusion visuelle est fréquente une fois le contact établi. La compliance seule, sans feedback sensoriel en boucle fermée, s'est révélée insuffisante dans les travaux antérieurs sur les préhenseurs souples. Cette approche distribuée reproduit le traitement ganglionnaire des céphalopodes, où les réponses réflexes naissent au niveau du membre plutôt qu'au niveau du cerveau central. La pieuvre constitue une référence fonctionnelle établie en robotique depuis plusieurs années, chacun de ses huit bras concentrant environ deux tiers des neurones totaux de l'animal. Les équipes travaillant sur la manipulation dextère avaient identifié cette architecture comme un modèle d'efficacité, mais les tentatives de réplication matérielle se heurtaient au compromis récurrent entre compliance et transmission de force. Côté concurrence, des travaux sur les grippers souples ont été menés par des laboratoires comme MIT CSAIL, ETH Zurich ou des acteurs commerciaux tels que Soft Robotics (aujourd'hui absorbé), sans qu'aucun ne résolve complètement la question du feedback tactile distribué à l'échelle industrielle. Les limitations actuelles du prototype sont réelles : les actionneurs pneumatiques ou à tendons introduisent leur propre latence et nécessitent des sources de pression externes, tandis que la durabilité de l'interface capteur-élastomère sous cycles répétés de flexion reste une question ouverte, non résolue par l'équipe à ce stade.

UELes équipes européennes travaillant sur la manipulation dextre en robotique chirurgicale ou logistique (dont ETH Zurich déjà actif sur les grippers souples) peuvent surveiller cette approche, mais le prototype ne cible pas directement le marché EU et n'implique pas d'acteur français.

RecherchePaper
1 source
Festo lance GripperAI, un logiciel pour simplifier la manipulation flexible des robots
18Robotics & Automation News 

Festo lance GripperAI, un logiciel pour simplifier la manipulation flexible des robots

Festo a lancé GripperAI, un logiciel d'intelligence artificielle destiné à simplifier la préhension flexible en robotique industrielle. La solution permet à un robot de saisir des produits mélangés, inconnus ou positionnés aléatoirement sans programmation préalable, sans chargement de gabarits et sans intégration spécialisée de systèmes de vision. Le logiciel identifie automatiquement le point de préhension optimal pour chaque pièce et sélectionne l'effecteur le plus adapté parmi ceux disponibles, sans intervention d'un intégrateur à chaque changement de référence produit. L'enjeu est significatif pour les lignes de conditionnement, logistique et assemblage léger : la reprogrammation manuelle lors des changements de produits représente aujourd'hui l'un des principaux freins à la flexibilité des cellules robotisées. Une solution capable de gérer le bin-picking et le mixed-SKU handling sans expertise vision spécialisée réduit à la fois les coûts d'intégration et les temps d'arrêt lors des transitions de production. À noter toutefois que l'article source ne précise ni les taux de réussite de préhension, ni les temps de cycle, ni les conditions de test, des métriques indispensables pour évaluer la maturité industrielle réelle du produit. Festo, groupe allemand spécialisé en automatisation pneumatique et électrique avec plus de 20 000 employés, intensifie depuis plusieurs années son virage vers les solutions logicielles et l'IA embarquée. Sur ce segment de la préhension intelligente, la concurrence inclut Pickit (Belge, racheté par Intertek), Robovision et plusieurs offres OEM de FANUC, KUKA et Universal Robots. Les prochaines étapes annoncées par Festo restent floues à ce stade, GripperAI n'ayant pas encore de timeline de déploiement commercial communiquée publiquement.

UEFesto (DE), acteur majeur de l'automatisation industrielle européenne, introduit une solution IA de préhension flexible qui pourrait réduire les coûts d'intégration sur les lignes industrielles EU, dans un segment où des concurrents européens comme Pickit (BE) et Robovision sont directement positionnés.

FR/EU ecosystemeActu
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
19arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
Revisiter la perception des parties articulées en manipulation robotique
20arXiv cs.RO 

Revisiter la perception des parties articulées en manipulation robotique

Des chercheurs ont déposé en juin 2026 (arXiv:2606.08103) une nouvelle approche pour la perception des parties articulées d'objets du quotidien, portes, boîtes et poignées, baptisée GPS (Geometric Primary Structure). Ce cadre représente la géométrie des parties mobiles sous une forme abstraite et générique, collectée via un dispositif de réalité virtuelle portable : l'annotation d'une séquence d'objets prend moins d'une minute, contre plusieurs dizaines de minutes pour les pipelines de labellisation manuelle classiques. Appliqué sur 234 objets répartis en six classes de parties, le système a constitué un corpus de 41 000 frames. Le modèle GPS entraîné accepte en entrée une unique image RGB-D et, sans aucun fine-tuning spécifique au domaine, atteint un taux de réussite de 73 % sur 270 états initiaux couvrant 9 objets en manipulation robotique réelle, à partir d'une politique heuristique basée sur la prédiction GPS. Ce résultat illustre un point clé pour les intégrateurs et les équipes R&D industrielles : la qualité de la représentation perceptive conditionne directement la robustesse de la politique de manipulation. Les deux approches dominantes présentent des compromis défavorables. Les méthodes basées sur la pose nécessitent une annotation intensive et ne passent pas à l'échelle, tandis que les méthodes affordance-based, qui extraient le mouvement futur par point tracking, souffrent de données bruitées ou incomplètes. GPS tente d'occuper le terrain intermédiaire. Un taux de 73 % sans fine-tuning in-domain est une indication sérieuse de généralisation réelle, même si la validation sur 9 objets seulement invite à la prudence avant de conclure que le fossé entre démonstration et déploiement industriel est comblé. Le problème de la manipulation d'objets articulés constitue un verrou reconnu depuis les travaux fondateurs sur WHERE2ACT et les datasets de type OPD (OpenDoors-Dataset). GPS s'inscrit dans un mouvement plus large visant à remplacer les bases de connaissances statiques par des systèmes de perception apprenants et annotables à faible coût. Les auteurs rendent publics le code, les données et l'outil VR (enlighten0707.github.io/gps), ce qui favorise la reproductibilité et l'adoption en recherche. Les extensions naturelles incluent l'intégration avec des politiques de type VLA (Vision-Language-Action), la généralisation à des parties déformables, et la validation sur des objets industriels hors distribution.

RecherchePaper
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
21arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
22arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source
EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet
23arXiv cs.RO 

EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet

Des chercheurs ont publié en juin 2026 sur arXiv un framework baptisé EgoAERO, capable d'apprendre la manipulation dextre à partir d'une unique démonstration vidéo RGB-D égocentrique humaine, sans recourir à aucun asset 3D de l'objet manipulé. Le pipeline enchaîne trois modules : un tracking et une reconstruction de l'objet sans asset préalable, une compensation du mouvement égocentrique de la caméra, et une optimisation adaptative des contacts main-objet. Les trajectoires cohérentes obtenues sont ensuite converties en politiques robotiques via un apprentissage résiduel en deux étapes. Les auteurs introduisent également un mécanisme d'évaluation de qualité en ligne et publient EgoDex-R, un dataset de 4,3 millions de frames RGB-D pour l'entraînement de politiques dextres. En simulation comme en conditions réelles, EgoAERO atteint des performances proches des reconstructions assistées par modèles CAD sur le benchmark HOI4D, référence standard pour l'interaction main-objet. Le verrou technique levé ici est structurant pour la robotique dextre : jusqu'ici, les méthodes d'imitation à partir de vidéo humaine exigeaient soit des scans 3D préalables des objets, soit plusieurs démonstrations, soit des marqueurs visuels. Or, scanner chaque objet d'un environnement industriel ou domestique est un frein majeur à la scalabilité des systèmes. EgoAERO suggère qu'une caméra RGB-D standard (de type Intel RealSense ou intégrée à des lunettes connectées) et une seule prise vidéo suffisent pour bootstrapper une politique robotique fonctionnelle. C'est un signal fort en faveur d'une démocratisation de la collecte de données dextres, potentiellement réalisable par des opérateurs non spécialisés plutôt que par des sessions de télé-opération coûteuses. Ce travail s'inscrit dans une vague de recherche visant à exploiter les corpus vidéo égocentrique à grande échelle (Ego4D, HOI4D, EPIC-Kitchens), jusqu'ici sous-utilisés pour le robot learning faute de géométrie objet exploitable. Les approches concurrentes en manipulation dextre reposent encore largement sur la télé-opération avec gants haptiques (Physical Intelligence avec pi0, Dexterous Manipulation Lab de CMU) ou sur des assets CAD (DITTO, DexMV). EgoAERO n'est à ce stade qu'un preprint, sans déploiement industriel annoncé ni validation sur une large variété d'objets du monde réel : les expériences rapportées restent sur des scènes contrôlées du benchmark HOI4D, et la robustesse à des objets déformables ou transparents reste à démontrer.

RecherchePaper
1 source
La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?
24arXiv cs.RO 

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

Une équipe de chercheurs publie sur arXiv (référence 2507.06219) une étude systématique sur le rôle de la diversité des données dans l'apprentissage de la manipulation robotique, remettant en cause l'intuition du "plus c'est divers, mieux c'est". Trois dimensions sont examinées indépendamment. La diversité des tâches s'avère plus critique que le volume de démonstrations par tâche pour le transfert vers de nouveaux scénarios. L'entraînement multi-robots (multi-embodiment) n'est pas nécessaire au transfert inter-plateformes : un modèle entraîné sur un seul type de robot avec des données de haute qualité transfère aussi efficacement, avec de meilleures propriétés de scaling au fine-tuning. Enfin, la diversité des experts humains peut nuire à l'apprentissage via la multimodalité des vitesses d'exécution, chaque opérateur ayant ses propres rythmes et préférences gestuelles. Pour corriger ce biais, les auteurs introduisent une méthode de distribution debiasing appliquée à leur modèle GO-1-Pro, qui gagne 15% de performance, l'équivalent de multiplier par 2,5 le volume de pré-entraînement. Ces résultats ont des implications directes pour les équipes qui conçoivent des pipelines de collecte de données. La conclusion sur le multi-embodiment est particulièrement contre-intuitive : constituer un corpus mono-robot de haute qualité avant de fine-tuner est plus efficace qu'accumuler des datasets disparates multi-robots. Pour un intégrateur ou un décideur industriel, cela redéfinit les priorités de curation : couvrir un maximum de tâches prime sur l'accumulation brute de démonstrations, et standardiser les démonstrations expert devient un levier de performance mesurable. La multimodalité des vitesses est désormais un biais identifiable et corrigeable en amont du pipeline, pas une fatalité inhérente à la collecte humaine. Ce travail s'inscrit dans la dynamique portée par Google DeepMind (RT-2), Physical Intelligence (Pi-0) et les équipes de Berkeley (OpenVLA, Octo), qui cherchent à construire des fondations généralistes pour la manipulation depuis 2023. Contrairement au texte ou aux images, les données de démonstration robotique restent coûteuses à produire, ce qui rend les choix de stratégie de scaling particulièrement stratégiques. Les conclusions orientent directement les acteurs comme Figure AI (Figure 03), Agility Robotics ou, en France, Enchanted Tools (Mirokaï), qui investissent dans de larges datasets de manipulation. Ce travail est purement académique : aucun déploiement ni partenariat commercial n'est annoncé.

UEEnchanted Tools (Mirokaï) est explicitement citée comme acteur concerné par ces stratégies de scaling des données de manipulation, rendant les conclusions directement applicables à leur R&D en France.

RecherchePaper
1 source
IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique
25arXiv cs.RO 

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Une équipe de chercheurs publie sur arXiv (identifiant 2606.05660, juin 2026) une revue systématique de la sécurité dans les systèmes d'IA incarnée (embodied AI) appliqués à la manipulation robotique à long horizon. Ce survey structure la littérature selon trois niveaux d'intervention : la sécurité au stade de la planification (planning-time), au niveau de la politique de contrôle (policy-time) et pendant l'exécution (execution-time). Les auteurs identifient quatre vecteurs de risque pouvant s'accumuler dans un même système en boucle fermée : le misgrounding sémantique (l'agent interprète mal l'instruction de haut niveau), la propagation d'erreur entre sous-tâches, la dérive d'exécution (execution drift) et les risques physiques liés aux contacts. Ils distinguent par ailleurs trois catégories de garanties dans la littérature existante : formelles, statistiques et heuristiques empiriques, et concluent que les preuves formelles font défaut à chaque couche. L'enjeu est direct pour les intégrateurs et les décideurs industriels. Un bras robotique déployé en entrepôt ou en ligne de production enchaîne des dizaines d'actions sur des horizons temporels étendus, et chaque sous-tâche peut propager silencieusement une erreur vers les suivantes. Or le survey révèle que la sécurité au niveau de la politique de contrôle, au coeur même des modèles VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est la couche la moins documentée empiriquement. Les mécanismes d'intervention déclenchés par l'incertitude (uncertainty-triggered intervention) restent immatures, et les benchmarks spécifiques à la sécurité en manipulation longue durée sont quasi-inexistants, ce qui rend toute validation rigoureuse avant déploiement aujourd'hui difficile. Ce travail paraît dans un contexte d'accélération industrielle : Figure AI, Boston Dynamics, Unitree et Physical Intelligence multiplient les démonstrations de manipulation dextère, souvent en conditions semi-contrôlées, alimentant un écart potentiel entre annonces marketing et réalité opérationnelle. Il convient de souligner que ce papier est une analyse critique de l'existant, pas un nouveau système ou algorithme. Ses recommandations prioritaires portent sur trois axes : des assurances cross-couche cohérentes de la planification jusqu'à l'exécution physique, des benchmarks dédiés à la sécurité en manipulation longue durée, et des protocoles de déploiement progressifs pour les agents robotiques en environnements réels. En creux, le constat est que les capacités du secteur progressent plus vite que les outils pour en évaluer la sécurité.

UEL'absence de benchmarks formels de sécurité pour la manipulation longue durée concerne directement les industriels européens déployant des bras robotisés, et pourrait alimenter les exigences de validation dans le cadre de l'AI Act pour les systèmes robotiques à haut risque.

RecherchePaper
1 source
Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif
26arXiv cs.RO 

Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif

Des chercheurs ont publié en juin 2026 MiTaS (Multi-Resolution Tactile Sensing), un cadre de représentation sensorielle pour la manipulation robotique à contact riche (arXiv:2606.06281). L'architecture fusionne trois modalités : un flux caméra RGB, un capteur tactile visuel GelSight Mini (basse fréquence) et un capteur événementiel haute fréquence Evetac. Des réseaux convolutifs dédiés traitent chaque flux avant une fusion par transformeur, produisant une représentation multi-résolution temporelle qui conditionne une politique apprise par flow-matching. Sur cinq tâches de manipulation à contact, MiTaS atteint un taux de réussite moyen de 80 %, contre 31 % pour la vision seule et 54 % pour une fusion vision-tactile à capteur unique. L'entraînement conjoint multi-tactile permet en outre un gain de plus de 10 % sur certaines tâches, même lorsque le capteur Evetac est absent à l'inférence. Ces résultats isolent empiriquement la contribution de la résolution temporelle hétérogène entre capteurs tactiles : les 26 points d'écart entre vision seule et MiTaS quantifient l'apport du toucher, et les points supplémentaires gagnés sur une fusion mono-capteur montrent que la complémentarité temporelle est effectivement exploitée par le transformeur. Pour les intégrateurs robotiques travaillant sur l'assemblage de précision ou l'insertion de connecteurs, cela suggère qu'associer un capteur événementiel rapide à un capteur optique classique apporte un gain mesurable sans nécessairement disposer du capteur haute fréquence au déploiement. L'analyse d'attention incluse dans l'article identifie quels capteurs dominent à chaque phase de tâche, ce qui aide à dimensionner un setup expérimental. Ces chiffres restent toutefois issus d'un laboratoire : leur robustesse face à l'usure des capteurs ou à la variabilité des surfaces industrielles n'est pas encore documentée. La manipulation à contact riche constitue l'un des verrous persistants de la robotique, où des politiques généralisées comme Pi-0 (Physical Intelligence) progressent vite sur les tâches visuelles mais peinent sur les contacts fins. GelSight, développé au MIT, est depuis plusieurs années le capteur de référence en recherche tactile, tandis qu'Evetac représente une génération plus récente de capteurs événementiels appliqués au toucher. MiTaS se positionne à l'intersection de ces deux domaines, avec une page projet et du code disponibles sur mitas-touch.github.io. Les suites naturelles incluraient des évaluations en transfert sim-to-real et une extension à des politiques sans démonstration humaine directe.

IA physiquePaper
1 source
Ce que mesurent réellement les benchmarks en manipulation robotique
27arXiv cs.RO 

Ce que mesurent réellement les benchmarks en manipulation robotique

Un article de recherche déposé sur arXiv le 4 juin 2026 (arXiv:2606.04233) remet en cause la fiabilité de cinq benchmarks standards en manipulation robotique : LIBERO, CALVIN, SimplerEnv, RoboCasa et RoboTwin 2.0. Les auteurs identifient quatre modes de défaillance structurelle qui invalident leur usage comme proxy de la capacité de manipulation générale : résolution par raccourci (shortcut solvability), absence de significativité statistique, surapprentissage rampant (creeping overfitting) et dépendance à la source de données. Sur LIBERO, une sonde de 90 millions de paramètres, sans encodeur de langage, atteint des scores au niveau ou proches de l'état de l'art rapporté dans la littérature récente, ce qui suggère que les modèles exploitent des artefacts du benchmark plutôt que des compétences réelles. Sur CALVIN, la simple randomisation des positions des blocs dans la plage d'entraînement fait chuter les performances de toutes les politiques testées, révélant une généralisation quasi nulle même dans des conditions marginalement différentes. Ces résultats ont des implications directes pour les équipes qui évaluent des architectures VLA (Vision-Language-Action). Si LIBERO et CALVIN échouent à plusieurs diagnostics, les progrès revendiqués sur ces benchmarks ne constituent pas une preuve crédible de capacité de manipulation générale. La plupart des gains rapportés sur LIBERO ne sont pas statistiquement significatifs, ce qui signifie que de nombreuses publications revendiquent des améliorations qui pourraient n'être que du bruit. Pour les intégrateurs et les décideurs industriels, cela signifie que les scores de benchmarks courants ne sont pas des indicateurs fiables de la maturité réelle d'un système avant déploiement. Le problème n'est pas nouveau, mais il devient critique au moment où des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA sont massivement benchmarkés dans la littérature. RoboCasa et RoboTwin 2.0, moins fréquemment cités dans les claims de progression récents, résistent mieux aux diagnostics proposés et constituent des alternatives plus robustes pour mesurer des progrès réels. Les auteurs publient leurs quatre diagnostics avec des implémentations de référence sur ripl.github.io/manipulationbenchmarkaudit, à destination des chercheurs et des reviewers, pour application avant soumission ou acceptation. La prochaine question est de savoir si des conférences majeures comme CoRL, ICRA ou RSS adopteront ces outils comme critère d'évaluation des soumissions.

UELes équipes de recherche françaises et européennes (INRIA, CEA-List) évaluant des architectures VLA devront appliquer ces diagnostics avant soumission pour ne pas revendiquer des gains qui pourraient n'être que du bruit statistique.

RecherchePaper
1 source
3PoinTr : apprentissage de la manipulation robotique à partir de vidéos humaines non contraintes
28arXiv cs.RO 

3PoinTr : apprentissage de la manipulation robotique à partir de vidéos humaines non contraintes

Une équipe de chercheurs a publié sur arXiv (2603.08485) une méthode baptisée 3PoinTr permettant d'entraîner des politiques de manipulation robotique à partir de vidéos humaines non contraintes, sans recourir à de coûteuses démonstrations téléopérées. Le principe repose sur la prédiction de trajectoires 3D denses de points de scène (point tracks) : un transformer léger dit "visibility-aware" apprend, depuis des vidéos d'humains en train de manipuler des objets librement, comment chaque point de la scène devrait se déplacer. Une politique robotique multitâche en boucle fermée extrait ensuite les priors d'action pertinents depuis ces trajectoires prédites. Avec seulement 20 démonstrations robot étiquetées en action, 3PoinTr surpasse les meilleures baselines de behavioral cloning et de vidéo-préentraînement de 25,0 points de pourcentage en tâches réelles et de 29,6 points en simulation. Ce résultat est notable parce qu'il s'attaque à l'un des goulots d'étranglement structurels du domaine : le coût prohibitif de la collecte de données robot. Les approches existantes de video-pretraining imposent typiquement que l'humain "joue le robot", mouvements chorégraphiés, keypoints prédéfinis, annotations manuelles ou positions de préhension connues. 3PoinTr supprime ces contraintes et exploite des vidéos naturalistes, ce qui élargit considérablement le corpus exploitable (YouTube, vidéos industrielles, données de formation existantes). La gestion des occlusions partielles via la supervision sur les points partiellement occultés représente une avancée technique précise par rapport aux baselines : le transformer conserve un signal d'apprentissage même quand la main ou l'outil masque une partie de la scène. Le travail s'inscrit dans une tendance plus large des Visual-Language-Action models (VLA) et des approches fondées sur les représentations 2D/3D pour le transfert sim-to-real, en compétition directe avec des méthodes comme Track2Act, RoboTAP ou ATM (Action Tracking from Motion). Il se distingue par le passage explicite à la 3D et le faible volume de données supervisées requis. La page projet est disponible chez Adam Hung (adamhung60.github.io/3PoinTr), mais aucune annonce de déploiement industriel ou de partenariat n'est associée à cette publication : il s'agit d'un résultat de recherche, pas d'un produit commercialisé.

RecherchePaper
1 source
Festo lance un préhenseur pneumatique léger et teste GripperAI
29Robotics Business Review 

Festo lance un préhenseur pneumatique léger et teste GripperAI

Festo, fabricant allemand d'automatisation industrielle basé à Esslingen am Neckar, a lancé le HPPH, une pince pneumatique parallèle à deux doigts conçue pour les robots collaboratifs. D'un poids de 0,68 kg, ce préhenseur intègre directement dans son corps la valve de contrôle pneumatique, les capteurs de position et l'interface électrique, supprimant les composants externes habituellement montés en amont sur le bras. L'ouverture maximale atteint 16 mm pour une charge utile maximale de 1 kg. En mode collaboratif, la force de serrage est limitée à 140 N, soit l'équivalent d'une poignée de main ferme, conformément à la norme ISO/TS 15066. Cette limite peut être désactivée pour atteindre 180 N dans les applications non-collaboratives. Le produit est certifié TÜV Süd dans une configuration précise, avec les doigts HAFH-B30-16-45-N, et une version IO-Link est disponible pour le diagnostic à distance et la configuration sans câblage supplémentaire. La pince est commercialisée via le site de Festo et le Universal Robotics Marketplace. En parallèle, l'entreprise a présenté GripperAI, un logiciel de saisie agnostique au robot fonctionnant en edge computing, compatible avec une simple caméra RGB-D 3D et un processeur Core i3 avec 4 Go de RAM minimum, capable de saisir des objets inconnus ou en vrac sans programmation ni apprentissage préalable. Sur les cobots à faible payload, typiquement 3 à 10 kg, chaque gramme de composant externe réduit la charge utile disponible et alourdit le câblage. En intégrant valve, capteurs et interface dans le corps du préhenseur, Festo compresse l'empreinte mécanique et réduit le temps de mise en service, un argument directement mesurable pour les intégrateurs. La certification TÜV Süd vaut la peine d'être lue avec précision : elle porte sur une configuration spécifique, pas sur le produit en général, ce qui impose une vigilance sur les variantes d'installation. Côté GripperAI, la suppression du teach-in répond à un verrou réel : programmer un robot pour saisir un nouveau type d'objet peut mobiliser plusieurs heures d'ingénierie. Si les performances se confirment sur des objets en vrac ou mal positionnés en conditions industrielles réelles, et non seulement dans des démos contrôlées, les cycles de déploiement dans la logistique et le packaging pourraient être réduits de manière significative. Festo opère dans plus de 60 pays avec un catalogue de plus de 30 000 produits interopérables, et s'inscrit dans une tendance qui voit les fournisseurs de composants proposer des couches logicielles pour réduire la barrière à l'entrée des déploiements cobots. Sur le segment des pinces collaboratives, les concurrents directs incluent Schunk (gamme EGP), Robotiq (2F-85, 2F-140), OnRobot et Zimmer Group. Le positionnement edge computing de GripperAI, sans dépendance cloud obligatoire, le distingue des approches SaaS de certains acteurs du marché. Festo n'a pas communiqué de tarif public ni de calendrier de disponibilité générale pour GripperAI à ce stade.

UEFesto étant une entreprise allemande de premier plan en automatisation industrielle, ce lancement d'un préhenseur certifié TÜV Süd et d'un logiciel de saisie IA en edge computing renforce directement l'offre de composants cobots disponibles pour les intégrateurs industriels européens, avec un impact potentiel sur les cycles de déploiement logistique et packaging en Europe.

IndustrielOpinion
1 source
Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable
30arXiv cs.RO 

Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable

Des chercheurs ont soumis sur arXiv (arXiv:2606.03385) le framework GTP-FA, acronyme de Grasp-Then-Plan with Failure Attribution, une architecture en deux étapes pour la manipulation robotique de précision. L'approche découple explicitement la phase de saisie d'objets du planning de trajectoire: le système génère d'abord des candidats de prise en main, sélectionne le plus adapté à la tâche, puis conditionne la planification aval sur ce choix. Quand une séquence de manipulation échoue, un modèle d'attribution des échecs analyse la trajectoire défaillante pour isoler la source du problème, grasping ou planning, et se généralise à des prises non vues lors de l'entraînement. Sur cette base diagnostique, chaque module est optimisé: côté grasping, des priors orientés tâche et des pénalités de risque filtrent les prises instables ou incompatibles avec la tâche; côté planning, une collecte de données ciblée sur les états initiaux à haut risque affine le module de trajectoire. Les résultats sont validés en simulation et sur robot réel, bien que l'abstract ne détaille pas les chiffres précis de taux de succès obtenus. Ce que GTP-FA résout est un angle mort persistant: dans les pipelines grasping-planning couplés, l'origine d'un échec reste opaque, ce qui transforme l'optimisation en tâtonnement coûteux et peu reproductible. Le framework s'applique indifféremment aux paradigmes d'apprentissage par renforcement (RL), par imitation (IL), par diffusion policy, et aux architectures VLA (Vision-Language-Action), et améliore les taux de succès globaux dans chacun selon les auteurs. C'est une contribution méthodologique transversale: elle ne remplace pas les architectures VLA émergentes mais s'y superpose, ce qui la rend potentiellement intégrable dans des systèmes existants sans refonte architecturale. La manipulation robotique de précision est aujourd'hui l'un des principaux fossés entre les démonstrations en laboratoire et le déploiement industriel. Des acteurs comme Physical Intelligence (modèle pi-0), Google DeepMind (GR00T N2) ou Figure AI investissent massivement dans des architectures VLA généralisables, mais la fiabilité de la prise en main dans des conditions non contrôlées reste un verrou documenté. GTP-FA adresse ce verrou depuis la recherche académique, sans affiliation commerciale identifiée dans ce préprint. Les suites naturelles incluront la validation sur objets déformables ou transparents, catégories où le grasping échoue le plus fréquemment, et l'intégration dans des tâches à horizon long en environnements peu structurés.

UEContribution méthodologique académique publiquement accessible aux équipes de recherche robotique européennes, sans impact institutionnel ou industriel direct identifié en France/UE.

RecherchePaper
1 source
IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable
31arXiv cs.RO 

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

Une équipe de chercheurs publie en juin 2026 (arXiv:2606.03784) une réévaluation du chain-of-thought incarné (CoT) appliqué aux modèles vision-langage-action (VLA) pour la manipulation robotique généraliste. Pour mener cette étude à grande échelle, les auteurs ont constitué le plus grand corpus de ce type jamais assemblé : 978 743 trajectoires, 226,3 millions d'échantillons et 2 592,5 heures de données robot. Leur modèle ERVLA atteint 86,9 % de succès sur LIBERO-Plus et 53,2 % sur VLABench, surpassant les baselines de référence, notamment sur les tâches de désambiguïsation sémantique et d'exécution à longue portée en environnement réel. Le code, les données et les checkpoints seront prochainement disponibles en accès ouvert. Le principal apport théorique porte sur la manière d'intégrer le raisonnement linguistique dans une politique robotique. Les auteurs établissent que le CoT explicite, utilisé comme préfixe autorégressif avant chaque action, accumule des erreurs au fil des étapes et génère un couplage instable entre raisonnement et commande motrice. De même, le raisonnement de haut niveau seul, sans ancrage dans des descriptions concrètes comme les trajectoires d'effecteur terminal ou les positions dans l'espace image, n'apporte que des gains marginaux. ERVLA résout cette tension via une stratégie de "reasoning-dropout" : le modèle assimile des traces de raisonnement riches pendant l'entraînement, mais prédit les actions directement à l'inférence, sans décodage CoT. Ce découplage améliore la montée en échelle avec le volume de préentraînement et stabilise l'exécution. C'est un signal clair pour les équipes travaillant sur des politiques généralisables : la valeur du langage réside dans ce qu'il apprend au modèle, pas dans ce qu'il verbalise au moment du déploiement. Ces travaux s'inscrivent dans une compétition intense autour des fondations VLA capables de généraliser hors de leur distribution d'entraînement, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. La mise à disposition de 2 592 heures de données robotiques en accès ouvert constitue en elle-même une contribution notable dans un secteur où la pénurie de données reste un verrou majeur. Aucun déploiement industriel n'est mentionné : ERVLA est à ce stade un résultat de recherche académique, avec des validations sur robot réel mais sans pipeline de production annoncé.

UELa publication en accès ouvert de 2 592 heures de données robotiques et des checkpoints ERVLA offre une ressource directement exploitable par les équipes de recherche françaises et européennes travaillant sur les politiques VLA généralisables.

RechercheOpinion
1 source
Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique
32arXiv cs.RO 

Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique

Une équipe de chercheurs publie dans un préprint arXiv daté du 3 juin 2026 PACT (Preference-calibrated Actor-Critic Training), un cadre d'apprentissage par renforcement avec supervision humaine (HIL-RL) pour la manipulation robotique. Le problème ciblé est connu : quand un opérateur reprend la main pour corriger le robot, les trajectoires collectées contiennent des segments suboptimaux que les méthodes actuelles propagent indistinctement dans le calcul des récompenses, surestimant les Q-valeurs et biaisant la politique vers des comportements sous-performants. PACT introduit un modèle de progression entraîné sur des démonstrations humaines pour identifier ces segments défaillants, puis construit des paires de préférence entre l'action correctrice humaine et l'action rééchantillonnée de la politique au même état d'intervention. Cette comparaison génère un avantage contrefactuel qui pénalise les cibles de Bellman sur les segments suboptimaux, complété par un alignement direct de la politique sur les actions correctives dans l'espace des moyennes bornées. Sur cinq tâches de manipulation réelle-robot, PACT affiche une amélioration moyenne du taux de succès de 24,5 % et une convergence 1,3 fois plus rapide que les méthodes HIL-RL de référence. Le code est disponible en open source sur dépôt GitHub anonymisé. Ces résultats s'attaquent à un goulot d'étranglement pratique du HIL-RL : la supervision humaine améliore l'efficacité en échantillons, mais introduit du bruit quand les corrections arrivent après plusieurs actions déjà incorrectes. En extrayant les signaux de préférence implicitement des interventions, sans annotation post-hoc coûteuse, PACT permet à un opérateur non-expert d'intervenir naturellement pendant l'entraînement sans dégrader la qualité des données. La convergence accélérée réduit directement le temps d'adaptation sur de nouvelles tâches, un facteur critique pour le déploiement en environnements industriels variables. Le HIL-RL s'appuie sur des travaux fondateurs comme DAgger (Ross et al., 2011) et IWR (Mandlekar et al., 2020), complétés par des variantes comme HG-DAgger, qui pondèrent les transitions différemment sans toutefois distinguer explicitement les segments suboptimaux. PACT se positionne comme une extension ciblée de cette famille. La manipulation robotique est par ailleurs traversée par les approches VLA (Vision-Language-Action), comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la généralisation zero-shot, une stratégie complémentaire plutôt qu'opposée au fine-tuning supervisé par intervention humaine. Le préprint, non encore peer-reviewed, ne mentionne ni partenaires industriels ni calendrier de déploiement ; la distance entre banc de test robotique de laboratoire et production industrielle reste entière.

UEImpact indirect : ce cadre HIL-RL open-source pourrait accélérer les travaux des équipes européennes de robotique industrielle cherchant à réduire le coût d'adaptation de robots à de nouvelles tâches en production.

RecherchePaper
1 source
Modèles du monde pour la manipulation robotique : une synthèse de la littérature
33arXiv cs.RO 

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

Une revue de littérature publiée sur arXiv (2606.00113) cartographie l'état de l'art des modèles du monde (world models) appliqués à la manipulation robotique. Les auteurs recensent cinq familles de représentations prédictives : modèles de dynamique latente, générateurs vidéo conditionnés par l'action, prédicteurs de scène 3D et 4D, simulateurs à contraintes physiques, et modules prédictifs embarqués dans les systèmes vision-langage-action (VLA). La revue couvre 34 jeux de données de manipulation et propose une taxonomie fonctionnelle distinguant les modèles intégrant prédiction et action de ceux servant de planificateurs explicites. Trois axes structurent l'analyse : quelle représentation future est prédite, comment la prédiction se connecte à l'action, et à quel moment du pipeline d'apprentissage robotique elle intervient. Cette synthèse répond à un besoin concret : le terme "world model" recouvre des réalités très hétérogènes, ce qui brouille les comparaisons et ralentit les transferts technologiques entre laboratoires. En posant une définition opérationnelle stricte (un world model est un système prédictif conditionné par l'action, distinct des modules de perception, des politiques ou des fonctions de valeur), les auteurs établissent un cadre commun dont manquait le secteur. La revue confirme que ces systèmes évoluent d'outils de simulation spécialisés vers une infrastructure générique pour l'apprentissage robotique : génération d'expériences synthétiques, filtrage de candidats, vérification de résultats. Ce glissement architectural touche directement les pipelines de pré-entraînement, de post-entraînement et d'adaptation à l'inférence, trois phases critiques pour quiconque industrialise un robot manipulateur. Le domaine a accéléré avec l'essor des VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), et l'adoption des architectures Transformer en robotique, mais sans convergence méthodologique. La fragmentation reflète une course entre grands labs (Google DeepMind, MIT, Stanford, Berkeley) et startups qui ne partagent ni benchmarks ni protocoles d'évaluation communs. Les défis ouverts identifiés par les auteurs, notamment la modélisation des contacts, le contrôle des hallucinations, l'alignement action-prédiction et le benchmarking en boucle fermée, tracent un agenda de recherche pour les prochaines années. Pour les équipes travaillant sur la manipulation industrielle ou les bras collaboratifs, cette revue constitue une feuille de route pour choisir quelle classe de world model intégrer selon le cas d'usage : data augmentation, planification prédictive ou vérification de trajectoires.

UELes équipes européennes (INRIA, CEA-List, labos collaboratifs) travaillant sur la manipulation robotique peuvent s'appuyer sur cette taxonomie pour structurer leurs choix d'architecture world model, mais aucun acteur ni financement européen n'est impliqué directement.

RecherchePaper
1 source
RoboTrustBench : évaluation de la fiabilité des modèles du monde vidéo pour la manipulation robotique
34arXiv cs.RO 

RoboTrustBench : évaluation de la fiabilité des modèles du monde vidéo pour la manipulation robotique

Une équipe de recherche a publié en juin 2026 RoboTrustBench (arXiv:2606.01600), un benchmark conçu spécifiquement pour évaluer la fiabilité des modèles vidéo du monde (video world models) appliqués à la manipulation robotique. Le jeu d'évaluation repose sur des épisodes réels issus du dataset DROID et comprend 1 207 paires instruction-image validées par des experts. Les modèles sont soumis à quatre scénarios progressivement contraignants : Normal (instructions valides et réalisables), Constraint-Sensitive (contraintes environnementales ou physiques), Counterfactual (états initiaux impossibles ou contradictoires) et Adversarial (instructions non sûres ou malveillantes). Le protocole d'évaluation s'articule autour de six dimensions et 13 critères fins, et mobilise à la fois des annotateurs humains et des MLLM (multimodal large language models) comme juges. Sept modèles vidéo représentatifs ont été évalués dans ce cadre. Les résultats révèlent une dissociation nette entre qualité visuelle et fiabilité opérationnelle : les modèles produisent des vidéos cohérentes en apparence, mais échouent sur le raisonnement sous contrainte, l'ancrage contrefactuel, les interactions physiques plausibles et, fait plus préoccupant, la suppression d'instructions non sûres. Pour les intégrateurs et les équipes robotique qui utilisent ces modèles comme simulateurs de planification ou comme oracles de vérification, cela signifie qu'une métrique de qualité vidéo seule ne peut pas servir de proxy de confiance. La capacité à rejeter une instruction dangereuse ou physiquement impossible est un prérequis de déploiement industriel que les architectures actuelles ne satisfont pas. Les video world models ont pris une place croissante dans la recherche en robotique depuis 2024, avec des travaux comme UniSim, DIAMOND ou Genie, qui les positionnent comme substituts légers de simulateurs physiques pour l'entraînement et la planification. DROID, le dataset sous-jacent de RoboTrustBench, est l'une des collections de trajectoires de manipulation réelles les plus utilisées en recherche académique. L'absence de benchmark centré sur la robustesse adversariale et les cas limites physiques était identifiée comme un angle mort du domaine. RoboTrustBench comble ce manque, mais la publication ne présente pas de modèle amélioré ni de solution : elle caractérise le problème et fournit l'infrastructure d'évaluation pour orienter les prochains travaux de fine-tuning ou d'alignement de ces modèles sur des critères de sûreté.

RecherchePaper
1 source
Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain
35arXiv cs.RO 

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Une équipe de chercheurs a publié en juin 2026 sur arXiv (identifiant 2606.00054) un état de l'art sur l'utilisation de vidéos humaines pour entraîner des modèles Vision-Langage-Action (VLA) appliqués à la manipulation robotique. Le papier recense et structure les travaux existants en quatre familles d'approches selon le type d'information extraite : les représentations d'action latentes (encodage des changements entre frames successives), les modèles du monde prédictifs (prévision des frames futures), la supervision 2D explicite (extraction de cues dans le plan image) et la reconstruction 3D explicite (récupération de géométrie ou de mouvement). Les auteurs identifient en parallèle trois verrous ouverts : la structuration de vidéos non annotées en épisodes d'entraînement exploitables, l'ancrage des supervisions vidéo en actions exécutables malgré l'hétérogénéité des embodiments et des points de vue, et la conception de protocoles d'évaluation prédictifs des performances de déploiement réel. L'enjeu derrière cette consolidation est direct : collecter des démonstrations robotiques à grande échelle coûte cher, prend du temps et reste intimement lié à un hardware spécifique. Les vidéos humaines, elles, sont disponibles en quantité quasi illimitée sur internet et capturent une richesse d'interactions physiques et sémantiques inaccessible autrement. Si les méthodes recensées parviennent à combler l'écart d'embodiment, elles pourraient réduire drastiquement le coût de généralisation des VLA, aujourd'hui l'un des principaux freins à leur déploiement industriel. Ce survey arrive à un moment où le gap entre démo de laboratoire et transfert réel reste le problème n°1 du secteur : aucune approche n'y répond complètement, mais la taxonomie proposée clarifie où en est la recherche. Le contexte est celui d'une accélération des VLA generalistes depuis 2024, portée par des modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) ou Octo. Ces architectures ont montré une capacité de généralisation prometteuse mais toutes dépendent encore massivement de données de téléopération humaine, coûteuses à acquérir. Ce survey s'inscrit dans un effort collectif pour identifier des alternatives scalables, et les ressources compilées sont accessibles publiquement sur GitHub. Les prochaines étapes naturelles incluent des benchmarks standardisés croisant vidéos humaines et transfert zero-shot vers des robots industriels, un angle encore peu exploré par les acteurs européens comme Enchanted Tools ou Wandercraft, qui pourraient y trouver un levier de différenciation.

UELes acteurs français comme Enchanted Tools et Wandercraft pourraient exploiter la taxonomie proposée pour réduire leur coût d'acquisition de données VLA, mais aucun impact opérationnel direct n'est documenté à ce stade.

RechercheOpinion
1 source
Deux degrés de liberté pour le transport vibratoire dans une prise
36arXiv cs.RO 

Deux degrés de liberté pour le transport vibratoire dans une prise

Des chercheurs présentent dans un preprint arXiv (2605.30780, mai 2026) un système de manipulation en main à deux degrés de liberté reposant sur des vibrations asymétriques. Le principe : une surface mobile, pilotée en position en boucle fermée, applique un profil de type stick-slip (collé-glissant) à la pièce saisie par un préhenseur. Deux paramètres du signal périodique gouvernent le comportement de la pièce : l'accélération en phase de collage et l'accélération en phase de glissement. En jouant sur leur rapport, il est possible de déplacer la pièce contre la gravité à une vitesse moyenne contrôlée. Un banc expérimental instrumenté avec encodeur haute résolution et contrôle de la force de serrage valide les prédictions analytiques. L'équipe développe ensuite une surface vibrante 2-DDL capable de combiner translation dans une direction et rotation autour de la normale à la surface. En montant deux de ces surfaces en configuration de préhenseur à mâchoires parallèles, le système peut translater et faire pivoter bidirectionnellement une variété de pièces, avec les mêmes lois de commande pour les deux mouvements. L'intérêt industriel est réel : la manipulation en main reste un goulet d'étranglement dans les cellules de montage et de kitting. Aujourd'hui, reconfigurer l'orientation d'une pièce exige soit un re-saisissement (drop-and-pick), soit un poignet robotique à DDL supplémentaires, deux solutions coûteuses en temps de cycle. Un préhenseur vibrant passif, sans actionneurs embarqués complexes, qui réoriente la pièce pendant le transport pourrait réduire ce goulot sans modifier l'architecture du bras. Les résultats confirment également que les lois analytiques reliant accélérations et vitesse de glissement restent valides pour la rotation en plan, ce qui simplifie la conception de trajectoires unifiées translation-rotation. La manipulation vibrante remonte aux travaux de Reznik et Canny dans les années 1990 sur les champs de force programmables et aux convoyeurs industriels à vibrations. Ce travail s'inscrit dans un regain d'intérêt pour la manipulation non-préhensile appliquée aux effecteurs discrets. Côté concurrence, des approches alternatives incluent les doigts pneumatiques à actionneurs distribués (type SDH de Schunk) ou les surfaces à friction variable (grippers à électroadhérence). Aucun partenaire industriel ni date de commercialisation ne sont mentionnés : il s'agit à ce stade d'un résultat académique, sans prototype intégré sur bras réel ni démonstration en boucle fermée visuelle, deux étapes nécessaires avant un transfert applicatif.

RecherchePaper
1 source
ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression
37arXiv cs.RO 

ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression

Des chercheurs ont publié le 28 mai 2026 sur arXiv (réf. 2605.28231) ProgVLA, un modèle vision-langage-action (VLA) compact de 0,1 milliard de paramètres conçu pour la manipulation robotique sous contraintes strictes de calcul et de mémoire. L'architecture repose sur deux mécanismes principaux : un encodeur multimodal à double étage de rééchantillonnage Perceiver, qui compresse des flux variables d'entrées visuelles, linguistiques et proprioceptives en un ensemble fixe de tokens de contexte prêts au contrôle, et un ensemble de "têtes de progression" auxiliaires entraînées par apprentissage par renforcement hors-ligne sur des cibles normalisées d'horizon restant. Ces têtes fournissent à la politique une estimation interne de l'avancement de la tâche, ce qui permet un apprentissage par imitation via flow-matching pondéré par l'avantage et le succès. Sur deux benchmarks standards de manipulation multi-tâche, ProgVLA atteint des taux de réussite compétitifs avec des modèles pré-entraînés nettement plus grands, et les dépasse sur les niveaux de difficulté élevés et les tâches à horizon long. Le modèle a également été validé dans des environnements réels de type "toy kitchen", une validation limitée mais concrète. L'intérêt principal pour les intégrateurs et les équipes de recherche appliquée réside dans le profil de compromis : 0,1 milliard de paramètres seulement, contre les 7B à 70B typiques des VLA récents comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ce ratio ouvre la voie à un déploiement sur des plateformes embarquées à budget GPU limité, un obstacle central à la commercialisation des robots manipulateurs au-delà des démonstrateurs de laboratoire. Les ablations publiées sont précises : le rééchantillonneur de contexte appris et le fine-tuning visuel adaptatif à la tâche constituent les deux plus grandes sources de gain, tandis que l'entraînement conscient de la progression apporte un bénéfice supplémentaire ciblé sur les tâches multi-objets et à horizon long. Ce résultat contredit partiellement l'hypothèse selon laquelle seule la taille du modèle détermine la performance sur les tâches complexes. ProgVLA s'inscrit dans une vague de travaux visant à comprimer les VLA sans sacrifier leur capacité de généralisation, une direction prise également par des équipes comme celles qui travaillent sur la distillation de politiques pour des plateformes à faible puissance. Face aux modèles de référence que sont RT-2 (Google DeepMind), OpenVLA (UC Berkeley) et Pi-0, ProgVLA occupe le segment "edge-deployable" encore peu disputé par des solutions validées hors laboratoire. Deux limites sont à noter : le code et les données de benchmark n'étaient pas encore publiés au moment de l'annonce, et la validation réelle se restreint à un environnement toy-kitchen, ce qui rend prématurée toute extrapolation vers des contextes industriels ou des robots commerciaux de type Franka ou UR.

UELes équipes de R&D robotique européennes travaillant sur des plateformes embarquées pourraient surveiller ProgVLA comme alternative légère aux VLA dominants, mais aucun acteur ou programme européen n'est directement impliqué.

IA physiqueOpinion
1 source
GE-Sim 2.0 : une feuille de route vers des simulateurs vidéo en boucle fermée pour la manipulation robotique
38arXiv cs.RO 

GE-Sim 2.0 : une feuille de route vers des simulateurs vidéo en boucle fermée pour la manipulation robotique

Une équipe de recherche a publié sur arXiv (arXiv:2605.27491) GE-Sim 2.0, un simulateur vidéo en boucle fermée conçu pour l'entraînement et l'évaluation de politiques de manipulation robotique. Le système, Genie Envisioner World Simulator 2.0, prolonge l'architecture de génération vidéo conditionnée par l'action de son prédécesseur et a été ré-entraîné sur des milliers d'heures de données robotiques réelles couvrant la télé-opération, les interactions contact-rich et le déploiement de politiques embarquées. Trois nouveaux modules ferment la boucle simulation-apprentissage : un "state expert" qui décode l'état proprioceptif depuis les latents vidéo pour alimenter les politiques VLA (Vision-Language-Action) en prédiction de trajectoire ; un "world judge" qui évalue automatiquement les rollouts générés face aux instructions de tâche, produisant des signaux de réussite vérifiables sans inspection manuelle ; et un framework d'accélération capable de générer un rollout de 25 frames en 2,3 secondes sur un seul GPU H100, avec jusqu'à 4x de frame skipping à l'inférence pour les scénarios longue-portée. Avec seulement 2 milliards de paramètres, le modèle domine le classement public WorldArena, devançant à la fois des world models robotiques dédiés et des générateurs vidéo généralistes en source fermée. L'enjeu central est le sim-to-real gap, la difficulté chronique à transférer des politiques entraînées en simulation vers des robots réels. GE-Sim 2.0 tente d'y répondre sur deux fronts : en générant des données synthétiques crédibles sur lesquelles entraîner des politiques VLA, avec des gains mesurables en conditions réelles selon les auteurs, et en automatisant l'évaluation des rollouts via le world judge, un goulot d'étranglement qui nécessitait jusqu'ici infrastructure physique ou inspection humaine. Pour les équipes travaillant à l'échelle sur des politiques de manipulation, l'équation coût-délai d'itération pourrait évoluer sensiblement. La performance au benchmark WorldArena avec 2B paramètres seulement suggère une efficacité paramétrique notable, même si les benchmarks de simulation ne garantissent pas directement des performances terrain. GE-Sim 2.0 s'inscrit dans la continuité directe de Genie Envisioner, framework de génération vidéo conditionné par l'action publié par la même équipe. Le marché des world models pour la robotique s'est densifié rapidement, avec notamment UniSim et des travaux issus de Google DeepMind, IRASim, ainsi que les simulateurs développés par Physical Intelligence autour de pi_zero. Dans l'espace VLA, Lerobot (Hugging Face) et plusieurs groupes académiques de MIT et Stanford investissent des directions parallèles. Ce résultat reste une pré-publication arXiv sans révision par les pairs ; les "gains mesurables en conditions réelles" annoncés ne sont pas quantifiés précisément dans l'abstract, ce qui limite l'interprétation des performances de transfert. La prochaine étape logique serait une validation externe sur des benchmarks physiques standardisés.

RechercheOpinion
1 source
Douceur avant tout : une pince robotique souple cueille les fruits mûrs sans les meurtrir
39Robohub 

Douceur avant tout : une pince robotique souple cueille les fruits mûrs sans les meurtrir

Des chercheurs du laboratoire Organic Robotics Lab de Cornell University, dirigé par Rob Shepherd, professeur de mécanique au Duffield College of Engineering, ont développé un préhenseur robotique souple capable de prédire la maturité de fruits au toucher et de les cueillir sans les endommager. Le système repose sur des capteurs fibre optique étirables intégrés dans les doigts du gripper : un capteur mesure la courbure du doigt lors de la saisie, un second mesure la pression à l'extrémité. Ensemble, ils permettent au robot d'estimer la forme de l'objet et d'ajuster sa prise en temps réel. Un mécanisme d'engrenage planétaire dans le poignet permet de faire pivoter le fruit pour le détacher en torsion, plutôt que de l'arracher, ce qui préserve la tige et le fruit. Une caméra embarquée dans la paume complète le dispositif pour détecter les fruits masqués par le feuillage. Les tests ont été réalisés sur des fraises, en partenariat avec Marvin Pritts, professeur d'horticulture au College of Agriculture and Life Sciences, spécialiste des méthodes de production durables pour les baies. Le modèle a été entraîné à corréler la rigidité mesurée par les capteurs avec le stade de maturité, puis validé par analyse colorimétrique visuelle. L'intérêt industriel de cette approche dépasse la fraise. Shepherd cite notamment l'avocat, l'ananas et le pawpaw, fruits dont la maturité est indétectable à l'oeil nu et qui résistent mal au transport ou à la mécanisation classique. Pour les intégrateurs en agri-tech, la combinaison sensorimotrice de ce gripper ouvre une voie concrète vers la récolte automatisée de fruits fragiles à haute valeur ajoutée, un segment aujourd'hui encore très dépendant de la main d'oeuvre humaine. La propriété clé du système est que les jauges de contrainte optiques partagent les mêmes propriétés mécaniques que la structure du doigt souple, ce qui élimine la discontinuité mécanique typique des capteurs rigides greffés sur des actionneurs mous. C'est un point de conception non trivial : les capteurs ne perturbent pas le comportement du préhenseur, ils en font partie intégrante. Le laboratoire Organic Robotics Lab travaille depuis plusieurs années sur l'extension des capteurs fibre optique étirables aux systèmes robotiques souples, après en avoir démontré le potentiel pour la proprioception et la perception tactile dynamique. La collaboration avec le département d'agriculture de Cornell marque une inflexion appliquée dans des travaux jusqu'ici majoritairement fondamentaux. Sur le plan concurrentiel, plusieurs acteurs se positionnent dans la récolte robotisée douce : Abundant Robotics (racheté), Tortuga AgTech, ou encore le projet Agrobot en Europe, mais la plupart s'appuient sur vision seule ou sur des capteurs de force rigides. L'originalité de Cornell réside dans l'intégration sensorielle mécano-optique dans la structure même du préhenseur. Le dispositif est au stade de prototype de recherche, aucun calendrier de commercialisation ni partenariat industriel n'a été annoncé à ce jour.

RecherchePaper
1 source
HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste
40arXiv cs.RO 

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste

Des chercheurs ont publié sur arXiv (arXiv:2605.26638) HyperSim, un framework bout-en-bout conçu pour transférer des politiques de manipulation robotique de la simulation vers le monde réel. La méthode repose sur trois piliers : la synthèse d'environnements haute fidélité visuelle, la génération de trajectoires adversariales, et un co-entraînement mixte simulation/réel. Validée sur 400 exécutions de tâches en conditions réelles, HyperSim atteint des taux de succès sim-to-real de 80 % avec le modèle ACT et 95 % avec π₀ (le modèle VLA de Physical Intelligence). Les politiques entraînées avec des trajectoires adversariales affichent par ailleurs un taux de complétion supérieur de 35 % sous perturbations physiques dynamiques, par rapport aux baselines sans ce module. Ces résultats adressent directement l'un des verrous les plus cités dans le déploiement de robots manipulateurs industriels : le sim-to-real gap, c'est-à-dire la dégradation de performance entre une politique entraînée en simulation et son comportement réel. Un taux de 95 % avec π₀ sur des tâches de manipulation représente un niveau de robustesse rarement publié à cette échelle d'évaluation (400 runs, trois métriques granulaires). Pour les intégrateurs et les équipes R&D, cela valide concrètement l'hypothèse que la donnée synthétique, lorsqu'elle est correctement augmentée et diversifiée, peut substituer en grande partie la collecte physique coûteuse. À noter cependant : l'article ne détaille pas les types de tâches ni les objets testés, ce qui limite l'interprétation de la généralité des résultats. La problématique sim-to-real est au cœur des efforts de plusieurs équipes concurrentes : Google DeepMind (avec RoboVerse et ses pipelines de données synthétiques), Physical Intelligence (dont le modèle π₀ est justement l'un des deux benchmarks utilisés ici), et des laboratoires académiques comme Stanford et CMU. HyperSim se distingue par son approche intégrée plutôt que modulaire, cherchant à traiter simultanément le gap visuel et le gap dynamique. La prochaine étape naturelle, non précisée dans le preprint, serait de tester la généralisation à des plateformes humanoïdes ou des scénarios multi-objet en environnement non structuré.

UELes laboratoires européens en manipulation robotique (CEA-List, INRIA) pourraient intégrer ce framework pour réduire leur dépendance aux démonstrations physiques coûteuses, sans implication institutionnelle directe.

RecherchePaper
1 source
RoboManipBaselines : un cadre unifié d'apprentissage par imitation pour la manipulation robotique en environnements réels et simulés
41arXiv cs.RO 

RoboManipBaselines : un cadre unifié d'apprentissage par imitation pour la manipulation robotique en environnements réels et simulés

Des chercheurs de l'ISRI-AIST, le laboratoire national de recherche industrielle japonais, ont publié RoboManipBaselines, un framework open-source unifié pour l'apprentissage par imitation appliqué à la manipulation robotique. Disponible sur GitHub et accompagné d'une page projet dédiée, ce cadre couvre l'intégralité du pipeline d'imitation learning : collecte de données, entraînement de politiques et exécution en rollout, aussi bien en simulation que sur robots réels. Concrètement, il supporte plusieurs simulateurs et environnements physiques via une interface unifiée, intègre des capteurs multimodaux (dont tactiles et capteurs 3D), et propose une bibliothèque de modèles de politiques variés. Les évaluations publiées s'appuient sur des datasets publics, ce qui est explicitement conçu pour garantir la reproductibilité des résultats. Plusieurs applications de recherche sont démontrées : augmentation de données, intégration de modèles tactiles, systèmes robotiques interactifs, évaluation de la perception 3D, et extensions matérielles. Ce framework répond à un problème structurel de la recherche en manipulation robotique : l'absence de benchmarks standardisés reproductibles, qui rend la comparaison entre approches quasi impossible et ralentit les transferts vers l'industrie. En proposant un pipeline cohérent du sim au réel, RoboManipBaselines facilite l'évaluation du sim-to-real gap, l'un des verrous critiques avant tout déploiement industriel. Pour un intégrateur ou un ingénieur robotique, l'extensibilité annoncée (ajout de nouveaux robots, tâches et politiques) réduit le coût d'entrée pour tester des architectures de type VLA (Vision-Language-Action) sur des configurations matérielles propres. C'est aussi un outil de validation expérimentale qui peut accélérer la qualification de politiques avant passage en production. L'imitation learning pour la manipulation connaît une effervescence depuis 2023-2024, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA, ou encore les travaux de Stanford et Berkeley. Dans cet écosystème, plusieurs frameworks concurrents existent déjà, notamment LeRobot de HuggingFace, RoboSuite (Stanford), ou MimicGen. RoboManipBaselines se distingue par son accent explicite sur la reproductibilité via datasets publics et son ancrage dans un laboratoire national disposant de plateformes matérielles réelles. L'AIST, acteur historique de la robotique japonaise (humanoïde HRP inclus), apporte une crédibilité expérimentale que les frameworks purement académiques n'ont pas toujours. La prochaine étape naturelle serait une adoption par des équipes industrielles pour valider des politiques sur des tâches d'assemblage ou de picking en conditions non contrôlées.

RecherchePaper
1 source
Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique
42arXiv cs.RO 

Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique

Des chercheurs ont publié sur arXiv (arXiv:2409.20473v3) un cadre méthodologique permettant, pour la première fois, de quantifier la contribution individuelle de chaque capteur tactile à la performance d'une politique d'apprentissage par renforcement profond (DRL) appliquée à la manipulation dextère. L'étude cible la Shadow Hand, une main robotique à 24 degrés de liberté équipée de 92 capteurs tactiles. En deux étapes, les auteurs réduisent ce réseau dense à 14 capteurs tout en conservant plus de 90 % de la performance initiale sur trois tâches de manipulation standardisées (bloc, oeuf, stylo). La première phase, empirique, écrête le nombre de capteurs de 92 à 21 en maintenant 93 % des performances. La seconde phase, plus fine, combine une régression par processus gaussiens (GPR) et une régression Lasso pour classer l'importance fonctionnelle de chaque capteur restant. Le résultat le plus saillant contredit l'intuition habituelle en robotique : les capteurs du doigt médius contribuent négativement à l'apprentissage, dégradant activement la politique DRL plutôt que de l'améliorer. À l'inverse, le pouce, l'annulaire et l'auriculaire concentrent l'essentiel de l'information utile au contrôle de contact. Pour les intégrateurs et les équipes de R&D en manipulation robotique, cela signifie qu'une réduction drastique du nombre de capteurs n'est pas seulement possible sans sacrifier les performances, elle peut même les améliorer en éliminant des signaux redondants ou antagonistes. Des expériences de transfert zéro-shot sur deux nouveaux objets et une validation croisée sur l'Allegro Hand et la Leap Hand confirment que ces classements d'importance se généralisent au-delà de la plateforme d'entraînement. La problématique de placement de capteurs tactiles reste largement non résolue dans la littérature, en l'absence de méthodes systématiques comparables à celles développées pour la vision. Ce travail s'inscrit dans un contexte où plusieurs laboratoires et entreprises, dont Sanctuary AI, Agility Robotics ou encore OpenAI avec Dexterous Manipulation, investissent massivement dans la manipulation fine comme prochain verrou de la robotique humanoïde. Les concurrents directs sur la Shadow Hand incluent des frameworks basés sur le sim-to-real (IsaacGym, MuJoCo), qui peinent encore à modéliser fidèlement le retour tactile dense. Les auteurs proposent leurs critères de déploiement comme des guidelines quantitatifs applicables à d'autres morphologies robotiques, ouvrant la voie à des configurations capteurs optimisées dès la phase de conception mécanique plutôt qu'a posteriori.

RecherchePaper
1 source
GEM-4D : modèles du monde vidéo enrichis par la géométrie pour la manipulation robotique
43arXiv cs.RO 

GEM-4D : modèles du monde vidéo enrichis par la géométrie pour la manipulation robotique

Une équipe en soumission anonyme (probablement ICCV ou NeurIPS 2025) publie GEM-4D sur arXiv, un modèle mondial vidéo ancré géométriquement pour la manipulation robotique. Le constat de départ est bien documenté : les VWM (Video World Models) génèrent des séquences futures visuellement plausibles à partir d'une instruction, mais ne maintiennent pas la cohérence du mouvement au niveau des points entre les images, ce qui les rend inutilisables pour l'exécution d'actions physiques fiables. GEM-4D résout cette limitation en injectant, pendant l'entraînement, une supervision de correspondances 4D denses distillée depuis un modèle de fondation géométrique pré-entraîné dans le backbone génératif vidéo, tout en conservant une architecture single-stream sans surcoût à l'inférence. Un module de dynamique inverse convertit ensuite les rollouts vidéo cohérents en trajectoires exécutables, déployables en simulation comme en réel. Sur la combinaison prédiction vidéo et cohérence géométrique, GEM-4D atteint l'état de l'art, et le taux de succès en manipulation réelle progresse de 61 % à 81 %, soit un gain de 20 points. Ce gain de 20 points sur des tâches réelles est le chiffre central : il valide l'hypothèse que la supervision géométrique suffit à combler le gap entre apparence visuelle et ancrage physique. Pour les intégrateurs et décideurs industriels, l'architecture single-stream représente un avantage concret, sans module géométrique séparé à maintenir en opération. Cela positionne les VWM comme une alternative sérieuse aux approches VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, jusque-là perçues comme plus directement actionnables. La réserve habituelle s'applique : la soumission reste anonyme, les vidéos de la page projet ne permettent pas encore d'évaluation indépendante, et le protocole de test en environnement réel n'est pas détaillé dans le résumé disponible. Les VWM appliqués à la robotique constituent un axe de recherche actif depuis 2023, avec des travaux précurseurs comme UniSim (OpenAI) ou IRASim. GEM-4D s'y distingue en apportant la cohérence géométrique 3D+temporelle qui faisait défaut, en s'appuyant sur des modèles de fondation pour la reconstruction dense, domaine où l'INRIA Paris (à l'origine de DUSt3R et MASt3R) est un acteur européen de référence. La chaîne supervision géométrique → génération vidéo → action robotique apparaît ainsi viable à l'échelle d'un déploiement réel. Les prochaines étapes naturelles seront une validation sur des benchmarks standardisés comme RLBench ou LIBERO, et des tests hors des environnements de laboratoire contrôlés.

UELes modèles géométriques de fondation de l'INRIA Paris (DUSt3R, MASt3R) constituent la base de la supervision géométrique de GEM-4D, positionnant la recherche européenne en reconstruction dense comme un maillon clé de la prochaine génération de modèles de manipulation robotique.

RechercheOpinion
1 source
Robots mous mobiles terrestres : une revue de la littérature
44arXiv cs.RO 

Robots mous mobiles terrestres : une revue de la littérature

Une équipe de chercheurs vient de publier sur arXiv (référence 2605.20304) une revue systématique consacrée aux robots mobiles terrestres à corps souple (soft mobile robots) dépourvus de roues. Ce travail recense les avancées passées et récentes en matière de stratégies de locomotion, méthodes d'actionnement, approches de modélisation et systèmes de contrôle. Les domaines d'application ciblés sont larges : recherche et sauvetage, surveillance, services aux personnes, exploration d'environnements hostiles et fabrication industrielle. Il s'agit d'un preprint non encore soumis à révision par les pairs, ce qui en limite pour l'instant l'autorité formelle, mais le périmètre de la revue en fait une référence de synthèse utile pour ce domaine en expansion rapide. Les robots à corps souple tirent leur intérêt de leur capacité à se déformer, à s'adapter à des surfaces irrégulières et à naviguer dans des espaces confinés inaccessibles aux plateformes rigides conventionnelles. Contrairement aux robots à roues ou articulés rigides, ils présentent une conformité mécanique intrinsèque qui réduit les risques d'endommagement de l'environnement et de l'objet manipulé. Pour les intégrateurs industriels et les équipes de robotique d'intervention, cette synthèse identifie explicitement les verrous technologiques à lever : précision du contrôle en boucle fermée sur un corps déformable, durabilité des matériaux souples sous cycles répétés, autonomie énergétique limitée, et surtout le "sim-to-real gap", c'est-à-dire l'écart persistant entre les simulations physiques et le comportement réel des structures élastomères en environnement non contrôlé. La robotique souple terrestre s'est constituée comme champ autonome depuis le milieu des années 2010, portée par des laboratoires comme le Harvard Wyss Institute (robots pneumatiques, grippers en silicone) et le MIT CSAIL, ainsi que plusieurs groupes européens soutenus par les programmes Horizon 2020. Les méthodes d'actionnement recensées couvrent un spectre large : actionneurs pneumatiques et hydrauliques, alliages à mémoire de forme (SMA), élastomères diélectriques, tendons et câbles. En positionnement indirect face aux plateformes rigides de Boston Dynamics (Spot) ou ANYbotics (ANYmal) sur les marchés d'inspection, la robotique souple vise des niches où la conformité et la discrétion mécanique priment sur la vitesse ou la force brute. Les prochaines étapes attendues par la communauté sont la standardisation des métriques de performance comparatives et l'intégration de méthodes d'apprentissage automatique pour le contrôle adaptatif en conditions réelles.

UELa revue mentionne explicitement des groupes européens financés par Horizon 2020 comme contributeurs au champ de la robotique souple, offrant un ancrage indirect pour les équipes R&D européennes qui suivent ce domaine.

RecherchePaper
1 source
TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle
45arXiv cs.RO 

TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle

Une équipe de chercheurs a publié TwinRL (arXiv:2602.09023), un framework de post-entraînement qui couple un jumeau numérique reconstruit par smartphone avec du reinforcement learning (RL) en monde réel pour affiner des modèles Vision-Language-Action (VLA) en manipulation robotique. La méthode se déroule en trois phases successives : un warm-up par fine-tuning supervisé (SFT), un warm-up RL dans le jumeau numérique, puis du RL directement sur robot. Sur quatre tâches de manipulation testées, TwinRL atteint un taux de succès proche de 100 % en configuration distributionnelle et hors-distribution, avec une convergence 30 % plus rapide que les méthodes de RL réel existantes. Élément frappant : seulement 20 minutes d'interaction physique sur robot sont nécessaires pour obtenir ces résultats, contre des heures ou journées typiques pour les approches concurrentes. L'importance de ce résultat tient à un verrou bien connu du secteur : les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) généralisent bien mais restent coûteux à affiner, car ils dépendent de démonstrations expertes massives et leur exploration en RL réel est lente et peu couvrante. Les auteurs montrent expérimentalement que l'espace d'exploration du RL en ligne reste structurellement contraint par la distribution de trajectoires issue du SFT initial, ce qui explique les plafonds de performance observés dans la littérature. TwinRL contourne ce problème en utilisant le jumeau numérique non pas comme outil d'augmentation de données, mais comme guide actif d'exploration : il identifie les configurations difficiles et dirige les rollouts humains là où le robot échoue, réduisant drastiquement le temps on-robot. Pour un intégrateur ou un COO industriel, cela signifie que le déploiement de robots polyvalents pourrait ne plus nécessiter des semaines de collecte de données en production. Ce travail s'inscrit dans une vague de recherches cherchant à résoudre le sim-to-real gap sans recourir à des simulateurs coûteux : ici, la reconstruction du jumeau numérique part de simples captures smartphone, ce qui abaisse significativement la barrière d'entrée. Les approches concurrentes incluent le RL en simulation pure (souvent peu transférable), la distillation de politiques, et les méthodes de curriculum learning. TwinRL se distingue par son pipeline hybride et son usage ciblé de l'humain dans la boucle. Aucune date de déploiement industriel ni partenariat commercial n'est annoncé, il s'agit d'un résultat de recherche académique, mais la faible exigence en temps robot ouvre des perspectives concrètes pour des cellules de manipulation flexible dans l'industrie manufacturière ou logistique.

RechercheOpinion
1 source
Les robots ont-ils vraiment besoin de mains anthropomorphiques ? Comparaison entre mains humaines et robotiques
46arXiv cs.RO 

Les robots ont-ils vraiment besoin de mains anthropomorphiques ? Comparaison entre mains humaines et robotiques

Une revue systématique publiée sur arXiv (2508.05415) pose une question directe : les robots ont-ils vraiment besoin de mains anthropomorphes ? Après analyse de 125 articles scientifiques couvrant 2019 à 2025, les auteurs concluent que les mains à cinq doigts, souvent présentées comme l'objectif ultime de la manipulation robotique, ne sont pas nécessaires pour la majorité des tâches. En comparant les propriétés biomécaniques de la main humaine (degrés de liberté, capteurs cutanés, contrôle moteur) avec les mains robotiques commerciales disponibles aujourd'hui, ils montrent que la complexité mécanique ne se traduit pas systématiquement par une meilleure dextérité pour la manipulation en main (in-hand manipulation). Des mécanismes à deux ou trois doigts se révèlent souvent aussi efficaces pour des applications industrielles ciblées. Pour les intégrateurs et les décideurs industriels, ce résultat remet en cause une hypothèse répandue : reproduire la morphologie humaine ne garantit pas des performances humaines. La revue établit qu'une main à cinq doigts augmente l'étendue des tâches réalisables, mais apporte peu d'avantage pour la manipulation fine d'objets déjà saisis. Plus significatif encore, l'intégration de capteurs et les stratégies de manipulation intelligentes restent sous-exploitées dans la littérature, car la recherche se concentre sur la réplication du nombre de doigts et des DOF plutôt que sur la robustesse mécanique et la compliance. Les auteurs soulignent que des mains plus souples et robustes permettraient un meilleur apprentissage par contact environnemental et une intégration plus dense de capteurs, deux leviers actuellement sacrifiés au profit de l'esthétique biomimétique. Cette remise en question survient dans un contexte de course au design anthropomorphe, portée par les humanoïdes de Figure (Figure 03), Tesla (Optimus Gen 3), 1X Technologies et Agility Robotics, dont les mains à cinq doigts sont systématiquement mises en avant dans les communications marketing. La question n'est pourtant pas nouvelle : les grippers industriels bi-digitaux de Robotiq, OnRobot et Schunk dominent les lignes d'assemblage depuis des années. L'accumulation de preuves empiriques sur 125 publications donne à cet argument une base scientifique que les annonces de lancement ne pouvaient pas offrir. Les auteurs plaident pour des critères d'évaluation standardisés, un manque criant alors que chaque laboratoire définit ses propres benchmarks, condition nécessaire pour que le secteur sorte du cycle annonce/démo et entre dans une phase d'industrialisation mesurable.

UELes conclusions valident empiriquement l'approche des fabricants de grippers industriels européens comme Schunk (DE) et OnRobot (DK), dont les solutions bi/tri-digitales dominent les lignes d'assemblage face à la tendance anthropomorphe des humanoïdes américains.

RecherchePaper
1 source
DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles
47arXiv cs.RO 

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

DexWild est un framework de collecte de données et d'apprentissage pour la manipulation robotique dextère, publié en mai 2025 sur arXiv (2505.07813). L'idée centrale consiste à remplacer la téléopération coûteuse par la capture directe de gestes humains dans des environnements du quotidien. Une équipe diverse de collecteurs utilise le DexWild-System, un dispositif portable et peu onéreux, pour enregistrer des heures d'interactions avec des objets variés dans de multiples contextes réels. Le framework co-entraîne ensuite un modèle sur ces démonstrations humaines combinées à un volume minimal de données robot spécifiques. Les résultats mesurés atteignent 68,5 % de taux de succès dans des environnements non vus à l'entraînement, soit près de quatre fois mieux qu'une politique entraînée sur données robot seules, et une généralisation cross-embodiment (transfert vers d'autres morphologies robotiques) améliorée d'un facteur 5,8. Le goulot d'étranglement des données est un problème structurel pour la manipulation dextère. La téléopération reste la méthode dominante pour produire des datasets de haute qualité, notamment chez Physical Intelligence avec pi-0 ou chez Figure pour ses robots humanoïdes, mais son coût freine la diversité de distribution couverte. DexWild propose un paradigme alternatif : laisser des humains collecter nativement des données gestuelles en vie réelle, puis transférer ces politiques vers des robots via co-training. Si ces performances se confirment hors laboratoire, cette approche pourrait réduire significativement le coût d'acquisition de données pour les intégrateurs industriels, en particulier sur des tâches de pick-and-place complexes. Il convient de noter que le papier est un preprint non encore peer-reviewed et que les vidéos de démonstration sont sélectionnées, deux points qui invitent à la prudence sur la reproductibilité réelle. Ce travail s'inscrit dans la tendance du scaling de datasets robotiques, aux côtés d'Open-X Embodiment et DROID. Sur la problématique du transfert human-to-robot, les approches concurrentes directes incluent UMI (Universal Manipulation Interface, Stanford/Columbia), qui utilise une gripper portable pour capturer des démonstrations dans des environnements non structurés, et les travaux de l'équipe de Sergey Levine à UC Berkeley sur l'apprentissage depuis des vidéos humaines. DexWild se distingue par la diversité explicite de ses collecteurs et la structure de co-training formalisée. Le code et les datasets sont accessibles sur dexwild.github.io ; aucun déploiement industriel ni timeline commerciale n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Pince dextérique et souple à actionnement hydraulique doux pour la manipulation en microgravité
48arXiv cs.RO 

Pince dextérique et souple à actionnement hydraulique doux pour la manipulation en microgravité

Des chercheurs ont présenté DexCoHand, un préhenseur à deux doigts et six degrés de liberté (DOF) à actionnement hydraulique souple, conçu pour étendre les capacités de manipulation d'Astrobee, le robot volant libre de la NASA présent à bord de la Station spatiale internationale (ISS). Le gripper actuel d'Astrobee est limité à un seul DOF sous-actionné, suffisant pour s'accrocher aux rampes de la station mais inadapté à des tâches de manipulation continue. DexCoHand, décrit dans un preprint arXiv publié en mai 2026 (arXiv:2605.17851), a été évalué dans le simulateur MuJoCo sur la séquence d'accrochage standard incluant l'approche, le perchage, puis des mouvements de panoramique et d'inclinaison. Des expériences matérielles ont également été conduites sur Terre. Aucun test en orbite n'est rapporté à ce stade. La difficulté centrale de la manipulation en microgravité est que toute force de contact exercée par l'effecteur se répercute directement dans le mouvement de la base flottante, rendant les tâches précises particulièrement instables avec un système rigide ou à faible DOF. Les résultats de simulation montrent que DexCoHand préserve les mouvements commandés en panoramique et inclinaison tout en réduisant les perturbations non voulues sur les axes transversaux de la base, comparé au gripper d'origine. L'actionnement hydraulique souple offre une compliance passive qui absorbe une partie de l'énergie de contact, un avantage documenté en robotique terrestre mais encore peu exploré pour les systèmes orbitaux. Ces résultats sont pertinents pour la conception de robots d'entretien autonomes de stations spatiales, un segment où la manipulation dextère reste un verrou technologique non résolu. Astrobee a été déployé sur l'ISS en 2019 par le NASA Ames Research Center pour assister les astronautes dans des tâches de surveillance et de logistique. Sa plateforme ouverte a favorisé une série de travaux académiques sur l'extension de ses capacités. Dans le domaine des manipulateurs spatiaux opérationnels, les systèmes actifs incluent le Canadarm2 de la NASA, le bras JEMRMS de la JAXA et le projet CAESAR de l'ESA. DexCoHand s'inscrit dans un courant de robotique souple appliquée à l'espace, où la tolérance aux chocs et la légèreté sont critiques. Les prochaines étapes naturelles seraient des tests en micropesanteur simulée, via vols paraboliques ou bassin neutre, avant toute qualification orbitale.

UEImpact indirect : l'ESA développe en parallèle le projet CAESAR sur les manipulateurs spatiaux, domaine où ces travaux sur la compliance hydraulique en microgravité pourraient alimenter la réflexion, mais aucune entité française ou européenne n'est impliquée dans cette recherche.

RecherchePaper
1 source
DiffPhD : solveur différentiable unifié pour matériaux hétérogènes projectifs en élastodynamique avec accélération GPU multi-contacts
49arXiv cs.RO 

DiffPhD : solveur différentiable unifié pour matériaux hétérogènes projectifs en élastodynamique avec accélération GPU multi-contacts

DiffPhD est un solveur différentiable GPU-accéléré pour la simulation de corps mous hétérogènes en élastodynamique, publié en prépublication sur arXiv (référence 2605.14526) en mai 2026. Le cadre traite simultanément trois verrous techniques qui bloquaient les approches existantes : les matériaux à forts contrastes de rigidité, les grandes déformations hyperélastiques, et les interactions de contact répétées. Sur des benchmarks combinant ces trois régimes, DiffPhD affiche un gain de vitesse jusqu'à dix fois supérieur aux solveurs différentiables précédents, tout en restant convergent pour des contrastes de rigidité jusqu'à 100x là où les méthodes Projective Dynamics (PD) classiques divergent. Trois innovations architecturales y contribuent : des poids projectifs sensibles à la rigidité pour encoder l'hétérogénéité dans le système global, un filtrage par valeurs propres en région de confiance appliqué à la passe arrière (backward pass) pour stabiliser les gradients hyperélastiques, et un schéma d'Anderson Acceleration de type II à convergence double seuil. Une factorisation creuse unique est réutilisée pour les passes avant, arrière et de contact, avec un amortissement de Rayleigh intégré dans ce même facteur, réduisant le coût récurrent à presque zéro. L'intérêt pour la robotique est direct : DiffPhD rend tractable l'optimisation bout-en-bout par gradient sur des scénarios hybrides auparavant inaccessibles, notamment la manipulation par préhenseur souple (soft gripper) et le transfert Real2Sim pour des assemblages hétérogènes rigide-souple. L'identification de systèmes (system identification) et l'optimisation de trajectoires sur des matériaux composites deviennent numériquement viables là où la fragilité du solveur ou le coût par itération constituaient jusqu'ici un goulot d'étranglement. Pour les équipes travaillant sur la simulation de préhension ou la calibration de modèles déformables, ce type de solveur réduit le gap simulation-réalité sans sacrifier la stabilité de convergence. Il faut toutefois noter que le gain annoncé de "jusqu'à un ordre de grandeur" s'appuie sur des benchmarks synthétiques, sans validation sur matériel physique réel. DiffPhD s'inscrit dans la lignée des Projective Dynamics (Bouaziz et al., 2014), méthode qui a dominé la simulation temps réel de corps mous grâce à son découplage entre contraintes locales et système linéaire global. Son extension différentiable DiffPD avait ouvert l'optimisation par gradient, mais restait fragile face à l'hétérogénéité matérielle et aux contacts répétés. DiffPhD se positionne directement contre DiffPD et contre les approches à éléments finis différentiables comme DiffTaichi ou le framework Warp de NVIDIA. Aucune mise à disposition de code ni annonce de déploiement industriel ne figure dans la prépublication : la contribution reste pour l'instant académique, avec des applications démontrées en animation (créatures composites, personnages mous manipulant des objets rigides) et en robotique de manipulation.

RecherchePaper
1 source
Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques
50arXiv cs.RO 

Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques

Une équipe de chercheurs a publié sur arXiv (2507.00990) un système baptisé RIGVid (Robots Imitating Generated Videos) permettant à un robot de réaliser des tâches de manipulation complexe, comme verser un liquide, essuyer une surface ou mélanger des ingrédients, en imitant uniquement des vidéos générées par IA, sans aucune démonstration physique ni données d'entraînement spécifiques au robot. Le pipeline fonctionne en trois étapes : à partir d'une commande en langage naturel et d'une image de la scène initiale, un modèle de diffusion vidéo génère des vidéos de démonstration candidates, un VLM (vision-language model) filtre automatiquement celles qui ne correspondent pas à la commande, puis un tracker de pose 6D extrait les trajectoires d'objets. Ces trajectoires sont ensuite retargetées vers le robot de manière agnostique à l'embodiment, c'est-à-dire sans nécessiter de recalibration spécifique à la morphologie du bras utilisé. L'impact est notable pour les intégrateurs et les équipes de recherche en manipulation robotique : supprimer la collecte de démonstrations physiques, étape longue et coûteuse dans les pipelines d'imitation learning, est un verrou industriel majeur. Les évaluations en conditions réelles montrent que les vidéos générées et filtrées atteignent une efficacité équivalente aux démonstrations humaines réelles, et que la performance progresse avec la qualité du modèle génératif utilisé. Le système surpasse également des alternatives plus compactes comme la prédiction de keypoints via VLM, et le tracking 6D de pose s'avère supérieur au tracking dense de points de features. Ces résultats valident expérimentalement l'hypothèse que les générateurs vidéo state-of-the-art constituent une source de supervision viable pour la manipulation robotique, au moins sur des tâches de difficulté modérée. Ce travail s'inscrit dans un champ de recherche en effervescence autour du "learning from video" sans interaction physique, en concurrence directe avec des approches comme les VLA (vision-language-action) de Physical Intelligence (pi-0), les politiques de diffusion type Diffusion Policy, ou encore l'usage de données synthétiques issues de simulateurs. L'approche RIGVid se distingue par son absence totale de données robot et son pipeline entièrement basé sur des modèles généralistes off-the-shelf. À noter que ce papier est une prépublication arXiv (v3, donc ayant déjà subi plusieurs révisions), sans validation par peer-review complet à ce stade, et que les tâches évaluées restent relativement contraintes en termes de variabilité de scène et de généralisation out-of-distribution.

RechercheOpinion
1 source