Aller au contenu principal

Recherche — page 2

1310 articles · page 2 sur 27

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts
51arXiv cs.RO RecherchePaper

Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.11826) un framework de conception pour mains robotiques anthropomorphiques dextres, fondé sur une approche modulaire de sélection des doigts. Le principe : évaluer quantitativement des prototypes de doigts de manière indépendante, via une batterie de benchmarks, avant leur intégration dans une main complète téléopérée. Les variations testées portent sur le type d'articulation, la structure osseuse, les matériaux de peau et le placement des capteurs. Le framework a été validé sur deux tâches concrètes : la saisie simultanée de plusieurs objets et le vissage d'une ampoule, deux exercices représentatifs de la manipulation dextre à contraintes mécaniques variables. Ce travail s'attaque à un verrou structurel du domaine : la conception de mains dextres souffre d'un espace de design trop vaste, où morphologie, actuation et capteurs interagissent de façon non-linéaire. Les méthodes d'optimisation existantes traitent rarement plus d'un critère à la fois, ce qui rend les comparaisons inter-prototypes difficiles et les itérations coûteuses. En découplant l'optimisation des doigts de la validation au niveau de la main entière, le framework proposé réduit potentiellement le temps de screening et établit un lien quantitatif entre les métriques composant et la performance globale en tâche. Pour les équipes d'ingénierie et les intégrateurs, c'est une promesse de pipeline de développement plus prédictif, moins dépendant de l'empirisme. À noter : l'article est un preprint arXiv, sans peer review encore validé, et les gains de performance sur les deux tâches choisies restent difficiles à extrapoler à des scénarios industriels réels. La conception de mains dextres est un enjeu central pour les robots humanoïdes actuels : Figure AI, 1X, Apptronik, et Agility Robotics dépendent toutes de mains capables d'alimenter des pipelines de téléopération et d'apprentissage par imitation pour entraîner des modèles VLA. Côté académique, des groupes à Stanford, CMU et au MIT travaillent sur des architectures similaires, tandis que Shadow Robotics (UK) reste la référence commerciale en matière de main dextre à actuation tendon. En Europe, Pollen Robotics (Bordeaux) intègre des mains articulées dans sa plateforme Reachy, et Enchanted Tools (Paris) développe des mains expressives pour ses robots Miroka. Ce preprint ne s'accompagne pas d'annonce commerciale ni de calendrier de déploiement, mais la méthodologie de benchmarking modulaire pourrait être adoptée comme standard de facto dans les équipes hardware des startups d'humanoïdes, où la vitesse d'itération sur les effecteurs est aujourd'hui un facteur différenciant clé.

UEPollen Robotics (Bordeaux) et Enchanted Tools (Paris) sont directement mentionnés comme bénéficiaires potentiels de cette méthodologie de benchmarking modulaire, qui pourrait accélérer leurs cycles d'itération sur les effecteurs.

1 source
Pilotage du comportement multi-robots par édition affine des activations en boucle fermée
52arXiv cs.RO 

Pilotage du comportement multi-robots par édition affine des activations en boucle fermée

Une équipe de chercheurs a publié le 11 juin 2026 (arXiv:2606.11489) une méthode baptisée CLAE (Closed-Loop Affine Activation Editing), permettant de piloter le comportement d'une flotte de robots sans modifier les poids du modèle de base. Plutôt que de recourir au fine-tuning ou au réentraînement complet de la politique, CLAE intervient à l'inférence en éditant directement les activations intermédiaires du réseau neuronal. Concrètement, la méthode entraîne d'abord un auto-encodeur sparse sur les activations d'une politique gelée, identifie les features latentes pertinentes pour le comportement visé via sondage post-hoc, puis apprend une politique de pilotage légère par renforcement qui applique des transformations affines sur ces latents en temps réel. Les validations portent sur une flotte de quadrotors en simulation et en tests physiques, naviguant vers des positions objectif tout en évitant des obstacles. CLAE y démontre trois capacités distinctes : contrôle du profil de vitesse individuel de chaque appareil, maintien d'une formation configurable entre plusieurs robots, et émergence d'un comportement entièrement nouveau consistant à minimiser l'exposition aux caméras de surveillance présentes dans l'environnement. Ce que cette approche prouve, c'est qu'il est possible de découpler l'adaptation comportementale du cycle de réentraînement, un point structurant pour les intégrateurs industriels et les équipes de déploiement en production. Le risque d'oubli catastrophique, bien documenté lors du fine-tuning de politiques obtenues après des milliers d'heures de simulation, est écarté puisque les poids de base restent intacts. La couche de pilotage est légère et s'adapte en boucle fermée à l'état courant du robot et au contexte multi-agents, ce qui la distingue des approches d'activation patching offline utilisées dans les LLMs. La diversité des comportements obtenus sur une même architecture gelée, de la gestion de formation à l'esquive de surveillance, suggère une généralité de la méthode au-delà des tâches de navigation. Les résultats restent cependant limités aux quadrotors pour l'instant, et la transférabilité à des robots manipulateurs ou humanoïdes n'est pas encore démontrée. CLAE s'inscrit dans un courant de recherche actif autour du steering de réseaux de neurones via sparse autoencoders, popularisé par les travaux d'Anthropic sur l'interpretabilité des LLMs et les techniques d'activation patching dans les transformers. Appliqué à la robotique incarnée, ce paradigme impose une contrainte supplémentaire : la boucle fermée exige des corrections adaptées en temps réel à la dynamique du système, contrairement à l'édition statique en NLP. Parmi les approches concurrentes figurent les méthodes de parameter-efficient fine-tuning (LoRA, adaptateurs), le meta-learning de type MAML et les residual policies. La prochaine étape naturelle serait une validation sur des architectures VLA (Vision-Language-Action), où le coût prohibitif de réentraînement rend encore plus pertinente une solution d'édition à l'inférence, notamment pour les déploiements industriels à grande échelle.

RecherchePaper
1 source
Apprentissage par imitation robuste aux distorsions pour le routage autonome de câbles
53arXiv cs.RO 

Apprentissage par imitation robuste aux distorsions pour le routage autonome de câbles

Une équipe de chercheurs a publié en juin 2026 sur arXiv (ref. 2606.11577) un framework d'apprentissage par imitation robuste aux dégradations d'image, appliqué au câblage robotisé. La tâche visée, le routage de câbles, consiste à faire passer et connecter des câbles à travers des cheminements prédéfinis dans un environnement industriel, une opération qui exige à la fois dextérité fine et prise de décision séquentielle sur plusieurs étapes. Le système proposé s'articule autour de trois modules couplés : un module d'évaluation de la qualité d'image (IQA), un mécanisme d'apprentissage pondéré par la confiance, et un module de décision capable de produire aussi bien des actions discrètes (sélection de compétences) que continues (commandes moteur). L'abstract ne communique pas de métriques chiffrées précises, taux de succès, temps de cycle, nombre de démonstrations, ce qui limite l'évaluation indépendante des résultats annoncés. L'intérêt technique réside dans l'identification d'un angle mort réel des systèmes de contrôle intelligent en milieu industriel : les perturbations optiques. Reflets, poussière, vibrations des caméras embarquées ou éclairage variable génèrent couramment des observations dégradées qui faussent l'entraînement des modèles et réduisent leur fiabilité à l'inférence. La contribution centrale est l'intégration d'un score de qualité d'image directement dans la boucle d'apprentissage, via un mécanisme de pondération qui donne priorité aux échantillons difficiles plutôt que de les ignorer ou de les traiter uniformément. C'est une approche pragmatique face au reality gap, plus proche d'un correctif de robustesse que d'une rupture architecturale. Le câblage robotisé reste l'un des derniers bastions de l'assemblage manuel dans l'industrie automobile et électronique, faute de solutions fiables à l'échelle. Des acteurs comme Schunk, Franka Robotics ou des startups spécialisées en manipulation déformable (Cobot, Pollen Robotics côté européen) cherchent des approches généralisables. Ce travail s'inscrit dans le courant de l'imitation learning pour la manipulation, après les avancées de Pi-0 (Physical Intelligence) et des méthodes de type Diffusion Policy. La prochaine étape naturelle serait une validation sur un benchmark standardisé, RoboSuite, DROID ou un dataset industriel, pour confirmer les gains annoncés face aux méthodes de l'état de l'art.

UEPollen Robotics (France) et Franka Robotics (Allemagne) sont cités comme acteurs européens cherchant des solutions au câblage automatisé ; ce travail pourrait informer leurs feuilles de route en manipulation déformable, mais sans validation benchmark, l'impact reste hypothétique.

RecherchePaper
1 source
TacCoRL : intégration du retour tactile dans les modèles VLA par simulation
54arXiv cs.RO 

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Des chercheurs ont publié sur arXiv (2606.11743) TacCoRL, un framework destiné à intégrer le retour tactile dans les modèles vision-langage-action (VLA) pour la manipulation robotique. L'approche combine un co-entraînement simulation-réel et de l'apprentissage par renforcement (RL) en simulation, sans nécessiter de pré-entraînement tactile à grande échelle ni d'exploration extensive sur hardware réel. Évalué sur quatre tâches bimanuelles à riche contact (insertion, assemblage, manipulation d'objets déformables), le système atteint un taux de succès moyen de 72,5 % contre 50,0 % pour la baseline VLA visuelle seule, soit un gain relatif de 45 % sur ces benchmarks spécifiques. L'apport technique central n'est pas simplement d'ajouter la touche comme entrée supplémentaire, mais d'apprendre comment les lectures de contact doivent moduler la réponse motrice dans les états de quasi-échec, états rares dans les démonstrations humaines et risqués à collecter sur robot physique. TacCoRL utilise un simulateur aligné sur le réel comme environnement fermé pour les interactions de contact : des trajectoires mixtes (simulées et réelles) initialisent d'abord les actions conditionnées au tactile dans la politique pré-entraînée, puis le RL avec récompenses vérifiables optimise la politique sur des rollouts simulés, tandis qu'un objectif supervisé sur trajectoires réelles ancre la distribution visuelle, tactile et d'action au domaine de déploiement. Le résultat se transfère directement sur robot réel, sans état simulé privilégié ni RL en ligne. C'est une réponse directe au "demo gap" des VLA actuels : les politiques vision-seule échouent précisément sur les phases de contact que la caméra ne résout pas. Le contexte est celui d'une compétition intense autour des VLA polyvalents : Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses dérivés, ainsi que les efforts de génération suivante (GR00T N2 de NVIDIA, OpenVLA). Tous partagent la même limitation structurelle : l'observation visuelle reste insuffisante pour les tâches à fort contact. La piste tactile est explorée depuis plusieurs années (capteurs GelSight, SynTouch, Digit de Meta), mais son intégration dans des architectures VLA de grande taille restait un verrou de scalabilité. TacCoRL propose une voie pragmatique sans dataset tactile massif, ce qui abaisse la barrière d'adoption pour les laboratoires et intégrateurs. Les prochaines étapes logiques seraient l'extension à des capteurs tactiles commerciaux standardisés et des évaluations sur des tâches industrielles réelles, hors conditions de laboratoire contrôlées.

RechercheOpinion
1 source
Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques
55arXiv cs.RO 

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion
1 source
HiPi : des capteurs piézorésistifs haute fidélité et reproductibles pour la manipulation robotique
56arXiv cs.RO 

HiPi : des capteurs piézorésistifs haute fidélité et reproductibles pour la manipulation robotique

Une équipe de recherche a publié en juin 2026 sur arXiv (arXiv:2606.11372) HiPi, un système de capteurs tactiles piézorésistifs conçu pour la manipulation robotique. Le dispositif atteint une fréquence d'acquisition de 220 Hz dans une configuration bimanuelles comprenant quatre matrices tactiles denses, soit 2 048 taxels au total. La carte de lecture est compatible avec les services de fabrication et d'assemblage PCB commerciaux, ce qui supprime le soudage manuel, point de friction majeur dans les déploiements laboratoire. Le microcontrôleur retenu est un module STM32 compact et peu coûteux, et les couches conductrices reposent sur des PCB flexibles (FPCB) qui simplifient la fabrication et l'empilement des capteurs. Dans des expériences avec des motifs de contact structurés imprimés en 3D, HiPi améliore l'IoU moyen de 0,428 à 0,797 et le score Dice moyen de 0,539 à 0,886 par rapport à une baseline reproductible de référence. Ces résultats pointent vers un verrou concret dans la robotique dextère: les capteurs tactiles piézorésistifs sont minces, légers et théoriquement scalables, mais les systèmes existants forçaient jusqu'ici un arbitrage entre facilité de reproduction et fidélité de lecture. Un capteur facile à fabriquer livrait des images de contact dégradées; un capteur haute fidélité restait difficile à assembler hors d'un environnement spécialisé. HiPi prétend lever cet arbitrage en standardisant l'ensemble de la pile matérielle autour de composants accessibles. Pour un intégrateur ou un laboratoire voulant instrumenter des mains robotiques bimanuelles ou multidoigts, cela réduit significativement le coût d'entrée et le temps de mise en oeuvre. Le domaine de la perception tactile pour robots est aujourd'hui fragmenté entre approches optiques (GelSight de MIT, Digit de Meta/CMU), capacitives (XELA Robotics, TACTAXIS) et piézorésistives. HiPi se positionne dans cette dernière catégorie en ciblant spécifiquement la scalabilité vers les grandes surfaces et les configurations multi-capteurs. Il convient de souligner qu'il s'agit d'un preprint académique sans déploiement industriel annoncé, et que les métriques de performance ont été mesurées sur des motifs de contact contrôlés en laboratoire. Aucune timeline de commercialisation ni partenaire industriel n'est mentionné. Les prochaines étapes naturelles seraient une validation sur tâches de manipulation réelles et une intégration dans des plateformes humanoïdes ou bimanuelles commerciales comme celles d'Agility, Figure ou Dexterous Robotics.

RecherchePaper
1 source
Optimisation par consensus (CBO) : vers une optimalité globale en robotique
57arXiv cs.RO 

Optimisation par consensus (CBO) : vers une optimalité globale en robotique

Une équipe de chercheurs a publié sur arXiv (référence 2602.06868v2) une adaptation de l'optimisation par consensus, CBO, pour Consensus-Based Optimization, aux problèmes de trajectoires et de politiques de contrôle en robotique. Contrairement aux méthodes zéro-ordre dominantes dans le domaine, notamment MPPI (Model Predictive Path Integral), CEM (Cross-Entropy Method) et CMA-ES (Covariance Matrix Adaptation Evolution Strategy), le CBO dispose d'une garantie formelle de convergence vers un optimum global sous des hypothèses dites légères. Les auteurs l'ont évalué sur trois scénarios représentatifs : un problème à horizon long pour un système simple, un problème d'équilibre dynamique pour un système fortement sous-actionné, et un problème à haute dimension avec uniquement un coût terminal. Sur ces trois configurations, CBO obtient des coûts inférieurs à ceux des méthodes existantes. L'enjeu est significatif pour l'ingénierie robotique avancée. Les méthodes zéro-ordre actuelles sont prisées précisément parce qu'elles évitent le calcul de gradients analytiques, coûteux ou impossibles en présence de contacts discontinus. Mais leur défaut structurel est d'estimer ce gradient localement, les rendant vulnérables aux optima locaux dès que le paysage de coût est non convexe. Ce phénomène se manifeste concrètement pour les robots à pattes, les manipulateurs en espaces encombrés, ou tout système à dynamiques hybrides. Un optimiseur offrant une garantie d'optimalité globale pourrait renforcer la robustesse des planificateurs de trajectoires, en particulier dans les boucles MPC (Model Predictive Control) embarquées. Il faut cependant noter que les résultats présentés sont exclusivement issus de simulations : aucune validation sur matériel réel n'est rapportée dans cette version de l'article. Le CBO est issu de la littérature mathématique sur les systèmes de particules en interaction, développé initialement pour l'optimisation en finance et en apprentissage automatique. Son introduction en robotique s'inscrit dans une tendance plus large : après que MPPI a prouvé sa viabilité sur plateformes réelles, notamment en manipulation chez Google DeepMind et en locomotion chez ANYbotics, la communauté cherche des variantes offrant de meilleures garanties de convergence. Les prochaines étapes naturelles concernent l'intégration dans des frameworks MPC temps-réel et la validation sur hardware, conditionnée à la compatibilité des temps de calcul du CBO avec les fréquences de contrôle embarquées, typiquement supérieures à 100 Hz sur les systèmes à pattes.

RecherchePaper
1 source
Automatisation intelligente pour la construction de benchmarks en IA incarnée : pipelines, morphologies, simulateurs et tendances
58arXiv cs.RO 

Automatisation intelligente pour la construction de benchmarks en IA incarnée : pipelines, morphologies, simulateurs et tendances

Un article de synthèse déposé sur arXiv (identifiant 2606.12207) en juin 2026 cartographie les méthodes de construction de benchmarks pour l'intelligence incarnée, un domaine couvrant désormais la navigation, l'assistance domestique, la manipulation robotique, la conduite autonome, les agents aériens et le contrôle par grands modèles multimodaux. Les auteurs structurent leur analyse autour d'un pipeline en cinq étapes : définition des exigences et des tâches, acquisition des données, nettoyage et annotation, génération de la suite d'évaluation avec définition des métriques, puis exécution avec retour diagnostique. Pour chaque étape, l'étude compare la curation manuelle, l'automatisation traditionnelle, l'assistance par modèles de fondation et les workflows en boucle fermée pilotés par agents. Les coûts de construction sont analysés selon six axes : main-d'oeuvre humaine, acquisition de données et d'assets, calcul et simulation, validation et débogage, gouvernance et maintenance, et risque de rework. La conclusion centrale remet en cause l'hypothèse selon laquelle automatiser la construction de benchmarks réduirait mécaniquement les coûts. Les auteurs montrent qu'elle déplace les dépenses vers la validation, l'auditabilité, la gestion de versions et la gouvernance à long terme. Pour les équipes de recherche et les industriels qui s'appuient sur ces benchmarks pour comparer des systèmes (bras manipulateurs, humanoïdes, AMR), cela signifie qu'un benchmark peu coûteux à générer peut devenir onéreux à maintenir. Le risque de rework, souvent sous-estimé, est identifié comme le poste de coût le plus variable selon la stratégie de construction choisie. Ce survey s'inscrit dans un contexte de prolifération rapide des systèmes incarnés où les évaluations sur jeux de données statiques ne suffisent plus à capturer la complexité d'environnements dynamiques réels. La question est directement pertinente pour les VLA (Vision-Language-Action models) en cours de déploiement chez Figure, 1X, Agility ou Physical Intelligence (Pi-0), dont les performances dépendent de benchmarks robustes et maintenables. Le cadre d'analyse proposé s'applique aux initiatives de benchmarking publiées par Google DeepMind, Meta FAIR ou le Stanford HAI. La thèse centrale : les progrès en évaluation robotique dépendront autant de la qualité des pipelines de construction, auditables et actualisables, que de la taille des suites de tests elles-mêmes.

RecherchePaper
1 source
KinematicRL : framework d'apprentissage par renforcement sim-vers-réel pour la navigation sociale à faisabilité cinodynamique
59arXiv cs.RO 

KinematicRL : framework d'apprentissage par renforcement sim-vers-réel pour la navigation sociale à faisabilité cinodynamique

Des chercheurs ont présenté KinematicRL, un cadre de navigation sociale par apprentissage par renforcement profond (DRL) conçu pour combler l'écart sim-to-real freinant le déploiement des robots mobiles en environnements humains, publié sur arXiv en juin 2026 (arXiv:2606.12042). Ciblant les robots à entraînement différentiel, architecture répandue dans les AGV et robots de service, le framework combine trois composants : un espace d'action DRL au second ordre plutôt qu'au premier ordre habituel, un régulateur LQR itératif stochastique (iLQR) pré-entraînant la politique par minimisation de divergence, et un pipeline de suivi humain fonctionnant uniquement sur LiDAR 2D, sans fusion caméra. Un bloc de gating résiduel non biaisé complète le système pour équilibrer comportements réactifs et mémoriels selon la taille variable des foules détectées, les auteurs rapportant un déploiement sur robot réel avec modifications minimales. L'apport théorique central est la démonstration formelle que l'erreur de suivi entre position simulée et réelle décroît exponentiellement avec l'ordre de contrôle, justifiant rigoureusement l'adoption du second ordre pour les politiques DRL. En pratique, cela renforce le transfert simulation-vers-réel sans calibration complexe. En associant les détections humaines par proximité spatiale et similarité de vitesse, le pipeline LiDAR maintient une estimation de vélocité stable par agrégation temporelle, différenciant fiablement les piétons proches sans recourir à une caméra RGB. Pour les intégrateurs, ces deux choix réduisent sensiblement la dette d'ingénierie liée au déploiement terrain. La navigation sociale reste l'un des problèmes ouverts les plus difficiles de la robotique mobile, face aux méthodes analytiques comme ORCA ou le modèle de force sociale, et aux politiques DRL end-to-end. Les récents travaux en Vision-Language-Action (VLA) ont relancé l'ambition du domaine mais peinent à garantir la faisabilité cinématique en temps réel. KinematicRL adopte une posture plus conservatrice et formellement motivée, mieux adaptée aux déploiements en milieux contraints tels qu'entrepôts, hôpitaux ou aéroports. Les auteurs ne précisent ni le modèle de robot ni les durées de test, ce qui invite à interpréter les résultats avec prudence avant tout passage à l'échelle industrielle.

RecherchePaper
1 source
Arbres de fibration : une approche unifiée pour la planification de mouvement multi-robots
60arXiv cs.RO 

Arbres de fibration : une approche unifiée pour la planification de mouvement multi-robots

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (2606.12070) un framework mathématique baptisé "fibration trees" visant à unifier les méthodes de planification de mouvement pour des équipes de robots multiples. Le système repose sur une structure en arbre où chaque noeud représente un espace d'états et chaque arête une fibration, c'est-à-dire une projection d'un espace de haute dimension vers un espace simplifié de dimension inférieure. Sur cette base formelle, les chercheurs ont développé un planificateur d'échantillonnage appelé Fibration-RRT (Rapidly-Exploring Random Fibration Trees), validé sur 32 scénarios impliquant des équipes de robots atteignant jusqu'à 96 degrés de liberté (DOF). L'implémentation est publiée en open source, et le planificateur est prouvé probabilistiquement complet. L'enjeu est la fameuse "malédiction de la dimensionnalité" : dès que l'on coordonne plusieurs robots, l'espace de configuration combiné explose exponentiellement, rendant la planification classique intractable. Les approches existantes répondaient à ce problème soit par la priorisation séquentielle (planifier les robots un par un), soit par la décomposition parallèle (sous-espaces indépendants), soit par des projections dans l'espace des tâches, mais sans framework commun capable de combiner ces stratégies. Fibration-RRT généralise à la fois le quotient-space RRT et le discrete RRT sous un formalisme unique, ce qui permet en théorie à un intégrateur de définir sa propre structure d'arbre selon la topologie du problème plutôt que de choisir entre des outils incompatibles. La robustesse sur 96 DOF est un signal technique solide, même si l'article ne fournit pas de comparaison de temps de cycle sur des benchmarks standardisés industrie. La planification de mouvement multi-robot est un domaine mature sur le plan académique, porté depuis la fin des années 1990 par les algorithmes RRT de Steven LaValle et leurs variantes (RRT*, BiRRT, quotient-space RRT de Orthey et al.). Le besoin d'unification se fait sentir à mesure que les déploiements AMR (autonomous mobile robots) et les cellules robotisées industrielles complexifient les interdépendances entre agents. Aucun acteur industriel n'est mentionné dans ce préprint, qui reste pour l'instant une contribution théorique. Les prochaines étapes naturelles seraient une validation sur des plateformes physiques et une intégration dans des middlewares standards comme ROS 2 MoveIt, qui constitue aujourd'hui la référence dans les projets d'intégration multi-bras.

RecherchePaper
1 source
Capteur tactile déformable en main avec détection intégrée du glissement, de la vitesse, force/couple et carte de pression
61arXiv cs.RO 

Capteur tactile déformable en main avec détection intégrée du glissement, de la vitesse, force/couple et carte de pression

Une équipe de chercheurs présente sur arXiv (preprint 2606.11952, juin 2026) un capteur tactile compact pour la manipulation en main, capable d'intégrer simultanément trois modalités : mesure de vitesse de glissement, force/couple et cartographie de pression, dans un seul dispositif à surface de contact déformable. Le capteur fonctionne sur des géométries planes et courbées pour une large gamme de matériaux. Sa fabrication combine des circuits imprimés standard (PCB) et du prototypage rapide, visant un coût de production bas. Réunir détection de glissement (slip-aware), force/couple et carte de pression dans une seule structure compliante simplifie l'intégration pour les grippers industriels et les mains humanoïdes, qui recourent aujourd'hui à plusieurs capteurs distincts. Cette consolidation réduit la complexité mécanique, les points de défaillance et le câblage embarqué, trois obstacles courants à la commercialisation des robots manipulateurs. Les auteurs affirment être les premiers à combiner ces modalités dans une structure unique ; cette revendication de priorité, portée par un preprint non encore relu par les pairs, reste à confirmer. Le champ des capteurs tactiles souples est animé depuis une décennie par des travaux comme GelSight (MIT), DIGIT (Meta AI Research) et les solutions commerciales de Xela Robotics ou Touchlab. La détection de glissement reste un défi ouvert, directement lié à la fiabilité des saisies en manipulation dynamique. Ce preprint ne documente pas encore d'intégration sur un robot réel ni de tests en conditions industrielles. Les prochaines étapes naturelles seraient une validation sur gripper ou main humanoïde, suivie d'une soumission en conférence robotique (ICRA, IROS ou RSS).

RecherchePaper
1 source
PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt
62arXiv cs.RO 

PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt

Des chercheurs ont publié PIGEON (Point of Interest Guided Exploration for Object Navigation), un cadre de navigation robotique pour localiser des objets dans des espaces intérieurs inconnus. L'approche repose sur des modèles vision-langage (VLM), mais résout leur principal obstacle opérationnel : l'inférence dense image par image est trop coûteuse pour un usage embarqué temps réel. PIGEON introduit des Points d'Intérêt (PoI), unités de décision visuelles couplant waypoints géométriques et observations égocentriques brutes, que le VLM utilise pour sélectionner parmi des destinations candidates : frontières d'exploration, objets suspectés, escaliers franchissables, résumés de niveau sol. Un planificateur bas niveau exécute les trajectoires continues entre ces points. Le système intègre un pipeline RLVR (Reinforcement Learning with Verifiable Rewards) permettant d'affiner des VLM locaux sans annotations Chain-of-Thought manuelles. Sur le benchmark Habitat ObjectNav, référence standard en navigation simulée, PIGEON affiche les meilleures performances zero-shot publiées à ce jour et se transfère à la tâche Active Embodied Question Answering par simple modification du prompt. Des déploiements sur robots physiques sont documentés dans le papier (arXiv 2511.13207). L'enjeu central est l'efficacité computationnelle des VLM dans des boucles de contrôle robotique. Les approches concurrentes utilisent soit les VLM comme contrôleurs denses (coûteux), soit pour un simple ranking de frontières d'exploration (sémantiquement appauvri). PIGEON propose un compromis : décisions rares mais ancrées dans les observations brutes, rendant chaque choix vérifiable et compatible avec l'apprentissage par renforcement sans supervision humaine. La réduction de la dépendance aux données annotées est un avantage concret pour des équipes robotiques sans large budget d'annotation. La progression des performances avec la taille du modèle de fondation (scaling) indique une architecture alignée avec les tendances génératives actuelles. La navigation d'objets en environnement inconnu est un benchmark actif en robotique cognitive, avec des systèmes concurrents comme ESC, SG-Nav ou OpenFMNav exploitant également des LLM pour la planification sémantique. PIGEON se différencie par son mode zero-shot strict, sans réentraînement spécifique à l'environnement cible. Habitat, le simulateur d'intérieur de Meta AI Research, reste la plateforme d'évaluation de référence pour ce type de tâche. Ce résultat est académique : aucun partenariat commercial ni déploiement industriel n'est mentionné, et la robustesse en environnements réels dynamiques non contrôlés reste à valider à plus grande échelle. Les prochaines étapes naturelles incluent des tests en milieux variés et l'adaptation à des VLM embarqués contraints en ressources.

RechercheOpinion
1 source
Reconnaissance sémantique des activités de plongeurs pour une collaboration sous-marine humain-robot efficace
63arXiv cs.RO 

Reconnaissance sémantique des activités de plongeurs pour une collaboration sous-marine humain-robot efficace

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12374v1) DAR-Net, un framework basé sur des transformers conçu pour reconnaître automatiquement les activités de plongeurs en milieu sous-marin. Le système classifie six catégories d'activités distinctes à partir de séquences vidéo, en combinant un raisonnement temporel global avec une supervision sémantique au niveau pixel. Pour entraîner et évaluer ce modèle, les auteurs ont constitué le premier jeu de données dédié à cette tâche : l'Underwater Diver Activity (UDA) dataset, qui comprend plus de 2 600 images annotées avec des masques de segmentation pixel-level. Les expériences sont réalisées en environnement contrôlé, et DAR-Net surpasse les modèles de référence actuels sur ce benchmark maison. Aucun déploiement opérationnel n'est rapporté à ce stade. L'enjeu industriel est réel : les véhicules sous-marins autonomes (AUV) sont de plus en plus utilisés pour assister les plongeurs dans des opérations à risque élevé, de l'inspection d'infrastructures offshore à la maintenance de câbles sous-marins. Pour qu'un AUV soit un véritable coéquipier et non un simple observateur, il doit interpréter les gestes et postures d'un humain en temps réel, dans des conditions de faible visibilité et de bruit visuel important. L'approche multi-loss de DAR-Net, qui couple la reconnaissance d'activité globale à la compréhension locale des interactions humain-robot via des contraintes de segmentation sémantique, adresse précisément ce gap. C'est une piste prometteuse, mais les validations restent en bassin contrôlé, loin des conditions réelles d'une inspection sous-marine à 30 mètres de profondeur avec turbidité variable. La reconnaissance d'activité humaine sous-marine est un domaine de niche mais en croissance, porté par l'essor des AUV commerciaux de sociétés comme Saab (BlueZone), Kongsberg, ou l'Ifremer en France. L'absence historique de datasets annotés a freiné les approches deep learning dans ce secteur, là où la robotique terrestre bénéficie de corpus massifs. La contribution principale de ce travail est précisément cette ressource de données fondatrice. Les auteurs positionnent explicitement DAR-Net comme une première brique, destinée à servir de baseline pour des travaux futurs sur la collaboration humain-robot en milieu subaquatique. Des extensions vers des environnements non contrôlés et des AUV réels constitueront le vrai test de généralisation du modèle.

UELe dataset UDA et le framework DAR-Net constituent une ressource de référence pour les acteurs européens de l'inspection sous-marine autonome (Ifremer, Kongsberg, Saab BlueZone), mais la validation en conditions réelles reste à démontrer.

RecherchePaper
1 source
Manipulation Collaborative de Plis en Fibre de Carbone Guidée par l'Humain
64arXiv cs.RO 

Manipulation Collaborative de Plis en Fibre de Carbone Guidée par l'Humain

Des chercheurs ont publié sur arXiv (référence 2606.11818) une étude portant sur la co-manipulation humain-robot de plis en fibre de carbone, un processus central dans la fabrication de pièces composites pour l'aéronautique et l'automobile. Le travail évalue plusieurs modalités de contrôle dans un environnement contrôlé : commandes vocales, suivi du poignet opérateur par vision, et contrôle en effort avec compliance mécanique. L'objectif est de permettre à un opérateur humain de guider le robot lors du drapage de matériaux souples, sans avoir à programmer des trajectoires rigides incapables de s'adapter aux déformations imprévisibles du matériau. L'enjeu industriel est réel : la manipulation de matériaux flexibles comme les préimprégnés carbone reste l'un des derniers verrous de l'automatisation en fabrication composite. Contrairement aux pièces rigides, les plis se déforment, glissent, et réagissent différemment selon la température, l'humidité ou la tension appliquée, rendant une automatisation complète économiquement et techniquement difficile à justifier pour les séries courtes ou les géométries complexes. L'approche co-manipulation présentée ici évite ce blocage en conservant le jugement humain dans la boucle, tout en déchargeant l'opérateur des efforts physiques répétitifs. Les auteurs concluent qu'une combinaison multimodale des trois méthodes offre le meilleur compromis entre intuitivité et complétude du contrôle, résultat qui reste toutefois à valider hors du cadre expérimental contrôlé décrit dans le papier. Ce travail s'inscrit dans un champ de recherche actif autour de la fabrication composite automatisée, où des acteurs comme Cevotec (Allemagne), Electroimpact (États-Unis) ou Coriolis Composites (France) développent des solutions de placement automatique de fibres, mais principalement pour des géométries prévisibles en grande série. La co-manipulation humain-robot cible un créneau différent : les petites séries, les pièces à forte valeur ajoutée, et les environnements où la flexibilité prime sur le débit. Le papier ne mentionne pas de partenariat industriel ni de calendrier de déploiement, ce qui le situe clairement au stade de la recherche amont plutôt que d'un produit opérationnel.

UEPertinent pour les acteurs français de la fabrication composite (ex. Coriolis Composites) qui cherchent à automatiser les petites séries, mais la recherche reste au stade amont sans transfert industriel annoncé.

RecherchePaper
1 source
LEMON-Mapping : fusion et optimisation multi-session de nuages de points à grande échelle pour une cartographie globalement cohérente
65arXiv cs.RO 

LEMON-Mapping : fusion et optimisation multi-session de nuages de points à grande échelle pour une cartographie globalement cohérente

LEMON-Mapping (Loop-Enhanced Large-Scale Multi-Session Point Cloud Merging and Optimization) est un framework de cartographie collaborative multi-robots présenté dans un preprint arXiv (2505.10018, version 4). Le système vise à fusionner des nuages de points 3D issus de plusieurs robots opérant en sessions distinctes pour produire une carte globalement cohérente à grande échelle. Trois innovations structurent la contribution: un mécanisme de traitement des fermetures de boucles (loop closures) intégrant le rejet d'outliers et une stratégie de rappel pour récupérer des boucles valides erronément filtrées; un bundle adjustment spatial adapté aux cartes multi-robots, qui réduit divergence et flou dans les zones de recouvrement; et une optimisation de graphe de poses (PGO) propageant la précision locale à l'ensemble de la carte via des contraintes de bundle adjustment raffinées. L'intérêt tient à une limitation bien documentée des méthodes PGO classiques: celles-ci traitent les loop closures uniquement comme des contraintes entre noeuds de pose, ignorant la structure géométrique du nuage de points, ce qui produit des trajectoires divergentes et des zones floues dans les régions de chevauchement entre robots. En intégrant un bundle adjustment spatial dans la boucle d'optimisation, LEMON-Mapping montre qu'il est possible de corriger ces défauts de manière structurelle. Les auteurs valident leur approche sur plusieurs benchmarks publics et un dataset propriétaire, avec des résultats supérieurs aux méthodes de fusion traditionnelles en termes de précision et de cohérence globale. Des tests de scalabilité confirment que le framework supporte des flottes de robots nombreuses. La cartographie collaborative multi-robots est un verrou actif pour les AMR d'entrepôt, les drones d'inspection industrielle et la robotique de construction. Le domaine dispose déjà de frameworks comparables: DiSCo-SLAM, Swarm-SLAM ou CoLRIO explorent des approches distribuées avec différentes architectures de communication. LEMON-Mapping se positionne dans la lignée des travaux combinant PGO et bundle adjustment inspiré du structure-from-motion, appliqué aux nuages de points LiDAR multi-sessions. Le preprint en est à sa quatrième révision, signe d'un travail en cours de maturation; aucune disponibilité open-source ni déploiement pilote n'est mentionné à ce stade.

RecherchePaper
1 source
Apprentissage de la manipulation d'objets depuis zéro par interaction contrastive
66arXiv cs.RO 

Apprentissage de la manipulation d'objets depuis zéro par interaction contrastive

Une équipe de chercheurs propose sur arXiv (réf. 2606.11525, juin 2025) une méthode baptisée Interaction-weighted Resampling (IWR) pour améliorer l'apprentissage par renforcement contrastif (CRL) appliqué à la manipulation robotique. Le CRL apprend des représentations structurées des dynamiques pour résoudre des tâches conditionnées par objectif, mais peinait à gérer les contacts et les saisies. L'article formalise ce problème en modélisant la dynamique de manipulation comme un processus de Markov lisse par morceaux : les changements de mode induits par les contacts créent des structures d'accessibilité non linéaires que les fonctions d'énergie CRL standard ne représentent pas correctement. L'IWR rééchantillonne de manière pondérée autour des trois phases clés (avant, pendant et après le contact) pour que la représentation apprise préserve ces frontières de mode. En simulation, la méthode améliore de 19,8 % en moyenne les performances par rapport aux méthodes CRL existantes sur plusieurs environnements (contrôle 2D dynamique, manipulation, hockey sur table). En transfert sim-to-real, un agent de hockey sur table conditionné par objectif voit son taux de réussite passer de 25 % à 60 %. Ce résultat est notable pour les équipes qui misent sur le RL pur pour la manipulation, un domaine dominé depuis 2023 par l'imitation learning et les politiques de diffusion comme ACT, Diffusion Policy ou pi-0. Le principal obstacle, la discontinuité dynamique liée aux contacts, était jusqu'ici contourné par des démonstrations humaines ou des curricula manuels ; IWR propose une approche mathématiquement fondée pour l'attaquer sans supervision. La progression de 25 % à 60 % en conditions réelles reste cependant modeste, et le domaine de test (hockey sur table planaire, tâche répétitive et bien contrainte) est éloigné de la dextérité multidimensionnelle requise en milieu industriel. Aucune comparaison directe avec des architectures VLA ou diffusion policy sur des benchmarks communs n'est fournie dans le preprint. Le CRL pour la manipulation avait été porté par des travaux issus de Berkeley et de Google DeepMind (GCRL, QuaSAR), sans jamais franchir le verrou du contact-rich. Ce preprint arXiv de juin 2025, non encore soumis à peer-review, s'inscrit dans un effort académique plus large face à la montée en puissance des VLA comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné ; le projet reste à un stade de recherche fondamentale. Le code et les démonstrations vidéo sont disponibles sur la page projet IWR-arxiv.github.io.

RecherchePaper
1 source
SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage
67arXiv cs.RO 

SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage

Des chercheurs ont publié sur arXiv (2511.05203v3) SIL (Symbiotic Interactive Learning), un framework de co-adaptation bidirectionnelle pour l'interaction humain-agent. Contrairement aux systèmes actuels où l'agent exécute passivement des commandes en langage naturel, SIL maintient un espace latent partagé dans lequel humain et agent font évoluer conjointement leurs états de croyance (belief states) au fil des échanges. L'architecture repose sur des foundation models pour la perception spatiale et le raisonnement, un encodeur neuronal entraîné par triplet-loss qui ancre ces sorties dans des représentations spécifiques à la tâche, et des mémoires épisodique et sémantique régularisées via Elastic Weight Consolidation (EWC) pour prévenir l'oubli catastrophique. Sur des tâches simulées et réelles, suivi d'instructions, recherche d'information, raisonnement orienté requêtes et dialogue interactif, SIL atteint un taux de complétion de 90,4% et un score d'alignement de croyances ρ ≈ 0,83, soit un gain absolu d'environ 20 points de pourcentage sur les meilleures ablations. L'enjeu est conceptuellement notable : presque tous les systèmes HRI (human-robot interaction) actuels fonctionnent en mode maître-apprenti unidirectionnel, l'agent n'apprenant rien de l'opérateur en cours d'interaction. SIL propose à l'inverse une co-adaptation mutuelle permettant des clarifications proactives, des suggestions de plan adaptées et un affinement continu de la compréhension de la tâche. Pour les intégrateurs de cobots ou les décideurs industriels, cela adresse un point de friction concret : gérer l'ambiguïté opérationnelle sans sollicitations humaines répétées. La régularisation EWC répond aussi à un problème récurrent des VLA (Vision-Language-Action models) : la dégradation des performances lors du fine-tuning continu sur des tâches évolutives. Ce travail s'inscrit dans le courant d'intégration des foundation models dans la couche de contrôle robotique, aux côtés de RT-2 (Google DeepMind) et OpenVLA. La particularité de SIL réside dans sa boucle interactive bidirectionnelle plutôt que dans la seule généralisation task-to-task. Il s'agit à ce stade d'une preprint arXiv, sans revue par les pairs confirmée ni déploiement industriel annoncé ; les résultats sur tâches "réelles" méritent un examen attentif des protocoles expérimentaux, absents du résumé disponible. Les prochaines étapes naturelles sont une soumission en conférence (CoRL, ICRA) et une éventuelle intégration dans des plateformes d'agents embarqués pilotés par LLM.

RechercheOpinion
1 source
MIT développe un bracelet à ultrasons pour apprendre aux robots humanoïdes la dextérité des mains humaines
68Interesting Engineering 

MIT développe un bracelet à ultrasons pour apprendre aux robots humanoïdes la dextérité des mains humaines

Des chercheurs du Massachusetts Institute of Technology, dirigés par Xuanhe Zhao, ont présenté un bracelet ultrasonique portable capable de capturer les mouvements de muscles, tendons et ligaments sous la peau du poignet. Le dispositif intègre un système d'imagerie sans fil à 256 canaux couplé à un modèle d'IA hybride Transformer-ResNet qui interprète en temps réel l'activité musculaire subtile. Il suit en continu les 22 degrés de liberté de la main humaine, couvrant l'ensemble des mouvements de flexion, rotation et coordination des doigts et de la paume, avec une latence mesurée à 120 millisecondes. Lors de tests en laboratoire impliquant huit volontaires, le bracelet a reproduit des gestes avec une précision suffisante pour reconnaître les 26 lettres de l'alphabet américain des signes (ASL). Opérant sans fil, il permet de piloter des systèmes robotiques à distance sans connexion physique directe. L'objectif affiché par l'équipe : utiliser les données collectées pour entraîner des robots humanoïdes à reproduire les tâches manuelles délicates que les humains réalisent naturellement. Ce travail adresse l'un des goulots d'étranglement les plus persistants de la robotique : la capture précise et non intrusive de la dextérité manuelle. Les solutions actuelles souffrent de limites connues, les systèmes à caméra étant sensibles aux occlusions et aux angles de vue, tandis que l'électromyographie (EMG), les capteurs inertiels ou les jauges de déformation manquent souvent de résolution pour les mouvements continus des doigts ou contraignent les gestes. En se positionnant sous la peau par imagerie ultrasonique, le bracelet MIT contourne ces contraintes tout en atteignant une couverture complète des 22 degrés de liberté. Pour les équipes qui collectent des données de téléopération destinées à l'apprentissage par imitation, notamment pour alimenter des pipelines VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), un tel dispositif pourrait enrichir significativement la qualité des démonstrations humaines utilisées à l'entraînement. Il reste cependant à valider ces performances hors laboratoire, sur des populations plus larges et dans des conditions de bruit musculaire réel, un point que la publication initiale n'aborde pas. Cette recherche s'inscrit dans une progression rapide des ultrasons portables amorcée au MIT et dans d'autres laboratoires. Depuis 2022, des équipes ont successivement démontré la surveillance multi-organes en continu, l'imagerie cardiaque portable et des patchs à résolution sub-millimétrique ; en 2024, l'Université de Californie à San Diego avait présenté un système comparable basé sur l'IA pour l'interprétation des gestes du bras, fonctionnel même en conditions dynamiques (course, véhicule en mouvement, mer agitée). Sur le plan concurrentiel, des acteurs comme CTRL-Labs (acquis par Meta en 2019) ou les fournisseurs d'EMG avancé tels que Delsys et Noraxon explorent des espaces adjacents, mais l'approche ultrasonique revendique une résolution spatiale potentiellement supérieure pour les structures profondes. L'équipe MIT n'a pas encore annoncé de partenariats industriels ni de calendrier de commercialisation : le dispositif reste aujourd'hui au stade de démonstration de laboratoire.

RechercheOpinion
1 source
Rider-Bot établit un record mondial : premier robot à vélo à réaliser un salto avant sans assistance
69Interesting Engineering 

Rider-Bot établit un record mondial : premier robot à vélo à réaliser un salto avant sans assistance

Le laboratoire JSK Robotics de l'Université de Tokyo a présenté Rider-Bot, un robot cycliste autonome qui aurait réalisé le premier salto avant non assisté au monde pour ce type de machine. La démonstration a eu lieu sur surface plane, sans rampe, câble ni support extérieur : le robot a accéléré, décollé, effectué une rotation avant complète de 360 degrés et atterri en position verticale, de manière entièrement autonome. Le système embarque des gyroscopes, des boucles de rétroaction en temps réel et des algorithmes d'apprentissage automatique. Le projet est piloté par le Dr Yuta Sato, chercheur principal. À noter : aucune spécification technique détaillée (nombre de degrés de liberté, charge utile, taux de réussite sur séries de tentatives) n'a été publiée, ce qui situe cette annonce davantage comme une démonstration de faisabilité que comme un résultat reproductible et documenté dans la littérature scientifique. Sur le plan technique, la performance illustre la capacité d'un système de contrôle embarqué à anticiper et compenser les transferts de momentum pendant une manoeuvre acrobatique extrême, problème classique de la locomotion dynamique sur plateformes à équilibre instable. L'intérêt pour les intégrateurs et décideurs industriels réside moins dans le salto lui-même que dans ce qu'il révèle sur la maturité des boucles de contrôle temps réel embarquées. Si les algorithmes développés pour Rider-Bot se généralisent, ils pourraient informer la conception de robots de livraison autonomes, de véhicules navigant sur terrain accidenté, ou de machines d'intervention en environnements dégradés où la stabilité ne peut être garantie a priori. Le fossé entre démonstration contrôlée en laboratoire et déploiement en conditions réelles reste néanmoins non documenté à ce stade. Le laboratoire JSK, actif depuis plusieurs décennies à l'Université de Tokyo dans la recherche en humanoïdes et locomotion dynamique, s'inscrit dans un écosystème japonais dense sur ces thématiques, aux côtés d'AIST (série HRP) et de Honda (ASIMO). Dans le paysage concurrentiel, la démonstration répond indirectement aux exploits acrobatiques de Boston Dynamics, dont le robot Atlas enchaîne saltos arrière et séquences de parkour depuis 2017, et aux travaux sur la locomotion robuste d'ETH Zurich avec ANYmal, mais sur une plateforme cycliste encore peu explorée par les grands acteurs. L'équipe annonce comme prochaines étapes des tests en extérieur et en environnements à obstacles, ainsi qu'un travail d'amélioration de la consistance des réceptions. Aucune collaboration industrielle ni timeline de commercialisation n'a été communiquée.

RecherchePaper
1 source
Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées
70arXiv cs.RO 

Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.10208) une analyse de synthèse portant sur l'intégration des modèles de fondation dans les robots de soin aux personnes âgées et aux patients. L'article, classé comme Perspective, passe en revue l'état de l'art sur trois axes : les caractéristiques de conception, l'expérience utilisateur mesurée, et les preuves d'impact sur les soins. Le constat central est que les architectures dominantes utilisent les modèles de fondation comme couche de conversation et de raisonnement au sein d'incarnations socioassistives centrées sur la voix, des agents qui parlent et écoutent mais dont l'autonomie physique et la compréhension multimodale restent fortement limitées. Les évaluations empiriques rapportent des bénéfices positifs en termes d'utilisabilité et d'engagement, mais des défaillances de fiabilité persistent : hallucinations, ruptures conversationnelles et pannes dans le pipeline d'interaction. L'enjeu pour les intégrateurs et décideurs du secteur santé est précisément là : les métriques actuellement rapportées portent sur des résultats proximaux comme l'engagement cognitif ou la participation, et non sur des indicateurs cliniques validés. Les robots sociaux conversationnels améliorent peut-être le ressenti ou l'interaction, mais aucun système décrit dans la littérature ne démontre d'impact mesurable sur des outcomes de santé standardisés. Cette lacune est critique pour tout déploiement en EHPAD ou à l'hôpital, où la responsabilité médicale exige traçabilité et supervision humaine explicite. Les auteurs soulignent que les benchmarks génériques importés du NLP ou de la robotique généraliste ne sont pas adaptés aux contraintes des environnements de soin. Le contexte est celui d'une accélération massive des modèles de fondation en robotique, de PaLM-E à Pi-0 de Physical Intelligence en passant par GR00T N2 de NVIDIA, qui creuse un écart croissant entre capacités techniques et readiness clinique. Du côté des plateformes établies, Pepper (SoftBank) et PARO (AIST, Japon) restent les références les plus documentées en milieu de soin. Des acteurs européens comme Enchanted Tools avec Mirokaï, ou des projets portés par l'Inria, s'inscrivent dans cette dynamique. Les auteurs appellent à une transition vers des standards d'évaluation spécifiques aux soins, une autonomie avec supervision humaine intégrée dès la conception, et une intégration réelle dans les flux de travail cliniques, trois conditions encore largement non remplies par les systèmes actuels.

UEEnchanted Tools (Mirokaï) et l'Inria sont explicitement cités comme acteurs européens engagés dans la robotique de soin, et les lacunes identifiées (absence de standards d'évaluation cliniques, supervision humaine insuffisante) concernent directement les déploiements en EHPAD et hôpitaux français soumis à la réglementation médicale.

RecherchePaper
1 source
BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique
71arXiv cs.RO 

BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique

Des chercheurs ont publié BadRobot (arXiv:2407.20242, juillet 2024, v5), un cadre d'attaque ciblant les agents IA incarnés (embodied AI) : des robots et systèmes physiques dont la planification de tâches est pilotée par un grand modèle de langage. L'attaque exploite trois vecteurs distincts : la manipulation du LLM embarqué via des interactions vocales standard, le désalignement structurel entre les sorties linguistiques du modèle et les actions physiques réellement exécutées, et les comportements dangereux involontaires causés par des lacunes dans les connaissances du monde encodées dans le modèle. Pour évaluer la menace, les auteurs ont constitué un benchmark de requêtes d'actions physiques malveillantes, testé contre trois frameworks embodied AI de référence : VoxPoser, Code as Policies et ProgPrompt. Les expériences montrent que ces trois systèmes peuvent être amenés à exécuter des comportements nuisibles dans le monde physique, sans nécessiter de modification matérielle ni d'accès privilégié au système. Ce travail pointe un angle mort structurel : les techniques de jailbreaking, jusqu'à présent évaluées sur des sorties textuelles, produisent des conséquences physiques irréversibles lorsque le LLM pilote un effecteur. Le désalignement documenté est systémique, car les guardrails de sécurité sont appliqués à la couche linguistique sans validation cohérente lors de la planification motrice ou de l'exécution de tâches. Pour un intégrateur industriel déployant un robot manipulateur ou un AMR guidé par LLM, cela signifie que les mécanismes de conformité conçus pour les chatbots sont insuffisants en contexte physique. La démonstration sur trois frameworks activement utilisés en recherche et en prototypage industriel renforce la portée opérationnelle de l'alerte. VoxPoser (2023) et Code as Policies (Google, 2022) ont popularisé l'utilisation des LLM comme planificateurs de tâches haut niveau en robotique, tandis que ProgPrompt (2022) ciblait les robots de service autonomes. BadRobot paraît alors que des systèmes commerciaux comme Figure 02, l'Optimus de Tesla ou les robots Agility déployés chez Amazon commencent à intégrer des pipelines LLM en production réelle, rendant la surface d'attaque concrète. Aucun acteur français ou européen n'est directement mentionné dans l'étude, mais des entreprises comme Enchanted Tools (Mirokaï) ou Pollen Robotics (Reachy), qui explorent l'intégration de LLM dans leurs plateformes, sont exposées aux mêmes vecteurs. Les auteurs ont mis leur code en accès libre sur GitHub, ouvrant la voie à des reproductions indépendantes et au développement de contre-mesures architecturales spécifiques à l'embodied AI.

UEEnchanted Tools (Mirokaï) et Pollen Robotics (Reachy), deux acteurs français intégrant des LLM dans leurs plateformes robotiques, sont explicitement cités comme exposés aux mêmes vecteurs d'attaque documentés par BadRobot.

RechercheOpinion
1 source
Prise de contrôle adversariale en temps réel des politiques de diffusion robotique
72arXiv cs.RO 

Prise de contrôle adversariale en temps réel des politiques de diffusion robotique

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (réf. 2606.10371) une attaque baptisée TAKO (Test-time Adversarial Takeover), qui permet de prendre le contrôle en temps réel d'un robot opérant sous une politique de diffusion visuomotrice, sans modifier le modèle cible. La méthode repose sur un vocabulaire restreint de patches adversariaux universels et réutilisables, appris hors ligne via inférence de diffusion différentiable. À l'exécution, un opérateur humain injecte ces patches dans le flux caméra du robot et les commute dynamiquement pour composer des trajectoires de son choix. Sur quatre tâches évaluées (manipulation 2D, livraison aérienne simulée, navigation sol simulée et navigation sol en environnement physique réel), deux encodeurs visuels (ResNet-18 et EfficientNet-B0 + Transformer) et trois familles d'inférence générative (DDPM, DDIM et flow matching), les opérateurs attaquants ont atteint 100 % de succès de détournement dans l'ensemble des scénarios testés. Ce résultat interpelle directement les intégrateurs robotiques et les équipes de sécurité industrielle qui déploient des systèmes pilotés par des politiques de diffusion ou des VLA (Vision-Language-Action models). Jusqu'ici, la quasi-totalité des attaques adversariales sur robots visaient la dégradation des performances, induire un échec de tâche ou un comportement erratique. TAKO introduit une menace qualitativement différente : le robot ne s'arrête pas, il obéit à un attaquant distant. La perturbation agit sur le chemin de conditionnement visuel de la politique, et le biais introduit se propage à travers le processus de génération itératif propre aux modèles de diffusion, ce qui le rend difficile à détecter par supervision classique. Les auteurs démontrent aussi que la baseline naturelle "target-policy matching" échoue, car la politique victime ne peut pas se superviser fiablement sur des shifts hors distribution, invalidant une hypothèse de défense couramment avancée. Les politiques de diffusion pour la robotique se sont imposées comme paradigme dominant depuis 2023, portées par Diffusion Policy (Chi et al.) et intégrées dans des systèmes tels que pi0 de Physical Intelligence, les pipelines de Figure AI ou les robots de 1X Technologies. Ces architectures conditionnent l'action sur une observation visuelle, ce qui les rend structurellement vulnérables aux perturbations du flux caméra. Les pistes de défense habituelles, détection d'anomalies ou purification adversariale, restent largement expérimentales à cette échelle. L'évaluation demeure dans un cadre académique contrôlé, sans partenaire industriel ni calendrier de déploiement annoncé. Pour les équipes préparant des déploiements en logistique, livraison autonome ou manipulation industrielle, TAKO pose une question de sécurité concrète à laquelle le secteur n'a pas encore de réponse standardisée.

UELes intégrateurs robotiques européens déployant des systèmes à politiques de diffusion en logistique ou industrie doivent intégrer ce vecteur d'attaque dans leur modèle de menace, en l'absence de défense standardisée disponible.

RechercheActu
1 source
Ce que les métriques de curation des démonstrations font à votre politique
73arXiv cs.RO 

Ce que les métriques de curation des démonstrations font à votre politique

Une étude publiée en juin 2026 (arXiv:2606.10229) révèle une décorrélation surprenante au cœur du pipeline d'imitation learning en robotique : les métriques qui détectent le mieux les épisodes de démonstration défectueux ne sont pas celles qui produisent les meilleures politiques de behavior cloning. Les chercheurs ont travaillé sur le benchmark LIBERO de pick-and-place en contact riche, en injectant un défaut structurel contrôlé, un relâchement prématuré du préhenseur pendant la phase de transport. Parmi sept métriques de curation évaluées, celle affichant le meilleur AUROC de détection de défauts (0,804) génère la pire politique downstream, avec un taux de succès de seulement 13,3 %. À l'inverse, une métrique avec un AUROC bien plus faible (0,638) produit une politique atteignant 90,0 % de réussite, contre 93,3 % pour l'oracle entraîné sur données propres vérifiées. La baseline contaminée, sans aucune curation, ne dépasse pas 3,3 % de succès. Ce résultat remet en cause un présupposé largement répandu dans la communauté robotique : l'idée qu'améliorer la détection des démonstrations défectueuses suffit à améliorer la politique apprise. L'étude montre que cinq des sept métriques testées utilisent en réalité la longueur d'épisode comme proxy trivial pour le label de défaut, un biais qui gonfle artificiellement les AUROC jusqu'à des valeurs quasi-parfaites, et qui disparaît dès lors qu'on neutralise cette variable. Pour les équipes qui construisent des systèmes de robot learning à partir de données humaines (notamment dans les approches VLA ou diffusion policy), cela signifie que les outils de curation standard peuvent induire en erreur, en sélectionnant des données qui « semblent » propres sans réellement améliorer le comportement en rollout. L'imitation learning par behavior cloning est aujourd'hui au cœur des approches de référence en manipulation robotique, des systèmes Pi-0 de Physical Intelligence aux architectures ACT et Diffusion Policy largement reproduites en recherche académique. LIBERO est un benchmark établi, utilisé précisément pour sa richesse en interactions contact. Les auteurs de cette étude vont plus loin que le constat en publiant le testbed complet, toutes les implémentations de métriques et le pipeline d'évaluation, ce qui permet à la communauté de recalibrer ses outils de curation. La recommandation centrale est méthodologique : évaluer une méthode de curation à l'aune de la politique qu'elle produit, pas des défauts qu'elle signale, et imposer un contrôle systématique de la longueur d'épisode avant toute publication de score de détection.

UELes laboratoires académiques et startups européennes travaillant sur le behavior cloning ou les politiques de diffusion peuvent recalibrer leurs pipelines de curation grâce au testbed complet publié par les auteurs.

RecherchePaper
1 source
Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes
74arXiv cs.RO 

Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes

Des chercheurs ont publié Co-GLANCE (arXiv:2606.09919), un système embarqué de perception active et de prise de décision pour équipes robotiques hétérogènes opérant en extérieur non structuré. Le problème central adressé est l'incertitude perceptuelle liée aux occlusions : selon la position d'un robot, certaines zones de la scène restent invisibles ou ambiguës, et aucun agent isolé ne dispose d'un point de vue suffisant pour une compréhension fiable. Co-GLANCE distille les capacités de raisonnement sémantique d'un vision-language model (VLM) dans un modèle embarqué end-to-end qui réalise simultanément la segmentation des occlusions et l'allocation des robots les plus adaptés pour résoudre ces zones d'incertitude. Pour quantifier cette incertitude de façon statistiquement garantie, le système combine la prédiction conforme (conformal prediction) et l'abstention sélective sur les sorties de segmentation, d'allocation et de détection. Comparé aux baselines VLM cloud, Co-GLANCE améliore la précision de segmentation des occlusions de 25% et l'allocation robotique de 36%, tout en réduisant la latence d'inférence par image d'un facteur 350. Un dataset air-sol est également publié en open source. Ce résultat est significatif pour les intégrateurs et les décideurs industriels déployant des flottes multi-robots sur des chantiers, des sites miniers ou des opérations de surveillance. L'élimination de la dépendance au cloud pour l'inférence VLM lève un verrou majeur : latence, connectivité intermittente et coûts d'API. Le gain de 350x en latence n'est pas un chiffre de laboratoire anecdotique, il rend la perception active temps-réel praticable sur du matériel embarqué contraint. La combinaison conformal prediction + abstention sélective apporte des garanties de couverture statistique, ce qui est rare dans les systèmes robotiques terrain : les incertitudes sont exploitables (elles déclenchent des actions), pas seulement affichées. Les travaux sur la coordination multi-robots hétérogènes air-sol s'inscrivent dans un champ actif depuis plusieurs années, avec des groupes comme MIT CSAIL, Stanford, ETH Zurich et CMU comme références principales. La tendance forte est le passage des VLM cloud-only vers des modèles distillés edge-capable, que l'on retrouve aussi dans des travaux comme OpenVLA ou octo. Co-GLANCE se positionne spécifiquement sur l'allocation robotique sous incertitude, un angle moins couvert que la simple navigation ou manipulation. Les prochaines étapes probables incluent des validations sur des flottes plus larges et des environnements dégradés (nuit, pluie), ainsi que l'intégration dans des stacks ROS2 existants. Le code et le dataset sont disponibles sur co-glance.github.io.

RecherchePaper
1 source
YUBI : interface bidigitale universelle pour la manipulation dextérique bimanuelle à grande échelle
75arXiv cs.RO 

YUBI : interface bidigitale universelle pour la manipulation dextérique bimanuelle à grande échelle

Des chercheurs ont publié le 10 juin 2026 YUBI (Yielding Universal Bidigital Interface), un préhenseur bi-digital conçu pour la collecte de données bimanuelle dextère à grande échelle. Contrairement aux systèmes pistol-grip comme l'UMI (Universal Manipulation Interface), YUBI adopte un principe d'actionnement dit "yielding" : les mouvements des doigts de l'opérateur sont transcrits directement en mouvement des mâchoires du préhenseur, sans intermédiaire mécanique rigide. Le système intègre un tracking 6 DOF basé sur la réalité virtuelle pour une acquisition de trajectoires haute fidélité. L'équipe a constitué un dataset d'une ampleur inédite dans la littérature : 8 434 heures de démonstrations, 1,20 million d'épisodes répartis sur 119 tâches. Un politique unique entraîné sur ce corpus a été validée sur trois plateformes robotiques bimanuelle distinctes : UR, Franka et ELEY, via simple montage du préhenseur. Ce résultat a une portée directe pour quiconque travaille sur les fondation models robotiques : le bottleneck historique n'est plus le modèle mais la donnée, et YUBI apporte une réponse concrète sur la scalabilité de la collecte. Le fait qu'une seule politique transfère sur trois robots hétérogènes confirme que l'interface impose une représentation suffisamment générique pour servir de supervision directe, sans fine-tuning plateforme-spécifique. C'est un argument fort en faveur de l'approche "data-centric" face aux pipelines sim-to-real, souvent coûteux à valider en conditions industrielles. L'ergonomie améliorée réduit aussi la fatigue opérateur sur les tâches fines, un point non-trivial pour des sessions de collecte longues et répétitives que les démonstrateurs UMI rendaient problématiques. L'UMI, développé à l'Université de Columbia et largement adopté pour sa simplicité et son coût, reste la référence low-cost pour la collecte de données manipulation, mais son grip pistolet montrait ses limites sur les tâches bimanuelle complexes. YUBI s'inscrit dans un mouvement plus large visant à démocratiser la collecte de données pour les robot foundation models, en parallèle d'initiatives comme ACT, Diffusion Policy ou les efforts open-data de Physical Intelligence (Pi-0). L'ensemble du stack est publié en open source : hardware du préhenseur, logiciel de collecte, et dataset complet, ce qui représente une contribution substantielle pour les laboratoires ne disposant pas des moyens de Unitree, Figure AI ou Boston Dynamics pour constituer leurs propres corpus propriétaires. Les prochaines étapes probables incluent l'extension du dataset et l'intégration avec des architectures VLA plus récentes.

UELes laboratoires européens (INRIA, CEA-List, universités) et PME robotiques peuvent directement exploiter le dataset open-source YUBI (8 434 h, 1,2M épisodes) et l'interface hardware pour entraîner des politiques de manipulation sans constituer de corpus propriétaire, avec validation native sur Franka (allemand) et UR (danois).

RechercheOpinion
1 source
Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire
76arXiv cs.RO 

Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire

Une équipe de chercheurs présente un cadre neuro-symbolique de bout en bout conçu pour l'assemblage robotique multi-paires en environnements non structurés, publié sur arXiv (2606.10808). Le système fonctionne à partir d'une caméra RGB-D montée sur le bras (configuration eye-on-hand) et s'appuie sur un bras UR3 d'Universal Robots. Le pipeline traite chaque paire pièce-cible en générant un sous-graphe optimal via un grand modèle de langage (LLM), puis coordonne l'ensemble des sous-graphes en une séquence globale cohérente grâce à une étape de résolution topologique. Des arbres de comportement dynamiques intégrant des compétences atomiques pilotées par retour d'effort ferment la boucle d'exécution physique. Sur 100 scènes réelles évaluées hors ligne, le framework atteint 97 % d'exécutabilité globale, et le déploiement sur robot réel obtient un taux de succès de 90 % avec une tolérance de 0,5 mm sous forte interférence entre pièces. Ce résultat est notable parce qu'il adresse deux défauts symétriques qui bloquent l'industrialisation de la planification autonome d'assemblage. Les planificateurs classiques (recherche d'état, PDDl) explosent combinatoirement dès que le nombre de pièces augmente. Les approches purement neuronales ou LLM-only produisent des "hallucinations logiques" : séquences d'actions syntaxiquement valides mais physiquement incohérentes (conflits topologiques, collisions ignorées). Le framework proposé découple les deux niveaux : le LLM génère uniquement des actions basiques pour limiter les hallucinations, tandis qu'un discriminateur léger insère les actions de support pour les cas limites. La tolérance de 0,5 mm sous interférence forte est un indicateur concret de robustesse, même si les vidéos de démonstration disponibles ne couvrent pas l'ensemble des 100 configurations testées, ce qui limite la vérification indépendante des chiffres annoncés. Le problème de l'assemblage multi-paires est un verrou industriel identifié depuis les années 1990 dans la robotique manufacturière, avec des applications directes en électronique, aéronautique et assemblage de sous-systèmes automobiles. Les approches concurrentes actuelles incluent les planificateurs symboliques classiques (MoveIt, OpenRAVE), les politiques d'imitation learning (ACT, Diffusion Policy) et les Visual Language Action models (pi-0 de Physical Intelligence, RoboFlamingo). Ce framework se positionne entre la planification symbolique vérifiable et l'inférence neuronale généraliste. Les auteurs soulignent que l'architecture est extensible à faible coût par ajout de nouvelles paires ou actions. Les prochaines étapes logiques seraient un déploiement sur des bras à plus haute charge utile et une validation sur des lignes d'assemblage industrielles réelles, domaine où des acteurs européens comme Wandercraft ou Enchanted Tools pourraient trouver des synergies applicatives.

UELes équipes R&D robotique européennes (notamment dans l'aéronautique et l'électronique) pourraient intégrer cette architecture pour automatiser des tâches d'assemblage multi-pièces à tolérance serrée, un verrou industriel non résolu par les planificateurs classiques.

RecherchePaper
1 source
Analyse de la locomotion d'un quadrupède sur le sol granulaire lunaire
77arXiv cs.RO 

Analyse de la locomotion d'un quadrupède sur le sol granulaire lunaire

Une équipe de recherche a publié en juin 2026 sur arXiv (preprint 2606.10273) une analyse de la locomotion d'un robot quadrupède conçu pour l'exploration lunaire, avec un focus sur l'interaction avec le régolithe lunaire. Le régolithe est un matériau granulaire meuble qui recouvre la surface de la Lune et qui diffère radicalement d'un sol rigide terrestre. Les chercheurs ont intégré un modèle physique de contact entre pied de robot et régolithe dans un environnement de simulation, puis ont entraîné des politiques de locomotion par apprentissage par renforcement (RL). Deux politiques ont été comparées : l'une entraînée sur des contacts rigides, l'autre sur des contacts mous simulant le régolithe. Résultats : les contacts granulaires génèrent une allure qualitativement différente, augmentent la dépense énergétique globale et provoquent instabilité et perte de tracking. Ce résultat touche directement l'un des angles morts majeurs du RL appliqué à la robotique terrain : les algorithmes de locomotion sont quasi-systématiquement entraînés sous hypothèse de contact rigide, ce qui suffit sur des sols durs mais s'effondre dès que le sol cède sous la patte. Pour la conception mécanique d'un quadrupède lunaire, cela se traduit concrètement par un sous-dimensionnement des couples moteurs et une sous-estimation du coût énergétique de transport, deux variables critiques dans un contexte où les contraintes thermiques et énergétiques sont dimensionnantes pour toute mission. Cette étude fournit des métriques quantitatives sur le surcoût locomoteur induit par le régolithe, un élément manquant dans la majorité des papiers de robotique planétaire. Le contexte est celui d'un regain d'intérêt intense pour la robotique lunaire, porté par le programme Artemis de la NASA et par plusieurs missions commerciales prévues d'ici 2028. La question du sim-to-real sur surfaces granulaires est connue dans la communauté depuis les travaux sur le sable et la neige, mais reste peu traitée dans le cadre spécifiquement lunaire. Du côté européen, l'ESA finance plusieurs projets de robots à pattes pour surfaces extraterrestres, sans qu'un programme quadrupède lunaire opérationnel ne soit encore annoncé publiquement. Ce papier reste un preprint non relu par des pairs, et ses conclusions, bien que cohérentes avec la littérature sur les milieux granulaires, n'ont pas encore été validées sur un prototype physique en environnement simulé en laboratoire.

UEL'ESA finançant plusieurs projets de robots à pattes pour surfaces extraterrestres, les métriques quantitatives sur le surcoût locomoteur du régolithe et les limites du RL entraîné sur contact rigide pourraient directement informer les choix de simulation et de conception des équipes européennes impliquées dans ces programmes.

RecherchePaper
1 source
TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense
78arXiv cs.RO 

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Des chercheurs ont publié sur arXiv (référence 2606.11184) TacForeSight, un framework léger d'anticipation tactile guidée par la force pour la manipulation en contact riche. Le système repose sur deux composants : TacForceWM, un modèle du monde tactile qui prédit les dynamiques latentes tactiles à court horizon à partir de capteurs bi-doigts conditionnés par les signaux de force et de couple au poignet à haute fréquence, et une politique conditionnée par l'anticipation tactile (Predictive Tactile-Conditioned Policy) qui exploite ces prédictions comme priors de contact, modélise l'évolution tactile courante-vers-future via cross-attention, et fusionne les features visuo-tactiles via un module de gating adaptatif. Les expériences portent sur cinq tâches représentatives de manipulation sur robot réel et trois scénarios de perturbation en cours de manipulation, avec des résultats supérieurs aux baselines existantes dans tous les cas, notamment sous perturbations de contact dynamiques. Le code et les datasets seront mis à disposition publiquement sur tacforesight.github.io. L'apport technique central est de modéliser explicitement les rôles asymétriques de la force globale au poignet (basse résolution spatiale, haute fréquence) et du toucher local bi-doigts (haute résolution spatiale, dynamique plus lente), distinction que la plupart des méthodes d'imitation learning actuelles ignorent. En opérant entièrement dans un espace latent compact, le framework permet un raisonnement de contact proactif compatible avec le contrôle haute fréquence, là où les approches réactives échouent sous perturbations imprévues. Pour les intégrateurs industriels et les équipes travaillant sur l'assemblage ou le conditionnement robotisé, c'est une démonstration concrète que la fusion force+tactile dans un world model améliore la robustesse réelle sans alourdir l'inférence en temps réel. Ce travail s'inscrit dans une vague de recherche combinant world models et retour tactile pour la manipulation dextre, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur GR00T N2 de NVIDIA qui intègrent également des politiques tactile-aware. Aucun concurrent français ou européen direct n'est identifié sur ce créneau précis, bien que des acteurs comme Pollen Robotics ou Enchanted Tools s'appuient aussi sur la manipulation fine. Il s'agit ici d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenaire annoncé : les résultats, bien que prometteurs sur cinq tâches de laboratoire, devront être reproduits sur des géométries et conditions de contact plus variées avant de valider la généralisation à l'échelle industrielle.

UEImpact indirect : le code open-source prévu sur tacforesight.github.io pourrait être exploité par des équipes européennes travaillant sur la manipulation fine, comme Pollen Robotics ou les labos CEA-List, mais aucun acteur FR/EU n'est impliqué dans ce travail.

RecherchePaper
1 source
Modèles de tiges pour le contrôle des robots continus et souples : une revue
79arXiv cs.RO 

Modèles de tiges pour le contrôle des robots continus et souples : une revue

Une équipe de chercheurs a publié sur arXiv (référence 2407.05886, troisième révision) une revue exhaustive des modèles de tiges (rod models) appliqués à la modélisation et au contrôle des robots continus et souples. Le travail couvre les fondements mathématiques des théories de tiges, leur application à la modélisation de structures déformables, et les stratégies de contrôle dérivées, tant model-based que learning-based. Les auteurs proposent une classification des modèles selon le type de déformation pris en compte, contribution qui fait défaut dans la littérature existante. Les domaines applicatifs ciblés incluent la santé, l'agriculture, le milieu marin et l'espace, où les robots rigides conventionnels montrent leurs limites face à des environnements non structurés et à des interactions mécaniques en contact permanent. L'intérêt principal de ce survey est de structurer un sous-champ marqué par une forte fragmentation de la littérature. Les modèles de type Cosserat ou Kirchhoff proposent une approximation dimensionnellement réduite du comportement de corps élancés et déformables, offrant un meilleur équilibre que les méthodes éléments finis (FEM) entre précision et coût computationnel temps-réel. Pour les équipes R&D travaillant sur des bras flexibles endoscopiques, des cathéters guidés ou des manipulateurs agricoles, ce panorama unifié permet d'arbitrer entre approche physique et apprentissage, et de cibler les lacunes identifiées : robustesse au contact incertain, calibration en conditions réelles, et fermeture du fossé sim-to-real. Les modèles de tiges appliqués à la robotique souple se sont imposés comme cadre de référence depuis le milieu des années 2010, portés par l'essor des actionneurs à câbles, pneumatiques et à base d'élastomères. Plusieurs groupes académiques restent moteurs sur le sujet : INRIA, MIT CSAIL, IIT Gênes, Universität Stuttgart. Dans l'écosystème industriel, les applications en chirurgie mini-invasive et en manipulation agricole sont directement confrontées à ces problèmes de modélisation. Le papier identifie trois directions ouvertes : gestion du contact multi-points, intégration avec les architectures VLA (vision-langage-action), et généralisation à des morphologies hybrides rigides-souples. Ces fronts devraient alimenter le champ dans les deux à trois prochaines années.

UEINRIA figure parmi les groupes académiques moteurs du domaine ; les applications ciblées (chirurgie mini-invasive, manipulation agricole) concernent directement des acteurs industriels et projets de recherche européens.

RecherchePaper
1 source
UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles
80arXiv cs.RO 

UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles

Une équipe de chercheurs a publié mi-juin 2026 sur arXiv (arXiv:2606.10683) un travail intitulé UniDexTok, proposant une représentation unifiée pour les états de mains dextres hétérogènes, humaines et robotiques. Le coeur du système est le Unified Dexterous Hand Model (UDHM), une interface sémantique partagée à 22 degrés de liberté (DoF) qui normalise les états articulaires de n'importe quelle main dans un espace commun. Sur cette base, UniDexTok est un tokenizer d'états appris exclusivement depuis des données réelles, sans recours au retargeting ni à la simulation. Les gains de précision par rapport à la baseline UniHM sont significatifs : l'erreur angulaire moyenne par articulation (MPJAE) chute de 15,63° à 0,16° (réduction de 98,98 %), et l'erreur de position par articulation (MPJPE) passe de 18,51 mm à 0,18 mm (réduction de 99,03 %), ramenant la reconstruction de l'échelle centimétrique à une précision sub-millimétrique. La portée industrielle de ce résultat tient moins aux chiffres absolus qu'à ce qu'ils rendent possible : un entraînement cross-embodiment sans pipeline de retargeting, qui a longtemps constitué un goulot d'étranglement dans la constitution de datasets pour mains dextres. Jusqu'ici, les données capturées sur une Shadow Hand, une Allegro ou une LEAP Hand étaient difficilement réutilisables pour un autre robot, faute de représentation commune. UniDexTok permet de les agréger : les expériences montrent que des données provenant d'autres embodiments améliorent la reconstruction sur l'embodiment cible, validant le principe de transfert cross-morphologie. Le système affiche également des capacités zero-shot et few-shot lors de l'introduction de nouvelles mains, ce qui réduit le coût d'intégration pour les intégrateurs qui déploient plusieurs plateformes en parallèle. La manipulation dextre reste l'un des défis les plus ouverts de la robotique humanoïde, avec une fragmentation des efforts entre labos (Dexterous Manipulation Group chez CMU, OpenAI Dactyl suspendu, Physical Intelligence avec Pi-0) et industriels (Tesla Optimus, Figure, Unitree). Les approches précédentes comme UniHM avaient posé la question de la représentation unifiée mais avec des erreurs de reconstruction trop élevées pour être exploitables en contrôle fin. UniDexTok s'inscrit dans un mouvement plus large vers des politiques robotiques génériques multi-embodiments, analogue à ce que les VLA (Vision-Language-Action models) tentent du côté de la perception. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat ; il s'agit d'une contribution de recherche fondamentale, dont l'intégration dans des pipelines de formation de politiques reste à démontrer en conditions réelles.

RecherchePaper
1 source
Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert
81arXiv cs.RO 

Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert

Des chercheurs ont publié sur arXiv (arXiv:2606.10743, juin 2026) HOWTransfer, un cadre algorithmique centré sur la main pour transférer des démonstrations humaines filmées en trajectoires exécutables par un bras robotique. Le système fonctionne en trois étapes : reconstruction 3D temporellement cohérente du mouvement du poignet humain, localisation automatique des intervalles de contact main-objet à partir de cues visuels d'interaction, puis génération d'hypothèses de saisie en pince parallèle (parallel-jaw grasp) propagées le long de la trajectoire du poignet. Une phase finale d'édition raffine l'alignement de contact et produit plusieurs variantes exécutables depuis une seule vidéo de démonstration. Sur un ensemble de tâches de manipulation variées, le système atteint 86 % de taux de succès et est préféré aux trajectoires téléopérées dans une étude comparative en aveugle. Ce résultat mérite attention parce qu'il attaque directement le goulot d'étranglement principal du learning from demonstration (LfD) : collecter suffisamment de données de qualité. La téléopération reste coûteuse, lente et non scalable en industrie ; si un système peut extraire des trajectoires robotes directement depuis des vidéos de travailleurs humains filmés sur une chaîne d'assemblage ou en entrepôt, le coût d'entrée pour déployer de la manipulation apprise s'effondre. Fait notable : HOWTransfer ne s'appuie pas sur des descripteurs d'objets prédéfinis ni sur un tracking d'état explicite, ce qui le rend potentiellement généraliste sur des objets non vus. Le 86 % de succès annoncé est encourageant, mais les conditions expérimentales exactes (diversité des objets, profondeur de la caméra, nombre de tâches, robot cible) ne sont pas précisées dans le résumé, ce qui justifie une lecture du papier complet avant toute intégration industrielle. Le transfert de démonstration humaine vers robot via vidéo est un domaine en pleine effervescence depuis 2022-2023, porté par des travaux comme DROID, RoboAgent ou les approches VLA (Vision-Language-Action) de Google DeepMind et Physical Intelligence (Pi-0). HOWTransfer se distingue en adoptant une approche sans modèle de langage ni segmentation objet, ce qui le rend plus léger mais aussi plus fragile sur les scènes encombrées. Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit pour l'instant d'un preprint académique, pas d'un produit. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (Franka, UR, ou humanoïdes comme Figure 03 ou Unitree G1) et une évaluation sur des benchmarks standardisés comme RLBench ou LIBERO pour situer la performance par rapport à l'état de l'art.

RecherchePaper
1 source
Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines
82arXiv cs.RO 

Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines

Une équipe de recherche a déposé le 10 juin 2026 sur arXiv (réf. 2606.10614) un framework baptisé Dexterous Point Policy (DPP), capable d'apprendre des politiques de manipulation dextère directement à partir de vidéos humaines, sans aucune démonstration sur robot. Le système extrait des points-clés 3D (keypoints) des objets de la tâche et des mains humaines, en ciblant spécifiquement les poignets et les bouts de doigts, puis entraîne un transformer autorégressif sur ces représentations unifiées. Sur un banc d'essai réel couvrant la saisie-dépôt (pick-and-place) et la manipulation d'outils, DPP atteint 75,0 % de succès, contre seulement 1,0 % pour le meilleur baseline de type VLA (Vision-Language-Action model) disponible. La méthode généralise également à des scénarios non vus pendant l'entraînement, notamment des environnements multi-objets et de nouvelles catégories d'objets. L'apport principal est d'éliminer le goulet d'étranglement le plus coûteux du cycle d'apprentissage robotique: la collecte de données en téléopération. Les auteurs rappellent que téléopérer une main multi-doigts pour une seule tâche atomique peut mobiliser plusieurs jours de travail humain, ce qui rend le fine-tuning classique des modèles de fondation sur données robotiques particulièrement onéreux à l'échelle. L'intuition centrale de DPP est que, au niveau des keypoints (poignets et bouts de doigts), les comportements humains et robotiques s'alignent suffisamment pour permettre un transfert direct de politique sans adaptation supplémentaire. Avec un écart de performance de 75x par rapport au baseline VLA, le résultat contredit l'idée selon laquelle combler l'embodiment gap entre humain et robot exige obligatoirement des données proprioceptives ou d'actionnement robotique. Ce travail s'inscrit dans le courant des modèles de fondation robotiques pré-entraînés sur vidéos humaines, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA sont des représentants récents, qui butaient tous sur ce même problème de transfert au déploiement réel. DPP propose une réponse architecturale en choisissant une représentation intermédiaire qui abstrait la morphologie spécifique de chaque effecteur, rendant la politique agnostique à la géométrie exacte de la main robotique. Il s'agit pour l'instant d'un preprint non relu par les pairs, sans affiliation institutionnelle précisée dans le résumé public, et les tests restent limités à des tâches de complexité modérée. Les étapes naturelles seraient une validation sur des mains multi-doigts plus variées et des manipulations de plus haute complexité, comme l'assemblage de précision ou la manipulation d'outils déformables, pour confirmer la scalabilité réelle de l'approche.

RecherchePaper
1 source
GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique
83arXiv cs.RO 

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

Des chercheurs ont publié le 10 juin 2026 un preprint arXiv (2606.10025) présentant GHOST, un framework pour politiques visuomotrices de manipulation robotique capables de généraliser au-delà de leur distribution d'entraînement. L'architecture repose sur une factorisation hiérarchique en deux niveaux : une politique haut niveau qui prédit le prochain sous-objectif sous forme de distribution sur les poses 3D de l'effecteur terminal à partir d'observations RGB-D multi-vues, et un contrôleur bas niveau conditionné sur ces objectifs qui génère les actions spécifiques à l'embodiment physique du robot. Pour relier les deux niveaux, les auteurs introduisent une interface spatiale qui projette les sous-objectifs 3D prédits dans le plan image sous forme de heatmaps de l'effecteur, une représentation volontairement simple mais compatible avec les pipelines d'entraînement existants. La politique haut niveau est entraînée sur des vidéos de démonstrations humaines brutes, sans retargeting d'actions, tandis que la politique bas niveau reste entraînée exclusivement sur des données robot. Le résultat central est que cette décomposition hiérarchique améliore systématiquement les performances et la robustesse par rapport à une Diffusion Policy plate (architecture de référence populaire depuis les travaux de Chi et al. en 2023) sur une suite de tâches de manipulation. L'insight clé est que les sous-objectifs en espace cartésien de l'effecteur sont largement "embodiment-agnostic" : la même politique haut niveau peut s'appliquer à différentes architectures de robots sans réentraînement complet. Cela contourne un goulot d'étranglement majeur dans le domaine, le retargeting d'actions depuis les démonstrations humaines, qui introduit habituellement un bruit significatif et limite la qualité des données d'entraînement. GHOST s'inscrit dans un courant actif de recherche sur l'utilisation des vidéos humaines comme source de supervision low-cost pour la robotique de manipulation, aux côtés d'approches comme pi-0 de Physical Intelligence ou des travaux sur les VLA (Visual-Language-Action models) de Google DeepMind avec RT-2 et GR00T N2 de NVIDIA. La principale limitation à noter : il s'agit d'un preprint non encore peer-reviewed, sans données de déploiement réel ni métriques de cycle time en contexte industriel. Les résultats concernent une suite de tâches de laboratoire ; la tenue à l'échelle dans des environnements moins contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de commercialisation n'est annoncé.

RecherchePaper
1 source
AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique
84arXiv cs.RO 

AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique

Une équipe de recherche a publié en juin 2026 sur arXiv (référence 2606.10903) un framework de navigation locale appelé AgniNav, conçu pour permettre à des robots de morphologies radicalement différentes de naviguer en autonomie à partir d'une unique caméra RGB, sans recourir à un capteur de profondeur actif et sans réentraînement du modèle. Le système repose sur une enveloppe de sécurité définie par quatre paramètres mesurables : hauteur critique pour la détection de collisions, longueur avant, longueur arrière, demi-largeur. Ces paramètres conditionnent simultanément un réseau image-vers-scan qui prédit un pseudo-laserscan 1D à partir d'une image couleur monoculaire, et un planificateur local qui adapte la vérification de collisions au gabarit du robot. Les expérimentations ont été conduites sur trois plateformes réelles : le Turtlebot2 (base à roues), l'Unitree Go2 (quadrupède), et l'Accelerated Evolution K1 (humanoïde). Les taux de succès sont respectivement de 39/40, 18/20 et 18/20, avec 0, 1 et 2 collisions sur l'ensemble des essais, le tout tournant à 30 Hz sur un Jetson Orin. Ce qui distingue AgniNav des travaux existants est précisément l'absence de retraining par plateforme. La quasi-totalité des politiques de navigation visuelle actuelles sont entraînées pour un couple caméra/gabarit fixe, ce qui rend leur transfert d'un robot à un autre coûteux en données et en temps. Ici, le même réseau, entraîné une fois sur des paires couleur-profondeur supervisées par des labels de scan générés à la volée, se déploie sans adaptation sur des morphologies aussi différentes qu'un rover plat et un humanoïde. Pour un intégrateur gérant une flotte hétérogène, ou pour un OEM souhaitant embarquer la navigation sur plusieurs SKUs avec un seul modèle, c'est un changement d'économie non négligeable. La navigation cross-embodiment est un problème ouvert depuis plusieurs années dans la communauté robotique : les approches concurrentes, comme celles mobilisant des politiques VLA (vision-language-action) ou des pipelines basés sur la simulation, exigent généralement soit du matériel dédié (LiDAR, caméra de profondeur RGB-D), soit des cycles de fine-tuning par plateforme. AgniNav s'inscrit dans un courant de travaux cherchant à normaliser la couche de perception au niveau de l'enveloppe physique plutôt que du modèle de robot complet. Le résultat présenté reste à ce stade une contribution de recherche, pas un produit ou un SDK distribué. Les prochaines étapes naturelles incluent la validation sur des environnements dynamiques et des densités d'obstacles plus élevées, ainsi que l'extension à des architectures d'enveloppe plus complexes pour les humanoïdes à forte variation de posture.

RecherchePaper
1 source
Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA
85arXiv cs.RO 

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

Une équipe de chercheurs a publié en juin 2026 sur arXiv (arXiv:2606.10366) une étude systématique visant à quantifier et améliorer la corrélation entre évaluation en simulation et déploiement réel pour les politiques de type VLA (Vision-Language-Action). Ces politiques, qui combinent perception visuelle, compréhension du langage naturel et génération d'actions motrices, sont au coeur des robots généralistes actuels. L'étude couvre plusieurs plateformes de simulation, plusieurs politiques VLA, plusieurs familles de tâches manipulatoires, et plusieurs facteurs de perturbation contrôlés. Les métriques retenues sont la cohérence du classement des politiques entre simulation et réel, la corrélation de performance absolue, et les patterns d'échec induits par perturbation. Les auteurs examinent également à quel moment le fine-tuning d'une politique sur données simulées améliore réellement les performances en monde réel, et comment le volume de données post-entraînement influence cet alignement. Ce travail s'attaque à un verrou identifié de longue date dans la robotique apprise : les benchmarks en simulation, malgré des progrès significatifs en réalisme et diversité ces deux dernières années, ne sont pas encore adoptés comme proxies fiables pour l'évaluation hors-lab. En pratique, cela signifie que les équipes d'intégration et les labs reproduisent des évaluations coûteuses en monde réel à chaque itération de politique, faute de pouvoir faire confiance aux scores simulés. L'étude identifie quels signaux simulés restent alignés avec le déploiement réel et lesquels divergent, donnant aux praticiens une grille de lecture concrète pour calibrer leur utilisation de la simulation dans le pipeline de développement. Le problème du sim-to-real gap accompagne la robotique apprise depuis les travaux fondateurs sur le domain randomization (OpenAI, 2017-2019), mais il devient critique à mesure que les VLA cherchent à passer à l'échelle industrielle. Des acteurs comme Physical Intelligence (Pi-0), Google DeepMind (RT-X, GR00T N2 côté Nvidia), ou encore Figure AI avec Figure 03 s'appuient tous sur des pipelines simulation-réel pour accélérer l'entraînement. En proposant un cadre unifié pour mesurer, interpréter et améliorer l'utilité de la simulation pour les VLA, ce papier vise à fournir une référence méthodologique commune, à la fois pour les concepteurs de simulateurs et pour les praticiens. Les prochaines étapes logiques incluent l'intégration de ces recommandations dans des benchmarks publics existants tels que RoboVerse ou LIBERO.

UEImpact indirect : ce cadre méthodologique pourrait réduire les coûts d'évaluation réelle répétée pour les équipes R&D européennes travaillant sur des politiques VLA.

RechercheOpinion
1 source
UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI
86arXiv cs.RO 

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

Une équipe de recherche a déposé le 10 juin 2026 le preprint arXiv 2606.10382 décrivant UMI-Bench 1.0, présenté comme le premier benchmark entièrement dédié à l'évaluation en conditions réelles de politiques de manipulation robotique entraînées via l'Universal Manipulation Interface (UMI). Le benchmark cible la manipulation d'objets sur table (tabletop manipulation) et couvre l'intégralité de la chaîne de validation : collecte de données, réinitialisation de scène entre essais, exécution de politique, journalisation des résultats et analyse par facteurs de tâche. Il opère en mode "local-first", c'est-à-dire que les évaluations tournent directement sur robot réel, sans couche de simulation intermédiaire. L'UMI couple observations depuis une caméra montée au poignet, représentation des actions, collecte de démonstrations humaines et déploiement physique, une architecture dont les performances dépendent de la cohérence de chaque maillon. Ce benchmark répond à un problème structurel de l'apprentissage par imitation : l'absence de protocole standardisé conduit chaque équipe à évaluer ses politiques dans des conditions non comparables, ce qui rend la littérature difficile à arbitrer pour un intégrateur ou un décideur industriel. En rendant le processus reproductible et auditable, UMI-Bench permet de mesurer concrètement dans quelle mesure une politique entraînée sur des démonstrations généralise à des configurations physiques inédites, ce que les chercheurs appellent la sim-to-real (ici demo-to-real) generalization. C'est un enjeu central pour les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models), dont les performances en démonstration sélectionnée restent difficiles à quantifier sans infrastructure de test commune. L'UMI a été introduit en 2023-2024 par Cheng Chi et al. (Columbia University) comme interface portable de collecte de démonstrations : un opérateur guide un gripper équipé d'une caméra et d'un module de localisation, et les trajectoires servent directement à entraîner des politiques. Le paysage concurrent des benchmarks comprend LIBERO, DROID et le framework LeRobot de Hugging Face, qui proposent leurs propres protocoles mais sans calibration spécifique pour le pipeline UMI. L'étape logique suivante serait l'intégration de modèles fondationnels comme pi-0 (Physical Intelligence) ou OpenVLA dans ce protocole de référence, et l'extension à des tâches multi-étapes.

RecherchePaper
1 source
Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée
87arXiv cs.RO 

Revue des approches de navigation et manipulation robotique avec simulateurs physiques à l'ère de l'IA incarnée

Un groupe de chercheurs a publié sur arXiv (réf. 2505.01458, version 2, mai 2025) un état de l'art sur l'utilisation des simulateurs physiques pour entraîner des robots à la navigation et à la manipulation dans le cadre de l'IA incarnée (Embodied AI). L'étude analyse comment les moteurs de simulation réduisent le "sim-to-real gap", c'est-à-dire l'écart de performance constaté quand un agent entraîné en simulation est déployé dans le monde réel. Le survey passe en revue les caractéristiques des principaux simulateurs, leurs contraintes matérielles, et propose un inventaire structuré de datasets de référence, métriques d'évaluation et méthodes existantes. Aucun code ou outil nouveau n'est publié: il s'agit d'une contribution bibliographique et méthodologique. Cette revue intervient alors que le sim-to-real gap demeure l'obstacle principal au déploiement industriel de robots humanoïdes et de bras manipulateurs. Entraîner directement sur du matériel réel est coûteux, lent et risqué, ce qui place la simulation au cœur des pipelines de développement des VLA (Vision-Language-Action models) et des systèmes de navigation autonome. En consolidant des propriétés peu documentées des simulateurs, le survey aide ingénieurs et chercheurs à sélectionner l'outil adapté à leurs contraintes hardware sans avoir à faire une veille exhaustive de la littérature. Les simulateurs en compétition dans cet espace incluent Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google), PyBullet, Webots et Genesis, un moteur GPU-natif récent. L'intérêt pour ce type de synthèse est alimenté par l'accélération du secteur: Figure AI, Physical Intelligence (pi zero), Boston Dynamics, Unitree et Agility Robotics multiplient les annonces de déploiements en environnements industriels réels. Ce survey constitue un point d'entrée structuré pour les équipes qui montent leur pipeline sim-to-real en 2025, à condition de ne pas attendre de benchmarks neutres et indépendants: l'évaluation des simulateurs reste largement conduite par leurs propres éditeurs.

RecherchePaper
1 source
RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement
88arXiv cs.RO 

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Des chercheurs ont publié RoboGPT-R1, un framework d'entraînement en deux étapes conçu pour améliorer la planification de tâches des agents robotiques incarnés, présenté dans un preprint arXiv (2510.14828, version 3). Le système repose sur une séquence supervisée classique, qui ancre les connaissances fondamentales via des démonstrations expertes, suivie d'un apprentissage par renforcement (RL) ciblé sur les lacunes en compréhension visuo-spatiale et en raisonnement multi-étapes. Le modèle de base choisi est Qwen2.5-VL-3B, un vision-language model open-source de 3 milliards de paramètres. Les résultats publiés sur le benchmark EmbodiedBench montrent que RoboGPT-R1 dépasse GPT-4o-mini de 21,33 points de pourcentage, et surclasse d'autres approches entraînées sur Qwen2.5-VL-7B de 20,33 points, ce dernier disposant pourtant de plus du double de paramètres. Le cœur technique du framework est une fonction de récompense basée sur des règles qui prend en compte simultanément les performances à long horizon et les contraintes d'action dans l'environnement physique simulé. Ces résultats viennent étayer une thèse qui s'impose progressivement dans la communauté robotique : le fine-tuning supervisé seul génère des agents fragiles hors distribution, en particulier pour les tâches de manipulation longue séquence dans des environnements non contrôlés. RoboGPT-R1 démontre qu'un modèle compact peut surpasser des architectures significativement plus grandes dès lors que le RL est utilisé pour affiner la compréhension physique et la cohérence des séquences d'actions. Pour les équipes d'intégration et les responsables techniques, cela pointe vers une trajectoire viable vers des solutions embarquables sur hardware contraint, sans sacrifier les capacités de planification complexe. Un écart de 21 points sur un benchmark spécialisé par rapport à GPT-4o-mini indique que la spécialisation domaine via RL compense largement le désavantage de taille brute. RoboGPT-R1 s'inscrit dans une dynamique post-SFT amplifiée depuis fin 2024, en large partie accélérée par les travaux DeepSeek-R1 qui ont popularisé le RL comme levier de raisonnement pour les LLMs. Dans le champ robotique, Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec GR00T N2 et RT-X, ou encore OpenVLA, explorent des trajectoires d'alignement vision-language-action (VLA) comparables. RoboGPT-R1 se distingue par son positionnement sur la planification symbolique de haut niveau plutôt que le contrôle moteur bas niveau, et par sa base Qwen2.5-VL open-source qui favorise la reproductibilité. Important à noter : il s'agit à ce stade exclusivement d'une validation sur EmbodiedBench, un benchmark simulé. Aucun déploiement physique n'est annoncé et le sim-to-real gap, question centrale pour tout passage en production, reste une problématique que l'article ne traite pas.

RechercheOpinion
1 source
HandCept : un cadre de fusion visuo-inertielle pour la proprioception précise des mains dextériques
89arXiv cs.RO 

HandCept : un cadre de fusion visuo-inertielle pour la proprioception précise des mains dextériques

Une équipe de chercheurs a publié sur arXiv en mai 2025 (référence 2505.08213) HandCept, un framework de proprioception visuo-inertielle pour mains dextres robotiques. Le système combine une caméra RGB-D montée au poignet et des IMU à 9 axes (accéléromètre, gyroscope, magnétomètre) pour estimer les angles articulaires en temps réel, via un filtre de Kalman étendu (EKF) sans latence ajoutée. Les erreurs d'estimation se situent entre 2° et 4° sur les angles articulaires, sans dérive observable sur la durée, surpassant selon les auteurs les approches purement visuelles ou purement inertielles. L'approche repose sur un apprentissage zero-shot, sans données réelles annotées, rendu possible par un pipeline de rendu photoréaliste haute fidélité sous Blender, publié en open-source sur GitHub. La proprioception, c'est-à-dire la capacité d'une main robotique à connaître précisément la position de ses propres doigts, reste l'un des verrous techniques de la manipulation dextre généraliste. Les encodeurs magnétiques et capteurs de force embarqués dans des mains multi-DOF imposent des contraintes de volume, de câblage et de calibration souvent incompatibles avec un déploiement à l'échelle. HandCept contourne ces limites en s'appuyant sur des capteurs déjà présents dans de nombreuses plateformes humanoïdes ou cobots, et la fusion EKF temps réel réduit le fossé sim-to-real, point critique pour accélérer le déploiement de politiques d'imitation learning ou de VLA (Vision-Language-Action) apprises en simulation. La précision annoncée de 2 à 4° reste toutefois à contextualiser: les résultats sont issus de conditions de laboratoire contrôlées et le papier n'a pas encore été évalué par les pairs. La course à la manipulation dextre s'est intensifiée en 2024-2025 avec des mains à haute densité d'actionneurs chez Figure (Figure 03), Sanctuary AI, Physical Intelligence (pi0), ou encore LEAP Hand côté recherche ouverte. La précision proprioceptive conditionne directement les performances de ces architectures. HandCept reste à ce stade un résultat de laboratoire: les auteurs n'annoncent ni partenaire industriel, ni timeline de commercialisation, ni intégration sur une plateforme humanoïde spécifique. Le pipeline Blender open-sourcé constitue néanmoins une contribution tangible pour la communauté, en facilitant la génération de données synthétiques pour d'autres équipes travaillant sur des architectures similaires sans accès à un système de capture de mouvement coûteux.

RecherchePaper
1 source
Equanimité dans l'interaction humain-robot : appliquer les principes de la technologie calme
90arXiv cs.RO 

Equanimité dans l'interaction humain-robot : appliquer les principes de la technologie calme

Un article publié en juin 2026 sur arXiv (identifiant 2606.09836) propose un cadre théorique et pratique pour intégrer les principes de la "Calm Technology" dans l'interaction humain-robot (HRI), avec un focus sur l'environnement domestique. Les auteurs formulent des lignes directrices concrètes pour concevoir des robots d'assistance qui privilégient l'équanimité de l'utilisateur, c'est-à-dire des interactions calmes, non intrusives et harmonieuses. L'étude cible spécifiquement les assistants domestiques, identifiés comme opérant dans l'espace le plus intime de la vie quotidienne, ce qui justifie une approche de conception distincte de celle des environnements industriels ou commerciaux. Aucun prototype ni déploiement spécifique n'est présenté : il s'agit d'un article de cadrage conceptuel, pas d'un produit commercialisé. L'enjeu est significatif pour les concepteurs de robots sociaux et domestiques. La "Calm Technology", concept forgé par Mark Weiser et John Seely Brown chez Xerox PARC dans les années 1990, postule que les meilleures interfaces technologiques opèrent à la périphérie de l'attention humaine, n'intervenant au premier plan que lorsque c'est strictement nécessaire. Son application formalisée à la robotique reste encore rare : la majorité des plateformes actuelles sont conçues pour solliciter activement l'utilisateur, créant une charge cognitive continue. L'article argumente que cette posture est incompatible avec les besoins de confort et d'autonomie dans un foyer, et fournit des exemples concrets de fonctionnalités à intégrer pour réduire cette friction attentionnelle. Ce travail s'inscrit dans un courant émergent autour de la robotique responsable et du design comportemental, qui prend de l'ampleur alors que plusieurs acteurs avancent leurs projets de robots domestiques : Enchanted Tools en France avec son robot Miroki, 1X Technologies en Norvège, ou encore Samsung et ses prototypes d'assistants résidentiels. Au-delà des performances mécaniques (payload, degrés de liberté, cycle time), le design de l'interaction devient un différenciateur clé pour l'acceptation sociale de ces systèmes. L'article ouvre des pistes de recherche appliquée sur la modulation de la proactivité robotique, le silence contextuel, et la hiérarchisation des signaux d'alerte, sans citer de calendrier de déploiement ni de partenaires industriels.

UELes lignes directrices proposées pourraient bénéficier aux concepteurs européens de robots domestiques, notamment Enchanted Tools (Miroki, France) et 1X Technologies (Norvège), en fournissant un cadre de design axé sur la réduction de la charge cognitive et l'acceptabilité sociale.

RecherchePaper
1 source
Ce qui compte dans l'orchestration des politiques robotiques : étude systématique des agents VLA hiérarchiques
91arXiv cs.RO 

Ce qui compte dans l'orchestration des politiques robotiques : étude systématique des agents VLA hiérarchiques

Une équipe de chercheurs a publié en juin 2026 sur arXiv (réf. 2606.10267) une étude systématique des architectures hiérarchiques VLA, désignées Hi-VLA, pour la manipulation robotique. Ces systèmes couplent un planificateur de haut niveau basé sur un grand modèle vision-langage (VLM) avec un contrôleur bas niveau de type VLA (vision-language-action) : le planificateur décompose une tâche complexe en sous-objectifs formulés en langage naturel, que le contrôleur exécute séquentiellement. Les auteurs unifient plusieurs architectures Hi-VLA existantes sous un cadre commun dit « options-style » et les évaluent sur trois familles de tâches : courte horizon, longue horizon et à forte charge de raisonnement. Les expériences combinent simulation et validation physique sur un robot ALOHA, le manipulateur bimanuel développé initialement par Stanford et repris par Google DeepMind. Ce travail comble un manque réel dans la littérature : jusqu'ici, les systèmes Hi-VLA divergeaient dans leurs choix de planificateurs, de contrôleurs, de mécanismes de transition et de représentation mémoire, sans base de comparaison commune. Les résultats montrent qu'une hiérarchie bien conçue surpasse clairement le contrôle VLA plat (non-hiérarchique) ainsi qu'une hiérarchie naïve, ce qui valide empiriquement l'approche mais souligne que les gains dépendent fortement des interfaces entre niveaux et du choix des modèles. Pour les intégrateurs industriels qui explorent les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ces principes de conception fournissent un cadre d'arbitrage concret entre flexibilité de planification et précision de contrôle. L'article s'inscrit dans une dynamique de consolidation méthodologique qui suit une période d'expérimentation empirique rapide. Depuis 2023-2024, des systèmes comme SayCan (Google), RoboCat (DeepMind) ou les architectures de Physical Intelligence ont démontré la faisabilité des VLA à grande échelle, mais les recettes de design restaient opaques. Les concurrents directs sur le segment de la planification hiérarchique incluent des travaux comme Code-as-Policies ou Voyager. La prochaine étape naturelle sera l'extension de ces principes à des environnements non structurés hors laboratoire ; le site du projet (jiahenghu.github.io/hi-vla) propose des vidéos de démonstration, mais aucun déploiement industriel n'est annoncé à ce stade.

RechercheOpinion
1 source
Formulation géométrique du contrôle unifié force-impédance sur SE(3) pour les manipulateurs robotiques
92arXiv cs.RO 

Formulation géométrique du contrôle unifié force-impédance sur SE(3) pour les manipulateurs robotiques

Des chercheurs ont soumis sur arXiv (identifiant 2504.17080, troisième révision) un cadre de contrôle baptisé GUFIC (Geometric Unified Force-Impedance Control), qui fusionne deux méthodes existantes, le contrôle d'impédance unifié par la force (UFIC) et le contrôle d'impédance géométrique (GIC), en les étendant au manifold SE(3), le groupe spécial euclidien décrivant l'ensemble des mouvements rigides à 6 degrés de liberté (translation et rotation). L'objectif est de permettre à un bras manipulateur de suivre simultanément une trajectoire complète dans l'espace et d'exercer une force précise sur une surface de contact, tout en garantissant la passivité du système grâce à l'augmentation par réservoir d'énergie (energy tank augmentation). La validation a été conduite uniquement en simulation, via le simulateur MuJoCo, sur des scénarios combinant suivi de trajectoire SE(3) et application de force ; le code est disponible en open source sur GitHub. L'enjeu central est de formuler le contrôle de contact sur la géométrie exacte du mouvement rigide plutôt que dans l'espace cartésien linéarisé, ce qui élimine des approximations qui dégradent les performances lors de rotations importantes. La garantie de passivité est directement pertinente pour les intégrateurs industriels : elle assure que le robot ne peut pas injecter d'énergie de façon incontrôlée en contact avec un environnement incertain, limitant les risques de dommages matériels ou humains. Le papier résout également un problème d'implémentation non-causale du UFIC original en introduisant des champs de vitesse et de force, rendant le contrôleur réellement déployable en temps réel. Les propriétés d'invariance et d'équivariance SE(3) héritées par le GUFIC améliorent par ailleurs l'efficacité d'échantillonnage des algorithmes d'apprentissage embarqués dans la loi de contrôle, un avantage non négligeable à mesure que les pipelines VLA (vision-language-action) s'intègrent aux contrôleurs bas niveau. Le GUFIC s'appuie sur deux lignées de travaux : le UFIC (Schindlbeck et Haddadin, 2015), référence établie pour le contrôle force-impédance, et le GIC développé précédemment par les mêmes auteurs pour appliquer la géométrie différentielle à l'impédance pure. Cette contribution s'inscrit dans la compétition entre approches géométriques et formulations classiques en espace opérationnel (Khatib) ou contrôle d'admittance. La validation hardware sur un manipulateur physique reste absente de ce papier, ce qui constitue la frontière habituelle entre contribution théorique et impact industriel tangible ; la disponibilité du code en open source facilitera néanmoins la reproduction et le portage vers des plateformes réelles par d'autres équipes de recherche.

UELe code open source peut être exploité par les laboratoires et intégrateurs robotiques européens travaillant sur la manipulation en contact, mais l'article ne mentionne aucun acteur FR/EU spécifique et la validation hardware reste absente.

RecherchePaper
1 source
CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA
93arXiv cs.RO 

CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2508.13446, juin 2025) une méthode appelée CAST, Counterfactual Augmentation for Semantic Tracking, qui cible l'un des angles morts majeurs des modèles VLA (Vision-Language-Action) : leur incapacité à suivre des instructions linguistiques fines. L'approche ne nécessite aucune collecte de nouvelles données robot. Elle s'appuie sur des modèles de vision-langage (VLM) pour reannoter automatiquement les trajectoires existantes avec des labels contrefactuels, c'est-à-dire des descriptions alternatives de ce qui aurait pu se passer si l'instruction avait été différente. Les modèles entraînés sur ces données augmentées sont évalués sur des tâches de navigation visuo-linguistique dans trois environnements distincts (intérieur et extérieur) ainsi que sur des tâches de manipulation avec distracteurs. Le résultat clé : doublement du taux de succès par rapport aux VLAs entraînés sur les données brutes non augmentées, avec des performances dépassant les méthodes de l'état de l'art sur des commandes référentielles complexes. Ce résultat est significatif parce qu'il attaque directement le problème du language grounding dans les datasets robotiques actuels, jugé pauvre en diversité sémantique pour des observations similaires. Le fait d'obtenir ces gains sans collecte additionnelle réduit drastiquement le coût d'amélioration des politiques robot, un levier critique pour les équipes qui opèrent avec des budgets de téléopération limités. Plus structurellement, CAST valide l'hypothèse que la qualité du signal de supervision linguistique pèse autant que le volume de données brutes, une nuance souvent sous-estimée dans la course au scaling des VLAs. Les VLAs de type généraliste ont émergé comme paradigme dominant depuis 2023-2024, portés par des systèmes comme OpenVLA (Stanford), pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou RT-2 (Google DeepMind). Tous partagent la même tension : un corpus de démonstrations robot coûteux à collecter, annotées en langage naturel souvent trop homogène. CAST s'inscrit dans un courant de recherche sur l'augmentation synthétique des annotations, concurrent des approches basées sur la simulation procédurale ou le re-labeling par LLM pur. Il s'agit d'un preprint arXiv, pas encore d'un système déployé, les résultats restent à confirmer sur des robots physiques à grande échelle.

RechercheOpinion
1 source
GUIDE : compréhension directionnelle initialisée par l'objectif pour la navigation visuelle de bout en bout
94arXiv cs.RO 

GUIDE : compréhension directionnelle initialisée par l'objectif pour la navigation visuelle de bout en bout

Des chercheurs ont publié sur arXiv (référence 2606.10832, juin 2026) un framework d'apprentissage par renforcement baptisé GUIDE (Goal-Initialized Directional Understanding for End-to-End), conçu pour la navigation visuelle autonome de robots à pattes. Le principe fondamental est simple : contrairement aux systèmes existants qui alimentent le robot en mises à jour continues de sa cible depuis des modules d'estimation d'état hiérarchiques, GUIDE ne fournit la cible qu'une seule fois, au début de l'épisode. Le robot doit ensuite naviguer en s'appuyant exclusivement sur sa mémoire spatiale interne. Deux composants structurent le système : un prédicteur d'ancre spatiale qui exploite l'historique proprioceptif multi-fréquences pour construire des représentations d'egomouvement, et un flux de profondeur brut pour percevoir la géométrie locale. Les expériences ont été conduites sur un robot quadrupède, en simulation et en environnement réel, dans des scènes encombrées et des labyrinthes structurés, sans carte préalable. L'enjeu pour les intégrateurs est direct : supprimer la dépendance aux modules d'estimation d'état externes simplifie le stack de déploiement et réduit les points de défaillance. Les architectures hiérarchiques actuelles (localisation + cartographie + planification) sont coûteuses à calibrer et fragiles dans des environnements non cartographiés. GUIDE démontre qu'un robot peut maintenir une conscience directionnelle persistante grâce à la mémoire proprioceptive, sans SLAM ni GPS, un résultat qui renforce l'hypothèse que la proprioception peut partiellement suppléer la localisation explicite. La politique étant déployée de bout en bout sans modules séparés à l'inférence, la complexité opérationnelle en production s'en trouve réduite -- un argument concret pour les équipes industrielles. La navigation sans carte pour robots à pattes est un sujet actif : les travaux sur ANYmal (ETH Zurich), les politiques locomotrices de Unitree ou les recherches de CMU s'appuient encore majoritairement sur des représentations géométriques explicites. GUIDE s'inscrit dans la tendance "fully end-to-end" qui cherche à éliminer ces modules intermédiaires, tendance visible également dans les VLA (Vision-Language-Action models) appliqués à la manipulation. Il faut néanmoins rappeler qu'il s'agit d'une publication académique, sans pilote industriel ni déploiement commercial annoncé. Les suites naturelles incluent des tests dans des environnements non structurés à grande échelle et l'intégration avec des modèles de fondation visuels pour la spécification dynamique de la cible.

RecherchePaper
1 source
Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques
95arXiv cs.RO 

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

Des chercheurs proposent ORCHID, un cadre d'auto-entraînement présenté sur arXiv (2603.05291) qui s'attaque à un problème structurel de la manipulation robotique longue durée : la désynchronisation entre planificateur haut niveau et contrôleur bas niveau au sein des politiques hiérarchiques. Dans ces architectures, un planificateur décompose une instruction en langage naturel en sous-objectifs intermédiaires, que le contrôleur exécute physiquement. La difficulté est que les deux modules, entraînés séparément, opèrent sur des distributions de sous-objectifs incompatibles. ORCHID corrige cela en ligne : le système génère des trajectoires, les filtre selon le feedback de l'environnement (réussite ou échec de la tâche complète), puis distille les trajectoires conjointement réussies dans les deux modules via apprentissage supervisé. Il en résulte une co-adaptation bidirectionnelle : le planificateur ancre ses sous-objectifs dans les capacités réelles du contrôleur, tandis que le contrôleur se spécialise dans les structures de trajectoire que produit le planificateur. Sur le benchmark CALVIN, référence pour la manipulation séquentielle guidée par le langage, un modèle léger entraîné avec ORCHID surpasse les méthodes purement offline, y compris un modèle Vision-Language-Action (VLA) deux fois plus grand en paramètres. L'impact est notable sur deux points. En termes d'efficacité paramétrique, qu'un modèle léger dépasse un VLA deux fois plus lourd remet en question l'hypothèse courante que l'échelle seule suffit pour les tâches complexes. En termes de stabilité d'entraînement, combiner RL hiérarchique et modèles de diffusion est notoirement instable à cause de la propagation des gradients. ORCHID contourne ce problème en substituant la distillation supervisée sur échantillons filtrés au RL gradient classique, une voie potentiellement plus praticable dans les contextes industriels où la reproductibilité de l'entraînement est critique. Le mécanisme de co-adaptation proposé constitue un principe architectural plus général, transférable à d'autres familles de politiques hiérarchiques au-delà des modèles de diffusion. Le travail s'inscrit dans la dynamique actuelle autour des politiques de diffusion pour la robotique, portée par des frameworks comme Diffusion Policy (Chi et al., 2023) et π₀ de Physical Intelligence. ORCHID se distingue en ciblant non l'architecture mais la coordination inter-niveaux, un aspect souvent sous-traité par les approches VLA end-to-end qui fusionnent planification et contrôle dans un seul réseau. Le benchmark CALVIN, développé à l'Université de Freiburg, est la référence principale pour évaluer la généralisation en manipulation séquentielle sur des tâches à horizon long. Les prochaines étapes naturelles incluent une validation sur robots physiques et une extension à des horizons temporels plus longs, deux points que cet article n'aborde pas encore.

RechercheOpinion
1 source
LieIPM : méthode de point intérieur sur groupes de Lie pour l'optimisation directe de trajectoires de corps rigides
96arXiv cs.RO 

LieIPM : méthode de point intérieur sur groupes de Lie pour l'optimisation directe de trajectoires de corps rigides

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.10579) une nouvelle méthode d'optimisation de trajectoires appelée LieIPM, pour Lie Group Interior Point Method. L'approche traite le problème de la planification de mouvement de corps rigides, c'est-à-dire tout système mécanique dont l'état est décrit par une rotation et une translation dans l'espace, en opérant directement sur les groupes de Lie matriciels plutôt que dans un espace euclidien. Concrètement, les auteurs construisent un cadre de second ordre exploitant la structure géométrique de SO(3) et SE(3), permettant des mises à jour de type Newton tout en préservant la topologie des rotations. Ils y intègrent une méthode de point intérieur avec recherche linéaire (line-search), des intégrateurs variationnels sur groupe de Lie, et des dérivées intrinsèques en forme fermée qui exploitent les symétries de groupe. Les résultats numériques présentés indiquent une robustesse supérieure et une convergence plus rapide par rapport aux solveurs généralistes et aux méthodes de contrôle optimal exploitant déjà la structure. L'enjeu technique central est le suivant : les optimiseurs de trajectoires existants, comme IPOPT ou SNOPT, travaillent en espace euclidien et ignorent la structure de variété des rotations, ce qui produit des singularités (l'équivalent du gimbal lock en paramétrisation d'Euler) et des problèmes mal conditionnés. En traitant la contrainte de manifold par construction plutôt que par pénalisation ou projection a posteriori, LieIPM évite ces pathologies. Pour un intégrateur ou un ingénieur robotique travaillant sur la manipulation, la locomotion bipède, ou la planification pour bras industriels avec contraintes d'orientation strictes, cela signifie potentiellement des pipelines de planification plus fiables sans recourir à des paramétrages ad hoc comme les quaternions avec re-normalisation forcée. Sur le plan académique, LieIPM s'inscrit dans une longue tradition reliant mécanique géométrique et optimisation, initiée notamment par les travaux de Murray, Li et Sastry dans les années 1990. Il se positionne face à des méthodes récentes comme Crocoddyl (LAAS-CNRS/Inria, qui utilise déjà le DDP sur SE(3)) ou ALTRO, en ajoutant la couche point intérieur pour les contraintes générales sur variété. Il s'agit à ce stade d'une contribution de recherche avec validation numérique uniquement, sans déploiement annoncé sur robot physique ni transfert industriel documenté.

UECrocoddyl (LAAS-CNRS/Inria) est cité comme méthode comparable ; si LieIPM est intégré dans des outils open-source, les équipes françaises en planification de mouvement (locomotion bipède, manipulation) en bénéficieraient directement.

RecherchePaper
1 source
Génération de designs de robots diversifiés et fonctionnels par paramétrisation superquadrique et diversité-qualité
97arXiv cs.RO 

Génération de designs de robots diversifiés et fonctionnels par paramétrisation superquadrique et diversité-qualité

Une équipe de recherche propose, dans un preprint déposé sur arXiv (arXiv:2606.11037), une méthode de conception générative de robots combinant une représentation par superquadrics (SQs) avec l'algorithme de quality-diversity MAP-Elites. Les superquadrics sont des formulations mathématiques compactes et interprétables de formes géométriques 3D, paramétrables pour s'adapter à différents espaces de design. Les chercheurs les comparent aux CPPN (Compositional Pattern Producing Networks) comme générateurs de morphologies, en les couplant à des algorithmes évolutionnaires (EAs) classiques et à MAP-Elites. Sur deux environnements de test distincts, la combinaison SQs avec MAP-Elites atteint le score QD (quality-diversity) le plus élevé dans les deux cas, maximisant simultanément la diversité des formes générées et la performance fonctionnelle des robots obtenus. Le résultat adresse un verrou récurrent en co-évolution morphologie/contrôle : la convergence prématurée des EAs vers un petit ensemble de designs sous-optimaux. Dans un contexte où la robotique physique diversifiée gagne du terrain, notamment pour des tâches industrielles hétérogènes, la capacité à explorer automatiquement de larges espaces de configurations morphologiques sans intervention humaine est un enjeu concret pour les équipes R&D. La compacité des SQs réduit la dimensionnalité du problème d'optimisation, tandis que MAP-Elites maintient une archive explicite de solutions qualitativement différentes, évitant l'effondrement de la diversité populationnelle. Les résultats suggèrent qu'une représentation géométrique interprétable est plus efficace qu'une représentation neuronale implicite (CPPN) quand on cherche à explorer un espace de design morphologique complexe. MAP-Elites est une méthode QD développée initialement par Mouret et Clune (2015), largement utilisée en évolution de morphologies et en robotique adaptative. Les CPPN, introduits par Stanley et collaborateurs dans les années 2000, restent une référence concurrente pour l'encodage indirect de morphologies. Ce travail s'inscrit dans une tradition académique active autour du design automatisé de robots, qui inclut des équipes comme le lab Cheney/Clune (Vermont/Wyoming) ou le groupe Mouret à l'INRIA Paris. Il s'agit à ce stade d'un preprint sans validation par les pairs, avec des évaluations limitées à deux environnements simulés, sans validation hardware ni transfert sim-to-real rapporté. La prochaine étape naturelle serait une validation sur robot physique.

UELa méthode s'appuie sur MAP-Elites, algorithme développé par Mouret au sein de l'INRIA Paris, confirmant l'expertise française en évolution de morphologies robotiques, sans transfert industriel immédiat.

RecherchePaper
1 source
Transport robotique d'objets sans préhension avec un plateau suspendu
98arXiv cs.RO 

Transport robotique d'objets sans préhension avec un plateau suspendu

Des chercheurs ont publié sur arXiv (arXiv:2606.10039) une approche originale du problème dit du "serveur robotique" : transporter un objet posé sur un plateau sans le saisir, d'un point A à un point B, sans faire glisser l'objet ni faire ballotter un liquide. Plutôt que de fixer rigidement le plateau à l'effecteur final du robot et de le faire s'incliner comme le font la plupart des travaux antérieurs, les auteurs suspendent le plateau par des cordes depuis l'effecteur, de sorte qu'il se comporte comme un pendule tridimensionnel. Cette configuration limite à 3 degrés de liberté (DDL) la base mobile nécessaire, au lieu d'un bras manipulateur complet à 6 DDL. Les expériences sont conduites à la fois en simulation et sur matériel réel, et la démonstration intègre un système de vision par ordinateur pour détecter les personnes qui lèvent la main, suivi d'un asservissement visuel pour guider le robot vers elles et leur permettre d'accéder au plateau. Le résultat central est que le plateau suspendu réduit sensiblement, par rapport au plateau tenu rigidement, les deux phénomènes problématiques : le glissement d'objets rigides et le ballottement de liquides dans des contenants ouverts. L'explication physique est connue dans la littérature : le mouvement pendulaire réduit les forces de cisaillement exercées sur les objets transportés. Ce que ce travail démontre, c'est qu'on peut obtenir ce bénéfice sans simuler le mouvement pendulaire par un bras 6-DDL complet, ce qui allège considérablement l'architecture matérielle et réduit le coût d'intégration pour des robots de service. C'est un résultat utile pour les intégrateurs qui déploient des robots de livraison en intérieur. Le problème du serveur robotique est un classique de la manipulation non préhensile, étudié depuis plusieurs années dans des laboratoires de robotique académique. Côté industrie, des acteurs comme Keenon Robotics, Bear Robotics (Servi) ou Richtech Robotics déploient déjà des robots serveurs commerciaux, mais ils évitent généralement le problème de la dynamique du plateau en utilisant des étagères fixes. L'approche pendulaire reste pour l'instant dans le domaine de la recherche ; aucun pilote industriel ni partenariat commercial n'est mentionné dans la publication. Les prochaines étapes logiques seraient de tester sur des trajectoires plus complexes et des objets moins symétriques, et d'évaluer la robustesse face aux perturbations extérieures.

RecherchePaper
1 source
Une architecture neuronale à impulsions pour coordonner le contrôle du bras et la locomotion
99arXiv cs.RO 

Une architecture neuronale à impulsions pour coordonner le contrôle du bras et la locomotion

Des chercheurs ont publié sur arXiv (2606.11034, juin 2026) une architecture SNN (Spiking Neural Network) capable de coordonner en temps réel le contrôle des bras et la locomotion bipède d'un humanoïde simulé, une combinaison absente des travaux précédents dans ce paradigme. Le système s'appuie sur le Neural Engineering Framework (NEF) et la Semantic Pointer Architecture (SPA), avec un modèle de ganglions de la base à impulsions biologiquement inspiré pour arbitrer la sélection entre marche et manipulation. La co-simulation Nengo (contrôle neural) et Isaac Sim de NVIDIA (physique) a permis de valider quatre tâches : atteinte de cible en espace 3D, dessin continu de chiffres, locomotion en suivi de trajectoire, et commutation dynamique entre marche et contrôle du bras via désinhibition des ganglions de la base. Le principal argument de l'approche est son potentiel d'efficacité énergétique sur matériel neuromorphique (Intel Loihi, SpiNNaker), là où les humanoïdes commerciaux actuels comme Figure 03, Optimus ou Unitree G1 exigent des GPU embarqués énergivores. Cette publication revendique la première intégration unifiée locomotion-manipulation sur plateforme humanoïde pleine échelle dans le paradigme SNN, les rares précédents traitant les deux sous-systèmes en modules entièrement isolés. La limite centrale à signaler est que l'ensemble des résultats est issu de simulation pure, le gap sim-to-real n'étant pas adressé dans cette étude. Les SNNs s'imposent depuis quelques années comme alternative crédible aux réseaux denses pour les systèmes embarqués à contrainte énergétique forte. Le framework Nengo, développé par Applied Brain Research, est l'outil de référence de cet écosystème. Face à cette approche, les acteurs majeurs de la course humanoïde, Figure AI, 1X Technologies, Boston Dynamics et Physical Intelligence (auteurs de Pi-0), misent sur des VLA (Vision-Language-Action models) et du reinforcement learning à grande échelle ; l'approche SNN vise un axe orthogonal, davantage frugal et interprétable, mais encore en retrait sur les benchmarks de manipulation en environnement réel. Les auteurs annoncent le déploiement sur matériel neuromorphique basse consommation comme prochaine étape, ce qui constituera le vrai test de l'hypothèse énergétique centrale à ce travail.

RecherchePaper
1 source
Suivre le flux : modèles comportementaux de Koopman comme pseudo-planificateurs pour la dextérité visuomotrice
100arXiv cs.RO 

Suivre le flux : modèles comportementaux de Koopman comme pseudo-planificateurs pour la dextérité visuomotrice

Des chercheurs ont soumis sur arXiv (arXiv:2602.07413v3) un framework nommé Unified Behavioral Models (UBMs) pour améliorer la dextérité visuo-motrice des manipulateurs robotiques. L'approche, instanciée sous le nom Koopman-UBM (K-UBM), modélise les compétences dextères comme des systèmes dynamiques couplés : les caractéristiques visuelles de l'environnement (visual flow) et les états proprioceptifs du robot (action flow) co-évoluent dans un espace latent linéaire structuré via l'opérateur de Koopman. Évalué sur sept tâches en simulation et quatre en conditions réelles, K-UBM égale ou dépasse les méthodes de référence tout en offrant une inférence plus rapide et une robustesse aux occlusions partielles. L'enjeu est structurel : les architectures actuelles à base de diffusion et de transformers modélisent les compétences comme des mappings réactifs, et s'appuient sur un action chunking à horizon fixe, créant un compromis rigide entre cohérence temporelle et réactivité. K-UBM contourne ce problème en garantissant la cohérence par construction via la dynamique du système. Son mécanisme de replanning en ligne automatique surveille l'exécution en temps réel et redémarre une planification dès que le visual flow prédit diverge de l'observé au-delà d'un seuil configuré. Pour un intégrateur industriel, cela se traduit par moins de données d'entraînement requises, une robustesse accrue aux perturbations et occlusions partielles, et une latence d'inférence réduite, trois freins identifiés au déploiement des manipulateurs dextres en production. La dextérité multi-doigts reste l'un des verrous les plus documentés de la robotique de manipulation : les architectures dominantes comme Diffusion Policy, ACT, ou Pi-0 de Physical Intelligence fonctionnent sur des tâches structurées mais peinent à s'adapter à des perturbations fines en temps réel. L'opérateur de Koopman, issu de la théorie des systèmes dynamiques non-linéaires, linéarise un espace d'état non-linéaire dans un espace latent de haute dimension, rendant le système analytiquement tractable. Ce papier est une contribution de recherche fondamentale : aucun partenaire industriel ni calendrier de déploiement n'est mentionné. Les suites naturelles incluent des évaluations sur davantage de tâches réelles en conditions non contrôlées et une intégration potentielle dans des frameworks ouverts comme Lerobot, développé par HuggingFace (Paris).

RecherchePaper
1 source