Aller au contenu principal

Recherche — page 8

1654 articles · page 8 sur 34

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot
351arXiv cs.RO RechercheOpinion

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot

Des chercheurs ont publié le 12 juin 2026 (arXiv:2606.12475) une étude sur l'usage de modèles vision-langage-action (VLA) entraînés par imitation learning pour la collaboration humain-robot (HRC) implicite, sans signal explicite déclenchant l'assistance robotique. Évaluant deux VLA de référence sur des tâches d'assemblage collaboratif, l'équipe identifie un défaut propre aux politiques d'action-chunking : la "fuite d'actions de démonstration" (demonstration action leakage). Ce phénomène survient lorsque des chunks d'actions enjambent des transitions latentes de sous-tâches, poussant le robot à assister l'humain trop tôt, comme tendre un outil avant que l'opérateur soit prêt à le saisir. Pour corriger ce comportement sans réentraîner le modèle, les auteurs proposent un pilotage à l'inférence (inference-time steering). Une étude à 16 participants sur une tâche d'assemblage longue horizon confirme que le steering réduit les interventions prématurées, accélère la collaboration et diminue les échecs par rapport à une politique à horizon court. Ce résultat ouvre une voie concrète pour l'intégration des VLA dans des workflows industriels collaboratifs, jusqu'ici dépendants de pipelines codés à la main, peu scalables vers de nouvelles tâches. La fuite d'actions constitue un avertissement direct pour les équipes déployant des politiques ACT ou diffusion en mode HRC : allonger l'horizon d'exécution, souvent souhaitable pour la fluidité du mouvement, aggrave le problème. Le steering à l'inférence fournit un correctif opérationnel sans modification du modèle entraîné, ce qui le rend attractif pour un déploiement rapide. Les VLA généralistes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) ont prouvé leur efficacité en manipulation autonome, mais leur usage en HRC implicite restait peu documenté. Cette publication comble ce manque méthodologique. En Europe, des acteurs comme Enchanted Tools et Wandercraft, dont les robots sont conçus pour opérer aux côtés d'humains, pourraient réduire leur charge d'ingénierie manuelle en s'appuyant sur ces résultats. La prochaine étape sera d'étendre la méthode à des environnements industriels non contrôlés et à des tâches encore plus longues, afin d'évaluer la robustesse du steering face à la variabilité réelle des comportements humains.

UEEnchanted Tools et Wandercraft, acteurs européens de la robotique collaborative, pourraient réduire leur charge d'ingénierie manuelle en adoptant le steering à l'inférence pour corriger la fuite d'actions dans leurs déploiements VLA, sans réentraîner leurs modèles.

1 source
EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact
352arXiv cs.RO 

EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact

Une équipe de chercheurs publie EquiDexFlow, un modèle génératif de préhension dextère intégrant les contraintes physiques de contact directement dans l'architecture, sans étape de vérification séparée. Publié sur arXiv en juin 2026, il exploite le flow-matching avec équivariance SE(3) pour prédire simultanément la pose du poignet, les angles articulaires, les contacts du bout des doigts, les normales de surface et les forces de contact à partir d'un nuage de points de l'objet. Contrairement aux générateurs classiques qui traitent les forces comme un filtre a posteriori, EquiDexFlow projette les contacts sur la surface de l'objet et les forces dans le cône de friction de Coulomb par construction, sans terme de pénalité dans la fonction de perte. Entraîné sur 8 100 saisies en fermeture de force sur 81 objets pour la main Allegro à 16 degrés de liberté (DDL), il atteint zéro violation de frottement et le plus faible résidu de torseur parmi toutes les variantes d'ablation, avec une équivariance SE(3) vérifiée sur 200 rotations et des résidus de poignet inférieurs à 0,04 degré. Retransposé vers une main LEAP à 16 DDL par cinématique inverse doigt par doigt, le modèle réussit en boucle ouverte sur six objets physiques, y compris des objets asymétriques à la pose canonique et après une co-rotation de 120 degrés. Le verrou adressé est structurel : dans la plupart des pipelines de préhension dextère appris, un générateur produit une pose cinématiquement valide qu'un module aval filtre selon des critères physiques, laissant potentiellement passer des saisies plausibles mais instables au contact réel. En intégrant le cône de Coulomb dans l'architecture même, EquiDexFlow élimine cette classe d'erreurs par construction plutôt que par filtrage, ce qui réduit le taux de rejet et simplifie le pipeline de déploiement pour les intégrateurs industriels. Le retargeting réussi de la main Allegro vers la main LEAP suggère en outre une généralisation de la représentation des contacts au-delà de la main d'entraînement, propriété encore rare dans les systèmes de préhension dextère actuels, même si l'évaluation sur six objets reste un périmètre de test limité. La préhension dextère multi-doigt demeure un verrou central de la manipulation généraliste en robotique. Des travaux récents comme DexGraspNet ou UniGrasp ont progressé sur la génération de poses, mais la modélisation explicite des forces dans la boucle générative reste peu courante. Le flow-matching, popularisé dans les modèles VLA (Vision-Language-Action), est ici appliqué avec une contrainte d'équivariance formellement démontrée, ce qui constitue une contribution méthodologique distincte. Code, checkpoints et vidéos sont disponibles sur equidexflow.github.io. Des acteurs comme Enchanted Tools ou Wandercraft, qui développent des systèmes de manipulation à actionnement avancé, pourraient s'appuyer sur ce formalisme pour leurs propres pipelines de préhension.

UEEnchanted Tools et Wandercraft, acteurs français de la manipulation avancée, pourraient directement intégrer ce formalisme de préhension physique (cône de Coulomb dans la boucle générative) dans leurs pipelines R&D, le code et les checkpoints étant publiquement disponibles.

RecherchePaper
1 source
Intégrer la conformité à la norme ISO 10218 dans les robots via les fonctions barrière de contrôle pour la collaboration homme-robot
353arXiv cs.RO 

Intégrer la conformité à la norme ISO 10218 dans les robots via les fonctions barrière de contrôle pour la collaboration homme-robot

Des chercheurs ont publié sur arXiv (réf. 2606.13203) une approche de contrôle permettant d'intégrer nativement la conformité à la norme ISO 10218 dans les robots industriels collaboratifs, en s'appuyant sur une Fonction Barrière de Contrôle (CBF). Le système a été validé en simulation et en conditions réelles sur un bras UR10e d'Universal Robots. Plutôt que de se contenter des hypothèses conservatives des modules SSM (Speed and Separation Monitoring) classiques, qui supposent une vitesse humaine constante, la CBF proposée intègre les données d'accélération humaine pour prédire analytiquement la distance de séparation minimale humain-robot le long d'une trajectoire d'arrêt en cas de pire scénario. Deux méthodes sont présentées : Method I, un filtre de sécurité PD contraint par CBF, et Method II, un contrôleur SQP (Sequential Quadratic Programming) qui impose une contrainte de tube spatial sur la trajectoire. Method II réduit l'erreur de trajectoire moyenne de 63 % par rapport à Method I, et supprime les manoeuvres évasives excessives qui dégradent le débit opérationnel. L'enjeu industriel est direct : les modules SSM standard génèrent des arrêts préventifs fréquents parce qu'ils surestiment le risque de collision, faute de pouvoir anticiper les mouvements humains. Dans un contexte d'atelier où des cobots travaillent aux côtés d'opérateurs, ces arrêts non nécessaires représentent un coût de productivité réel. La méthode proposée déplace le curseur : au lieu d'un filtre de vitesse binaire (go/stop), le contrôleur module dynamiquement la vitesse d'exécution et la déviation spatiale du robot en temps réel, en restant dans les limites de la norme. C'est un pas vers des cobots réellement compétitifs en termes de cycle time, sans sacrifier la conformité réglementaire. La norme ISO 10218, qui régit la sécurité des robots industriels, est aujourd'hui au coeur des déploiements de cobots chez des fabricants comme FANUC, KUKA, ABB ou Universal Robots. Le SSM est l'approche la plus répandue pour y répondre, mais son conservatisme est documenté depuis plusieurs années. Les CBF, issues de la théorie du contrôle, émergent comme alternative formellement vérifiable, et plusieurs groupes académiques (MIT, ETH, TU Munich) explorent cette direction. La prochaine étape probable est l'intégration de ces contraintes dans des environnements multi-robots et des scénarios à personnes multiples, plus représentatifs de la réalité des ateliers.

UELa norme ISO 10218 étant centrale pour les déploiements de cobots chez KUKA (Allemagne) et ABB (Suisse-Suède), cette approche CBF pourrait réduire les arrêts non productifs dans les ateliers européens et renforcer la compétitivité des intégrateurs face aux contraintes de la directive Machines révisée.

RecherchePaper
1 source
SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle
354arXiv cs.RO 

SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle

Des chercheurs du groupe Intuitive Robots ont publié sur arXiv (réf. 2606.13497) SPARC, acronyme de Spatial Annotations from Robot Demonstrations with Reliability Calibration. Il s'agit d'un pipeline automatique qui annote des démonstrations robotiques avec des métadonnées spatiales structurées -- boîtes englobantes, trajectoires d'objets, labels de phase de manipulation -- tout en attribuant à chaque annotation un score de fiabilité calibré. Évalué sur 1 700 démonstrations annotées manuellement, couvrant des morphologies et des scénarios variés, SPARC conserve trois fois plus d'échantillons aux points de fonctionnement haute précision par rapport aux pipelines de détection classiques, tout en surpassant ces mêmes baselines sur la précision de localisation. L'équipe introduit également IA-Bench (Interaction-Aware Bench), un benchmark dédié à mesurer la précision des modèles dans la localisation des objets manipulés au fil d'une démonstration. Le code, les données et les modèles sont disponibles publiquement. L'enjeu est directement lié à la scalabilité de l'entraînement des politiques robotiques et des modèles de fondation incarnés (embodied foundation models). Les pipelines d'annotation automatique existants produisent des labels en volume, mais sans signal de qualité fiable : la confiance du détecteur est mal calibrée pour prédire la correction d'une annotation, ce qui oblige les équipes ML à choisir entre bruit et perte de données. SPARC contourne ce dilemme en exploitant la structure spatio-temporelle propre aux tâches robotiques pour générer un signal de fiabilité intrinsèque. Les politiques entraînées sur ces annotations surpassent les baselines dans des scènes réelles encombrées et visuellement ambiguës, ce qui suggère que la qualité du signal d'annotation compte autant que le volume brut de données -- une hypothèse que le secteur commence seulement à tester systématiquement. Le problème de l'annotation à grande échelle est un goulot d'étranglement bien identifié dans la robotique d'apprentissage par imitation, notamment depuis l'émergence des Visual Language Action models (VLA) tels que pi-0 de Physical Intelligence ou OpenVLA de Berkeley. Ces architectures consomment des milliers de démonstrations annotées avec précision, et la vérification humaine ne passe pas à l'échelle. SPARC s'inscrit dans un effort plus large, parallèle aux travaux de Google DeepMind sur RoboAgent ou aux pipelines de données de Hugging Face LeRobot, pour industrialiser la production de datasets robotiques de qualité. La prochaine étape logique sera de valider SPARC sur des distributions d'environnements plus larges et sur des tâches de manipulation longue durée, deux axes où le sim-to-real gap reste ouvert.

UELes laboratoires européens (CEA-List, INRIA, universités) travaillant sur l'apprentissage par imitation peuvent directement exploiter ce pipeline open-source pour améliorer la qualité de leurs datasets robotiques sans coût d'annotation humaine supplémentaire.

RecherchePaper
1 source
Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée
355arXiv cs.RO 

Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée

Des chercheurs ont publié sur arXiv (arXiv:2602.12024v2) un algorithme nommé ACCBS (Adaptive-Horizon Conflict-Based Search), conçu pour résoudre en temps réel le problème de coordination de flottes de robots dans des entrepôts automatisés. Le Multi-Agent Path Finding (MAPF) consiste à calculer des trajectoires sans collision pour des dizaines à des centaines d'AGV ou AMR opérant simultanément dans un même espace. ACCBS est un planificateur en boucle fermée qui adapte dynamiquement son horizon de planification en fonction du budget computationnel disponible, et réutilise un arbre de contraintes unique pour passer fluidement d'un horizon à l'autre. L'algorithme exhibe un comportement "anytime" : il retourne une solution faisable de bonne qualité très rapidement, puis l'améliore jusqu'à l'optimalité asymptotique si le temps de calcul le permet. L'enjeu industriel est direct. Les approches actuelles se divisent en deux familles peu satisfaisantes : les planificateurs en boucle ouverte, qui génèrent des trajectoires fixes et s'effondrent dès qu'un robot tombe en panne ou qu'un opérateur traverse une allée, et les heuristiques en boucle fermée, qui réagissent aux perturbations mais sans garantie de performance formelle, ce qui les exclut des déploiements à contraintes de sécurité. ACCBS propose un compromis crédible : la robustesse aux perturbations d'un système réactif combinée aux garanties théoriques d'un solveur optimal. Pour un intégrateur ou un COO logistique, cela signifie potentiellement pouvoir dimensionner une flotte plus serrée sans sacrifier la fiabilité SLA, et certifier le comportement du système face aux auditeurs. ACCBS s'appuie sur CBS (Conflict-Based Search), un algorithme de référence académique pour le MAPF optimal, et y greffe un mécanisme d'horizon variable inspiré du Model Predictive Control (MPC) et de l'iterative deepening. Ce domaine est activement disputé : Amazon Robotics, Geek+ et Exotec (acteur français, qui déploie des flottes Skypod dans plusieurs dizaines d'entrepôts en Europe et Amérique du Nord) investissent massivement dans la coordination de flottes à grande échelle. La contribution reste à ce stade un résultat de recherche avec études de cas simulées, aucun déploiement réel n'est annoncé, et les auteurs ne précisent pas le nombre d'agents testé ni les temps de cycle obtenus, ce qui limite l'évaluation de la maturité industrielle.

UEExotec, acteur français leader des flottes Skypod déployées dans des dizaines d'entrepôts en Europe, opère précisément dans le domaine adressé par ACCBS ; si l'algorithme atteint la maturité industrielle, il pourrait renforcer la compétitivité des solutions européennes de coordination de flottes AMR face aux acteurs américains et asiatiques.

RecherchePaper
1 source
Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)
356arXiv cs.RO 

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion
1 source
Fibre de détection de contrainte et de toucher, peu coûteuse, facile à fabriquer et très flexible, pour la robotique
357arXiv cs.RO 

Fibre de détection de contrainte et de toucher, peu coûteuse, facile à fabriquer et très flexible, pour la robotique

Des chercheurs ont publié sur arXiv (réf. 2606.13352) la description d'une fibre conductrice multifonctionnelle pour la robotique, fabriquée uniquement avec des composants grand public : fil conducteur à 0,07 dollar par pied, tube en silicone à 0,94 dollar par pied et une aiguille à tricoter vendue 2 dollars. Un segment de 20 centimètres se produit en deux minutes sans équipement spécialisé. La fibre fonctionne soit en capteur de déformation résistif, soit en capteur capacitif selon sa configuration. Cinq applications ont été validées expérimentalement : déclenchement de prise d'un doigt assistif pneumatique, estimation de pose d'une sangle robotique gonflable, reconstruction de forme d'un solide flexible, activation par contact d'un bras industriel commercial, et suivi en champ proche d'une main en mouvement. Les capteurs capacitifs sont tricotés, ce qui leur confère une flexibilité mécanique élevée adaptée aux surfaces non rigides. Pour les intégrateurs et fabricants de robots, l'enjeu est direct : les capteurs de contact et d'élongation existants butent généralement sur au moins un verrou, coût matière, équipement de fabrication spécialisé ou temps de cycle trop long. Cette fibre contourne les trois obstacles simultanément. Elle ouvre une voie concrète vers une instrumentation dense et bon marché de surfaces souples, un prérequis pour la manipulation dextre et les interfaces physiques homme-machine. La démonstration du suivi de main sans marqueur visuel repositionne aussi ce type de capteur comme alternative crédible aux systèmes de vision dans les environnements occludés ou à faible éclairage, point non négligeable pour l'industrie. Les fibres conductrices intégrées dans des élastomères constituent un champ de recherche actif depuis une décennie, avec des contributions notables du Soft Robotics Toolkit de Harvard ou des équipes de l'EPFL sur les peaux électroniques. L'originalité de ces travaux tient à l'accent mis sur la réplicabilité sans laboratoire spécialisé, ce qui rapproche le dispositif d'un composant open hardware. Les auteurs abordent également les compromis liés à l'industrialisation à plus grande échelle et proposent une méthode de réparation après coupure de la fibre. Les applications naturelles incluent les gants haptiques et les préhenseurs à doigts souples, deux segments en forte croissance où aucun standard technologique ne s'est encore imposé.

UELa technologie open hardware décrite pourrait bénéficier aux équipes de robotique douce européennes et aux intégrateurs FR/EU de préhenseurs souples, mais aucun acteur européen n'est central dans cette publication arXiv.

RecherchePaper
1 source
μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA
358arXiv cs.RO 

μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA

Des chercheurs ont publié sur arXiv (arXiv:2606.12497) une étude d'isolation contrôlée baptisée muVLA, une famille de variantes du modèle OpenVLA-OFT augmentées de récurrence minimale. Le principe : injecter un petit ensemble de tokens mémoire apprenables dans le transformer, transportés d'un pas de temps au suivant et mis à jour par auto-attention, sans loss auxiliaire ni modification architecturale. L'entraînement se fait de bout en bout avec rétropropagation tronquée dans le temps (TBPTT), paramétrée par la largeur mémoire m et la longueur de troncature K, avec deux règles de mise à jour comparées -- gradients inter-pas ou EMA détachée. Sur le benchmark MIKASA-Robo, muVLA porte le taux de succès moyen sur cinq tâches d'entraînement de 0,42 à 0,84 dans la configuration la plus forte, et atteint 0,23 sur des tâches hors distribution contre 0,07 pour la baseline sans mémoire. Sur LIBERO, environnement à observabilité complète, la variante récurrente la plus forte atteint 96,2 % de succès moyen -- sans régression par rapport au modèle de base. Ce travail apporte une contribution méthodologique précise à un champ encombré d'ablations mal contrôlées. La quasi-totalité des VLA à mémoire existants couplent récurrence, retrieval, compression et objectifs hiérarchiques dans un seul système, rendant impossible d'attribuer les gains à un mécanisme isolé. muVLA démontre que la récurrence seule -- sans aucune machinerie additionnelle -- suffit à doubler le taux de succès sur des tâches à observabilité partielle, c'est-à-dire les situations où une partie de l'état pertinent a disparu du champ de vision. Pour les intégrateurs robotiques travaillant sur des cellules avec occlusions ou des séquences d'assemblage multi-étapes, c'est un signal clair : le goulot n'est pas la puissance brute du modèle de base, mais la capacité à maintenir un état latent persistant. Le résultat sur LIBERO indique également que l'ajout de mémoire ne dégrade pas les performances en pleine observabilité, ce qui lève un frein souvent cité à l'adoption de ces architectures en production. OpenVLA est un modèle open-source lancé fin 2024 par une collaboration Stanford/Berkeley/Toyota Research Institute, positionné comme alternative ouverte aux VLA propriétaires comme RT-2 (Google DeepMind) ou pi0 (Physical Intelligence). OpenVLA-OFT en est une variante fine-tunée pour l'exécution rapide. La question de la mémoire dans les VLA est activement travaillée par plusieurs équipes -- RoboVLMs, SpatialVLA, Helix (Figure AI) -- mais avec des architectures nettement plus lourdes. muVLA se distingue par sa minimalité revendiquée et son protocole d'isolation rigoureux, ce qui en fait un outil de calibration plus qu'un système prêt au déploiement. Les auteurs délimitent explicitement le "régime de suffisance" de la récurrence minimale : elle fonctionne pour les tâches où la structure mémoire requise est homogène entre entraînement et évaluation, et atteint ses limites dès que les tâches hors distribution exigent une structure mémorielle différente. Les prochaines étapes naturelles -- combinaison avec des mécanismes de retrieval ou de compression -- sont implicitement balisées par ces résultats.

RechercheOpinion
1 source
Attaques trojans sur les contrôleurs de réseaux de neurones pour systèmes robotiques
359arXiv cs.RO 

Attaques trojans sur les contrôleurs de réseaux de neurones pour systèmes robotiques

Des chercheurs ont publié sur arXiv (référence 2602.05121v2) une démonstration de faisabilité d'attaques par backdoor, dites attaques "Trojan", ciblant des contrôleurs neuronaux embarqués dans des systèmes robotiques. Le vecteur d'attaque étudié est un robot mobile à propulsion différentielle, dont le contrôleur de suivi de trajectoire et de stabilisation de pose est implémenté sous forme de réseau de neurones. Les auteurs ont conçu un module Trojan parallèle, léger, conçu pour être inséré dans le réseau principal sans modifier ses poids. Ce module reste inactif en fonctionnement normal, puis s'active dès qu'une condition de déclenchement très précise est détectée, définie conjointement par la pose courante du robot et ses paramètres objectifs. À l'activation, le module corrompt directement les commandes de vitesse des roues, provoquant des comportements non désirés, potentiellement dangereux. L'attaque est validée en simulation selon deux scénarios distincts. Ce travail met en lumière un risque souvent sous-estimé dans la robotique industrielle et les AMR (robots mobiles autonomes) : la chaîne d'approvisionnement en modèles neuronaux. Dès lors qu'un contrôleur est fourni par un tiers, entraîné sur une infrastructure externe, ou acquis via un pipeline de fine-tuning non audité, l'intégrateur ne peut pas garantir l'absence de modules cachés. La discrétion du Trojan, dormant jusqu'à un trigger très spécifique, le rend difficilement détectable par les tests fonctionnels classiques. Pour les COO industriels et les équipes sécurité, cela signifie que les approches de validation de modèles actuelles, orientées performance, sont insuffisantes face à des attaques intentionnelles. Les attaques par backdoor sur les réseaux de neurones sont documentées depuis 2017 dans le domaine de la classification d'images, mais leur transposition aux systèmes de contrôle robotique en temps réel est plus récente et plus critique : une erreur de classification est bénigne, une dérive de trajectoire sur un robot industriel peut provoquer des dommages matériels ou humains. Ce papier s'inscrit dans un corpus croissant qui questionne la robustesse des architectures VLA (Vision-Language-Action) et des contrôleurs neuronaux génériques. Les suites logiques sont des méthodes de détection (analyse spectrale des poids, tests adversariaux ciblés) et des protocoles de certification des modèles embarqués, un chantier encore largement ouvert pour les organismes de standardisation comme l'ISO ou l'IEC.

UELes intégrateurs européens d'AMR et robots industriels utilisant des contrôleurs neuronaux fournis par des tiers sont directement exposés à ce vecteur d'attaque ; les travaux de normalisation ISO/IEC sur la certification des modèles embarqués deviennent un chantier prioritaire pour le marché européen.

RechercheOpinion
1 source
AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique
360arXiv cs.RO 

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion
1 source
Commande prédictive adaptative d'un robot continu souple par réseau neuronal informé par la physique (tiges de Cosserat)
361arXiv cs.RO 

Commande prédictive adaptative d'un robot continu souple par réseau neuronal informé par la physique (tiges de Cosserat)

Des chercheurs ont publié sur arXiv (2508.12681) un framework de contrôle prédictif par modèle (MPC) non linéaire pour robots continus souples, capables de se déformer en flexion continue plutôt que par articulations rigides. Le coeur du système est un réseau de neurones physiquement informé à découplage de domaine (DD-PINN), entraîné comme substitut du modèle dynamique de tige de Cosserat, la référence mathématique pour la mécanique des structures élancées déformables. Ce substitut atteint un facteur d'accélération de 44 000 par rapport au modèle complet, ce qui permet de faire tourner le MPC en temps réel à 70 Hz sur GPU. En parallèle, un filtre de Kalman non parfumé (UKF) exploite le DD-PINN pour estimer en ligne les états internes du robot et la compliance en flexion, à partir des seules mesures de position de l'effecteur terminal. En simulation, les erreurs de position restent inférieures à 3 mm, soit 2,3 % de la longueur de l'actionneur. Sur le robot physique, le contrôleur atteint des accélérations jusqu'à 3,55 m/s², avec une précision comparable. Ce résultat est notable parce qu'il démontre un contrôle dynamique (et non quasi-statique) d'un robot souple en conditions réelles, à une fréquence compatible avec les exigences industrielles. La majorité des approches antérieures, dont les méthodes basées sur l'opérateur de Koopman, sacrifient soit la précision de forme globale, soit l'adaptabilité aux variations de rigidité. Ici, le DD-PINN reconstruit la forme complète du robot et adapte en ligne la compliance, ce qui ouvre la voie à des manipulateurs souples capables de compenser vieillissement matériau ou déformations sous charge variable. Pour un intégrateur ou un décideur industriel, c'est la convergence entre modèle physique et inférence rapide qui est structurante : on cesse de choisir entre fidélité du modèle et temps réel. Les robots continus souples sont étudiés depuis une quinzaine d'années, principalement pour des applications médicales (endoscopes actifs, outils chirurgicaux), l'inspection en espace confiné, et la manipulation de pièces fragiles. Le modèle de Cosserat est le standard théorique du domaine, mais son coût computationnel avait jusqu'ici limité son usage au contrôle quasi-statique ou offline. Les PINN, réseaux intégrant des équations différentielles comme contraintes de loss, constituent depuis 2019 une piste active pour contourner ce verrou. Ce preprint ne mentionne pas de partenaires industriels ni de calendrier de déploiement ; il s'agit à ce stade d'un résultat de recherche académique, sans produit ni pilote terrain annoncé. Les prochaines étapes naturelles concernent la robustesse aux perturbations externes, l'extension à des structures à plusieurs segments, et une validation sur des cas d'usage médicaux ou d'assemblage délicat.

RecherchePaper
1 source
Mana : manipulation habile d'outils articulés
362arXiv cs.RO 

Mana : manipulation habile d'outils articulés

Des chercheurs présentent Mana (Manipulation Animator), un framework sim-to-real conçu pour la manipulation dextre d'outils articulés, c'est-à-dire des outils dotés de degrés de liberté internes comme des ciseaux, des pinces ou des instruments à charnières. Publié en preprint sur arXiv (réf. 2606.13677), le travail comble une lacune notable : la quasi-totalité des recherches antérieures en robotique dextre s'est concentrée sur des objets rigides, laissant de côté les outils dont les parties mobiles exigent une coordination fine entre préhension et manipulation in-hand. Le pipeline repose sur une approche coarse-to-fine inspirée de l'animation par ordinateur : des keyframes de préhension générées procéduralement sont transformées en trajectoires de manipulation via planification de mouvement et apprentissage par renforcement. La génération de données est largement automatisée, spécifier les affordances fonctionnelles d'un nouvel outil ne demandant que quelques clics de souris, soit moins d'une minute par outil. Testé sur quatre outils articulés couvrant différentes échelles et types de liaisons cinématiques, Mana obtient un transfert sim-to-real zéro-shot pour la préhension comme pour la manipulation in-hand, sans fine-tuning supplémentaire sur robot réel. Ce résultat est significatif à plusieurs titres. Le transfert zéro-shot reste un défi ouvert en manipulation dextre, particulièrement pour des objets dont la dynamique de contact varie selon l'état interne de l'outil. La scalabilité du pipeline constitue également un argument fort : moins d'une minute d'annotation par outil contraste avec les pipelines d'imitation classiques qui nécessitent des heures de démonstrations humaines par tâche. Il convient toutefois de nuancer, les résultats étant ceux d'un preprint académique évalué sur quatre outils seulement, sans données de robustesse à grande échelle ni validation industrielle. Si les chiffres se confirment sur un éventail plus large, cela modifie le calcul économique pour les intégrateurs robotiques cherchant à déployer des manipulateurs dextres sur des lignes de production diversifiées. L'approche s'inscrit dans un courant qui cherche à réduire le sim-to-real gap via des pipelines de génération de données synthétiques plutôt que par le domain randomization seul. Les travaux concurrents incluent des frameworks VLA comme pi0 de Physical Intelligence ou les approches de manipulation généraliste développées à CMU et Stanford, qui misent davantage sur la généralisation via de larges datasets de démonstrations humaines. Mana prend un pari différent en substituant l'animation procédurale à la téléopération. Les prochaines étapes naturelles consisteraient à valider le framework sur des outils industriels concrets comme des tournevis ou des clés à cliquet, et à tester sa robustesse face aux variations de fabrication et aux conditions réelles de production.

RecherchePaper
1 source
Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique
363arXiv cs.RO 

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

Des chercheurs ont publié EmboCoach-Bench, un benchmark évaluant la capacité d'agents LLM à automatiser l'ingénierie de politiques pour systèmes robotiques incarnés. Présenté sur arXiv (arXiv:2501.21570), le cadre couvre 32 tâches conçues par des experts en apprentissage par renforcement (RL) et apprentissage par imitation (IL), avec le code exécutable comme interface universelle entre l'agent et l'environnement de simulation. Plutôt que de générer des solutions statiques, les agents opèrent en boucle fermée: ils proposent du code, l'exécutent dans le simulateur, analysent le retour d'environnement, puis itèrent pour corriger et optimiser. Les tâches couvrent des aspects allant de la conception de fonctions de récompense informées par la physique aux architectures de politiques avancées, notamment les diffusion policies. Les résultats quantitatifs méritent attention: les agents autonomes ont surpassé les baselines conçues manuellement par des humains de 26,5% en taux de succès moyen, contestant l'hypothèse selon laquelle l'expertise humaine en reward shaping serait difficilement substituable pour les politiques incarnées. Deuxième enseignement: le workflow agentique avec retour d'environnement réduit substantiellement l'écart de performance entre modèles open-source et propriétaires, ce qui suggère que la boucle de feedback itératif est plus déterminante que le modèle sous-jacent. Enfin, les agents démontrent une capacité de self-correction sur des cas pathologiques d'ingénierie, récupérant des tâches en quasi-échec total via un débogage itératif en simulation. Pour les équipes robotiques, cela représente une voie potentielle pour réduire le temps ingénieur consacré au tuning manuel des hyperparamètres et à la conception artisanale de fonctions de récompense. Ce travail s'inscrit dans une tendance plus large: l'application des workflows agentiques LLM, prouvés dans l'automatisation logicielle et la découverte scientifique, au domaine de l'IA incarnée. Le goulot d'étranglement identifié, à savoir la supervision manuelle intensive pour le réglage des simulations, est un problème structurel bien connu des équipes travaillant sur Optimus (Tesla), GR00T N2 (NVIDIA) ou les systèmes de Figure AI. La contribution différenciante d'EmboCoach-Bench est de proposer un cadre d'évaluation standardisé pour mesurer ce que les agents LLM peuvent réellement automatiser, plutôt que des démos ciblées. Les extensions naturelles incluent l'intégration à des backends hétérogènes (Isaac Lab, MuJoCo, Genesis) et la validation sim-to-real pour confirmer si ces gains en simulation se transfèrent aux systèmes physiques, ce qui reste le test décisif pour une adoption industrielle.

RecherchePaper
1 source
Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines
364arXiv cs.RO 

Sparse2Act : apprendre des représentations 3D éparses alignées sur l'action pour la manipulation robotique multi-domaines

Des chercheurs ont déposé le 12 juin 2026 sur arXiv (référence 2606.12759) Sparse2Act, un cadre de pré-entraînement pour encodeurs de nuages de points 3D épars appliqués à la manipulation robotique. La méthode exploite les actions de l'effecteur terminal en espace tâche comme supervision géométrique : des tokens 3D masqués sont entraînés à organiser les features de scène autour du mouvement de l'espace de travail associé à l'observation. Sur le benchmark LIBERO-10, le système atteint 86,9 % de taux de succès moyen après seulement 500 étapes de fine-tuning. Le même encodeur pré-entraîné permet un transfert inter-domaines de LIBERO vers Meta-World, avec 73,4 % de succès moyen sur le benchmark Meta-World-5. En condition réelle, après pré-entraînement en simulation suivi d'un fine-tuning limité sur données réelles, le système obtient 72,5 % de succès sur quatre tâches de manipulation distinctes. Ce que démontre Sparse2Act, c'est qu'un encodeur 3D peut être pré-entraîné de façon générique et réutilisé tel quel par des politiques aux architectures et espaces d'action différents, y compris des commandes en espace articulaire. C'est un changement de paradigme par rapport aux représentations 3D apprises via des objectifs de tâche spécifiques, qui restent liées à une distribution de données particulière et ne se transfèrent pas. Le sim-to-real à 72,5 % avec fine-tuning limité est un résultat concret que les pipelines VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou OpenVLA peinent à reproduire proprement sur des tâches de manipulation fine. Les ablations publiées dans le papier confirment que le gain provient du signal d'alignement action-masque, et non de la capacité du décodeur, ce qui oriente les futures architectures vers une supervision géométrique légère. L'intérêt pour les représentations 3D explicites en manipulation robotique s'est accentué depuis 2023, en réponse aux limites des politiques purement pixel-based sur les saisies occludées ou en précision sub-centimétrique. Sparse2Act s'inscrit dans le courant du pré-entraînement de représentations robotiques génériques, aux côtés de R3M, MVP ou SPA, mais se distingue par l'usage des actions comme signal de supervision géométrique plutôt que du contrastif visuel ou de la reconstruction d'image. Les concurrents directs incluent les fondations visuelles fine-tunées (DINO, SAM) adaptées à la manipulation et les politiques diffusion-based comme Pi-0.2 ou RDT-1B. La prochaine étape naturelle pour ce travail est l'extension à des morphologies variées (bras bimanuel, robot mobile) et à des scènes hors environnements tabletop standardisés comme LIBERO et Meta-World.

RecherchePaper
1 source
RoboProcessBench : un benchmark pour évaluer la compréhension des processus dans la manipulation robotique vision-langage
365arXiv cs.RO 

RoboProcessBench : un benchmark pour évaluer la compréhension des processus dans la manipulation robotique vision-langage

Des chercheurs ont publié le 16 juin 2026 sur arXiv (référence 2606.13040) RoboProcessBench, un benchmark conçu pour évaluer la compréhension processuelle des modèles vision-langage (VLM) appliqués à la manipulation robotique. L'outil décompose cette capacité en deux axes complémentaires : la surveillance statique (static monitoring) et le raisonnement dynamique (dynamic reasoning), déclinés en 12 familles de questions diagnostiques couvrant la phase d'exécution, le contact physique, le mouvement, la coordination, la progression locale, l'ordre temporel, les résultats et les transitions entre primitives. Le corpus associé, ProcessData, regroupe environ 58 000 paires questions-réponses extraites de 260 tâches de manipulation physiquement simulées, divisé en deux sous-ensembles : ProcessData-SFT pour le fine-tuning et ProcessData-Eval pour l'évaluation. Appliqué à plusieurs VLM représentatifs du marché, le benchmark révèle des lacunes systématiques sur la quasi-totalité des 12 familles de tâches. Toutefois, après fine-tuning sur ProcessData-SFT, les modèles Qwen2.5-VL-7B (Alibaba) et InternVL-3-8B (Shanghai AI Lab) affichent des gains mesurables sur la détection d'état local, de mouvement, de progression et de primitives. Ce travail pointe une faille structurelle dans l'usage croissant des VLM comme critiques visuels, générateurs de récompenses et détecteurs d'échecs dans les pipelines de contrôle robotique : ces modèles sont habituellement évalués sur le succès final d'une tâche, pas sur la qualité de son déroulement. Or, pour un intégrateur ou un COO industriel qui déploie un bras manipulateur en production, la capacité d'un modèle à détecter un contact mal positionné en milieu de séquence ou un désalignement temporel entre deux primitives est aussi critique que le résultat terminal. RoboProcessBench fournit un cadre d'évaluation granulaire là où les benchmarks existants restaient aveugles à cette dimension intermédiaire. Les résultats montrent que les gains obtenus après fine-tuning ciblé sont réels mais localisés, ce qui suggère que la compréhension processuelle fine n'émerge pas spontanément à partir des données d'entraînement généralistes actuels. L'initiative s'inscrit dans une tendance de fond : depuis 2024, les laboratoires de robotique cherchent à intégrer les VLM comme modules de supervision autonomes, à la suite des travaux sur les Visual Language Action models (VLA) comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Le benchmark comble un angle mort laissé par des suites comme RoboSuite, LIBERO ou BehaviorBench, qui mesurent principalement les taux de succès end-to-end. Côté compétiteurs directs dans l'espace des benchmarks de compréhension robotique, on citera MECCANO et ProcTHOR, mais aucun n'adresse explicitement le suivi de primitives en contexte de manipulation physique. La page projet est publiquement accessible, et les données ProcessData sont présentées comme réutilisables pour l'entraînement, ce qui pourrait accélérer leur adoption dans les pipelines de RL basés sur des récompenses apprises. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'un preprint académique.

RecherchePaper
1 source
GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable
366arXiv cs.RO 

GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable

Des chercheurs ont publié GAE (Generalizable Action Expert), un modèle généraliste conçu pour découpler la planification cognitive des modèles de vision-langage (VLM) de la génération d'actions robotiques précises. L'architecture repose sur une interface géométrique parcimonieuse : le VLM prédit des waypoints 3D discrets codant l'intention de haut niveau, tandis que GAE traduit ces repères en trajectoires d'action continues en s'appuyant sur des observations en nuage de points en temps réel. Le module est pré-entraîné sur un corpus de 150 000 trajectoires issues à la fois de simulations et de robots réels, via un schéma baptisé APPF (Action Pre-training, Pointcloud Fine-tuning), qui sépare explicitement l'apprentissage de la dynamique d'action du grounding géométrique. Une fois pré-entraîné, GAE est gelé et réutilisé tel quel sur de nouvelles tâches, seul le VLM amont nécessitant un fine-tuning léger. L'enjeu architectural est le découplage raisonnement-action, un point de friction documenté dans les approches VLA bout-en-bout comme Pi-0 de Physical Intelligence ou OpenVLA, où raisonner et agir partagent les mêmes poids et contraignent mutuellement la généralisation. En faisant de GAE un expert réutilisable et figé, les auteurs réduisent le coût d'adaptation à de nouveaux domaines visuels, angles de caméra et instructions en langage naturel. Les résultats rapportés vont dans ce sens, bien que le protocole d'évaluation comparatif reste à préciser dans la version finale, et que les expériences soient menées en laboratoire sans déploiement industriel annoncé. Cet article s'inscrit dans une vague de recherche post-RT-2 qui cherche à dépasser les limites des architectures monolithiques vision-langage-action. Les approches concurrentes incluent Pi-0 et Pi-0.5 (Physical Intelligence), Octo (UC Berkeley), RoboFlamingo, OpenVLA et RoboVLMs. La représentation intermédiaire par waypoints 3D rappelle des travaux sur les keyposes ou UniPi, mais étendue aux nuages de points pour une robustesse accrue aux variations de point de vue. La préprint arXiv:2510.03896, déposé en octobre 2024 et mis à jour en v2, n'est associé ni à un partenariat industriel ni à un produit commercialisé : il s'agit d'une contribution de recherche académique, pas d'un système shipé.

RechercheOpinion
1 source
Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs
367arXiv cs.RO 

Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs

Une équipe de recherche a publié en juin 2026 un preprint arXiv (2606.12910) présentant GRASP (Grounded Reasoning and Symbolic Planning), un framework de manipulation tabulaire à vocabulaire ouvert pour robots. Le système repose sur un Vision-Language Model (VLM) pré-entraîné qui traduit des requêtes en langage naturel -- par exemple "pose l'objet sur l'étagère du haut" -- en états-buts neuro-symboliques, ancrés dans l'espace physique via un pipeline de détection par bounding boxes. Sur 90 essais en conditions réelles, à trois niveaux de difficulté progressifs, GRASP atteint un taux de succès global de 73,3 %. Aucun entraînement spécifique à la tâche n'est requis : le modèle fonctionne en zero-shot, sans fine-tuning. Ce résultat interpelle parce qu'il propose une alternative crédible aux deux approches dominantes en Task and Motion Planning (TAMP) piloté par VLM : les pipelines lourds computationnellement (type SayCan ou RT-2) et les méthodes data-hungry qui exigent des milliers de démonstrations supervisées. En substituant des coordonnées de bounding boxes à des listes de couleurs codées en dur ou à des repères fixes, GRASP permet d'interpréter des concepts spatiaux abstraits sans recalibrage. Pour un intégrateur industriel ou un laboratoire travaillant sur des cobots, la valeur est directe : réduire le coût d'onboarding d'une nouvelle tâche de manipulation non structurée. Le 73,3 % reste un chiffre à contextualiser -- les auteurs ne détaillent pas les temps de cycle ni les types d'objets testés, et les vidéos de démonstration sélectionnées dans les preprints arXiv ne constituent pas une validation déployée en production. Le contexte de cette publication s'inscrit dans une course dense autour des VLA (Vision-Language-Action models) et du grounding symbolique. Des travaux concurrents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les architectures Open-X-Embodiment misent sur l'entraînement à grande échelle pour généraliser ; GRASP parie à l'inverse sur la légèreté architecturale et la planification symbolique. Aucune entreprise industrielle n'est associée à ce preprint, qui semble issu d'un groupe académique non encore identifié publiquement. Les prochaines étapes naturelles seraient une extension au-delà de la manipulation tabulaire (scènes 3D complexes, objets articulés), une évaluation comparative rigoureuse face aux baselines VLA actuelles, et une validation sur des plateformes robotiques standardisées comme le Franka Research 3 ou le UR5.

RechercheOpinion
1 source
Apprentissage de la sécurité robotique à partir de rares retours humains par prédiction conforme
368arXiv cs.RO 

Apprentissage de la sécurité robotique à partir de rares retours humains par prédiction conforme

Des chercheurs ont publié sur arXiv (référence 2501.04823v2) une méthode permettant d'apprendre les préférences de sécurité d'un opérateur humain à partir de retours binaires très limités, puis de les traduire en garanties statistiques formelles pour un robot autonome. Le principe : un humain visionne des trajectoires effectuées par le robot et signale simplement les comportements jugés dangereux. L'algorithme applique ensuite la prédiction conforme (conformal prediction) sur ces annotations pour délimiter, dans l'espace d'état du robot (ou dans un espace latent appris), une zone suspecte dont il est garanti qu'elle contiendra au moins une fraction spécifiée des futures erreurs de la politique. Un système d'alerte se déclenche dès que le robot pénètre cette zone. La méthode a été validée expérimentalement sur des quadrirotor en vol libre : 30 vols répartis sur 6 tâches de navigation, avec pour objectif de franchir un portique désigné en suivant une politique visuomotrice. Le classifieur par plus proches voisins, combiné à la prédiction conforme, détecte de manière fiable quand la politique va rater le franchissement, sans nécessiter de jeu de données de calibration séparé. L'intérêt industriel de cette approche réside dans deux points souvent négligés dans les déploiements robotiques actuels : la subjectivité de la sécurité et la fragilité des politiques entraînées sur données "sûres". Un robot formé sur des trajectoires correctes peut produire des comportements dangereux hors distribution, et les contraintes définies manuellement ratent systématiquement les cas limites. Ici, la garantie de taux de manqués (miss rate) est mathématiquement contrôlée par l'utilisateur, ce qui est exploitable dans un cahier des charges de déploiement. La méthode est également "sample-efficient" : elle évite la pratique courante en prédiction conforme de geler une partie des données de calibration, ce qui compte lorsque les retours humains sont coûteux à collecter. Pour un intégrateur déployant des robots mobiles ou des drones d'inspection, c'est un outil de qualification potentiellement plus réaliste que les approches par fonctions de barrière de contrôle (CBF) ou vérification formelle, qui supposent des modèles analytiques précis. La prédiction conforme gagne depuis 2022 une traction notable en robotique apprise, notamment pour quantifier l'incertitude dans les politiques de type Vision-Language-Action (VLA) et les planificateurs model predictive control (MPC) -- c'est précisément ce dernier que les auteurs améliorent ici. Les approches concurrentes incluent les CBFs (moins flexibles avec des politiques neuronales), le safe reinforcement learning avec contraintes Lagrangiennes, et les méthodes de détection d'anomalies par reconstruction. L'article ne mentionne pas de partenaire industriel ni de timeline de transfert ; il s'agit d'un preprint académique, code et vidéos publiés, sans peer review finalisé à ce stade. Les suites naturelles seraient une validation sur des robots manipulateurs ou des AMR en environnement d'entrepôt, et l'extension à des retours humains plus granulaires que le binaire safe/unsafe.

RecherchePaper
1 source
GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile
369arXiv cs.RO 

GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile

Des chercheurs ont publié le 16 juin 2026 sur arXiv (arXiv:2606.13394) GeoHAT, un framework end-to-end basé sur la diffusion pour la manipulation mobile whole-body. L'architecture atteint 79,3 % de taux de succès moyen sur le benchmark de simulation ManiSkill-HAB, surpassant la baseline précédente la plus forte de 23,7 points. Le coeur du système repose sur un encodeur spatial Fourier léger qui projette les coordonnées 3D pixel par pixel en tokens géométriques, sans backbone 3D dédié, puis les injecte sélectivement dans les features d'un modèle de vision de fondation via une fusion gated par token, modulée par la validité de profondeur. Pour la génération d'actions, un Hybrid Whole-Body Action Decoder décompose les commandes du bras et de la base mobile en sous-espaces distincts, chacun relié à son contexte visuel propre via cross-attention sparse. Des expériences en environnement réel sur tâches variées confirment les gains observés en simulation. Le verrou visé est structurel: coordonner base mobile et bras manipulateur exige de gérer des points de vue changeants et des régimes de contrôle fondamentalement différents. Les politiques existantes encodent bras et base dans un unique vecteur d'action, écrasant leurs contraintes propres, et s'appuient sur des représentations 3D parses ou des features 2D qui manquent de structure spatiale dense. La décomposition en sous-espaces d'action que propose GeoHAT est une réponse directe à ce mélange contre-productif. Le signal le plus intéressant pour les intégrateurs n'est pas le score sur benchmark, mais la confirmation en conditions réelles: le sim-to-real gap, souvent fatal aux approches académiques, semble partiellement contenu. Cela suggère qu'une politique de manipulation mobile généraliste pourrait être déployée sans recalibration majeure entre simulation et terrain, ce qui reste rare dans la littérature récente. GeoHAT s'inscrit dans la lignée des politiques de diffusion pour la robotique, dont Diffusion Policy (Chi et al., 2023) et Pi-0 de Physical Intelligence sont les références les plus citées, étendues ici à la manipulation mobile. Le benchmark ManiSkill-HAB, maintenu par l'équipe de Hao Su à l'UC San Diego, est devenu une mesure standard pour les agents mobilise-manipulateurs en scènes domestiques simulées. Les travaux concurrents les plus proches incluent Mobile ALOHA (Stanford, 2024) et les approches VLA comme OpenVLA-OFT. La légèreté computationnelle de GeoHAT, obtenue en évitant un backbone 3D séparé, le distingue des stratégies de fusion dense qui risquent de corrompre les représentations préentraînées. Aucun déploiement industriel ni partenariat n'est annoncé; il s'agit d'un résultat de recherche avec validation réelle, préalable nécessaire avant toute mise en production.

RechercheOpinion
1 source
Main bionique MCR : structures anatomiques au service de la manipulation habile
370arXiv cs.RO 

Main bionique MCR : structures anatomiques au service de la manipulation habile

Une équipe de recherche publie sur arXiv (référence 2606.13601, juin 2026) la MCR-Bionic Hand, une main robotique biomimétique reproduisant à l'échelle 1:1 l'architecture musculo-squelettique de la main humaine. Le système intègre un poignet à deux rangées de huit os, des tendons croisés au poignet, un routage anatomique des fléchisseurs superficiels (FDS) et profonds (FDP), des contraintes de plaque palmaire et de ligaments collatéraux, le capuchon extenseur dorsal, ainsi que les voies musculaires intrinsèques (lombricaux, interosseux). L'architecture repose sur deux formes de "raisonnement structurel" : la génération de postures par défaut via la ténodèse poignet-doigts, qui transforme des entrées à faible dimension en configurations de préhension pré-formées et assure la coordination IPP-IPD ; et la modulation musculaire fine, qui règle la posture MCP, la stabilité distale et les trajectoires de force des doigts autour de cet état par défaut. Les démonstrations expérimentales couvrent des tâches de contact riche : rotation de pièce de monnaie, transfert de stylo, retournement dorsal de pièce et manipulation de cube. L'intérêt tient à un changement de paradigme dans la conception des mains robotiques. L'état de l'art traite la dextérité comme un problème de contrôle actif à haute dimension, où chaque degré de liberté est piloté par des algorithmes. Ici, la géométrie de la structure mécanique encode elle-même une partie du contrôle : la posture du poignet induit passivement une pré-mise en forme multi-articulaire, sans commande explicite, et le capuchon extenseur couple le mouvement IPP à une réponse IPD de manière entièrement mécanique. Ce mécanisme allège la charge de calcul et simplifie les pipelines de contrôle, ce qui est directement pertinent pour les intégrateurs cherchant à déployer des manipulateurs en environnements non structurés. La démonstration sur tâches à contact riche indique que le "sim-to-real gap" peut partiellement se résorber si la morphologie physique absorbe la complexité que le contrôleur devrait autrement gérer. Ce travail s'inscrit dans une ligne de recherche où dominent des systèmes comme la Shadow Hand (Shadow Robot, Royaume-Uni), l'Allegro Hand (Wonik Robotics) ou les mains embarquées sur des humanoïdes commerciaux tels que le Figure 03 ou l'Optimus Gen 3 de Tesla, la plupart s'appuyant sur un grand nombre d'actionneurs et des contrôleurs appris. La MCR-Bionic Hand, présentée comme preprint académique et non comme produit commercialisé, plaide pour un retour aux structures anatomiques fonctionnelles plutôt qu'à la simple ressemblance visuelle, une distinction que le secteur des prothèses actives, notamment Ottobock (Allemagne), pourrait exploiter. La suite naturelle serait une évaluation de robustesse sur cycles répétés et une intégration à des pipelines de manipulation apprise de type VLA, pour déterminer si ces priors structurels améliorent la généralisation hors distribution.

UEOttobock (Allemagne), leader européen des prothèses actives, est l'acteur EU le mieux positionné pour exploiter cette architecture musculo-squelettique dans ses futures générations de mains prothétiques.

RecherchePaper
1 source
Contrôle de robots souples par apprentissage sur sous-variétés spectrales adiabatiques
371arXiv cs.RO 

Contrôle de robots souples par apprentissage sur sous-variétés spectrales adiabatiques

Une équipe de chercheurs a publié sur arXiv (référence 2503.10919, version 3) une stratégie de contrôle prédictif pour robots souples entièrement construite à partir de données, fondée sur la théorie des sous-variétés spectrales adiabatiques (aSSMs). Ces structures géométriques de faible dimension émergent le long du chemin désiré du robot dès lors que ses vibrations internes se dissipent bien plus vite que la vitesse de déplacement cible, condition caractéristique des robots fortement amortis. La méthode est validée sur des modèles haute fidélité d'un robot tronc souple en éléments finis et de bras élastiques décrits par la mécanique des tiges de Cosserat, avec des tests complémentaires en présence de bruit expérimental. Les modèles réduits à cinq ou six dimensions obtenus par aSSM surpassent les autres approches data-driven par un facteur allant jusqu'à dix en précision de suivi de trajectoire sur l'ensemble des tâches testées en boucle fermée. Ce résultat s'attaque à un verrou bien documenté du secteur : les modèles linéaires data-driven, notamment les opérateurs de Koopman et les régressions classiques, échouent dès que le robot explore des chemins spatialement étendus sollicitant des régimes fortement non linéaires. L'aSSM contourne ce problème en réduisant la dynamique à une variété invariante attractante de petite dimension, sans nécessiter d'identification paramétrique d'un modèle physique analytique. Pour un intégrateur de systèmes robotiques souples, cette approche ouvre la voie à des contrôleurs prédictifs embarquables sur des robots déformables, avec des débouchés directs en manipulation de précision, inspection industrielle ou chirurgie mini-invasive. La théorie des sous-variétés spectrales (SSM) a été formalisée par George Haller et collaborateurs à partir de 2016 ; l'extension adiabatique pour systèmes à chemin variable constitue une contribution plus récente. Les approches concurrentes incluent les réseaux neuronaux récurrents, le Koopman étendu et les méthodes de réduction d'ordre par projection physique. La validation reste majoritairement numérique, les expériences physiques mentionnées se limitant à tester la robustesse au bruit sans description détaillée d'un banc d'essai réel, ce qui invite à la prudence avant toute extrapolation industrielle. L'article étant un preprint arXiv non encore évalué par les pairs, les performances annoncées méritent confirmation indépendante.

RecherchePaper
1 source
Apprentissage de réseaux d'oscillateurs visuellement interprétables pour robots souples continus à partir de vidéos
372arXiv cs.RO 

Apprentissage de réseaux d'oscillateurs visuellement interprétables pour robots souples continus à partir de vidéos

Des chercheurs présentent sur arXiv (arXiv:2511.18322) une méthode entièrement data-driven pour apprendre la dynamique des robots souples continus (soft continuum robots, SCR) depuis la vidéo, sans connaissance a priori du système mécanique. Deux contributions structurent le travail : l'Attention Broadcast Decoder (ABCD), un module enfichable pour auto-encodeurs qui génère des cartes d'attention pixel-précises localisant la contribution de chaque dimension latente tout en filtrant les arrière-plans statiques ; et les Visual Oscillator Networks (VONs), un réseau d'oscillateurs 2D couplé à ces cartes permettant de visualiser directement sur l'image les masses apprises, la rigidité de couplage et les forces. Sur un robot à deux segments, ABCD réduit l'erreur de prédiction multi-pas de 5,8 fois pour les opérateurs de Koopman et de 3,5 fois pour les réseaux d'oscillateurs par rapport aux baselines sans ce module. Les VONs, laissés libres de s'organiser, font émerger de façon autonome une structure en chaîne d'oscillateurs, cohérente avec la topologie physique de l'objet. L'enjeu n'est pas la performance brute mais l'interprétabilité mécanique, un verrou structurel pour le déploiement de modèles deep learning en robotique de précision. Les approches existantes imposent un choix binaire : modèle basé sur la physique, fidèle mais exigeant une conception manuelle et une connaissance a priori des matériaux ; ou modèle purement data-driven, flexible mais opaque. ABCD associé aux VONs rompt ce dilemme en produisant des représentations latentes spatialement ancrées, lisibles par un ingénieur et potentiellement exploitables pour la synthèse de lois de commande. Pour les intégrateurs actifs sur la manipulation douce (chirurgie assistée, assemblage de composants fragiles), disposer d'un modèle dynamique compact et vérifiable sans calibration physique représente un gain opérationnel concret. Les SCR posent un problème de modélisation structurellement difficile : degrés de liberté théoriquement infinis, non-linéarités prononcées des matériaux (silicone, élastomères), et vision souvent seul capteur praticable en environnement non contrôlé. Les travaux antérieurs misaient principalement sur les opérateurs de Koopman pour linéariser la dynamique dans un espace latent, ou sur des réseaux récurrents sans garantie d'interprétabilité. Aucun acteur français ou européen n'est associé à cette publication, mais des équipes comme INRIA Defrost ou Pollen Robotics travaillent sur des problématiques adjacentes en robotique souple. Les auteurs mentionnent explicitement l'intégration en boucle de commande comme prochaine étape, sans annoncer de déploiement ni de timeline industrielle : il s'agit à ce stade d'un résultat de recherche validé en laboratoire, pas d'un produit expédié.

RecherchePaper
1 source
G-MAPP : planification et perception multi-agents accélérées par GPU pour la génération de mouvement réactif
373arXiv cs.RO 

G-MAPP : planification et perception multi-agents accélérées par GPU pour la génération de mouvement réactif

G-MAPP (GPU-accelerated Multi-Agent Planning and Perception) est un framework de génération de mouvement réactif présenté dans un preprint arXiv (2606.12579) publié en juin 2026. Le systeme cible un problème persistant en robotique manipulatrice : produire des trajectoires sans collision en temps réel dans des environnements non structurés et dynamiques. L'architecture repose sur deux composants GPU : un moteur de modélisation du monde alimenté par des capteurs de profondeur grand public, et un planificateur par champs vectoriels permettant une exploration parallèle quasi-globale des états. Validé sur un bras Franka Emika 7 axes (7-DoF), le systeme affiche un gain de vitesse mesuré jusqu'à 5x par rapport à la version CPU équivalente, avec des évitements de collision réussis dans des configurations physiques simples et complexes. Le point dur que G-MAPP tente de résoudre est double : la charge de calcul pour planifier sur des représentations haute fidélité du monde, et le délai d'intégration entre la perception et le planificateur. Historiquement, les architectures existantes choisissaient entre planification globale (précise mais lente, réservée aux environnements statiques) et planification locale conservative (rapide mais myope). En fusionnant les deux boucles sur GPU, G-MAPP vise à éliminer ce compromis. Pour un intégrateur industriel ou un COO de ligne d'assemblage, cela ouvre la voie à des cellules robotiques reconfigurables sans reprogrammation manuelle, avec des bras capables de coexister avec des opérateurs humains en mouvement, à condition que les performances tiennent sur des géométries de charge plus représentatives. La génération de mouvement réactif mobilise depuis plusieurs années des approches concurrentes : planificateurs neuronaux (MPINETS, MotionBenchMaker), champs de potentiel riemanniens (RMP-Flow, STORM), et méthodes MPC sur horizon glissant. G-MAPP se positionne dans la lignée des planificateurs par champs vectoriels accélérés, avec la particularité de traiter la perception et la planification dans le même pipeline GPU. Le Franka Emika reste une plateforme académique standard, et aucun partenariat industriel ni roadmap de commercialisation n'est mentionné dans le preprint : il s'agit d'une contribution de recherche à confirmer sur des bras à charge utile plus élevée, des vitesses d'obstacles plus importantes, et des environnements multi-agents. Les prolongements naturels incluent les architectures multi-bras et l'intégration avec des pipelines de perception sémantique.

RecherchePaper
1 source
Contrôle PI basé sur Lyapunov pour le suivi robuste de trajectoire d'un robot à quatre roues indépendantes : conception et validation expérimentale
374arXiv cs.RO 

Contrôle PI basé sur Lyapunov pour le suivi robuste de trajectoire d'un robot à quatre roues indépendantes : conception et validation expérimentale

Des chercheurs ont publié sur arXiv (référence 2602.15424v2) une loi de commande de type PI synthétisée par méthode de Lyapunov pour le suivi robuste de trajectoire d'un robot mobile à quatre roues indépendamment motorisées et directrices (4WID-4WIS, pour four-wheel independently driven and steered). Le modèle mathématique du robot est structurellement vérifié, ce qui permet une conception systématique avec des garanties formelles de stabilité, adaptées à l'implémentation temps réel. La loi de commande combine une structure PI classique avec une compensation anticipatrice fondée sur le modèle (feedforward model-based). Elle a été validée expérimentalement sur une plateforme 4WID-4WIS physique dans des conditions d'opération horizontales et verticales, et comparée à un régulateur PI standard ainsi qu'à un contrôleur en mode glissant (SMC, sliding-mode controller). L'apport principal de ces travaux est la combinaison de garanties formelles de stabilité et d'une architecture légère, déployable sur des microcontrôleurs embarqués standard. L'analyse de stabilité pratique augmentée fournit des bornes explicites sur les dynamiques d'erreur de vitesse et d'erreur intégrale, ce qui permet à un intégrateur de dimensionner les marges opérationnelles sans simulation extensive. La loi de commande proposée surpasse le PI classique et l'approche par mode glissant en robustesse face aux dynamiques résiduelles dépendantes de la configuration et aux effets non modélisés. Pour un industriel ou un intégrateur de robots mobiles autonomes (AMR), cela signifie un contrôleur implémentable sur matériel embarqué standard, avec des garanties prouvables et sans la complexité d'ajustement propre au mode glissant. Les robots 4WID-4WIS offrent une maniabilité omnidirectionnelle que les architectures différentielles ou Ackermann n'atteignent pas, mais leur dynamique couplée complique la synthèse de régulateurs performants et stables. Ces travaux s'inscrivent dans un courant visant à rendre rigoureusement prouvables des lois de commande déjà utilisées empiriquement en industrie. Côté positionnement concurrentiel, les contrôleurs en mode glissant garantissent une robustesse comparable mais souffrent du chattering et d'un réglage plus délicat; les approches MPC (Model Predictive Control) offrent une optimalité supérieure au prix d'une charge de calcul souvent incompatible avec les plateformes embarquées légères. Aucun partenaire industriel ni déploiement commercial n'est annoncé dans cette publication purement académique, dont la suite logique serait une validation sur des cycles opérationnels réels en environnement logistique ou de service.

RecherchePaper
1 source
Repenser la régularisation pour un lissage efficace des politiques
375arXiv cs.RO 

Repenser la régularisation pour un lissage efficace des politiques

Un article soumis sur arXiv (référence 2606.13169) propose une refonte de la régularisation pour le lissage des politiques en apprentissage par renforcement (RL). L'approche cible la continuité de Lipschitz des fonctions de politique : idéalement globale, bornant la variation du comportement sur l'ensemble de l'espace d'états, mais réduite en pratique à une version locale en raison d'un compromis inévitable entre lissage et expressivité du réseau. Les auteurs identifient trois défauts précis dans l'implémentation originale, proposent un correctif pour chacun, et valident la méthode sur plusieurs tâches de contrôle et algorithmes de RL distincts. L'évaluation culminante porte sur un robot quadrupède en transfert sim-to-real, où la politique lissée démontre une robustesse accrue face aux changements brusques de commande de vitesse cible. L'enjeu est concret pour quiconque déploie des robots en environnement opérationnel : les politiques apprises en simulation produisent fréquemment des commandes articulaires saccadées qui, appliquées sur hardware, usent les actionneurs, génèrent des oscillations mécaniques, ou provoquent des chutes au moindre changement de consigne. Le lissage par régularisation Lipschitz constitue une solution théoriquement fondée, mais le fossé entre la formulation mathématique et son implémentation dans des réseaux de neurones profonds a jusqu'ici limité son impact pratique. Ce travail démontre que corriger trois erreurs d'implémentation précises suffit à franchir ce fossé, en obtenant un contrôle à la fois plus fluide et plus performant sans sacrifier la capacité du modèle à représenter des comportements complexes. La régularisation Lipschitz appliquée au RL locomoteur s'inscrit dans une lignée de travaux cherchant à combler le sim-to-real gap sans s'appuyer exclusivement sur la randomisation de domaine. Les approches concurrentes incluent la normalisation spectrale (Miyato et al.), les architectures ICNN (input-convex neural networks), ou encore les curricula de friction utilisés par ETH Zurich sur la plateforme ANYmal. La contribution reste ici méthodologique : les auteurs ne précisent ni le nom ni les spécifications exactes du quadrupède testé, ce qui rend difficile l'évaluation de la portée industrielle immédiate. La prochaine étape naturelle serait d'étendre ce cadre aux architectures de type VLA (vision-language-action), où le lissage des sorties moteur devient critique à mesure que la complexité perceptuelle augmente.

RecherchePaper
1 source
AIR-VLA+ : découplage mouvement-manipulation par décodeurs bi-actions en cascade avec MoE asymétrique pour robots aériens
376arXiv cs.RO 

AIR-VLA+ : découplage mouvement-manipulation par décodeurs bi-actions en cascade avec MoE asymétrique pour robots aériens

Une équipe de chercheurs a publié en juin 2026 AIR-VLA+, une architecture de génération d'actions par flow matching conçue spécifiquement pour la manipulation aérienne, soit des systèmes combinant un drone (UAV) et un bras manipulateur embarqué. L'architecture repose sur deux décodeurs d'action en cascade distincts : l'un dédié à la manipulation du bras, l'autre au déplacement du UAV. Le décodeur de mouvement peut observer l'intention du manipulateur (via un projecteur visuel de saisie implicite), mais l'inverse n'est pas vrai, limitant l'impact du bruit de navigation sur la stabilité du bras. Un module MoE (Mixture of Experts) asymétrique, opérant au niveau des features plutôt qu'au niveau des tokens, permet à différents experts de mouvement de se spécialiser spontanément selon les phases de tâche au cours de l'entraînement. Sur le benchmark standardisé AIR-VLA, AIR-VLA+ obtient un score global de 48,0, soit une progression de 80,2 % par rapport à la politique single-head pi-0.5, surpassant tous les baselines testés. Ce résultat pointe un problème structurel longtemps sous-estimé dans les VLA appliqués à la robotique composite : le couplage de représentation. Un drone et un bras manipulateur diffèrent radicalement en échelle d'action, en dynamique et en objectifs de contrôle. Les architectures end-to-end classiques, en traitant les deux dans le même espace de représentation, génèrent des conflits de gradient qui dégradent la stabilité de la manipulation. AIR-VLA+ démontre qu'un découplage asymétrique explicite -- avec flux d'information unidirectionnel -- permet de résoudre ce conflit sans sacrifier la coordination globale de la tâche. Pour les intégrateurs industriels travaillant sur l'inspection d'infrastructure ou la logistique verticale, c'est un signal que les politiques génériques entraînées sur des robots bipèdes ou mobiles au sol ne sont pas directement transférables. La manipulation aérienne reste un sous-domaine peu industrialisé par rapport aux AMR au sol ou aux bras fixes. Les VLA de référence -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure) -- sont tous conçus pour des plateformes terrestres ou humanoïdes. AIR-VLA+ s'inscrit dans un effort de benchmarking spécifique à ce segment, avec la publication conjointe d'un benchmark dédié (AIR-VLA). Aucun déploiement terrain ni partenaire industriel n'est mentionné dans le preprint, ce qui le positionne clairement comme une contribution de recherche en amont. Les prochaines étapes logiques seraient une validation sim-to-real sur des tâches de saisie en environnement non structuré et une comparaison avec des architectures diffusion-based comme Diffusion Policy.

RechercheOpinion
1 source
Y-BotFrame : un cadre extensible d'agents incarnés pour robots quadrupèdes assistants
377arXiv cs.RO 

Y-BotFrame : un cadre extensible d'agents incarnés pour robots quadrupèdes assistants

Des chercheurs du groupe XDEI ont publié en juin 2026, via arXiv (2606.13049), les spécifications de Y-BotFrame, un framework open-source conçu pour transformer un robot quadrupède générique en assistant mobile autonome piloté par le langage naturel. L'architecture intègre trois modalités de perception en parallèle, microphone (commandes vocales), caméra RGB-D (vision) et LiDAR (cartographie 3D), et repose sur un grand modèle de langage (LLM) comme noyau cognitif central. Ce LLM prend en charge la compréhension de l'environnement, le raisonnement contextuel et la planification de tâches, puis convertit les instructions en langage naturel en unités d'action exécutables par le robot. Le système supprime le besoin d'une télécommande physique, remplacée par une interface voix et un retour visuel temps réel. Il s'agit pour l'instant d'une annonce académique accompagnée d'une vidéo de démonstration, pas d'un produit commercialisé. L'intérêt industriel de Y-BotFrame réside dans son architecture modulaire dite "plug-and-play" : chaque sous-système (navigation, perception, interaction) peut être remplacé ou mis à niveau indépendamment, ce qui abaisse le coût d'intégration pour des déploiements sectoriels spécifiques (inspection, logistique d'entrepôt, assistance en environnement structuré). La chaîne voix-vers-action sans contrôleur dédié réduit la barrière de qualification opérateur, un argument concret pour les déployeurs B2B. Reste que les métriques de performance concrètes, latence de la boucle LLM, robustesse en conditions dégradées, autonomie, sont absentes du résumé publié, ce qui est typique des papiers arXiv en phase préliminaire. Les robots quadrupèdes à LLM embarqué forment un segment en effervescence : Unitree (Go2, H1) et Boston Dynamics (Spot) dominent le hardware, tandis que des frameworks comme LeRobot (HuggingFace), Open-X Embodiment ou π₀ (Physical Intelligence) se disputent la couche logicielle d'apprentissage généraliste. Y-BotFrame se positionne non pas comme un modèle VLA entraîné, mais comme une couche d'orchestration système, plus proche de ROS 2 avec un LLM que d'un modèle de politique end-to-end. La prochaine étape logique pour l'équipe XDEI sera de publier des benchmarks sur un hardware cible identifié et des résultats de déploiement réel hors laboratoire.

RecherchePaper
1 source
Perception sémantique active
378arXiv cs.RO 

Perception sémantique active

Des chercheurs ont publié sur arXiv (2510.05430v2) une méthode de perception sémantique active permettant à un robot mobile d'explorer un environnement intérieur en raisonnant sur les zones qu'il n'a pas encore observées. Le système construit un graphe de scène multi-couches et compact, structurant l'environnement à plusieurs niveaux d'abstraction : pièces, objets, murs, fenêtres, avec leur géométrie fine. En s'appuyant sur un grand modèle de langage (LLM), le pipeline génère des graphes de scène plausibles pour les régions inexplorées, en maintenant la cohérence avec les observations partielles déjà accumulées. L'approche calcule ensuite le gain d'information attendu à chaque point de passage candidat, afin de guider la trajectoire d'exploration. Les expériences ont été menées à la fois en simulation sur des appartements 3D réalistes et sur un robot quadrupède Unitree Go 2 en conditions réelles. L'intérêt principal de cette approche réside dans la capacité à exploiter des connaissances sémantiques commonsense pour anticiper la topologie d'une scène non encore visitée. Plutôt que de se limiter à une cartographie géométrique réactive, le robot raisonne sur la probabilité qu'une porte donne sur une cuisine plutôt qu'une chambre selon le contexte observé, un type de raisonnement spatial jusqu'ici difficile à formaliser en robotique mobile. Pour les intégrateurs d'AMR (autonomous mobile robots) et les équipes R&D en navigation intérieure, cette architecture ouvre la voie à des explorations plus efficaces dans des environnements inconnus, avec moins de déplacements redondants. Les résultats quantitatifs montrent une localisation plus rapide et plus précise des informations sémantiques hautes et basses résolutions par rapport aux méthodes existantes, bien que les benchmarks retenus méritent une lecture critique puisqu'ils restent essentiellement contrôlés par les auteurs. Ce travail s'inscrit dans un courant actif combinant graphes de scène hiérarchiques et LLMs pour la navigation sémantique, aux côtés de travaux comme SayPlan (Rana et al.) ou SceneGraph-Nav. Le Unitree Go 2, robot quadrupède à faible coût devenu plateforme standard pour la recherche en mobilité intérieure, sert ici de démonstrateur physique. Les acteurs concurrents incluent les approches par représentations neurales implicites (NeRF sémantiques) et les méthodes de frontier-based exploration enrichies par vision-langage. Le code n'est pas encore publié à la date de soumission, et aucun partenariat industriel ni calendrier de transfert n'est mentionné dans le papier.

RecherchePaper
1 source
Vers une préhension séquentielle fiable d'objets en environnement encombré : solution finaliste du RGMC 2025
379arXiv cs.RO 

Vers une préhension séquentielle fiable d'objets en environnement encombré : solution finaliste du RGMC 2025

Une équipe de chercheurs a présenté à l'ICRA 2025, la principale conférence mondiale en robotique, un système de préhension séquentielle en environnement encombré, décrochant la deuxième place dans la piste "Pick-in-Clutter" de la 10e édition du Robotic Grasping and Manipulation Competition (RGMC 2025). Le système s'évalue sur le Cluttered Environment Picking Benchmark (CEPB), un protocole standardisé conçu pour des scénarios de ramassage séquentiel d'objets hétérogènes entremêlés. La solution combine une pince multifonctionnelle sur mesure, un module de reconnaissance d'objets, des stratégies de désencombrement actif et une approche de préhension multimodale capable de traiter à la fois des pièces rigides et des objets déformables. L'architecture produit une représentation explicite de la distribution spatiale des objets et de leurs relations d'occlusion, permettant au robot de planifier l'ordre de saisie le plus efficace tout en évitant les collisions. Ce résultat est significatif pour les intégrateurs industriels parce qu'il adresse un verrou applicatif précis : non plus saisir un objet isolé avec un taux de succès élevé, mais rechercher et extraire séquentiellement des cibles dans un tas désordonné, cas d'usage courant en picking e-commerce, en tri logistique ou en désassemblage. La gestion des objets déformables (sachets, textiles, pièces souples) reste un différenciateur rare : la plupart des systèmes commerciaux contournent ce cas. Les auteurs distinguent explicitement les "taux de succès élevés sur la saisie unitaire" déjà atteints dans la littérature des "solutions matures pour le tri séquentiel", un écart que ce travail cherche à combler. La validation en conditions de compétition sous contrainte temps, avec des objets non sélectionnés par l'équipe, renforce la crédibilité par rapport aux démonstrations en conditions contrôlées. Le RGMC est organisé annuellement depuis 2011 en marge de l'ICRA et constitue l'une des références de benchmark en manipulation robotique. Sur ce segment, les concurrents directs incluent des systèmes basés sur des grippers adaptatifs (Robotiq, OnRobot) et des solutions de bin-picking comme celles de Photoneo, Mech-Mind ou Roboception, souvent couplées à des pipelines de vision 3D. Aucun acteur européen n'est mentionné dans ce travail. L'article, déposé sur arXiv sous l'identifiant 2606.12954, ne précise pas l'affiliation institutionnelle de l'équipe ni de feuille de route vers une commercialisation. Les prochaines étapes naturelles seraient la mise en open source du benchmark CEPB et une validation sur un spectre plus large d'objets industriels réels.

RecherchePaper
1 source
IA multimodale et multi-agents pour l'alignement cognitif robotique via interface cerveau-ordinateur non invasive : exploration de concept
380arXiv cs.RO 

IA multimodale et multi-agents pour l'alignement cognitif robotique via interface cerveau-ordinateur non invasive : exploration de concept

Une équipe de recherche a publié en juin 2026 sur arXiv (réf. 2606.13190) un framework en preuve de concept pour synchroniser les communications de systèmes multi-agents robotiques avec l'état cognitif en temps réel de l'opérateur. L'architecture repose sur un casque EEG grand public (interface cerveau-ordinateur non invasive) qui surveille en continu les puissances spectrales des bandes EEG, indicateurs de charge mentale et d'engagement. Lorsqu'un engagement élevé est détecté, un mécanisme de signalisation HTTP place les entrées sensorielles et les sorties audio de l'agent principal en file d'attente, pendant que des agents secondaires traitent des tâches déléguées en arrière-plan. Dès que la charge cognitive revient à un niveau basal, les messages sont libérés. Le démonstrateur couple LLMs et robots physiques dans cette boucle fermée, sans que la publication ne précise les modèles utilisés ni ne fournisse de métriques quantifiées de performance. Le problème ciblé est réel dans les déploiements multi-agents : les systèmes proactifs interrompent fréquemment les opérateurs à des moments inopportuns, engendrant surcharge cognitive et baisse de performance. En conditionnant les interruptions robotiques à l'état neurophysiologique mesuré, ce framework propose une alternative aux approches classiques basées sur les pauses vocales, les gestes ou les patterns d'interaction. Pour un intégrateur de cobots ou un responsable d'atelier automatisé, l'enjeu concret est de limiter les erreurs liées aux changements de contexte forcés. Les auteurs revendiquent la "faisabilité" du concept, terme qui signale une exploration préliminaire, pas une validation industrielle. La recherche BCI est longtemps restée confinée aux applications médicales et aux laboratoires de pointe. L'usage de casques EEG grand public, comme ceux d'Emotiv, ouvre une piste de scalabilité sans équipement clinique, bien que les conditions de bruit EEG en milieu industriel restent un défi que le papier ne traite pas. Des approches concurrentes détectent la charge cognitive par vision (eye tracking, micro-expressions) ou capteurs physiologiques (GSR, fréquence cardiaque). En HRI, des groupes académiques nord-américains et européens explorent des problématiques voisines, notamment autour des conférences IEEE RAS et de labos de robotique cognitive en Allemagne, au Royaume-Uni et en France. Les prochaines étapes logiques incluent des expérimentations sur cohortes élargies, des benchmarks en conditions de bruit réel, et une intégration avec des plateformes robotiques industrielles identifiées.

UEDes laboratoires de robotique cognitive en Allemagne, au Royaume-Uni et en France travaillent sur des problématiques HRI similaires ; ce concept BCI pourrait alimenter leurs travaux, mais sans déploiement ni partenariat européen identifié à ce stade.

RecherchePaper
1 source
EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon
381arXiv cs.RO 

EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon

Des chercheurs ont soumis EA-WM (Event-Aware World Model) sur arXiv le 12 juin 2026 (arXiv:2606.13053), un cadre de planification robotique pour la manipulation à long horizon. Le système articule deux couches : une dynamique en espace de caractéristiques visuelles gelée (pretrained visual features) sur laquelle vient se greffer un module de prédiction et vérification d'événements ancré dans la spécification de tâche. EA-WM déroule des futurs candidats dans cet espace, les décode en états d'événements structurés (objet déplacé, état de contact changé, prédicat de placement satisfait), puis les score selon quatre critères : progression de la tâche, cohérence sémantique, faisabilité physique et incertitude. Le vérificateur guide l'exploration par échantillonnage et filtre les actions candidates. Dans le benchmark LIBERO, scénario wine-rack sensible aux contacts, il sélectionne parmi des propositions générées par PPO (Proximal Policy Optimization). Les évaluations couvrent navigation, manipulation d'objets déformables, contraintes murales et instructions en langage naturel. L'apport principal est de combler un angle mort structurel des modèles du monde visuels : prédire un futur visuellement plausible ne garantit pas qu'il satisfasse des conditions relationnelles de tâche (prédicats du type "le tiroir est ouvert", "l'objet est posé à l'emplacement cible"). En ajoutant une vérification explicite au niveau événementiel, EA-WM rend les modèles du monde en espace latent à la fois plus interprétables et mieux alignés avec la progression réelle des tâches, sans exiger de nouvelles données de démonstration massives. Pour un intégrateur ou un ingénieur robotique, cela ouvre un potentiel de planification robuste sans dépendre exclusivement de politiques bout-en-bout coûteuses à entraîner. Les modèles du monde en robotique connaissent une accélération depuis DreamerV3 (Google DeepMind) et les architectures VLA comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA. EA-WM se positionne dans un créneau intermédiaire : il ne remplace pas les politiques d'action mais renforce la phase de planification amont, en s'appuyant sur LIBERO comme benchmark multi-tâches désormais standard dans la communauté. À noter que ces résultats restent entièrement en simulation ; la validation sur du matériel réel et le sim-to-real transfer, points encore ouverts dans le domaine, constitueraient l'étape suivante naturelle pour démontrer une applicabilité industrielle effective.

RechercheOpinion
1 source
EgoMoD : prédire des cartes globales de dynamiques à partir d'observations égocentrées locales
382arXiv cs.RO 

EgoMoD : prédire des cartes globales de dynamiques à partir d'observations égocentrées locales

EgoMoD (arXiv:2603.00167v2) est une méthode de navigation robotique qui prédit des cartes globales de dynamique de mouvement, appelées Maps of Dynamics (MoDs), depuis de courtes séquences vidéo égocentrées collectées par le robot lui-même. Les MoDs représentent de façon structurée les tendances de mouvement dans un espace donné, offrant un support pour la planification à long terme. L'architecture, conditionnée par la vidéo et la pose du robot, est entraînée par supervision privilégiée : des MoDs calculées depuis des capteurs externes servent de signal d'apprentissage, mais à l'inférence, seuls les capteurs embarqués standards sont requis. Les expériences couvrent de grands environnements simulés, et une validation sur images réelles démontre un transfert zéro-shot sans fine-tuning. L'enjeu pour les robots mobiles autonomes (AMR) déployés dans des environnements peuplés est concret : la navigation réactive, limitée au champ de vision immédiat, contraint la fluidité des déplacements dans des espaces denses comme les entrepôts ou les hôpitaux. Les MoDs permettent une planification préemptive en anticipant la position probable des personnes avant qu'elles n'entrent dans le périmètre de détection. Jusqu'ici, ce type de carte dynamique exigeait une infrastructure fixe (caméras de surveillance, systèmes de suivi centralisés), incompatible avec des déploiements agiles. EgoMoD supprime cette contrainte : la carte prédictive se construit depuis les données d'opération courante, ce qui ouvre la voie à des déploiements sans modifier l'infrastructure existante. Les MoDs s'inscrivent dans un champ de recherche actif sur les représentations dynamiques, au-delà des cartes d'occupation statiques ; les approches antérieures nécessitaient des capteurs fixes sur de longues périodes, ce qui ralentissait le déploiement opérationnel. EgoMoD rejoint une tendance à exploiter des architectures vidéo pour inférer des priors dynamiques, terrain partagé avec des modèles comme Trajectron++ ou Social-LSTM. À noter : les résultats quantitatifs principaux sont issus de simulations ; la validation sur images réelles démontre le transfert zéro-shot mais sans évaluation end-to-end de navigation complète. Aucun partenaire industriel ni calendrier de production n'est mentionné dans la publication, et la disponibilité du code source reste à confirmer.

RecherchePaper
1 source
WOMBET : transfert d'expérience par modèle du monde pour un apprentissage par renforcement robuste et efficace
383arXiv cs.RO 

WOMBET : transfert d'expérience par modèle du monde pour un apprentissage par renforcement robuste et efficace

Une équipe de chercheurs présente WOMBET (World Model-Based Experience Transfer), un cadre d'apprentissage par renforcement (RL) publié sur arXiv sous la référence 2604.08958 (troisième version, indiquant un travail en révision active). Le constat de départ est simple : en robotique, collecter des données d'entraînement est coûteux et potentiellement risqué, ce qui freine l'adoption du RL réel. WOMBET répond à ce problème en deux temps. D'abord, un modèle du monde (world model) est appris sur une tâche source, et sert à générer synthétiquement un jeu de données hors-ligne via une planification pénalisée par l'incertitude épistémique. Les trajectoires générées sont ensuite filtrées selon deux critères : rendement cumulé élevé et faible incertitude. Ensuite, un agent s'affine en ligne sur la tâche cible, avec un échantillonnage adaptatif qui équilibre progressivement données offline (issues du world model) et données online (issues de l'environnement réel), assurant une transition stable. Les auteurs formalisent également que l'objectif pénalisé constitue une borne inférieure du rendement vrai, et décomposent l'erreur finie en termes de décalage de distribution et d'erreur d'approximation. Le gain pratique est réel : WOMBET améliore la vitesse de convergence et les performances finales sur des benchmarks de contrôle continu (probablement DeepMind Control Suite ou MuJoCo, non précisés dans l'abstract) par rapport à des baselines solides. Pour la robotique industrielle, où chaque heure de collecte sur robot physique se paie cher, la capacité à générer des données fiables via un modèle appris, tout en contrôlant leur qualité par l'incertitude, est un levier concret. La double garantie -- théorique et empirique -- est rare dans ce domaine et renforce la crédibilité de l'approche au-delà d'un simple résultat expérimental. Ce travail s'inscrit dans un courant actif qui associe world models et RL offline-to-online, où des systèmes comme DreamerV3 ou TD-MPC2 font référence. WOMBET se distingue en ciblant explicitement le problème du transfert inter-tâche, là où la majorité des approches existantes supposent un jeu de données fixe et pré-collecté. Aucune entreprise ni partenariat industriel n'est mentionné ; il s'agit de recherche académique à stade préprint. Trois versions déposées suggèrent des révisions significatives en cours, possiblement vers une soumission en conférence (NeurIPS, ICML, CoRL). Les prochaines étapes naturelles seraient une validation sur hardware réel et une comparaison avec des méthodes de sim-to-real transfer plus classiques.

RecherchePaper
1 source
Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques
384arXiv cs.RO 

Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques

MiDiGap (Mixture of Discrete-time Gaussian Processes) est une méthode d'apprentissage par imitation pour la manipulation robotique, publiée en mai 2025 en preprint arXiv (2505.03296v2) par des chercheurs de l'Université de Fribourg-en-Brisgau. Elle apprend des politiques de contrôle à partir de seulement cinq démonstrations, en utilisant uniquement des observations caméra, et converge en moins d'une minute sur CPU standard. Le spectre de tâches couvert est large: comportements à longue horizon comme préparer un café, mouvements très contraints comme ouvrir une porte, actions dynamiques comme manier une spatule, et tâches multimodales comme accrocher une tasse. Sur le benchmark simulé RLBench, la méthode affiche un gain de 76 points de pourcentage de succès sur les tâches contraintes, réduit le coût de trajectoire de 67%, et progresse de 48 points sur les tâches multimodales avec une efficacité d'échantillonnage multipliée par 20. En transfert cross-embodiment, c'est-à-dire l'adaptation d'une politique à un robot de morphologie différente sans réentraînement complet, le taux de succès est plus que doublé. Le code est publié en open-source. L'enjeu principal est le coût d'entrée à l'apprentissage par imitation. Les architectures actuellement dominantes, Diffusion Policy (Columbia), ACT (Stanford/Berkeley) ou les VLA comme Pi-0 de Physical Intelligence, nécessitent des milliers de démonstrations et des ressources GPU conséquentes. Une méthode compétitive opérant sur CPU en moins d'une minute élargit concrètement l'accès aux intégrateurs et PME robotiques sans infrastructure ML dédiée. La fonctionnalité de pilotage à l'inférence (inference-time steering) est aussi notable: en injectant des signaux de collision ou des contraintes cinématiques du robot directement à l'inférence, sans réentraînement, MiDiGap permet une adaptation dynamique aux contraintes physiques réelles, propriété rare dans les méthodes actuelles et potentiellement précieuse pour les déploiements industriels. L'Université de Fribourg-en-Brisgau s'impose ici comme un acteur européen de poids dans l'apprentissage robotique, aux côtés d'ETH Zurich et du DLR. MiDiGap entre en concurrence directe avec Diffusion Policy, ACT, mais aussi avec les fondations propriétaires comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). Un bémol important: toutes les métriques annoncées proviennent de RLBench, un benchmark entièrement en simulation. La robustesse sim-to-real, c'est-à-dire le maintien des performances sur des robots réels dans des conditions non contrôlées, reste à démontrer. La mise en open-source sur midigap.cs.uni-freiburg.de devrait permettre une évaluation indépendante et une validation sur plateformes réelles dans les prochains mois.

UEL'Université de Fribourg-en-Brisgau (Allemagne) produit un concurrent open-source direct aux fondations propriétaires américaines (Pi-0, GR00T N2), accessible sans GPU aux intégrateurs et PME robotiques européens, renforçant la capacité européenne en apprentissage robotique face aux acteurs US.

RecherchePaper
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
385arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes
386arXiv cs.RO 

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

Une étude publiée sur arXiv le 11 juin 2026 (réf. 2606.11891) présente une comparaison rigoureuse de deux architectures de critique en apprentissage par renforcement multi-objectifs pour robots humanoïdes : un critique unifié (un seul réseau estimant la valeur combinée de tous les objectifs) contre des critiques duaux (deux réseaux distincts, chacun associé à un signal de récompense séparé, l'un pour la locomotion, l'autre pour la manipulation). Les expériences ont été conduites sur le Unitree G1, un humanoïde à 23 degrés de liberté actifs, dans le simulateur NVIDIA Isaac Lab, via un curriculum séquentiel de 13 niveaux progressant de l'atteinte stationnaire jusqu'à la marche avec des cibles à orientation variable. Résultat : les politiques entraînées avec critiques duaux atteignent leurs cibles 3,5 fois plus vite (6,5 pas de simulation contre 22,6), affichent un débit deux fois supérieur (14,3 contre 7,0 atteintes validées pour 1 000 pas), et un taux de réussite validé de 65,2 % contre 53,8 % pour le critique unifié. Ce que l'étude démontre, c'est que le choix de l'architecture du critique est un levier de conception primaire, souvent négligé, dont l'impact surpasse celui du reward engineering. Fait notable : l'ajout de mécanismes anti-gaming, conçus pour empêcher la politique d'exploiter les failles de la fonction de récompense, ne produit aucun gain au-delà du changement architectural seul (60,9 % contre 65,2 %). L'implication la plus immédiate concerne le fine-tuning RL de politiques pré-entraînées par imitation : lorsqu'on affine un modèle de manipulation déjà appris (style Pi-0 ou GR00T N2), un critique unifié risque de supprimer les comportements acquis par interférence des gradients de locomotion. Pour les équipes qui cherchent à spécialiser des modèles de fondation robotiques par RL, cette mise en garde est directement opérationnelle. Le Unitree G1, vendu autour de 16 000 dollars, est devenu un banc de test standard pour la recherche en humanoïde abordable, face aux plateformes de Figure AI, Agility Robotics ou 1X Technologies qui opèrent sur des gammes de prix bien supérieures. NVIDIA Isaac Lab, successeur d'Isaac Gym, s'est imposé comme l'environnement de référence pour l'entraînement sim-to-real. La question du découplage locomotion/manipulation en RL multi-objectifs est au coeur de plusieurs groupes de recherche (Stanford, CMU, ETH Zurich), et les résultats de cette étude, issus d'un cadre contrôlé et reproductible, offrent une base solide pour orienter les choix d'architecture avant tout entraînement coûteux sur robot réel.

RecherchePaper
1 source
Évaluation multimodale de la perception robotique en environnements naturels
387arXiv cs.RO 

Évaluation multimodale de la perception robotique en environnements naturels

Des chercheurs du CSIRO (Commonwealth Scientific and Industrial Research Organisation, Australie) ont publié en juin 2026 le benchmark WildCross, un jeu de données multi-modal destiné à évaluer les systèmes de perception robotique dans des environnements naturels non structurés. Le dataset comprend plus de 476 000 frames RGB séquentielles annotées avec profondeur semi-dense, normales de surface, pose 6DoF précise et sous-cartes lidar denses synchronisées. WildCross cible deux tâches clés : la reconnaissance de lieu (place recognition) et l'estimation de profondeur métrique, deux briques fondamentales pour la navigation autonome en extérieur. L'article, disponible en preprint sur arXiv (2606.11563), constitue une extension d'une publication précédente avec un focus particulier sur les expériences d'estimation de profondeur. Le benchmark révèle une faiblesse structurelle des modèles de vision actuels, notamment les vision foundation models (type DINOv2, SAM ou DepthAnything) : entraînés massivement sur des données urbaines structurées (routes, bâtiments, feux de signalisation), ils se dégradent significativement face aux textures répétitives, aux variations d'éclairage et à l'absence de repères géométriques nets caractéristiques des milieux forestiers, agricoles ou montagneux. Pour les intégrateurs en robotique de terrain (agriculture de précision, inspection d'infrastructures, opérations de recherche et sauvetage), cela confirme ce que les praticiens suspectent depuis longtemps : les benchmarks urbains comme KITTI ou NYUv2 ne prédisent pas les performances réelles sur le terrain. Le CSIRO Robotics est l'un des principaux laboratoires mondiaux sur la robotique en environnements difficiles, notamment via ses contributions au challenge DARPA Subterranean et au développement du robot Spot dans des mines australiennes. WildCross entre en compétition directe avec des initiatives comme RUGD, RELLIS ou le benchmark TartanAir sur la question du sim-to-real en outdoor, mais se distingue par l'intégration de lidar dense synchronisé permettant une vérité terrain de profondeur plus fiable. Le dataset et le code sont accessibles publiquement via csiro-robotics.github.io/WildCross. Les prochaines étapes annoncées incluent l'évaluation de modèles VLA (vision-language-action) sur ce corpus, ce qui pourrait élargir la portée du benchmark au-delà de la seule perception passive.

UELes équipes européennes en robotique de terrain (agriculture de précision, inspection d'infrastructures) peuvent utiliser ce benchmark open-source pour évaluer objectivement leurs modèles de perception en environnement non structuré, confirmant que les référentiels urbains classiques ne prédisent pas les performances réelles sur le terrain.

RecherchePaper
1 source
Fourier Features permet aux agents d'apprendre des politiques haute précision par apprentissage par imitation
388arXiv cs.RO 

Fourier Features permet aux agents d'apprendre des politiques haute précision par apprentissage par imitation

Un article soumis sur arXiv (2606.12334, juin 2026) présente une méthode simple mais efficace pour améliorer la précision des politiques de manipulation robotique par apprentissage par imitation : projeter les nuages de points 3D dans un espace de Fourier haute dimension avant de les passer à l'encodeur neuronal. L'idée part d'un diagnostic connu en apprentissage automatique : les réseaux de neurones souffrent d'un biais spectral qui les pousse à privilégier les fonctions basse fréquence, ce qui pénalise les architectures conditionnées sur des coordonnées cartésiennes lentes et peu discriminantes. En remplaçant ces coordonnées brutes par leurs projections sinusoïdales haute fréquence, les chercheurs donnent à l'encodeur un accès direct aux détails géométriques fins, là où se jouent les contraintes d'assemblage ou d'insertion. Les expériences couvrent les benchmarks RoboCasa et ManiSkill3, ainsi qu'un banc de test en robotique réelle, et montrent des gains consistants sur des tâches de manipulation à haute précision. L'apport principal n'est pas tant algorithmique que diagnostique : les politiques basées sur nuages de points surpassent théoriquement les approches RGB-only (qui souffrent d'ambiguïté de profondeur et de problèmes d'échelle en perspective), mais leurs performances restent fortement dépendantes de la tâche. Ce papier identifie le biais spectral comme mécanisme explicatif de cet écart et propose un correctif robuste aux hyperparamètres, agnostique à l'architecture d'encodeur. Pour les équipes qui développent des politiques VLA (Vision-Language-Action) ou des contrôleurs d'imitation pour manipulation fine (vissage, assemblage, tri de pièces), cette couche de Fourier s'intègre sans refonte majeure du pipeline. C'est le type de contribution "multiplicateur silencieux" qui peut débloquer des cas d'usage industriels où le gap sim-to-real reste un obstacle pratique. Ce travail s'inscrit dans un contexte de recherche actif sur les représentations 3D pour la robotique apprenante, en concurrence avec des approches comme les encodeurs PointNet et PointTransformer, les champs de distances signées ou les représentations implicites neuronales. Les benchmarks RoboCasa (Berkeley) et ManiSkill3 (UCSD/Carnegie Mellon) sont devenus des standards d'évaluation pour la manipulation simulée, bien que le vrai test reste le transfert sim-to-real en conditions industrielles non structurées. Les auteurs mettent à disposition le code source et des vidéos sur fourier-il.github.io, ce qui facilite la reproduction et l'adoption. La prochaine étape naturelle serait d'évaluer la technique sur des manipulateurs industriels en production et de tester sa compatibilité avec les architectures Diffusion Policy et ACT, actuellement dominantes dans le domaine.

RechercheOpinion
1 source
PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper
389arXiv cs.RO 

PEBRE : une extension matérielle ouverte de calcul et perception pour le robot Pepper

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.12112v1) les spécifications de PEBRE, un module matériel et logiciel open-source conçu pour augmenter les capacités du robot Pepper. Le module intègre une carte Jetson Orin Nano de NVIDIA pour le calcul embarqué, une caméra RGB Logitech BRIO 4K, une caméra de profondeur Intel RealSense D435i pour la perception 3D, un microphone USB Samson UB1 et un micro directionnel RØDE VideoMicro II pour la capture audio. L'ensemble forme un add-on modulaire, conçu pour s'intégrer physiquement sur Pepper sans modifier son architecture d'origine. Les auteurs rapportent des améliorations mesurables en capacités de perception et en puissance de calcul, sans toutefois publier de benchmarks chiffrés comparatifs dans le résumé disponible. L'intérêt concret de PEBRE pour la communauté académique et les intégrateurs tient à une problématique bien réelle : Pepper approche ou dépasse sa durée de vie commerciale prévue, et SoftBank Robotics a progressivement réduit son support. Des dizaines de labos de recherche mondiaux disposent de plateformes Pepper dont la chaîne logicielle devient obsolète et dont le matériel interne (processeur Intel Atom, caméras grand-angle basiques) ne permet plus d'exécuter des modèles modernes de vision ou de traitement du langage en local. En proposant une solution open-hardware, les auteurs cherchent à mutualiser l'effort de mise à niveau, évitant à chaque labo de réinventer sa propre solution de retrofitting. C'est une approche pragmatique face à l'abandon progressif d'une plateforme encore présente dans de nombreux établissements. Pepper a été conçu à l'origine par Aldebaran Robotics, entreprise française rachetée par SoftBank en 2012, puis commercialisé à partir de 2014 comme robot d'accueil et d'interaction sociale. Malgré l'arrêt de sa production pour le marché grand public annoncé en 2021, Pepper reste présent dans plusieurs centaines de laboratoires et sites industriels en Europe et en Asie. Côté concurrence sur le segment des plateformes académiques humanoïdes légères, Pepper fait face à des alternatives comme le NAO (lui aussi Aldebaran/SoftBank), le Furhat ou des plateformes bras-et-torse comme Hello Robot Stretch. PEBRE ne repositionne pas Pepper dans la course aux humanoïdes mobiles de nouvelle génération, mais tente de lui donner une seconde vie utile dans des contextes de recherche appliquée en HRI (Human-Robot Interaction), là où le coût d'acquisition d'une nouvelle plateforme reste prohibitif.

UELes laboratoires européens équipés de robots Pepper, nombreux en France et en Europe, héritiers du rachat d'Aldebaran Robotics, peuvent bénéficier directement de ce module open-source pour prolonger la durée de vie de leurs plateformes et exécuter des modèles modernes de perception et de traitement du langage sans investissement dans une nouvelle plateforme.

RecherchePaper
1 source
Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur
390arXiv cs.RO 

Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur

Des chercheurs ont publié le 11 juin 2026 sur arXiv (référence 2606.11464) un cadre basé sur des transformeurs pour prédire l'état d'une balle de ping-pong en conditions réelles, dans le but d'améliorer le contrôle en boucle fermée d'un robot de tennis de table. Le système modélise les corrélations temporelles longue portée à partir de séquences d'observations historiques, sans recourir à des équations physiques de vol ou de rebond. Pour l'entraînement, l'équipe a constitué un jeu de données réel à grande échelle, collecté auprès de joueurs de niveaux variés et avec des configurations différentes de canons à balles, afin de maximiser la diversité des trajectoires. La pièce centrale de la contribution est SPAD (Swap Predictor at Deployment) : une stratégie de transfert sim-to-real qui consiste simplement à substituer, au moment du déploiement, le simulateur physique utilisé pendant l'entraînement par le prédicteur entraîné sur données réelles, sans nécessiter de réentraînement de la politique de contrôle. Ce résultat est significatif car il s'attaque directement au problème du sim-to-real gap, l'un des verrous majeurs de la robotique dynamique à haute vitesse. La plupart des approches existantes soit dépendent d'une identification précise des paramètres physiques (masse de la balle, coefficient de rebond, spin), soit peinent à généraliser hors distribution simulée. SPAD propose une alternative modulaire : le prédicteur est un composant interchangeable, ce qui permet de conserver l'efficacité de l'entraînement en simulation tout en bénéficiant de la fidélité des données réelles uniquement à l'inférence. C'est un paradigme "plug-and-play" qui pourrait s'étendre à d'autres tâches de manipulation rapide où la simulation reste incomplète. Le tennis de table robotique est un banc de test établi pour le contrôle haute vitesse, utilisé notamment par des équipes de Google DeepMind (qui ont démontré des robots capables de battre des joueurs amateurs en 2023) et par plusieurs laboratoires universitaires en Chine et en Europe. La spécificité de cette approche est d'éviter toute hypothèse sur le modèle physique du vol de balle, là où des systèmes comme celui de DeepMind intègrent encore des composantes analytiques explicites. La prochaine étape naturelle serait de valider SPAD sur des politiques de contrôle plus complexes, notamment face au spin variable et aux échanges multi-rebonds, qui restent les cas limites non résolus du domaine.

RecherchePaper
1 source
PLUME : modélisation probabiliste unifiée du monde et estimation de paramètres pour la manipulation multi-doigts
391arXiv cs.RO 

PLUME : modélisation probabiliste unifiée du monde et estimation de paramètres pour la manipulation multi-doigts

Une équipe de recherche présente PLUME (Probabilistic Latent Unified World Modeling and Parameter Estimation), une architecture de modèle du monde conçue pour la manipulation dextre avec des mains multi-doigts. L'article, déposé sur arXiv en juin 2026, s'attaque à un obstacle bien documenté en robotique : les politiques entraînées en simulation échouent souvent en déploiement réel parce que des paramètres physiques clés, forme des objets, pose initiale, coefficients de friction, sont inconnus au moment de l'exécution. PLUME apprend conjointement un espace latent représentant plusieurs paramètres physiques hétérogènes et un modèle de dynamique conditionné sur ces paramètres, permettant une inférence en ligne sans ré-entraînement ni fine-tuning. Le système est évalué sur quatre tâches en simulation (vissage de tournevis, rotation de vanne, levage de seau, projection de disque) puis validé sur une tâche de vissage réelle en zéro-shot, surpassant les baselines de référence en apprentissage par renforcement offline et en imitation augmentée par modèle du monde. Ce résultat conteste l'hypothèse que la randomisation de domaine suffit pour les tâches de précision. Visser un tournevis avec une friction faible ou élevée ne demande pas la même stratégie motrice : la politique doit changer qualitativement, pas simplement se robustifier. PLUME répond à cela via une mise à jour bayésienne de la croyance sur les paramètres au fil de l'exécution, fonctionnant comme un système d'adaptation en temps réel sans accès aux vrais paramètres. Le transfert zéro-shot sur hardware est le point fort concret de l'article, même si les conditions exactes du banc d'essai (matériau des objets, tolérances mécaniques de la main utilisée) ne sont pas précisées dans le résumé public, ce qui limite la reproductibilité immédiate. La manipulation dextre multi-doigts reste un problème ouvert depuis plusieurs décennies, avec des tentatives notables chez OpenAI (Dactyl, arrêté en 2021) ou ETH Zurich. PLUME s'inscrit dans une tendance récente couplant modèles du monde et inférence de paramètres, approche complémentaire aux VLA (Vision-Language-Action models) mais plus ciblée sur l'incertitude physique. Les travaux concurrents les plus proches incluent DreamerV3, TD-MPC2 et des méthodes d'inférence contextuelle comme PEARL. La prochaine étape naturelle serait l'extension à des tâches bi-manuelles ou impliquant des objets déformables, domaines où l'incertitude sur les paramètres est encore plus sévère.

RecherchePaper
1 source
Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques
392arXiv cs.RO 

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion
1 source
Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires
393arXiv cs.RO 

Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires

Une équipe de chercheurs publie sur arXiv (référence 2606.12027) ILD, pour Invertible Latent Decomposition, un framework de planification de trajectoires sans collision dans des espaces de configuration encombrés. ILD apprend conjointement un mapping inversible et un ensemble de polytopes convexes explicites dans l'espace latent correspondant : la planification s'effectue sur ces convexes latents, et le mapping inversible retraduit les chemins vers l'espace d'origine en préservant la faisabilité vis-à-vis des régions sûres explicites. Le framework intègre également VGS (Visibility-Guided Sampling), une méthode d'échantillonnage guidée par la visibilité conçue pour maintenir la connectivité entre ensembles convexes lors de la planification. Les évaluations couvrent la navigation 2D, un manipulateur à 6 degrés de liberté (DOF) et un bras bimanuel à 14-DOF. Sur ce dernier, les auteurs démontrent une planification temps réel avec un affinement à l'exécution (test-time refinement) s'adaptant aux changements de géométrie de scène, confirmé sur un bras 6-DOF réel. Zéro faux positif n'est observé après cet affinement, contre des taux non nuls pour les méthodes de référence testées. L'enjeu industriel est la résolution d'un arbitrage fondamental en robotique de manipulation : les représentations explicites comme les unions de polytopes convexes s'intègrent directement dans les planificateurs à base d'optimisation comme contraintes dures, garantissant l'absence de collision, mais leur complexité de paramétrage explose avec la dimension de l'espace de configuration. Les représentations implicites passent mieux à l'échelle géométrique mais n'offrent pas ces garanties formelles. ILD combine les deux avantages. Pour un intégrateur ou un responsable de production, la planification temps réel sur 14-DOF avec adaptation dynamique à la scène représente un seuil d'utilisabilité concret en environnement industriel, à condition que les performances tiennent hors des conditions contrôlées de laboratoire, point sur lequel les auteurs restent prudemment ouverts. La planification sous contraintes de collision est un problème adressé depuis des décennies par des planificateurs probabilistes (RRT, PRM) et des méthodes d'optimisation convexe comme IRIS et GCS (Graph of Convex Sets), issus en particulier des travaux de Russ Tedrake au MIT CSAIL. ILD s'inscrit dans la tendance récente qui hybride apprentissage profond et garanties formelles plutôt que d'opposer les deux approches. Le preprint ne mentionne ni partenaire industriel ni calendrier de commercialisation, restant au stade académique. Les extensions attendues concernent la robustesse sur des scènes plus dynamiques et le passage à des espaces de configuration supérieurs à 14-DOF, en vue des manipulateurs humanoïdes à bras multiples dont les architectures dépassent souvent 28-DOF.

RecherchePaper
1 source
Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments
394arXiv cs.RO 

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.11408) une méthode baptisée DEHP, Dynamic Execution Horizon Prediction, conçue pour résoudre un goulot d'étranglement structurel des politiques robotiques modernes : l'horizon d'exécution fixe. Dans les architectures à "action chunking" aujourd'hui omniprésentes, politiques de diffusion, politiques de flux, modèles vision-langage-action (VLA) comme pi-0 ou OpenVLA, le robot prédit un bloc de N actions et les exécute en boucle ouverte, sans percevoir l'environnement à chaque pas. Cet horizon N est actuellement choisi par tuning empirique, tâche par tâche. DEHP entraîne une branche légère de prédiction d'horizon via du reinforcement learning en ligne, tout en gardant la politique chunk sous-jacente entièrement gelée, ce qui la rend compatible avec n'importe quelle politique existante traitée comme boîte noire. Sur des tâches de manipulation haute précision et longue durée, les auteurs rapportent une amélioration "significative" du taux de succès, sans chiffres absolus précis dans l'abstract, un point à vérifier dans les résultats complets. L'enjeu est concret pour quiconque déploie des bras manipulateurs en production : la boucle ouverte est efficace sur les mouvements de transit (déplacements dans l'espace libre), mais devient un frein sur les phases fines, insertion, saisie d'objet délicat, assemblage à tolérance serrée. DEHP adapte dynamiquement l'horizon : court pendant les phases critiques (comportement proche d'un contrôle pas-à-pas), long pendant les phases de déplacement libre. Cela revient à réconcilier l'efficacité computationnelle du chunking avec la réactivité du contrôle fermé, sans réentraîner le modèle de base. Pour les intégrateurs industriels, cela signifie potentiellement récupérer de la robustesse sur des cellules existantes sans toucher au pipeline d'entraînement. L'action chunking a été popularisée par ACT (Action Chunked Transformer, Stanford 2023), puis repris dans les diffusion policies de Chi et al. et intégré dans des VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La tension entre horizon long (efficacité) et horizon court (réactivité) est un problème ouvert bien identifié dans la communauté. Plusieurs travaux concurrents explorent le receding horizon ou le replanning conditionnel, mais DEHP se distingue par sa compatibilité boîte noire et son entraînement RL en ligne. La page projet est accessible sur dehp-chunking.github.io ; aucune timeline de déploiement industriel n'est annoncée à ce stade.

RecherchePaper
1 source
Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts
395arXiv cs.RO 

Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.11826) un framework de conception pour mains robotiques anthropomorphiques dextres, fondé sur une approche modulaire de sélection des doigts. Le principe : évaluer quantitativement des prototypes de doigts de manière indépendante, via une batterie de benchmarks, avant leur intégration dans une main complète téléopérée. Les variations testées portent sur le type d'articulation, la structure osseuse, les matériaux de peau et le placement des capteurs. Le framework a été validé sur deux tâches concrètes : la saisie simultanée de plusieurs objets et le vissage d'une ampoule, deux exercices représentatifs de la manipulation dextre à contraintes mécaniques variables. Ce travail s'attaque à un verrou structurel du domaine : la conception de mains dextres souffre d'un espace de design trop vaste, où morphologie, actuation et capteurs interagissent de façon non-linéaire. Les méthodes d'optimisation existantes traitent rarement plus d'un critère à la fois, ce qui rend les comparaisons inter-prototypes difficiles et les itérations coûteuses. En découplant l'optimisation des doigts de la validation au niveau de la main entière, le framework proposé réduit potentiellement le temps de screening et établit un lien quantitatif entre les métriques composant et la performance globale en tâche. Pour les équipes d'ingénierie et les intégrateurs, c'est une promesse de pipeline de développement plus prédictif, moins dépendant de l'empirisme. À noter : l'article est un preprint arXiv, sans peer review encore validé, et les gains de performance sur les deux tâches choisies restent difficiles à extrapoler à des scénarios industriels réels. La conception de mains dextres est un enjeu central pour les robots humanoïdes actuels : Figure AI, 1X, Apptronik, et Agility Robotics dépendent toutes de mains capables d'alimenter des pipelines de téléopération et d'apprentissage par imitation pour entraîner des modèles VLA. Côté académique, des groupes à Stanford, CMU et au MIT travaillent sur des architectures similaires, tandis que Shadow Robotics (UK) reste la référence commerciale en matière de main dextre à actuation tendon. En Europe, Pollen Robotics (Bordeaux) intègre des mains articulées dans sa plateforme Reachy, et Enchanted Tools (Paris) développe des mains expressives pour ses robots Miroka. Ce preprint ne s'accompagne pas d'annonce commerciale ni de calendrier de déploiement, mais la méthodologie de benchmarking modulaire pourrait être adoptée comme standard de facto dans les équipes hardware des startups d'humanoïdes, où la vitesse d'itération sur les effecteurs est aujourd'hui un facteur différenciant clé.

UEPollen Robotics (Bordeaux) et Enchanted Tools (Paris) sont directement mentionnés comme bénéficiaires potentiels de cette méthodologie de benchmarking modulaire, qui pourrait accélérer leurs cycles d'itération sur les effecteurs.

RecherchePaper
1 source
PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt
396arXiv cs.RO 

PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt

Des chercheurs ont publié PIGEON (Point of Interest Guided Exploration for Object Navigation), un cadre de navigation robotique pour localiser des objets dans des espaces intérieurs inconnus. L'approche repose sur des modèles vision-langage (VLM), mais résout leur principal obstacle opérationnel : l'inférence dense image par image est trop coûteuse pour un usage embarqué temps réel. PIGEON introduit des Points d'Intérêt (PoI), unités de décision visuelles couplant waypoints géométriques et observations égocentriques brutes, que le VLM utilise pour sélectionner parmi des destinations candidates : frontières d'exploration, objets suspectés, escaliers franchissables, résumés de niveau sol. Un planificateur bas niveau exécute les trajectoires continues entre ces points. Le système intègre un pipeline RLVR (Reinforcement Learning with Verifiable Rewards) permettant d'affiner des VLM locaux sans annotations Chain-of-Thought manuelles. Sur le benchmark Habitat ObjectNav, référence standard en navigation simulée, PIGEON affiche les meilleures performances zero-shot publiées à ce jour et se transfère à la tâche Active Embodied Question Answering par simple modification du prompt. Des déploiements sur robots physiques sont documentés dans le papier (arXiv 2511.13207). L'enjeu central est l'efficacité computationnelle des VLM dans des boucles de contrôle robotique. Les approches concurrentes utilisent soit les VLM comme contrôleurs denses (coûteux), soit pour un simple ranking de frontières d'exploration (sémantiquement appauvri). PIGEON propose un compromis : décisions rares mais ancrées dans les observations brutes, rendant chaque choix vérifiable et compatible avec l'apprentissage par renforcement sans supervision humaine. La réduction de la dépendance aux données annotées est un avantage concret pour des équipes robotiques sans large budget d'annotation. La progression des performances avec la taille du modèle de fondation (scaling) indique une architecture alignée avec les tendances génératives actuelles. La navigation d'objets en environnement inconnu est un benchmark actif en robotique cognitive, avec des systèmes concurrents comme ESC, SG-Nav ou OpenFMNav exploitant également des LLM pour la planification sémantique. PIGEON se différencie par son mode zero-shot strict, sans réentraînement spécifique à l'environnement cible. Habitat, le simulateur d'intérieur de Meta AI Research, reste la plateforme d'évaluation de référence pour ce type de tâche. Ce résultat est académique : aucun partenariat commercial ni déploiement industriel n'est mentionné, et la robustesse en environnements réels dynamiques non contrôlés reste à valider à plus grande échelle. Les prochaines étapes naturelles incluent des tests en milieux variés et l'adaptation à des VLM embarqués contraints en ressources.

RechercheOpinion
1 source
TacCoRL : intégration du retour tactile dans les modèles VLA par simulation
397arXiv cs.RO 

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Des chercheurs ont publié sur arXiv (2606.11743) TacCoRL, un framework destiné à intégrer le retour tactile dans les modèles vision-langage-action (VLA) pour la manipulation robotique. L'approche combine un co-entraînement simulation-réel et de l'apprentissage par renforcement (RL) en simulation, sans nécessiter de pré-entraînement tactile à grande échelle ni d'exploration extensive sur hardware réel. Évalué sur quatre tâches bimanuelles à riche contact (insertion, assemblage, manipulation d'objets déformables), le système atteint un taux de succès moyen de 72,5 % contre 50,0 % pour la baseline VLA visuelle seule, soit un gain relatif de 45 % sur ces benchmarks spécifiques. L'apport technique central n'est pas simplement d'ajouter la touche comme entrée supplémentaire, mais d'apprendre comment les lectures de contact doivent moduler la réponse motrice dans les états de quasi-échec, états rares dans les démonstrations humaines et risqués à collecter sur robot physique. TacCoRL utilise un simulateur aligné sur le réel comme environnement fermé pour les interactions de contact : des trajectoires mixtes (simulées et réelles) initialisent d'abord les actions conditionnées au tactile dans la politique pré-entraînée, puis le RL avec récompenses vérifiables optimise la politique sur des rollouts simulés, tandis qu'un objectif supervisé sur trajectoires réelles ancre la distribution visuelle, tactile et d'action au domaine de déploiement. Le résultat se transfère directement sur robot réel, sans état simulé privilégié ni RL en ligne. C'est une réponse directe au "demo gap" des VLA actuels : les politiques vision-seule échouent précisément sur les phases de contact que la caméra ne résout pas. Le contexte est celui d'une compétition intense autour des VLA polyvalents : Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses dérivés, ainsi que les efforts de génération suivante (GR00T N2 de NVIDIA, OpenVLA). Tous partagent la même limitation structurelle : l'observation visuelle reste insuffisante pour les tâches à fort contact. La piste tactile est explorée depuis plusieurs années (capteurs GelSight, SynTouch, Digit de Meta), mais son intégration dans des architectures VLA de grande taille restait un verrou de scalabilité. TacCoRL propose une voie pragmatique sans dataset tactile massif, ce qui abaisse la barrière d'adoption pour les laboratoires et intégrateurs. Les prochaines étapes logiques seraient l'extension à des capteurs tactiles commerciaux standardisés et des évaluations sur des tâches industrielles réelles, hors conditions de laboratoire contrôlées.

RechercheOpinion
1 source
Préhension dextérique sans vision par apprentissage tactile Real2Sim2Real
398arXiv cs.RO 

Préhension dextérique sans vision par apprentissage tactile Real2Sim2Real

Des chercheurs ont publié en juin 2026 sur arXiv (réf. 2606.11767) un framework Real2Sim2Real pour la saisie aveugle par main dextre, sans aucune entrée visuelle, en s'appuyant exclusivement sur des capteurs tactiles distribués. Déployé sur une LEAP Hand quatre-doigts équipée de capteurs tactiles sur chaque phalange, le système atteint 27 % de taux de succès en conditions réelles sur 20 objets (10 vus à l'entraînement, 10 inédits), sans démonstration humaine ni caméra. L'architecture combine trois composants : un pipeline de calibration Real2Sim construisant un simulateur jumeau numérique fidèle aux signaux tactiles physiques ; un encodeur tactile layout-aware intégrant la géométrie des capteurs via préentraînement auto-supervisé, pour compenser la faible expressivité des signaux épars ; et une Diffusion Policy agrégant les trajectoires réussies d'experts en apprentissage par renforcement, spécialisés par objet dans le simulateur calibré. Le 27 % de taux de succès reste modeste opérationnellement, mais l'enjeu réel est la fermeture du tactile sim-to-real gap, l'un des obstacles les plus tenaces à la généralisation des mains dextres hors laboratoire. La plupart des systèmes antérieurs substituent la vision au toucher ou se limitent à des capteurs de force simples. Ici, la calibration contact-level du simulateur permet d'entraîner des politiques qui transfèrent sur le hardware sans fine-tuning en monde réel, résultat que les ablations confirment sur la cohérence des événements de contact sim-à-hardware. Pour un intégrateur ou un responsable industriel, c'est une preuve de concept que la manipulation en environnement occlus ou non éclairé devient accessible via simulation, sans collecter de données réelles coûteuses. Ce travail s'inscrit dans un écosystème en rapide structuration autour de la manipulation tactile dextre. La LEAP Hand, développée à Carnegie Mellon et commercialisée à bas coût pour la recherche, est devenu un banc de test de référence dans ce domaine. La Diffusion Policy, popularisée par Columbia University dès 2023, continue de s'imposer comme backbone standard pour l'imitation learning dextre. L'écosystème de capteurs reste fragmenté entre XELA Robotics, GelSight et diverses peaux tactiles propriétaires. Aucun partenaire industriel ni déploiement en production n'est annoncé, positionnant clairement ce preprint comme contribution académique ; les prochaines étapes probables passent par une taxonomie d'objets plus large et une densité de capteurs accrue pour dépasser ce premier seuil de 27 %.

RecherchePaper
1 source
Pilotage du comportement multi-robots par édition affine des activations en boucle fermée
399arXiv cs.RO 

Pilotage du comportement multi-robots par édition affine des activations en boucle fermée

Une équipe de chercheurs a publié le 11 juin 2026 (arXiv:2606.11489) une méthode baptisée CLAE (Closed-Loop Affine Activation Editing), permettant de piloter le comportement d'une flotte de robots sans modifier les poids du modèle de base. Plutôt que de recourir au fine-tuning ou au réentraînement complet de la politique, CLAE intervient à l'inférence en éditant directement les activations intermédiaires du réseau neuronal. Concrètement, la méthode entraîne d'abord un auto-encodeur sparse sur les activations d'une politique gelée, identifie les features latentes pertinentes pour le comportement visé via sondage post-hoc, puis apprend une politique de pilotage légère par renforcement qui applique des transformations affines sur ces latents en temps réel. Les validations portent sur une flotte de quadrotors en simulation et en tests physiques, naviguant vers des positions objectif tout en évitant des obstacles. CLAE y démontre trois capacités distinctes : contrôle du profil de vitesse individuel de chaque appareil, maintien d'une formation configurable entre plusieurs robots, et émergence d'un comportement entièrement nouveau consistant à minimiser l'exposition aux caméras de surveillance présentes dans l'environnement. Ce que cette approche prouve, c'est qu'il est possible de découpler l'adaptation comportementale du cycle de réentraînement, un point structurant pour les intégrateurs industriels et les équipes de déploiement en production. Le risque d'oubli catastrophique, bien documenté lors du fine-tuning de politiques obtenues après des milliers d'heures de simulation, est écarté puisque les poids de base restent intacts. La couche de pilotage est légère et s'adapte en boucle fermée à l'état courant du robot et au contexte multi-agents, ce qui la distingue des approches d'activation patching offline utilisées dans les LLMs. La diversité des comportements obtenus sur une même architecture gelée, de la gestion de formation à l'esquive de surveillance, suggère une généralité de la méthode au-delà des tâches de navigation. Les résultats restent cependant limités aux quadrotors pour l'instant, et la transférabilité à des robots manipulateurs ou humanoïdes n'est pas encore démontrée. CLAE s'inscrit dans un courant de recherche actif autour du steering de réseaux de neurones via sparse autoencoders, popularisé par les travaux d'Anthropic sur l'interpretabilité des LLMs et les techniques d'activation patching dans les transformers. Appliqué à la robotique incarnée, ce paradigme impose une contrainte supplémentaire : la boucle fermée exige des corrections adaptées en temps réel à la dynamique du système, contrairement à l'édition statique en NLP. Parmi les approches concurrentes figurent les méthodes de parameter-efficient fine-tuning (LoRA, adaptateurs), le meta-learning de type MAML et les residual policies. La prochaine étape naturelle serait une validation sur des architectures VLA (Vision-Language-Action), où le coût prohibitif de réentraînement rend encore plus pertinente une solution d'édition à l'inférence, notamment pour les déploiements industriels à grande échelle.

RecherchePaper
1 source
Automatisation intelligente pour la construction de benchmarks en IA incarnée : pipelines, morphologies, simulateurs et tendances
400arXiv cs.RO 

Automatisation intelligente pour la construction de benchmarks en IA incarnée : pipelines, morphologies, simulateurs et tendances

Un article de synthèse déposé sur arXiv (identifiant 2606.12207) en juin 2026 cartographie les méthodes de construction de benchmarks pour l'intelligence incarnée, un domaine couvrant désormais la navigation, l'assistance domestique, la manipulation robotique, la conduite autonome, les agents aériens et le contrôle par grands modèles multimodaux. Les auteurs structurent leur analyse autour d'un pipeline en cinq étapes : définition des exigences et des tâches, acquisition des données, nettoyage et annotation, génération de la suite d'évaluation avec définition des métriques, puis exécution avec retour diagnostique. Pour chaque étape, l'étude compare la curation manuelle, l'automatisation traditionnelle, l'assistance par modèles de fondation et les workflows en boucle fermée pilotés par agents. Les coûts de construction sont analysés selon six axes : main-d'oeuvre humaine, acquisition de données et d'assets, calcul et simulation, validation et débogage, gouvernance et maintenance, et risque de rework. La conclusion centrale remet en cause l'hypothèse selon laquelle automatiser la construction de benchmarks réduirait mécaniquement les coûts. Les auteurs montrent qu'elle déplace les dépenses vers la validation, l'auditabilité, la gestion de versions et la gouvernance à long terme. Pour les équipes de recherche et les industriels qui s'appuient sur ces benchmarks pour comparer des systèmes (bras manipulateurs, humanoïdes, AMR), cela signifie qu'un benchmark peu coûteux à générer peut devenir onéreux à maintenir. Le risque de rework, souvent sous-estimé, est identifié comme le poste de coût le plus variable selon la stratégie de construction choisie. Ce survey s'inscrit dans un contexte de prolifération rapide des systèmes incarnés où les évaluations sur jeux de données statiques ne suffisent plus à capturer la complexité d'environnements dynamiques réels. La question est directement pertinente pour les VLA (Vision-Language-Action models) en cours de déploiement chez Figure, 1X, Agility ou Physical Intelligence (Pi-0), dont les performances dépendent de benchmarks robustes et maintenables. Le cadre d'analyse proposé s'applique aux initiatives de benchmarking publiées par Google DeepMind, Meta FAIR ou le Stanford HAI. La thèse centrale : les progrès en évaluation robotique dépendront autant de la qualité des pipelines de construction, auditables et actualisables, que de la taille des suites de tests elles-mêmes.

RecherchePaper
1 source