Aller au contenu principal

Recherche — page 11

1679 articles · page 11 sur 34

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques
501arXiv cs.RO RecherchePaper

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Des chercheurs ont publié sur arXiv (réf. 2606.08102) un framework appelé Conquer, conçu pour coordonner des équipes de robots quadrupèdes en apprentissage continu, c'est-à-dire sans avoir à réentraîner le système à chaque nouvelle tâche. L'approche repose sur une bibliothèque de compétences sémantiques organisée autour d'un cycle récupérer-adapter-mettre à jour : avant d'exécuter une tâche inconnue, le système construit un descripteur sémantique à partir des informations pré-exécution, retrouve la compétence la plus proche dans la bibliothèque, l'adapte, puis intègre les trajectoires réelles pour enrichir la base. Le backbone SAG (Self-Allies-Goal) permet de gérer des équipes de taille variable en modélisant explicitement l'état propre de chaque robot, le contexte de ses coéquipiers et l'objectif de la tâche. En simulation, Conquer atteint un taux de succès moyen final de 95,6 %, avec un transfert positif démontré vers de nouvelles tâches et un oubli catastrophique qualifié de négligeable. Des essais en conditions réelles ont été conduits sur des équipes de Unitree Go2, le quadrupède commercial d'Unitree Robotics. Ce résultat compte parce qu'il s'attaque à l'un des verrous fondamentaux de la robotique multi-agents : les méthodes de type MARL (apprentissage par renforcement multi-agents) existantes entraînent des politiques spécifiques à une famille de tâches fermée, ce qui les rend inutilisables dans des environnements industriels où les missions évoluent en permanence. Conquer propose une alternative où de nouvelles compétences de coordination s'accumulent sans effacer les précédentes, un prérequis pour tout déploiement réel dans des entrepôts ou sur des lignes de production à géométrie variable. La capacité à gérer des équipes de taille arbitraire est également non triviale : la plupart des approches supposent un nombre fixe d'agents. À noter cependant que les métriques de succès sont issues de simulation, et que les vidéos de déploiement sur Go2 restent des démonstrations sélectionnées, sans données quantifiées sur les taux d'échec terrain ni sur les temps de cycle réels. La coordination multi-quadrupèdes s'est intensifiée avec la disponibilité de robots comme le Go2 d'Unitree (lancé à moins de 2 700 dollars en version grand public), qui abaisse le coût d'expérimentation en laboratoire. La problématique de l'apprentissage continu en robotique est partagée par plusieurs groupes de recherche, notamment autour des architectures VLA (Vision-Language-Action) qui cherchent elles aussi à éviter la réinitialisation à chaque nouvelle tâche. Conquer se positionne dans un espace encore peu industrialisé, entre les approches MARL classiques et les frameworks généralistes de type foundation model. Les prochaines étapes logiques seraient des évaluations en entrepôt réel sur des tâches de manutention collaboratives, domaine où des acteurs comme Exotec (France) ou Boston Dynamics investissent sur des flottes mixtes humanoïdes et quadrupèdes.

1 source
Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes
502arXiv cs.RO 

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08725) une méthode de planification de trajectoire en temps réel pour la téleopération sans collision de bras manipulateurs. Le problème central : en téleopération, l'opérateur ne contrôle que la pose de l'effecteur terminal (position et orientation de l'outil), sans piloter individuellement les articulations. Cela provoque régulièrement des auto-collisions du bras sur lui-même ou des collisions avec les obstacles de l'environnement de travail. L'approche proposée reformule les contraintes d'évitement de collision en les rendant différentiables via la dualité en optimisation convexe, une formulation récente adaptée ici au contexte de la téleopération. Le robot est représenté géométriquement par des capsules (cylindres à extrémités hémisphériques), l'environnement par des polytopes. La méthode a été validée en simulation sur des scénarios à nombre variable d'obstacles, puis testée physiquement sur un bras UR5e de Universal Robots dans une session de téleopération réelle. Les résultats indiquent des temps de calcul inférieurs aux méthodes de référence, tout en autorisant une modélisation géométrique plus fidèle, produisant des trajectoires plus lisses et garantissant l'absence de collision. L'enjeu industriel est direct : les approches existantes contraignent les développeurs à choisir entre précision géométrique et performance de calcul. Approximer robot et obstacles par des sphères simplifie la différentiabilité mais introduit des marges de sécurité artificiellement larges, restreignant l'espace de travail utile. À l'inverse, approximer les dérivées dégrade la convergence du solveur et augmente la latence, incompatible avec les exigences temps réel de la téleopération. En utilisant la dualité convexe, ce travail contourne les deux compromis simultanément. Pour un intégrateur déployant des cellules robotisées téléopérées, cela représente potentiellement moins de zones interdites inutiles et une meilleure réactivité du système. La téleopération connaît un regain d'intérêt important depuis 2023, portée par les besoins en collecte de données pour l'apprentissage par imitation dans les robots humanoïdes et par les applications en environnements dangereux ou médicaux. Les méthodes concurrentes incluent les contrôleurs réactifs basés sur des champs de potentiel, les planificateurs par échantillonnage (RRT, CHOMP) et les approches de contrôle optimal à horizon glissant avec modèles en sphères. L'approche ici, fondée sur la programmation différentiable et les contraintes duales convexes, s'inscrit dans une tendance plus large d'intégration des outils d'optimisation différentiable dans la robotique de manipulation. Le travail est un preprint non encore évalué par les pairs ; les prochaines étapes probables concernent l'extension à des configurations à plus grand nombre de degrés de liberté et à des environnements dynamiques.

UEApplicable aux intégrateurs européens déployant des cellules téléopérées (chirurgie, environnements dangereux), mais aucun acteur FR/EU n'est directement impliqué dans ce preprint.

RecherchePaper
1 source
EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes
503arXiv cs.RO 

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (réf. 2606.08495) EgoPriMo, un cadre unifié d'apprentissage de prior de mouvement pour robots humanoïdes, entraîné exclusivement à partir de démonstrations humaines en vue égocentrique (caméra portée sur la personne). Le système prend en entrée une séquence vidéo égocentrique et un prompt texte, puis reconstruit, génère ou prédit des mouvements corps entier au format SMPL (Skinned Multi-Person Linear model, le standard académique de représentation du squelette humain). L'architecture centrale est un Triple-stream Diffusion Transformer (DiT) qui modélise conjointement la dynamique corporelle, le contexte visuel égocentriique et le langage naturel via un seul checkpoint partagé, des masques de conditionnement de tâche routant les trois cas d'usage sans architecture distincte. Évalué sur les datasets Nymeria et EgoExo4D, EgoPriMo surpasse UniEgoMotion sur la génération égocentrique, et les trajectoires SMPL produites ont été exécutées avec succès sur le contrôleur humanoïde Unitree (probablement G1 ou H1). Il s'agit d'un papier de recherche, pas d'un déploiement industriel. L'intérêt de cette approche tient à son vecteur de données : les vidéos égocentrique humaines (Nymeria, EgoExo4D) sont disponibles à grande échelle, contrairement aux démonstrations téléopérées sur robots qui restent coûteuses et lentes à collecter. En utilisant le langage comme signal de contrôle haut niveau plutôt que comme spécification complète du mouvement, EgoPriMo vise la généralisation comportementale sans avoir à décrire exhaustivement chaque trajectoire, ce qui est l'un des verrous historiques des systèmes VLA (Vision-Language-Action). Le fait qu'un seul checkpoint gère reconstruction, génération et prévision simplifie le déploiement et réduit la dette de maintenance. La validation sur Unitree démontre une transition sim-to-real partielle, bien qu'aucun chiffre de robustesse en environnement non contrôlé ne soit communiqué dans l'abstract. Ce travail s'inscrit dans une compétition dense autour des priors de mouvement pour humanoïdes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure (03) investissent massivement dans des pipelines VLA capables de généraliser à des tâches variées. L'originalité d'EgoPriMo est de contourner la dépendance aux données robot en exploitant l'observation humaine égocentrique, une direction explorée également par des travaux issus de CMU et Stanford sur l'imitation via vidéo. Le choix de Unitree comme cible hardware est cohérent avec sa diffusion large dans les labos académiques. Les prochaines étapes naturelles seraient une validation en environnement semi-industriel et une intégration dans une boucle de contrôle fermée, deux dimensions absentes de ce preprint.

RechercheOpinion
1 source
UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)
504arXiv cs.RO 

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (référence 2602.18020v2) une méthode baptisée UAOR (Uncertainty-aware Observation Reinjection), conçue pour améliorer les modèles VLA (Vision-Language-Action) sans nécessiter de réentraînement ni de données supplémentaires. Le principe repose sur la mesure de l'entropie d'action à chaque couche du modèle de langage sous-jacent : lorsqu'une couche présente une incertitude élevée, le module réinjecte les informations d'observation clés dans le réseau Feed-Forward (FFN) de la couche suivante, via un mécanisme d'attention retrieval. Les auteurs exploitent ici une propriété connue des transformeurs où les FFN se comportent comme des mémoires clé-valeur, et l'appliquent de façon adaptative et conditionnelle à l'état d'incertitude du modèle. Les expériences couvrent à la fois des environnements simulés et des tâches de manipulation réelle, sans précisions chiffrées sur les volumes ou les délais de cycle dans l'abstract publié. L'intérêt pratique est réel pour les équipes qui cherchent à améliorer des pipelines VLA existants : la plupart des approches actuelles exigent l'ajout de capteurs (nuages de points, cartes de profondeur) ou de modules auxiliaires (détecteurs d'objets, encodeurs spécialisés), impliquant collecte de données et phases d'entraînement coûteuses. UAOR se branche en plug-and-play sur des modèles déjà entraînés, ce qui réduit significativement le coût d'intégration. Cette approche "training-free" est particulièrement pertinente dans un contexte industriel où le fine-tuning sur données propriétaires reste un frein. Cela dit, l'abstract ne communique pas de métriques précises (taux de succès, amélioration relative), ce qui rend l'évaluation de l'amplitude des gains difficile avant lecture complète du papier. Les VLA sont devenus un axe central de la robotique de manipulation généraliste depuis 2024, portés par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). UAOR s'inscrit dans une dynamique de recherche qui cherche à extraire davantage de performance des architectures existantes plutôt qu'à en construire de nouvelles, une tendance d'optimisation à moindre coût computationnel. La prochaine étape naturelle serait une évaluation comparative sur des benchmarks standardisés comme RLBench ou FurnitureBench, et un test d'intégration sur des modèles open-source populaires tels qu'OpenVLA ou Octo.

RechercheOpinion
1 source
PRISM : échantillonnage guidé par les priors dans les modèles du monde
505arXiv cs.RO 

PRISM : échantillonnage guidé par les priors dans les modèles du monde

Une équipe de chercheurs a publié PRISM (PRior-guided Imagination Sampling in world Models), un framework de planification basée sur les modèles du monde pour le contrôle continu en robotique. L'approche cible un angle précis : dans la planification par MPC (Model Predictive Control), la qualité des actions candidates générées pour évaluation compte autant que la précision du simulateur lui-même. PRISM repose sur un modèle de monde latent de style JEPA (Joint Embedding Predictive Architecture) auquel est attaché un MLP léger branché sur l'encodeur gelé du modèle. Ce MLP prédit un prior gaussien conditionné à l'état courant ; au moment de la planification, PRISM fusionne ce prior dans la distribution d'échantillonnage via une mise à jour Product-of-Gaussians pondérée par précision, une opération en forme fermée sans paramètres additionnels. Les gains mesurés atteignent +35 points de pourcentage sur la tâche Cube et +32 points sur PushT face à un MPC standard sur modèle du monde, sans surcoût d'inférence significatif. Pour les praticiens du contrôle robotique, l'enjeu est concret. Les planificateurs existants compensent l'inefficacité d'exploration en important des encodeurs visuels indépendants ou des VLMs (Vision Language Models) de grande taille pour construire un prior d'actions, ce qui alourdit l'architecture et complique le déploiement embarqué. PRISM extrait ce prior directement des représentations apprises par le modèle du monde, depuis le même jeu de données d'entraînement, sans composant externe. Le mécanisme s'auto-régule naturellement : le prior est confiant là où les données sont denses, et s'efface là où elles sont rares. Pour un ingénieur en manipulation industrielle ou un intégrateur système, c'est un gain d'efficacité d'échantillonnage sans refonte de l'infrastructure existante. PRISM s'inscrit dans la lignée des travaux sur les modèles du monde pour le contrôle incarné, dont JEPA (Meta/LeCun), TD-MPC2 et Dreamer v3 sont des jalons récents, et dont l'efficacité en phase de planification reste un problème ouvert. Les approches concurrentes privilegient des modèles de grande taille intégrant nativement un prior d'action, comme les VLA (Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA), une philosophie diamétralement opposée à la compacité revendiquée par PRISM. Point de vigilance : les benchmarks utilisés, Cube et PushT, sont des environnements de manipulation simulés relativement standards. La validation sur hardware réel et en manipulation dextre en conditions non structurées reste à venir, ce qui tempère la portée opérationnelle des gains annoncés.

RecherchePaper
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
506arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Génération et exécution de mouvements sûrs, fluides et acceptables pour l'interaction humain-robot en milieu industriel
507arXiv cs.RO 

Génération et exécution de mouvements sûrs, fluides et acceptables pour l'interaction humain-robot en milieu industriel

Des chercheurs ont publié sur arXiv (preprint 2606.08741, juin 2026) une étude portant sur la génération de mouvements pour robots collaboratifs en environnements manufacturiers partagés avec des opérateurs humains. L'équipe propose un cadre de contrôle prédictif par modèle (MPC, Model Predictive Control) capable de produire quatre comportements distincts intégrant des contraintes sociales, au-delà des seules garanties de sécurité physique. Ces comportements varient selon des paramètres de mouvement identifiés comme influençant la perception humaine : fluidité de trajectoire, vitesse d'approche, lisibilité de l'intention, et niveau de confort perçu par l'opérateur. Une étude utilisateur a ensuite été menée auprès de participants non-experts pour évaluer et valider chaque mode comportemental et mesurer leur impact social. Le résultat central est que les variations de comportement du robot affectent significativement son acceptabilité sociale perçue, indépendamment des critères de sécurité technique. Ce constat a des implications directes pour les intégrateurs de cobots en milieu industriel : une cellule de travail conforme aux normes ISO/TS 15066 (vitesse et séparation) peut malgré tout générer friction, inconfort ou méfiance chez les opérateurs, réduisant l'adoption réelle. L'étude apporte une validation empirique à l'hypothèse que la dimension psycho-cognitive doit être traitée comme une contrainte de conception à part entière, et non comme un ajustement cosmétique post-déploiement. C'est un argument concret pour les décideurs B2B qui peinent à justifier le passage de robots en cage à la collaboration directe. Ce travail s'inscrit dans un champ de recherche en pleine expansion autour de l'interaction humain-robot (HRI) socialement intelligente, porté notamment par des laboratoires européens actifs sur la thématique cobot-manufacturing. Le MPC est une approche mature en robotique industrielle, mais son application explicite à des objectifs de confort social reste peu documentée à cette échelle. Des acteurs comme Universal Robots, Franka Robotics ou, côté français, Pollen Robotics travaillent sur des cobots à vocation collaborative, mais sans encore intégrer formellement ce type de métriques comportementales dans leurs pipelines de contrôle. Les prochaines étapes naturelles seraient des validations en conditions réelles de production et une quantification du retour sur investissement lié à l'amélioration de l'acceptabilité.

UELes résultats concernent directement des fabricants européens comme Franka Robotics et Pollen Robotics (FR), dont les pipelines de contrôle cobot pourraient intégrer ces métriques comportementales pour réduire la friction opérateur et accélérer la transition vers la collaboration directe en usine.

RecherchePaper
1 source
LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation
508arXiv cs.RO 

LightTact : un capteur tactile-visuel de bout de doigt pour la détection de contact sans déformation

LightTact est un capteur tactile-visuel de bout de doigt conçu pour détecter les contacts sans déformation mécanique de surface. Là où les capteurs conventionnels (GelSight du MIT, DIGIT de Meta, Tactip) s'appuient sur la déformation d'un élastomère pour inférer un contact, LightTact exploite une configuration optique à blocage de lumière ambiante: seule la lumière diffusée aux points de véritables contacts traverse le système, laissant les pixels non-contactés à une valeur de gris moyenne inférieure à 3 sur 255. Les images brutes produites sont à fort contraste, chaque zone de contact préservant l'apparence naturelle de la surface touchée. La robustesse annoncée couvre les variations de propriétés matérielles, de force de contact, d'apparence de surface et d'éclairage ambiant, sans calibration spécifique au matériau. Ce verrou adresse un angle mort structurant de la manipulation robotique fine: les contacts dits "légers" avec des liquides, semi-liquides ou matériaux ultra-mous ne génèrent pas de déformation macroscopique et restent donc invisibles pour la plupart des capteurs actuels. LightTact démontre des comportements jusque-là difficiles à automatiser: étalement d'eau sur une surface, prélèvement de crème cosmétique, interaction avec des films minces souples. Pour les intégrateurs ciblant la cosmétique, l'agroalimentaire ou la manutention de produits fragiles, c'est un point de blocage technique levé. Fait significatif: les images visuelles et tactiles, spatialement alignées, sont directement interprétables par des vision-language models (VLMs), ce qui abaisse la barrière d'intégration avec les pipelines d'IA multimodaux sans couche de traitement intermédiaire dédiée. Le travail est publié en préprint sur arXiv (référence 2512.20591, troisième version), ce qui le situe au stade de la recherche académique: aucun produit commercial ni déploiement industriel n'est annoncé. Dans le panorama des capteurs tactiles visuels, LightTact occupe une niche distincte de celle de GelSight et ses dérivés, ou des solutions capacitives comme Xela Robotics, qui ciblent des régimes de contact avec déformation mesurable. Du côté européen, Pollen Robotics ou Wandercraft ne proposent pas de capteur tactile propre à ce niveau de spécificité. Les prochaines étapes logiques incluent une validation en boucle fermée sur plateforme robotique réelle et un test de durabilité de la surface optique face à des matériaux agressifs en usage répété.

UEAucun impact direct documenté à ce stade de préprint, mais les acteurs FR/EU ciblant la manipulation fine (Pollen Robotics, intégrateurs agroalimentaire/cosmétique) pourraient bénéficier de cette approche pour des contacts légers avec matériaux mous ou liquides.

RecherchePaper
1 source
SynManDex : génération de saisies dextériques de type humain à partir de pré-saisies synthétiques
509arXiv cs.RO 

SynManDex : génération de saisies dextériques de type humain à partir de pré-saisies synthétiques

Des chercheurs ont publié SynManDex (arXiv:2606.09798), un pipeline synthétique conçu pour générer des saisies dextres robotiques imitant les interactions naturelles de la main humaine. La méthode fonctionne en quatre étapes : échantillonnage de pré-saisies humaines numériques conditionnées par l'objet, retargeting de ces postures vers une main robotique dextre, optimisation des contacts par fermeture de force sur l'effecteur cible, puis filtrage par vérification à chaque étape. Les keyframes résultantes alimentent des démonstrations de saisie-levée mais aussi des tâches de manipulation complexes : versement de thé, prise de photos, jeu de flûte, toutes conçues via des agents VLM (Vision-Language Model). Sur une plateforme bimane à 36 degrés de liberté, SynManDex atteint 86,4 % de stabilité de saisie, un score de naturalité humaine de 4,67/5 (soit 93,4 %), 80,7 % de succès en simulation et 83,3 % en conditions réelles (25 succès sur 30 essais). Ce résultat est notable parce que le transfert des interactions main-objet humaines vers les mains robotiques échoue généralement face aux contraintes de morphologie, de contact et d'atteignabilité. SynManDex attaque ce "morphology gap" en traitant les pré-saisies humaines comme des propositions affordance-aware, puis en délégant la résolution de contact à une optimisation native au robot. L'écart quasi nul entre simulation (80,7 %) et réel (83,3 %) suggère un sim-to-real solve solide, un résultat qui contredit l'hypothèse courante selon laquelle les pipelines synthétiques se dégradent significativement au passage au monde physique. Pour un intégrateur ou un responsable R&D en manipulation, cela ouvre la voie à la génération automatique de données de démonstration sans télé-opération humaine coûteuse. La manipulation dextre reste l'un des verrous majeurs de la robotique humanoïde et de la cobotique industrielle, aux côtés de travaux comme DexGrasp, UniDexGrasp ou les approches par imitation diffusion. SynManDex se distingue en exploitant explicitement la posture pré-saisie humaine comme prior fonctionnel plutôt que de partir d'un espace de configurations robotiques brut. Le papier est une soumission académique (pas un produit commercialisé), et les tâches testées restent des démonstrateurs de laboratoire. Les prochaines étapes probables incluent l'extension à des objets déformables, à des environnements encombrés et à des architectures de mains plus variées.

RecherchePaper
1 source
Modèle fondation de comportement perceptif : adapter les a priori de mouvement humain au terrain robotique
510arXiv cs.RO 

Modèle fondation de comportement perceptif : adapter les a priori de mouvement humain au terrain robotique

Publiée sur arXiv en juin 2026 (2606.08059), l'architecture Perceptive Behavior Foundation Model (Perceptive BFM) s'attaque à une limite structurelle des modèles fondamentaux de comportement humanoïde : l'hypothèse implicite que les mouvements de référence humains sont physiquement compatibles avec l'environnement du robot. En pratique, quand démonstrateur et robot se trouvent dans des contextes différents, la motion capture ne fournit ni les appuis au sol précis, ni les hauteurs de franchissement, ni les timings de contact requis sur terrain accidenté. Perceptive BFM conserve les références cinématiques brutes comme interface comportementale, tout en intégrant une perception locale du terrain pour adapter dynamiquement contacts, posture et timing. La méthode clé est le TCRS (terrain-conformal reference synthesis) : il retransforme des séquences de mouvement humain en références cohérentes avec le sol via construction d'appuis adaptatifs, optimisation des phases de balancement, reconstruction cinématique et réparation de collisions. L'entraînement suit une architecture enseignant-étudiant : un teacher aveugle apprend les comportements conformes au terrain, puis transfère ce savoir à un student déployé sur références brutes. L'apport concret pour les intégrateurs est une séparation nette entre intention comportementale et adaptation terrain, ce qui rend le système scalable sans motion capture annotée sol par sol. Le student, un Transformer tracker à gating d'identité, n'active les corrections terrain que via des voies résiduelles initialisées à ne rien modifier, ce qui préserve la robustesse du prior de mouvement original. C'est une réponse partielle au débat sur le sim-to-real gap en locomotion humanoïde : l'adaptation repose sur la perception locale plutôt que sur une modélisation globale ou une planification externe, ce qui simplifie le déploiement en environnement non structuré. Ce travail s'inscrit dans l'effervescence des behaviour foundation models pour humanoïdes : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les politiques corps entier issues de CMU et Stanford sont autant de points de comparaison directs. La question du fossé entre motion priors humains et locomotion réelle avait été partiellement adressée par les travaux sur l'imitation par RL (PHC, AMP, ASE), mais l'extension à des modèles fondamentaux déployables reste ouverte. L'article ne mentionne ni partenariat industriel ni validation hardware publiée : Perceptive BFM est pour l'instant une contribution de recherche sans déploiement terrain confirmé.

RechercheOpinion
1 source
Apprentissage par renforcement dans un espace d'embedding linéaire pour un contrôle généralisable sur différentes configurations de robots souples
511arXiv cs.RO 

Apprentissage par renforcement dans un espace d'embedding linéaire pour un contrôle généralisable sur différentes configurations de robots souples

Une équipe de chercheurs présente, dans un préprint arXiv déposé en juin 2026 (arXiv:2606.08104), un système de contrôle généraliste pour robots souples capables de s'adapter à 33 configurations mécaniques distinctes sans réentraînement complet. La méthode repose sur un espace d'embedding linéaire dit de Koopman, dans lequel la dynamique du robot est encodée indépendamment de sa morphologie. L'apprentissage par renforcement est appliqué dans cet espace partagé, ce qui permet au contrôleur de se transférer d'une configuration à une autre avec 75 fois moins d'échantillons de transfert que les approches conventionnelles. Le système maintient des performances robustes sous contraintes sévères : mouvements rapides, charges utiles élevées et pannes simultanées de plusieurs actionneurs. Le verrou que ce travail cherche à lever est structurel dans le domaine des robots souples : chaque changement de configuration (matériau, rigidité, morphologie) impose aujourd'hui une refonte du contrôleur spécifique, rendant la reconfiguration coûteuse en temps ingénieur et en données d'entraînement. En découplant la politique de contrôle de la morphologie via l'espace de Koopman, les auteurs ouvrent la voie à des robots souples reconfigurables à la demande, exploitables en production industrielle ou en milieu médical sans pipeline de réentraînement long. La réduction de 75x du coût de transfert est significative, mais le préprint ne précise pas les conditions opérationnelles exactes des 33 configurations testées ni si les évaluations couvrent des tâches réelles ou des benchmarks en simulation. Les robots souples, inspirés des pieuvres et des trompes d'éléphants, font l'objet d'une recherche matériaux intense depuis une décennie, mais leur contrôle restait l'obstacle principal à tout déploiement à l'échelle. Sur le front concurrent, les approches classiques par modèles (éléments finis, modèles de Cosserat) peinent à généraliser, tandis que les méthodes d'apprentissage profond nécessitent typiquement des jeux de données configuration-spécifiques massifs. L'opérateur de Koopman, déjà utilisé en robotique rigide pour linéariser des systèmes non linéaires, fait ici son entrée dans le contrôle de robots souples à grande échelle. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans le préprint ; les suites naturelles seront la validation sur des tâches de manipulation réelle et l'extension à des configurations hybrides rigides-souples, segment sur lequel des spinoffs de laboratoires académiques européens et des acteurs comme Wandercraft cherchent à se positionner.

UEImpact indirect : des équipes académiques et spinoffs européens en robotique souple pourraient exploiter cette méthode Koopman pour réduire leur coût de réentraînement morphologique, mais aucun partenariat industriel ou déploiement européen n'est identifié à ce stade.

RecherchePaper
1 source
HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents
512arXiv cs.RO 

HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08610) HARBOR, un framework agentique conçu pour automatiser les pipelines d'apprentissage par renforcement (RL) appliqués à la robotique. Partant d'une spécification de tâche et d'une base de code simulateur, le système prend en charge l'ensemble du workflow : configuration de l'environnement, conception des fonctions de récompense, entraînement de la politique et tuning des hyperparamètres. HARBOR décompose ces objectifs de haut niveau en étapes bornées confiées à des agents spécialisés, coordonnés via des commandes standardisées, des artefacts persistants et des portes d'exécution vérifiables. Il scale l'itération par essais parallèles décentralisés et capitalise sur l'expérience accumulée entre les runs. Le framework a été évalué sur 6 benchmarks couvrant 16 tâches de manipulation, locomotion et contrôle bimanuel dextère. Les politiques entraînées en simulation ont ensuite été transférées sur de vrais robots. L'intérêt principal de HARBOR tient à ce qu'il attaque directement le principal frein à l'adoption du RL en robotique industrielle : la charge d'ingénierie experte requise pour chaque nouvelle tâche. Reward shaping, sélection d'algorithmes, tuning fin des hyperparamètres représentent aujourd'hui des semaines de travail spécialisé avant d'obtenir une politique viable. En automatisant ce cycle de bout en bout à un coût pratique en tokens et en temps de calcul, HARBOR abaisse concrètement la barrière d'entrée pour les intégrateurs et les équipes R&D industrielles. Le fait que les politiques se transfèrent au robot réel adresse le "sim-to-real gap", un verrou persistant du secteur. Les résultats publiés indiquent que le framework égale ou surpasse les configurations par défaut sur les benchmarks testés, bien que les conditions exactes d'évaluation méritent d'être examinées dans le papier complet avant d'en tirer des conclusions généralisées. HARBOR s'inscrit dans une tendance émergente qui consiste à utiliser des LLMs comme orchestrateurs de pipelines ML complexes, dans la lignée de travaux comme Eureka (NVIDIA, 2023), qui utilisait GPT-4 pour générer automatiquement des reward functions via evolutionary search, ou des approches AutoRL de Berkeley et Google DeepMind. HARBOR semble aller plus loin en couvrant l'intégralité du workflow plutôt que le seul reward design. Les auteurs ne sont pas identifiés dans l'abstract disponible, et aucune affiliation institutionnelle ni application industrielle spécifique n'est mentionnée : il s'agit d'un preprint de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles concerneront l'intégration avec des simulateurs standards (Isaac Sim, MuJoCo), des validations sur des plateformes humanoïdes complexes, et une éventuelle ouverture du code.

RecherchePaper
1 source
DexPIE : amélioration stable des politiques de manipulation à partir de données réelles
513arXiv cs.RO 

DexPIE : amélioration stable des politiques de manipulation à partir de données réelles

Une équipe de chercheurs a publié DexPIE (Dexterous Policy Improvement from Experience), un framework de post-entraînement conçu pour améliorer les politiques de manipulation dextre après déploiement en conditions réelles. Présenté sur arXiv (2606.09615), le système atteint une amélioration de 37 % du taux de succès par rapport à la politique de référence entraînée par imitation pure, sur trois tâches de manipulation dextre à fort contact testées sur des mains robotiques réelles. L'approche combine trois mécanismes : un système d'intervention adapté aux mains dextres avec collecte multi-étapes de type DAgger (Dataset Aggregation), une inférence asynchrone dans l'espace d'action relatif pour réduire le bruit temporel entre les séquences de post-entraînement et les données de démonstration, et un indicateur de qualité continu qui conditionne la politique sur la qualité des données collectées en déploiement. Le verrou que DexPIE cherche à lever est structurel : les politiques entraînées uniquement par imitation accumulent des erreurs à chaque étape (compounding errors), et nécessitent des volumes considérables de données expertes pour être fiables. En permettant à la politique de s'améliorer à partir de ses propres rollouts en environnement réel, sans dépendre exclusivement d'un humain expert, DexPIE réduit ce goulot d'étranglement. L'introduction de l'espace d'action relatif couplé à l'inférence asynchrone est particulièrement notable : elle stabilise l'apprentissage du critique (value function) en alignant mieux les données collectées avec le comportement démontré, ce qui est non trivial sur des systèmes à haute dimensionnalité comme les mains multi-doigts. La manipulation dextre reste l'un des problèmes ouverts les plus difficiles de la robotique physique, loin derrière la locomotion en termes de maturité. Côté concurrents directs, les travaux récents de Physical Intelligence (pi0, Pi-0.5) et de Google DeepMind explorent également le fine-tuning de VLA (Vision-Language-Action models) sur données réelles, mais DexPIE cible spécifiquement les mains dextres, un segment où les acteurs comme Dexterous AI, Shadow Robot ou LEAP Hand fournissent le matériel mais où les frameworks d'amélioration post-déploiement restent rares. Le code source et le dataset seront rendus publics, ce qui facilitera la reproductibilité et pourrait accélérer l'adoption par d'autres équipes de recherche travaillant sur la manipulation fine.

RechercheOpinion
1 source
PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement
514arXiv cs.RO 

PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement

Une équipe de recherche a publié PhysGraph en juin 2026 sur arXiv (référence 2606.08655), un cadre algorithmique qui construit des graphes de scène 3D physiquement ancrés à partir d'images RGB-D, caméras couleur couplées à un capteur de profondeur. Là où la plupart des systèmes de perception 3D se limitent à identifier sémantiquement les objets (reconnaissance, segmentation, récupération), PhysGraph modélise simultanément leurs propriétés physiques et cinématiques : masse, matériaux, et articulations (degrés de liberté, points de pivot). Le pipeline décompose chaque objet en parties fonctionnelles distinctes, associe les instances d'objets entre plusieurs prises de vue, puis infère via un raisonnement visuel les propriétés mécaniques de chaque composant. Évalué sur des jeux de données synthétiques et réels, le système revendique des résultats state-of-the-art en segmentation sémantique, en estimation de masse multi-objet, et en prédiction d'articulations. L'enjeu dépasse la taxonomie académique. Pour la manipulation robotique en environnement industriel ou domestique, savoir qu'un objet est « un tiroir » n'est pas suffisant, le robot doit connaître son axe de rotation, la force nécessaire à son ouverture, et la localisation des poignées préhensibles. PhysGraph cible précisément ce gap en produisant des représentations exploitables pour la planification de tâches et la prédiction d'affordances sous contraintes physiques. L'application de transfert réel-vers-simulation (real-to-sim) est stratégiquement critique : convertir automatiquement une scène réelle en environnement simulé fidèle réduit le coût de génération de données d'entraînement pour les robots apprenants. Il convient cependant de nuancer : l'abstract ne précise ni les latences de traitement ni les conditions opérationnelles testées, ce qui rend difficile l'évaluation de la viabilité temps-réel. Ce travail s'inscrit dans un espace de recherche dense autour des graphes de scène 3D ouverts, ConceptGraphs, OpenMask3D, et les travaux sur la manipulation d'objets articulés alimentés par les datasets PartNet et SAPIEN font figure de références directes. La prédiction d'articulations reste l'un des problèmes les plus ouverts de la robotique incarnée, aux côtés du fossé sim-to-real. Aucun partenaire industriel ni déploiement pilote n'est mentionné : PhysGraph en est au stade de contribution de recherche, sans timeline de productisation annoncée. Les prochaines étapes naturelles seraient la validation sur des manipulateurs réels en boucle fermée et la publication du code.

RecherchePaper
1 source
QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède
515arXiv cs.RO 

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

Une équipe de recherche a publié début juin 2026 QuadVerse, un cadre de simulation intégré pour robots quadrupèdes conçu pour résoudre simultanément les décalages visuels, physiques et d'actionneur qui constituent le sim-to-real gap. La méthode repose sur une reconstruction de scènes par 3D Gaussian Splatting (3DGS) à partir de vidéos RGB ordinaires : ces scènes servent de substrat de calibration commun à toute la pipeline. Les maillages géométriques extraits permettent un rendu photoréaliste en vue ego, une détection de collisions, et une initialisation de priors de friction spatialement variables, affinés par une recherche bayésienne sur des trajectoires réelles. Un compensateur de dynamique résiduelle est ensuite entraîné en rejouant ces trajectoires sur le terrain calibré, séparant les erreurs de contact dues au relief des non-idéalités propres aux actionneurs. Les expériences rapportées montrent une amélioration de la qualité de reconstruction et du suivi de locomotion par rapport aux baselines, ainsi qu'un déploiement zero-shot d'une politique de navigation visuelle sans aucune collecte de données terrain spécifique à la tâche. Ce que QuadVerse apporte concrètement, c'est une approche unifiée du sim-to-real : là où la majorité des travaux traitent le gap visuel ou dynamique de façon indépendante, ce framework les calibre conjointement à partir du même substrat de scène reconstruite. L'accumulation et la propagation des erreurs individuelles dans l'évolution d'état du robot sont explicitement prises en compte, un problème souvent sous-estimé dans les pipelines existants. Le résultat le plus opérationnel est le déploiement zero-shot : une politique entraînée entièrement en simulation peut être transférée sur un robot réel sans rollout terrain supplémentaire, ce qui réduit le coût d'adaptation à de nouveaux environnements. Pour les intégrateurs qui cherchent à accélérer les cycles de validation, c'est un levier potentiellement significatif. Il faut néanmoins souligner que l'article est un preprint arXiv (v2 déposé en juin 2026), les expériences sont conduites en environnement contrôlé, et aucune validation industrielle à grande échelle n'est encore documentée. Le sim-to-real gap est l'un des problèmes centraux de la robotique apprenante depuis plusieurs années. Des équipes comme ETH Zurich (ANYmal), Agility Robotics ou Boston Dynamics ont montré que les politiques de locomotion peuvent franchir ce gap, mais souvent au prix d'une randomisation de domaine intensive ou d'une adaptation en conditions réelles coûteuse. La technique de 3D Gaussian Splatting, popularisée en 2023, est de plus en plus mobilisée dans des pipelines robotiques pour sa capacité à produire des représentations photoréalistes différentiables. QuadVerse s'inscrit dans un courant actif incluant des travaux comparables autour de NeRF-to-Real et les simulateurs hybrides de Nvidia Isaac Lab. La prochaine étape logique serait une validation sur des plateformes commerciales standardisées comme l'Unitree Go2 ou l'ANYmal-D en environnements non structurés, et une éventuelle extension aux politiques de manipulation pour robots à pattes équipés de bras.

RecherchePaper
1 source
EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet
516arXiv cs.RO 

EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet

Des chercheurs ont publié en juin 2026 sur arXiv un framework baptisé EgoAERO, capable d'apprendre la manipulation dextre à partir d'une unique démonstration vidéo RGB-D égocentrique humaine, sans recourir à aucun asset 3D de l'objet manipulé. Le pipeline enchaîne trois modules : un tracking et une reconstruction de l'objet sans asset préalable, une compensation du mouvement égocentrique de la caméra, et une optimisation adaptative des contacts main-objet. Les trajectoires cohérentes obtenues sont ensuite converties en politiques robotiques via un apprentissage résiduel en deux étapes. Les auteurs introduisent également un mécanisme d'évaluation de qualité en ligne et publient EgoDex-R, un dataset de 4,3 millions de frames RGB-D pour l'entraînement de politiques dextres. En simulation comme en conditions réelles, EgoAERO atteint des performances proches des reconstructions assistées par modèles CAD sur le benchmark HOI4D, référence standard pour l'interaction main-objet. Le verrou technique levé ici est structurant pour la robotique dextre : jusqu'ici, les méthodes d'imitation à partir de vidéo humaine exigeaient soit des scans 3D préalables des objets, soit plusieurs démonstrations, soit des marqueurs visuels. Or, scanner chaque objet d'un environnement industriel ou domestique est un frein majeur à la scalabilité des systèmes. EgoAERO suggère qu'une caméra RGB-D standard (de type Intel RealSense ou intégrée à des lunettes connectées) et une seule prise vidéo suffisent pour bootstrapper une politique robotique fonctionnelle. C'est un signal fort en faveur d'une démocratisation de la collecte de données dextres, potentiellement réalisable par des opérateurs non spécialisés plutôt que par des sessions de télé-opération coûteuses. Ce travail s'inscrit dans une vague de recherche visant à exploiter les corpus vidéo égocentrique à grande échelle (Ego4D, HOI4D, EPIC-Kitchens), jusqu'ici sous-utilisés pour le robot learning faute de géométrie objet exploitable. Les approches concurrentes en manipulation dextre reposent encore largement sur la télé-opération avec gants haptiques (Physical Intelligence avec pi0, Dexterous Manipulation Lab de CMU) ou sur des assets CAD (DITTO, DexMV). EgoAERO n'est à ce stade qu'un preprint, sans déploiement industriel annoncé ni validation sur une large variété d'objets du monde réel : les expériences rapportées restent sur des scènes contrôlées du benchmark HOI4D, et la robustesse à des objets déformables ou transparents reste à démontrer.

RecherchePaper
1 source
Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement
517arXiv cs.RO 

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

Une équipe de chercheurs a publié RE-GoT (Reward Evolution with Graph-of-Thoughts), un cadre de conception automatique de fonctions de récompense pour l'apprentissage par renforcement (RL). La méthode, présentée dans l'article arXiv:2509.16136 (version 5), associe des grands modèles de langage (LLM) à des modèles visuels (VLM) via un raisonnement structuré en graphe. RE-GoT décompose d'abord la tâche cible en un graphe d'attributs textuels, génère une fonction de récompense correspondante, puis la raffine itérativement en exploitant les retours visuels fournis par un VLM, sans intervention humaine. Évalué sur 10 tâches RoboGen et 4 tâches ManiSkill2, le système améliore le taux de succès moyen de 32,25 % sur RoboGen par rapport aux baselines LLM existantes, et atteint 93,73 % de taux de succès sur les quatre tâches de manipulation de ManiSkill2, dépassant même les récompenses conçues manuellement par des experts. L'enjeu est significatif : la conception des fonctions de récompense représente l'un des principaux goulots d'étranglement du RL appliqué à la robotique, et elle exige aujourd'hui une expertise humaine considérable ainsi que de nombreuses itérations manuelles. RE-GoT adresse deux faiblesses chroniques des approches LLM existantes : les hallucinations, que la structure en graphe réduit en contraignant le raisonnement, et l'incapacité à traiter des tâches multi-étapes complexes. Le fait que RE-GoT surpasse les récompenses expertes sur ManiSkill2 est notable, bien qu'il convienne de nuancer : les expériences restent dans des environnements simulés, et la question du sim-to-real gap, cruciale pour les industriels souhaitant déployer ces méthodes sur des robots physiques, n'est pas traitée dans ce travail. Ce travail s'inscrit dans une dynamique de recherche active depuis 2023, notamment portée par Eureka (NVIDIA, octobre 2023), qui utilisait GPT-4 pour générer des fonctions de récompense sur IsaacGym, ou par FunsSearch (DeepMind). RE-GoT se distingue en introduisant le paradigme Graph-of-Thoughts, une extension du Chain-of-Thought qui organise le raisonnement en graphe plutôt qu'en chaîne linéaire, permettant une analyse plus exhaustive des dépendances entre sous-tâches. Les prochaines étapes naturelles concernent la validation sur robots physiques et l'intégration à des pipelines sim-to-real comme ceux utilisés par Figure AI, Agility Robotics ou Boston Dynamics dans leurs boucles d'entraînement.

RecherchePaper
1 source
PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée
518arXiv cs.RO 

PACT : alignement de sécurité physique auto-évolutif pour les politiques de diffusion en manipulation incarnée

Une équipe de chercheurs publie PACT (Physical safety Alignment for Constrained Trajectories), un cadre d'alignement post-entraînement destiné à rendre les politiques de diffusion robotique conformes à des contraintes physiques strictes, sans accéder aux données de démonstration ni aux récompenses de tâche (arXiv:2606.08414). Les politiques de diffusion, qui génèrent des trajectoires motrices par débruitage itératif, ont connu des succès notables en manipulation robotique mais peinent à satisfaire des contraintes de sécurité fermes en déploiement réel. PACT projette les politiques pré-entraînées dans des régions faisables en distillant des gradients de contrainte via un objectif KL inverse, avec supervision dense à chaque pas de temps du processus de débruitage. Un curriculum progressif resserre graduellement les contraintes tout en maintenant un écart théoriquement borné par rapport à la politique d'origine, limitant l'oubli catastrophique. Sur des benchmarks de manipulation simulée et réelle, PACT réduit les violations de sécurité de 31,0% en moyenne et améliore simultanément le taux de réussite des tâches de 30,7%. Ces résultats interpellent directement les intégrateurs : sécuriser une politique robotique impliquait jusqu'ici soit de contraindre l'entraînement dès le départ, au prix de l'expressivité, soit d'ajouter des garde-fous externes à l'inférence, nuisant à la scalabilité. PACT propose une troisième voie, post-entraînement et sans données supplémentaires, qui permettrait en théorie d'aligner n'importe quelle politique de diffusion existante. Le fait que sécurité et performance progressent conjointement contredit l'hypothèse d'un compromis structurel entre les deux, pourtant largement admise dans le secteur. À noter : l'article ne précise pas les configurations matérielles ni les volumes de données des tests réels, ce qui limite la portée des comparaisons directes. Les politiques de diffusion ont connu une montée en puissance récente, portée notamment par Pi-0 (Physical Intelligence) et d'autres architectures VLA de grands laboratoires. PACT s'inspire des techniques d'alignement post-entraînement développées pour les LLM, de type RLHF, adaptées aux contraintes physiques plutôt qu'aux préférences humaines, et se positionne face aux approches par apprentissage par renforcement contraint et aux filtres CBF (Control Barrier Functions). Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit d'un résultat purement académique, sans pilote industriel annoncé. La validation sur des plateformes humanoïdes complètes et l'intégration dans des pipelines VLA de production restent à démontrer.

RecherchePaper
1 source
ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration
519arXiv cs.RO 

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration

Des chercheurs présentent ReGIL (Retrieval-Guided Imitation Learning), un framework d'apprentissage par imitation capable d'entraîner un robot manipulateur à partir d'une seule démonstration. La méthode traite cette démonstration unique comme une mémoire externe statique, interrogée en continu durant l'entraînement pour guider simultanément l'exploration, générer un buffer de régularisation et construire les récompenses. Le calcul de récompense repose sur un alignement temporel local entre la trajectoire courante et le segment récupéré, fournissant un feedback pas-à-pas plutôt qu'un signal binaire succès/échec. Évalué sur les benchmarks LIBERO et Meta-World, ReGIL surpasse les baselines antérieures en taux de réussite et en efficacité d'entraînement. Sur robot réel, avec une seule démonstration et moins d'une heure d'entraînement en ligne, le système atteint plus de 75 % de taux de réussite sur trois tâches de manipulation avec randomisation à la fois de la pose initiale du robot et de la position cible. Ces résultats sont issus d'un preprint arXiv (2606.09381) et n'ont pas encore été soumis à revue par les pairs. Le principal défi que ReGIL cherche à résoudre est connu sous le nom de "compounding error" : en imitation learning classique (behavior cloning), les petites déviations par rapport à la trajectoire démontrée s'accumulent et mènent rapidement à l'échec, ce qui oblige généralement à collecter des centaines, voire des milliers de démonstrations. Ramener ce seuil à une seule démonstration plus moins d'une heure d'interaction en ligne représente un gain opérationnel significatif pour le déploiement industriel, où la collecte de données est coûteuse. Le taux de 75 % obtenu avec randomisation de pose et de cible est un indicateur de robustesse plus solide qu'une démonstration en conditions fixes, même si l'absence de détails sur les tâches spécifiques et la complexité des scènes limite l'interprétation. L'apprentissage par imitation à faible nombre de démonstrations est un axe de recherche très actif, concurrencé notamment par les modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou les politiques de diffusion (Diffusion Policy, ACT). Ces approches misent sur des grandes quantités de données préentraînées pour compenser la rareté des démos spécifiques à une tâche, là où ReGIL propose une alternative radicalement data-light. Le benchmark LIBERO est devenu un standard de fait pour comparer ces méthodes en simulation, et Meta-World permet d'évaluer la généralisation multi-tâches. La prochaine étape logique serait une validation sur des tâches de manipulation plus complexes et une publication dans une conférence de robotique (ICRA, CoRL, RSS) pour valider les claims de manière indépendante.

RecherchePaper
1 source
Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs
520arXiv cs.RO 

Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (référence 2606.09476) une méthode baptisée Goal-Set Hindsight Relabeling (GS-HER), qui reformule le problème du ré-étiquetage a posteriori en apprentissage robot hors-ligne. Là où la technique standard HER (Hindsight Experience Replay) convertit chaque état final atteint en objectif singleton exact, GS-HER opère au niveau des prédicats : une requête binaire spécifie quelles variables de l'état définissent le succès, transformant le critère d'objectif en paramètre configurable à l'inférence plutôt qu'en constante d'entraînement. Le système a été évalué sur les benchmarks OGBench avec cinq algorithmes d'apprentissage offline orientés objectifs (GCRL), et améliore les performances sur l'ensemble des configurations testées lorsque les objectifs en pleine dimension sont pénalisés par des variables parasites -- les "nuisance dimensions" -- qui n'ont aucun impact sur le succès réel de la tâche. L'intérêt de GS-HER pour un intégrateur ou un déploiement industriel tient dans sa modularité : un unique checkpoint entraîné peut répondre à plusieurs définitions d'objectifs sans nécessiter de ré-entraînement. Concrètement, une même politique apprise peut être interrogée différemment selon le contexte opérationnel, en modifiant uniquement la requête à l'inférence. La méthode adresse aussi une limite bien connue du GCRL offline : dans les tâches réelles, la définition exacte d'un état-but final est souvent impossible à spécifier sans introduire de contraintes artificielles. GS-HER relaxe cette sur-contrainte en ne demandant au robot de vérifier que les dimensions effectivement pertinentes au succès, ce qui rapproche la formulation théorique de la réalité opérationnelle. HER a été introduit par Andrychowicz et al. (OpenAI) en 2017 et est devenu l'une des pierres angulaires du GCRL, notamment pour la manipulation robotique. Des variantes ont depuis émergé pour gérer les trajectoires sous-optimales et les objectifs bruités, mais peu s'attaquaient à la sur-contrainte dimensionnelle. GS-HER se positionne comme une couche de généralisation compatible avec les algorithmes GCRL existants, ce qui limite la friction d'adoption. La limite principale à ce stade : les résultats sont exclusivement issus de simulations (OGBench), sans validation sur hardware réel -- l'écart sim-to-real reste donc à démontrer. Aucun acteur européen n'est impliqué dans la publication selon les informations disponibles.

RecherchePaper
1 source
MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)
521arXiv cs.RO 

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.08288) introduit MotionVLA, une interface de mémoire motrice conçue pour améliorer les modèles vision-language-action appliqués à la manipulation robotique longue portée. Le principe : plutôt qu'alimenter le modèle avec une séquence d'images passées traitées indépendamment, MotionVLA convertit une courte fenêtre vidéo récente en tokens de champ de trajectoire (trajectory-field tokens), compacts et temporellement continus. Ces tokens encodent le mouvement cohérent entre les observations, et les tokens visuels courants les interrogent pour extraire les informations de mouvement pertinentes à la tâche en cours. Le tout est réinjecté dans le flux VLA via une supervision ancrée sur les trajectoires. Les auteurs rapportent des améliorations sur des benchmarks de simulation ainsi que des essais préliminaires sur robot réel, avec des exécutions décrites comme plus fluides et plus directes. L'enjeu est théorique, mais les implications pratiques sont directes. Les VLA actuels -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure) -- cherchent à résoudre l'ambiguïté des tâches longues en injectant toujours plus de contexte : historique d'images, profondeur, features 4D. L'hypothèse implicite est "plus de contexte spatio-temporel équivaut à une meilleure politique". MotionVLA conteste cette hypothèse : un contexte incohérent en termes de mouvement introduit de la dérive géométrique, des indices temporels fragmentés et une génération d'actions instable. Reformuler la mémoire comme un champ de mouvement plutôt que comme un empilement de frames résout le problème à la source, ce qui intéresse directement les équipes cherchant à stabiliser des VLA en déploiement industriel sans exploser le budget de calcul. Ce travail s'inscrit dans une course intense à l'architecture VLA optimale. Les approches concurrentes incluent les modèles à base de profondeur (SpatialVLA), de features 4D (CogACT), ou de diffusion de trajectoires (pi-0). MotionVLA se rapproche davantage des travaux sur le flot optique dense et les représentations de mouvement continu. Deux mises en garde s'imposent : les résultats sur robot réel sont explicitement qualifiés de "préliminaires" par les auteurs, et aucun chiffre de benchmark précis n'est disponible dans la publication actuelle. À ce stade, il s'agit d'une contribution de recherche, non d'un produit industrialisé ni d'une démonstration validée à l'échelle.

RechercheOpinion
1 source
Revisiter la perception des parties articulées en manipulation robotique
522arXiv cs.RO 

Revisiter la perception des parties articulées en manipulation robotique

Des chercheurs ont déposé en juin 2026 (arXiv:2606.08103) une nouvelle approche pour la perception des parties articulées d'objets du quotidien, portes, boîtes et poignées, baptisée GPS (Geometric Primary Structure). Ce cadre représente la géométrie des parties mobiles sous une forme abstraite et générique, collectée via un dispositif de réalité virtuelle portable : l'annotation d'une séquence d'objets prend moins d'une minute, contre plusieurs dizaines de minutes pour les pipelines de labellisation manuelle classiques. Appliqué sur 234 objets répartis en six classes de parties, le système a constitué un corpus de 41 000 frames. Le modèle GPS entraîné accepte en entrée une unique image RGB-D et, sans aucun fine-tuning spécifique au domaine, atteint un taux de réussite de 73 % sur 270 états initiaux couvrant 9 objets en manipulation robotique réelle, à partir d'une politique heuristique basée sur la prédiction GPS. Ce résultat illustre un point clé pour les intégrateurs et les équipes R&D industrielles : la qualité de la représentation perceptive conditionne directement la robustesse de la politique de manipulation. Les deux approches dominantes présentent des compromis défavorables. Les méthodes basées sur la pose nécessitent une annotation intensive et ne passent pas à l'échelle, tandis que les méthodes affordance-based, qui extraient le mouvement futur par point tracking, souffrent de données bruitées ou incomplètes. GPS tente d'occuper le terrain intermédiaire. Un taux de 73 % sans fine-tuning in-domain est une indication sérieuse de généralisation réelle, même si la validation sur 9 objets seulement invite à la prudence avant de conclure que le fossé entre démonstration et déploiement industriel est comblé. Le problème de la manipulation d'objets articulés constitue un verrou reconnu depuis les travaux fondateurs sur WHERE2ACT et les datasets de type OPD (OpenDoors-Dataset). GPS s'inscrit dans un mouvement plus large visant à remplacer les bases de connaissances statiques par des systèmes de perception apprenants et annotables à faible coût. Les auteurs rendent publics le code, les données et l'outil VR (enlighten0707.github.io/gps), ce qui favorise la reproductibilité et l'adoption en recherche. Les extensions naturelles incluent l'intégration avec des politiques de type VLA (Vision-Language-Action), la généralisation à des parties déformables, et la validation sur des objets industriels hors distribution.

RecherchePaper
1 source
Politiques de récupération sensibles aux différences pour l'apprentissage par imitation
523arXiv cs.RO 

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Une équipe du Weird Lab de l'Université de Washington publie sur arXiv (arXiv:2606.09758, juin 2026) une méthode appelée DARP (Difference-Aware Retrieval Policies for Imitation Learning), une approche semi-paramétrique d'apprentissage par imitation. Le principe central : plutôt que d'apprendre un mapping global état-action via un réseau de neurones pur (behavior cloning standard), DARP entraîne un modèle à prédire des actions en s'appuyant sur les k plus proches voisins (k-NN) extraits des démonstrations expertes, leurs actions associées, et les vecteurs de distance relative entre les états voisins et l'état requête courant. En reformulant le problème d'imitation en termes de structure de voisinage local plutôt que de mappings directs, la méthode revendique des gains de performance de 15 à 46 % sur behavior cloning standard, mesurés sur des benchmarks de contrôle continu et de manipulation robotique, y compris avec des représentations visuelles haute dimension. L'amplitude de cette fourchette suggère des variations importantes selon les tâches et les domaines évalués. L'intérêt concret de DARP réside dans sa capacité à atténuer le problème de "compounding errors" : lors du déploiement, un agent entraîné par behavior cloning accumule des erreurs en rencontrant des états hors distribution, dégradant rapidement les performances. En réutilisant les données d'entraînement au moment de l'inférence, DARP introduit une forme de mémoire épisodique sans nécessiter de collecte de données supplémentaires, de feedback expert en ligne, ni de connaissance spécifique à la tâche. C'est là la distinction clé vis-à-vis de méthodes comme DAgger (Ross et Bagnell, 2011), qui résolvent la distribution shift mais exigent des requêtes à l'expert pendant l'entraînement, une contrainte souvent rédhibitoire en robotique industrielle réelle. Le behavior cloning reste une méthode de référence pour son absence de contraintes opérationnelles, mais sa fragilité face à la distribution shift en limite la portée pour des déploiements à grande échelle. DARP s'inscrit dans un courant de méthodes semi-paramétriques qui connaît un regain d'intérêt avec la montée des politiques génératives : l'idée de conserver explicitement une mémoire des démonstrations plutôt que de tout comprimer dans des poids de réseau est cohérente avec les architectures hybrides actuelles, comme les VLA Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les résultats sur représentations visuelles haute dimension ouvrent la voie à des applications sur des manipulateurs avec vision RGB, domaine où les approches purement paramétriques montrent encore des limites significatives. Le code et les démonstrations sont disponibles publiquement via le site des auteurs.

RecherchePaper
1 source
OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles
524arXiv cs.RO 

OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles

Une équipe de chercheurs publie sur arXiv (juin 2026) le framework OASIS, une approche pour entraîner des robots humanoïdes à des tâches de loco-manipulation, combinaison de locomotion et de manipulation d'objets, en s'appuyant exclusivement sur des données de simulation. Le système reconstruit automatiquement des assets 3D réalistes à partir d'images du monde réel via un modèle génératif, puis collecte des trajectoires par télé-opération dans ce simulateur. Ces trajectoires sont ensuite augmentées par randomisation de domaine : variations d'éclairage, de textures et de configuration environnementale. Une politique visuomotrice hiérarchique, entraînée sur ces données simulées, est déployée en zero-shot sur un robot humanoïde physique, sans fine-tuning sur données réelles. Les résultats publiés indiquent que cette politique dépasse, sur la majorité des tâches testées, les performances d'une politique entraînée sur des données de télé-opération réelle. Ce résultat, à prendre avec prudence, le preprint n'étant pas encore soumis à peer review, va à contre-courant d'une hypothèse largement répandue : que la qualité des données terrain serait irremplaçable pour la manipulation fine. Le principal facteur explicatif avancé par les auteurs est la couverture plus large des variations d'éclairage et d'environnement dans le rendu simulé, que la collecte physique peine à égaler à grande échelle. Si le résultat se confirme, il soulage considérablement le goulot d'étranglement de la collecte terrain, qui implique aujourd'hui des resets manuels coûteux et une infrastructure dédiée par tâche. La loco-manipulation reste l'un des défis les plus complexes en robotique humanoïde, car elle exige une coordination simultanée du contrôle de marche et de la manipulation d'objets. Des plateformes comme Figure 03, l'Optimus Gen 3 de Tesla ou l'Atlas de Boston Dynamics cherchent des solutions via des approches diverses : imitation learning sur données réelles (pi-0 de Physical Intelligence), politiques VLA (GR00T N2 de Nvidia) ou RL massivement simulé (Unitree). OASIS positionne la simulation augmentée comme alternative crédible à la télé-opération physique, ce qui pourrait accélérer le bootstrapping de nouvelles tâches sans mobiliser de cellules robotiques dédiées. Les prochaines étapes attendues sont une évaluation sur un spectre plus large de tâches industrielles et une soumission à une conférence avec évaluation par les pairs.

RechercheOpinion
1 source
ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA
525arXiv cs.RO 

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

ReCoVLA (Reward Compilation for VLA recovery) est un framework de récupération d'erreurs présenté dans un preprint arXiv publié le 9 juin 2026, conçu pour pallier la fragilité des politiques VLA (Vision-Language-Action) face aux états hors-nominal. Le principe : maintenir une politique VLA pré-entraînée gelée (frozen), déléguer à un modèle vision-langage externe (VLM) l'inférence du mode de défaillance et du stade de récupération, puis compiler une récompense structurée pour entraîner une politique résiduelle corrective en simulation. Cette politique résiduelle est ensuite déployée en zéro-shot sur robot réel sans réentraînement. Sur des tâches de manipulation couvrant des horizons courts, longs et des contacts riches, ReCoVLA fait passer le taux de succès moyen de 36,7 % (baseline π0.5 fine-tuné) à 66,7 % en simulation, et atteint 61,7 % en déploiement physique zéro-shot sim-to-réel. L'apport conceptuel central est de ne pas utiliser le VLM pour générer des actions ou des récompenses directement, mais comme un sélecteur sémantique de récompenses : il prédit un descripteur de récupération et un masque de récompense parmi des composants prédéfinis liés à la tâche. Cette séparation entre compréhension sémantique de haut niveau et contrôle correctif de bas niveau adresse un angle mort bien documenté des architectures VLA actuelles : elles offrent de bons priors pour la manipulation conditionnée au langage, mais s'effondrent dès qu'elles rencontrent un état non prévu à l'entraînement. Le framework se veut agnostique à la politique VLA sous-jacente, ce qui le rendrait compatible avec différents modèles de base. Le travail s'inscrit dans une compétition intense autour des politiques génératives pour la manipulation robotique. Des modèles comme π0 et π0.5 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA ont démontré la faisabilité des VLA à grande échelle, mais la robustesse aux défaillances reste un problème ouvert. ReCoVLA propose une réponse modulaire qui n'exige pas de réentraîner la politique de base, ce qui réduit théoriquement les coûts d'adaptation. Il convient toutefois de noter que ce preprint ne fait pas état d'un déploiement industriel : les expériences physiques restent en contexte laboratoire, avec un périmètre de tâches limité. Les prochaines étapes naturelles concernent la généralisation à d'autres architectures VLA et l'évaluation sur des chaînes causales plus longues.

RechercheOpinion
1 source
AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation
526arXiv cs.RO 

AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation

Des chercheurs ont publié en juin 2026 AHA-WAM (Asynchronous Horizon-Adaptive World-Action Model), une architecture de contrôle robotique qui dissocie temporellement la prédiction de scène et l'exécution motrice, deux processus jusqu'ici couplés au même rythme dans les modèles monde-action existants. L'architecture repose sur deux Diffusion Transformers (DiT) fonctionnant en parallèle : un DiT "monde" opère à basse fréquence comme planificateur de scène à long horizon, maintenant une mémoire glissante de paires clé-valeur sur les observations passées ; un DiT "action" tourne à haute fréquence en boucle fermée, interrogeant ce contexte latent via une attention jointe par couche. Deux mécanismes complètent le système : un entraînement à décalage adaptatif (horizon-adaptive offset training) et un routage OVCR (Observation-Guided Video-Context Routing), qui permettent à l'expert action d'exploiter le contexte long-horizon sans relancer le DiT vidéo à chaque pas. Sur le benchmark RoboTwin, AHA-WAM atteint 92,80 % de taux de succès moyen ; sur quatre tâches de manipulation en conditions réelles, 78,3 % de succès. La fréquence de contrôle en boucle fermée est de 24,17 Hz, soit un gain de vitesse de 4,59x sur Fast-WAM, sans aucun préentraînement sur données robot. Le résultat principal à retenir pour les intégrateurs et décideurs : un modèle VLA (Vision-Language-Action) peut maintenant planifier à l'échelle de la vidéo long-horizon et agir en temps quasi-réel sans que ces deux branches s'inhibent mutuellement. L'absence de préentraînement robot est notable, car elle suggère que le transfert depuis des données vidéo génériques peut suffire pour atteindre des performances state-of-the-art en manipulation. Le gain de 4,59x en vitesse est cliniquement significatif : 24 Hz permet un contrôle réactif sur bras industriel standard, ce qui rapproche ces architectures d'un déploiement en cellule de production, même si les tâches testées restent des benchmarks de manipulation tabletop, pas des environnements industriels non structurés. AHA-WAM s'inscrit dans la vague des modèles monde-action (world-action models), un paradigme émergent qui injecte des priors physiques dans l'apprentissage de politiques en modélisant conjointement dynamique visuelle et actions. Fast-WAM, cité comme baseline directe, reste la référence de vitesse que ce travail cherche à dépasser. Du côté concurrent, les architectures VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent également sur des transformers multimodaux pour la généralisation en manipulation, mais conservent généralement un pipeline unifié. La prochaine étape logique pour AHA-WAM serait de tester le passage à des environnements semi-structurés et d'évaluer la robustesse du routage OVCR face à des distributions d'observations hors-distribution.

RechercheOpinion
1 source
Planification et commande de mouvement sûres par polytopes imbriqués et fonctions de barrière de contrôle
527arXiv cs.RO 

Planification et commande de mouvement sûres par polytopes imbriqués et fonctions de barrière de contrôle

Des chercheurs présentent dans un preprint arXiv (2606.09719) une méthode de planification de mouvement locale pour robots mobiles autonomes évoluant dans des espaces confinés. L'approche repose sur la représentation polytopique du footprint du robot : modéliser sa géométrie réelle par un polygone convexe plutôt que de la simplifier à un point ou un cercle. La condition de sécurité, le robot doit rester à l'intérieur d'une région libre convexe continuellement mise à jour, est formulée comme un ensemble de contraintes de type Control Barrier Function (CBF) intégrées dans un contrôleur prédictif à modèle (MPC). Les expériences sur matériel embarqué, avec un robot non-holonome équipé de LiDAR et de grilles d'occupation, valident le système à 10 Hz en temps réel, avec évitement réactif d'obstacles dynamiques. L'analyse comparative affiche une réduction du temps de calcul pouvant atteindre 91x face à une formulation classique basée sur la détection d'obstacles, lorsque la densité de l'environnement augmente. L'intérêt pour les intégrateurs de systèmes AMR tient à deux propriétés distinctes. Le nombre de contraintes de sécurité dépend uniquement de la complexité géométrique locale et de la forme du robot, pas du nombre d'obstacles, ce qui garantit une tenue en temps réel dans des environnements denses. Par ailleurs, l'absence de nécessité de détecter ou segmenter les obstacles individuellement simplifie le pipeline de perception. La validation sur hardware, et pas seulement en simulation, place ce travail au-delà d'un résultat purement théorique, même si la montée en charge vers des environnements industriels à grande échelle reste à démontrer. La fréquence de 10 Hz sur ordinateur embarqué est un indicateur crédible de déployabilité réelle. Les approches classiques de navigation sûre pour robots à empreinte non-triviale recourent soit à des simplifications conservatives, soit à des formulations obstacle-par-obstacle dont le coût de calcul croît avec la densité de la scène, un problème bien documenté dans les entrepôts opérés par des acteurs comme Exotec ou dans la navigation maritime autonome. Les CBF appliqués à la planification en espace libre s'inscrivent dans une tendance croissante aux côtés de méthodes comme MPPI ou les planificateurs basés sur des tubes de sécurité. Ce preprint n'a pas encore été soumis à révision par les pairs, mais la démonstration embarquée sur robot réel constitue un signal d'applicabilité sérieux pour les équipes R&D robotique cherchant à naviguer dans des couloirs étroits sans surestimer les marges de sécurité.

UELes équipes R&D d'intégrateurs AMR européens (dont Exotec en France) pourraient bénéficier de cette méthode pour améliorer la navigation en environnements confinés sans surcoût computationnel, mais le travail reste un preprint non encore validé par les pairs.

RecherchePaper
1 source
VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées
528arXiv cs.RO 

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.09286) VAIC, un cadre de contrôle unifié pour robots humanoïdes capable d'interagir avec des objets en milieu non structuré. La contribution principale est l'élimination de deux hypothèses restrictives qui limitent la transposition terrain des contrôleurs existants : les trajectoires de référence denses et l'observabilité complète de l'état. VAIC opère exclusivement à partir d'un flux de profondeur embarqué et de la proprioception historique, via une interface de commandes découplées composée de cibles de vitesse multi-axes et d'un indicateur d'interaction par segment corporel. L'apprentissage suit un paradigme de distillation en deux étapes : une politique "enseignant" privilégiée, entraînée avec accès complet à la cinématique des objets et à l'état environnemental exact, transfère ses compétences à une politique "étudiant" déployable qui reconstruit implicitement la dynamique des objets depuis le flux de profondeur brut via un module d'adaptation récurrent. Sur robot humanoïde (non nommé dans le preprint), cette politique unique exécute en conditions réelles trois familles de tâches dynamiques : transport de carton, interaction avec un chariot, et skateboard, surpassant selon les auteurs les approches baseline comparées. Ce résultat, s'il se confirme à plus grande échelle, adresse directement le "deployment gap" qui freine la commercialisation des humanoïdes : la quasi-totalité des démos publiques repose encore sur des systèmes de capture de mouvement externe ou sur des objets instrumentés avec tracking précis. Proposer une politique unique généraliste, sans trajectoires de référence et fonctionnant sur capteurs embarqués bas coût, réduirait significativement la friction d'intégration pour les opérateurs industriels et les intégrateurs robotiques. La distillation enseignant-étudiant avec module d'adaptation récurrent n'est pas une architecture inédite, mais son application à des tâches aussi hétérogènes sur un humanoïde réel constitue un pas mesurable vers la généralisation. À noter que le preprint ne fournit ni métriques de cycle time par tâche, ni taux de succès quantifiés, ni spécification du robot utilisé, ce qui limite l'évaluation indépendante des performances annoncées. Ce travail s'inscrit dans une course aux contrôleurs généralisés qui oppose des équipes académiques (Berkeley, CMU, ETH Zurich) aux acteurs commerciaux : Figure Robotics avec son pipeline VLA sur Figure 02/03, Physical Intelligence et sa politique Pi-0, 1X Technologies et Unitree, tous actifs simultanément sur le sim-to-real et les architectures polyvalentes. L'approche de VAIC, centrée sur la profondeur et la proprioception plutôt que sur les vision-language models à grande échelle, constitue un positionnement différenciant en termes de coût de calcul embarqué et de simplicité sensorielle. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé dans ce preprint : il s'agit à ce stade d'une démonstration de recherche, dont la validation sur plusieurs plateformes robotiques et environnements variés reste entièrement à mener.

RecherchePaper
1 source
Q-VGM : un guidage par gradient de valeur pour les politiques VLA à flux normalisants
529arXiv cs.RO 

Q-VGM : un guidage par gradient de valeur pour les politiques VLA à flux normalisants

Une équipe de chercheurs propose Q-VGM (Q-Guided Value-Gradient Matching), une méthode d'apprentissage par renforcement hors-politique conçue pour affiner les politiques VLA (Vision-Language-Action) reposant sur le flow-matching. Partant de pi0.5, le modèle VLA de Physical Intelligence, comme initialisation few-shot, la méthode améliore les taux de réussite sur trois environnements : sur le benchmark LIBERO, le taux de succès passe de 75,0 % à 92,5 % ; sur RoboTwin 2.0, de 76,4 % à 87,2 % ; sur deux tâches de manipulation réelles en environnement tabletop, de 40,0 % à 67,5 %. Ces gains sont obtenus sans supervision experte supplémentaire, à partir de données d'expérience auto-générées par le robot (rollouts). L'étude est disponible en preprint sur arXiv (2606.08015) et n'a pas encore été soumise à évaluation par les pairs à la date de publication. Le verrou que Q-VGM résout est l'un des obstacles les plus tenaces du fine-tuning RL pour les VLA de type flow-matching : propager les gradients d'une fonction de valeur (Q-function) à travers le processus de débruitage itératif est numériquement instable à grande échelle, tandis que les méthodes de policy-gradient exigent des vraisemblances d'actions indisponibles sous débruitage itératif. Q-VGM contourne ces deux contraintes via VGG-Flow, un cadre théorique qui convertit le gradient de valeur en un champ de guidage appliqué pendant le débruitage, sans rétropropagation end-to-end ni calcul de vraisemblance explicite. Pour un intégrateur ou une équipe robotique, le paradigme est directement opérationnel : quelques démonstrations pour amorcer la politique (few-shot SFT), puis amélioration continue à partir de l'expérience propre du système. La progression de 40 % à 67,5 % sur robot réel est encourageante, bien que les conditions expérimentales restent circonscrites à deux tâches tabletop contrôlées. Physical Intelligence a lancé pi0 fin 2024, puis pi0.5, des architectures VLA fondées sur le flow-matching devenues un point de référence pour la manipulation généraliste. Q-VGM s'inscrit dans un courant de recherche actif visant à greffer l'apprentissage par renforcement sur ces fondations pré-entraînées, en concurrence avec des approches comme OpenVLA-OFT ou les adaptations RLVR appliquées aux VLA. LIBERO et RoboTwin 2.0 sont des benchmarks standards de manipulation simulée, ce qui rend les comparaisons reproductibles mais soulève la question classique du transfert en conditions réelles non supervisées. La prochaine étape pour ce type de méthode sera de démontrer la robustesse sur des plateformes robotiques variées et dans des environnements moins contrôlés.

RechercheOpinion
1 source
DIJIT : une tête robotique pour un observateur actif
530arXiv cs.RO 

DIJIT : une tête robotique pour un observateur actif

Des chercheurs ont présenté DIJIT, une tête robotique binoculaire conçue pour équiper des agents mobiles opérant en tant qu'observateurs actifs. Le système cumule neuf degrés de liberté mécaniques auxquels s'ajoutent quatre degrés de liberté optiques fournis par les caméras et les objectifs, soit 13 DOF au total. La conception mécanique couvre l'ensemble des mouvements nécessaires à la stéréovision convergente : vergence, version et cyclotorsion. DIJIT atteint 85 % de la vitesse de saccade humaine maximale, et la méthode de contrôle développée par l'équipe, basée sur une relation directe entre l'orientation de la caméra et les valeurs moteur, produit des mouvements saccadiques avec une erreur moyenne de 1,17° pour la caméra gauche et 1,14° pour la droite. L'article, publié sur arXiv (2512.07998v2), reste à ce stade un travail académique sans déploiement industriel annoncé. L'intérêt de DIJIT réside dans la rareté des plateformes permettant d'étudier conjointement les mouvements oculaires et tête-cou dans un cadre robotique mobile. La plupart des systèmes de vision active existants traitent ces deux axes séparément ou sacrifient la fidélité biomécanique au profit de la simplicité mécanique. En reproduisant les plages et vitesses comparables à celles de l'humain, DIJIT offre un banc d'essai pour comparer directement les stratégies de perception visuelle humaine aux méthodes de computer vision classiques, ce qui est particulièrement utile pour valider ou invalider des hypothèses sur le sim-to-real gap dans les systèmes de vision embarquée. La vision active robotique connaît un regain d'intérêt depuis que les modèles VLA (Vision-Language-Action) imposent des flux visuels plus riches et dynamiques aux robots humanoïdes. Des laboratoires comme celui de CMU ou des équipes travaillant sur des plateformes telles que Figure 03 ou Digit (Agility Robotics) cherchent à améliorer la perception visuelle active pour des tâches de manipulation en environnement non structuré. DIJIT se positionne comme un outil de recherche fondamentale plutôt que comme un produit commercialisable à court terme. L'absence de partenaire industriel annoncé et le format arXiv suggèrent une phase d'exploration académique ; les prochaines étapes probables concernent l'intégration sur une plateforme mobile complète et la publication de benchmarks comparatifs face aux systèmes de vision fixe.

RecherchePaper
1 source
Real-IKEA : la fidélité physique est le prérequis d'une manipulation robuste
531arXiv cs.RO 

Real-IKEA : la fidélité physique est le prérequis d'une manipulation robuste

Une équipe de chercheurs a publié sur arXiv le 9 juin 2026 Real-IKEA, un dataset et un framework de simulation centré sur la précision physique pour l'apprentissage de politiques de manipulation robotique. Le corpus comprend 1 079 configurations d'objets articulés, dérivées de 83 poignées et boutons IKEA authentiques, traités via un pipeline de six étapes visant à reproduire fidèlement leur géométrie de contact et leur comportement mécanique. Pour quantifier la précision des maillages de collision, les auteurs introduisent une métrique originale dite de déviation de surface bidirectionnelle. Sur le plan dynamique, chaque asset est livré avec des configurations résistance-calibrées, où l'amortissement (damping) et le frottement varient selon les mesures relevées sur objets réels. Une politique d'apprentissage par renforcement (RL) entraînée sur ces assets démontre in silico que la fidélité physique permet à l'agent de découvrir des stratégies de "hooking" (crochetage) et de "levering" (effet de levier), par opposition aux approches fragiles par friction-pulling que favorisent les simulateurs appauvris. Ce travail s'attaque directement au "physics gap", l'écart entre simulation simplifiée et résistances du monde réel, qui reste l'un des obstacles structurels au déploiement industriel de la manipulation robotique. Le résultat clé est une preuve de concept que la qualité des assets de simulation conditionne la qualité des stratégies émergentes : un simulateur trop idéalisé oriente l'agent vers des comportements non transférables. Pour un intégrateur ou un responsable production envisageant des bras robotiques sur des tâches d'assemblage ou de service, cela renforce l'argument en faveur d'investissements dans des pipelines de modélisation physique rigoureux avant tout déploiement, plutôt que d'ajustements post-déploiement coûteux. Real-IKEA s'inscrit dans une longue tradition de benchmarks utilisant le mobilier IKEA comme proxy de la complexité du monde réel, notamment les travaux de manipulation non-prehensile des années 2010. Le sim-to-real gap est un sujet de recherche actif, avec des acteurs comme IsaacSim (NVIDIA), MuJoCo (DeepMind) ou PyBullet comme environnements concurrents sur ce terrain. La contribution spécifique de Real-IKEA réside dans la granularité physique de ses assets plutôt que dans un nouvel algorithme. Les auteurs positionnent leur benchmark comme référence pour évaluer des politiques visant la robustesse au niveau humain sur les objets articulés, une ambition dont la validation à l'échelle réelle reste à démontrer.

RecherchePaper
1 source
Découverte guidée de nouveaux comportements par politiques de diffusion
532arXiv cs.RO 

Découverte guidée de nouveaux comportements par politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.08743v1, juin 2026) un cadre algorithmique pour diversifier les comportements générés par les diffusion policies en robotique. Ces politiques basées sur des modèles de diffusion modélisent efficacement des distributions multimodales de trajectoires d'action, mais souffrent d'un biais documenté : avec peu de démonstrations, l'échantillonnage standard reproduit les comportements dominants et ignore les modes rares mais valides. Les auteurs combinent des correcteurs de Feynman-Kac, outil issu des processus stochastiques, avec un potentiel de guidage orientant l'échantillonnage vers des trajectoires prometteuses mais sous-représentées. Ces trajectoires candidates sont ensuite affinées par optimisation par échantillonnage, puis réintégrées dans le jeu d'entraînement pour réentraîner la politique. Les expériences portent sur plusieurs environnements de manipulation en simulation, où la méthode découvre systématiquement de nouveaux comportements exécutables. L'enjeu est concret pour les équipes travaillant sur l'apprentissage par imitation en robotique industrielle ou de service. Un robot entraîné sur peu de données converge vers une seule stratégie même lorsque plusieurs solutions existent : ce cadre propose d'explorer l'espace des comportements sans collecter davantage de démonstrations humaines, ce qui touche directement à l'efficacité des données dans les pipelines de robot learning. Les auteurs positionnent leur approche contre les méthodes de guidage classiques, qui poussent les échantillons vers des régions infaisables, et contre le couplage RL+diffusion, qui peine à sortir des minima locaux. Les résultats restent cependant limités à la simulation de manipulation; aucune validation sur robot réel n'est rapportée dans ce préprint. Les diffusion policies ont connu une adoption rapide depuis les travaux de Chi et al. en 2023, supplantant progressivement les politiques comportementales classiques sur des tâches de manipulation complexes. Le domaine est aujourd'hui concurrentiel, avec Physical Intelligence (pi0), Google DeepMind et plusieurs laboratoires universitaires poussant les limites de ces modèles génératifs. L'approche Feynman-Kac s'inscrit dans une tendance plus large de réutilisation d'outils de la physique statistique pour le contrôle robotique. Les prochaines étapes naturelles seraient une validation sur hardware réel et une extension à des tâches à horizon long, où la diversité des trajectoires est encore plus critique.

UELes laboratoires européens travaillant sur l'apprentissage par imitation (INRIA, CEA-List) pourraient exploiter ce cadre pour réduire leur dépendance aux données de démonstration, mais aucun acteur ou déploiement européen n'est impliqué dans ce préprint.

RecherchePaper
1 source
Saut à la corde en coopération grâce à l'apprentissage par renforcement multi-agents
533arXiv cs.RO 

Saut à la corde en coopération grâce à l'apprentissage par renforcement multi-agents

Des chercheurs ont publié sur arXiv (2606.08064) un framework baptisé Marope permettant à plusieurs robots humanoïdes de pratiquer le saut à la corde collective en coordination. Le scénario implique deux robots Unitree G1 chargés de faire tourner la corde en synchronie, pendant qu'un troisième participant saute à des rythmes variables. L'architecture repose sur un apprentissage par renforcement multi-agents (MARL) hiérarchique : au niveau bas, des politiques décentralisées contrôlent indépendamment chaque bras de rotation de corde ; au niveau haut, une politique centralisée de scheduling orchestre l'exécution et la coordination entre ces modules. Les auteurs ont validé le système à la fois en simulation et en déploiement réel sur des Unitree G1, montrant que Marope surpasse les baselines testées en termes de stabilité de manipulation et de capacité d'adaptation à différents styles de saut. Ce travail illustre une lacune importante dans la recherche sur la locomotion athlétique des humanoïdes : la quasi-totalité des résultats existants (course, danse, parkour) opèrent en mode mono-agent ou sans interaction précise avec d'autres participants. Le saut à la corde impose une contrainte temporelle stricte et bidirectionnelle : les deux tourneurs doivent anticiper et s'adapter au rythme du sauteur en temps réel, ce qui constitue un banc d'essai réel pour la coordination multi-agent en boucle fermée. L'intégration de politiques de saut diversifiées dans l'entraînement coopératif, pour renforcer la généralisation, est un choix méthodologique notable. La démonstration en conditions réelles sur du matériel commercial reste modeste en scope, mais elle valide que le sim-to-real ne s'effondre pas sur cette tâche rythmique. Unitree est le fournisseur dominant sur le marché des humanoïdes accessibles (G1 à environ 16 000 USD), face à Figure, Agility Robotics ou Boston Dynamics sur le segment premium. Côté MARL appliqué aux humanoïdes, les travaux récents de DeepMind sur les agents sportifs et les recherches de Carnegie Mellon sur les interactions physiques constituent le terrain immédiat. Marope n'est pas encore un produit déployé ni un système industrialisé : c'est une preuve de concept académique, sans annonce de commercialisation ni de partenariat industriel à ce stade.

RecherchePaper
1 source
IntentNav : apprendre la navigation spatiale vers des objets à partir de démonstrations humaines
534arXiv cs.RO 

IntentNav : apprendre la navigation spatiale vers des objets à partir de démonstrations humaines

Une équipe de recherche anonyme a soumis le 9 juin 2026 un préprint arXiv (2606.08029) présentant IntentNav, un framework d'imitation spatiale et visuelle pour la navigation autonome par objets (ObjectNav). La tâche consiste à envoyer un robot chercher un objet non observé dans un environnement inconnu, sans carte préalable, en décidant en temps réel où explorer sous observabilité partielle. L'architecture repose sur deux briques complémentaires : une mémoire BEV (Bird's Eye View) qui encode les régions explorées, les frontières inexplorées et l'historique de trajectoire, et une mémoire visuelle égocentrique qui associe des indices sémantiques à chaque frontière candidate. Un modèle de langage et de vision (VLM) est entraîné sur des démonstrations humaines pour sélectionner la prochaine frontière à explorer, guidé par un "Frontier-based Human-Intent Labeling" qui inspecte en avant les trajectoires humaines pour identifier quelle frontière explique le mieux la direction de recherche du démonstrateur. Les auteurs annoncent des performances état de l'art sur les benchmarks MP3D, HM3D-v1 et HM3D-v2. Le point le plus saillant pour les intégrateurs est le transfert zéro-shot : la même politique VLM, sans fine-tuning supplémentaire, est transférée à trois morphologies distinctes, robot à roues, quadrupède et humanoïde. Cela suppose que l'interface candidate-level fonctionne comme une couche d'abstraction suffisamment générique pour s'affranchir des particularités cinématiques propres à chaque plateforme. Pour un COO industriel, cela ouvre la perspective d'un seul modèle de navigation entraîné sur des démonstrations humaines capable de piloter des flottes hétérogènes sans retraining par morphologie. Réserve importante : la démonstration sim-to-real reste confinée aux benchmarks de simulation Matterport3D et HM3D ; aucun résultat sur hardware physique réel n'est rapporté dans le préprint, ce qui laisse entier le gap entre benchmark et déploiement terrain. IntentNav s'inscrit dans un champ actif où des approches concurrentes comme SemExp (Chaplot et al., 2020), ZSON (Majumdar et al., 2022) ou les méthodes VLM zéro-shot telles qu'EmbodiedGPT et OpenFMNav se disputent la tête des benchmarks HM3D. La contribution distinctive est l'extraction d'intention de haut niveau à partir d'actions humaines de bas niveau via le labeling de frontières, une alternative à l'apprentissage par renforcement pur qui souffre de la rareté des récompenses dans les grands espaces d'exploration. La soumission étant anonyme, affiliations et financements ne sont pas divulgués ; une page projet est référencée sans contenu pleinement accessible à ce stade.

RechercheOpinion
1 source
GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D
535arXiv cs.RO 

GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (référence 2606.08440) GraspFoM, un framework unifié de saisie robotique qui exploite des fondations 3D pré-entraînées, plus précisément SAM3D, pour construire une représentation latente 3D partagée entre deux tâches simultanées : la reconstruction géométrique de l'objet et la prédiction de poses de préhension. L'architecture centrale repose sur un diffuseur de raisonnement de pose tronqué à initialisation par ancres, qui génère des poses continues et multimodales sans dépendre de candidats discrets préétablis, une distinction technique importante par rapport aux pipelines classiques. GraspFoM produit en sortie à la fois des poses de saisie et des reconstructions 3D haute fidélité au format maillage polygonal et 3D Gaussian Splatting (3DGS). Les auteurs rapportent des résultats de pointe sur les benchmarks de reconstruction et de saisie, avec un surcoût en paramètres entraînables qualifié de "limité" mais sans chiffre précis publié. Ce travail adresse un verrou réel dans la manipulation robotique : la saisie sous observation partielle, c'est-à-dire quand la caméra ne voit qu'une fraction de l'objet. Les approches existantes utilisent la géométrie 3D comme étape intermédiaire jetable, sans la capitaliser comme prior réutilisable. GraspFoM rompt avec cette logique en faisant co-évoluer reconstruction et grasping dans un espace latent commun : la reconstruction ancre la géométrie, la supervision de saisie affine ce latent vers les zones de prise pertinentes. Le scorer reconstruction-aware et le residual latent updater formalisent cette rétroaction mutuelle. Pour les intégrateurs en manipulation industrielle ou logistique, cela suggère une meilleure robustesse sur des objets partiellement occultés, sans multiplication des modules ou des paramètres, ce qui est un argument d'efficacité réelle si les expériences réelles confirment les benchmarks. Les fondations 3D comme SAM3D s'inscrivent dans une vague de transferts de connaissances entre vision 2D et représentations 3D, parallèle à l'essor des VLA (Vision-Language-Action models) pour la manipulation généraliste. GraspFoM se positionne différemment des approches purement end-to-end comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA : il mise sur la reconstruction explicite plutôt que sur l'imitation à grande échelle. Les concurrents académiques proches incluent GraspNeRF, Contact-GraspNet et des travaux récents combinant diffusion et géométrie 3D. À ce stade, GraspFoM reste un preprint non validé en conditions réelles, les expériences rapportées étant réalisées sur simulateur ou bancs de test contrôlés. Aucun partenaire industriel ni déploiement pilote n'est mentionné, et aucune timeline de commercialisation n'est communiquée.

RecherchePaper
1 source
VGP-Nav : perception géométrique visuelle adaptée aux métriques pour la navigation robotique
536arXiv cs.RO 

VGP-Nav : perception géométrique visuelle adaptée aux métriques pour la navigation robotique

Une équipe de chercheurs a présenté en juin 2026 VGP-Nav (arXiv:2606.09268), un cadre unifié permettant à un robot mobile de se localiser avec précision et de détecter des obstacles avec cohérence métrique en n'utilisant qu'une seule caméra RGB monoculaire standard. Contrairement aux systèmes de navigation conventionnels qui combinent caméras et capteurs actifs comme le LiDAR pour obtenir des mesures métriques fiables, VGP-Nav s'appuie exclusivement sur la vision monoculaire. L'architecture ancre la géométrie visuelle à des contraintes d'échelle physiquement significatives extraites de la géométrie du plan sol, ce qui permet de résoudre en ligne l'ambiguïté d'échelle inhérente à tout système monoculaire. Les expériences présentées couvrent des environnements variés et incluent un déploiement validé sur des robots mobiles réels. L'ambiguïté d'échelle est l'un des obstacles fondamentaux à la navigation monoculaire : une caméra seule ne peut pas distinguer un objet proche et petit d'un objet lointain et grand sans référence externe. Les approches classiques contournent ce problème avec du LiDAR (coûteux, encombrant, nécessitant une calibration spatio-temporelle complexe entre capteurs) ou des centrales inertielles, ce qui augmente le coût et la complexité des déploiements, notamment pour les flottes d'AMR en logistique ou en industrie. Si VGP-Nav tient ses promesses à l'échelle, il ouvre la voie à des robots mobiles autonomes basse consommation capables de naviguer en sécurité dans des environnements non structurés sans infrastructure sensorielle lourde, un enjeu critique pour les intégrateurs cherchant à réduire le coût total de possession. La navigation purement visuelle fait l'objet d'intenses recherches depuis la première génération de systèmes SLAM monoculaires comme ORB-SLAM (2015), mais la cohérence métrique restait leur talon d'Achille face au LiDAR. Des approches récentes basées sur la profondeur monoculaire apprise, Depth Anything, UniDepth, ou des architectures de localisation neuronale cherchent à combler cet écart, tandis que des acteurs comme Nvidia (Isaac Perceptor), Clearpath Robotics ou Slamtec intègrent progressivement davantage de vision dans leurs pipelines de navigation pour AMR. VGP-Nav reste à ce stade une contribution de recherche en pré-print : sa validité industrielle n'est pas encore confirmée par des benchmarks tiers indépendants sur des datasets standardisés comme nuScenes ou ScanNet, et aucun partenariat commercial ni calendrier de transfert technologique n'est annoncé.

UEPotentiel indirect pour les intégrateurs AMR européens si la technologie est validée industriellement, aucun partenariat commercial ni transfert vers l'Europe n'est annoncé à ce stade.

RecherchePaper
1 source
Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude
537arXiv cs.RO 

Assistance robotique proactive et personnalisée par raisonnement LLM guidé par l'incertitude

Des chercheurs ont publié le 9 juin 2026 sur arXiv (2606.08458) GLOBE, un framework léger pour l'assistance robotique proactive en environnement domestique. Le principe : combiner des modèles de Markov n-grammes, qui capturent les patterns comportementaux temporels d'un utilisateur, avec un raisonnement par grand modèle de langage (LLM) déclenché uniquement lorsque la confiance du modèle prédictif passe sous un seuil. Ce mécanisme d'invocation sélective réduit la charge computationnelle par rapport aux architectures spatio-temporelles classiques. L'équipe introduit également HOMER-Noise, une extension bruitée du dataset HOMER+, qui simule des perturbations structurées réalistes : déplacements d'objets causés par des humains, des animaux domestiques ou des jeunes enfants. Le framework est validé en preuve de concept sur un manipulateur mobile Stretch 3 de Hello Robot, dans des scénarios d'interaction humain-robot à domicile. L'intérêt principal de GLOBE réside dans son positionnement hybride : plutôt que de faire tourner un LLM en continu sur chaque prédiction d'activité, le système n'y fait appel que sur les cas ambigus, ce qui le rend potentiellement déployable sur du matériel embarqué à ressources limitées. Les résultats annoncés montrent des performances compétitives face aux méthodes état de l'art, y compris en conditions bruitées, là où les approches purement neuronales se dégradent. Cette robustesse aux perturbations environnementales non contrôlées est un verrou connu pour le déploiement domestique réel. Il faut toutefois noter qu'il s'agit d'un preprint arXiv sans peer review, et que la validation sur Stretch 3 reste au stade de démonstration de concept, pas d'un déploiement opérationnel. GLOBE s'inscrit dans un courant de recherche qui cherche à réconcilier les LLMs, puissants mais coûteux, avec les contraintes temps réel de la robotique embarquée. Des approches similaires existent chez des équipes travaillant sur les VLAs (Vision-Language-Action models), comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais celles-ci ciblent surtout la manipulation industrielle plutôt que l'assistance cognitive à domicile. Le dataset HOMER-Noise comble un manque réel dans l'évaluation de la robustesse des systèmes d'anticipation d'activités. Les prochaines étapes logiques seraient une évaluation sur des déploiements multi-utilisateurs prolongés et une comparaison directe avec des baselines LLM-only pour quantifier précisément le gain computationnel revendiqué.

RecherchePaper
1 source
IA physique : le middleware robotique comme couche d'intégration
538arXiv cs.RO 

IA physique : le middleware robotique comme couche d'intégration

Un article de recherche déposé sur arXiv le 9 juin 2026 (arXiv:2606.09416) propose de redéfinir formellement le rôle du middleware robotique à l'ère de l'IA physique. Les auteurs partent d'un constat : les politiques apprises, les planificateurs et les modèles vision-langage-action (VLA) sont désormais des participants causaux sur le chemin de contrôle des robots déployés, mais la couche logicielle qui les intègre n'a jamais reçu de nom précis dans la littérature robotique. Ils empruntent le terme "harness" à la communauté des agents LLM, où il désigne le système externe qui orchestre les outils, gère l'état, borne les ressources et enregistre l'exécution, et soutiennent que le middleware robotique est exactement ce harness. La différence avec un harness logiciel classique est structurelle : un modèle VLA ne franchit pas une seule frontière, il en traverse trois simultanément, ses commandes modifient la trajectoire (contrôle), son temps d'inférence perturbe l'ordonnancement (calcul), et son volume de données sollicite la bande passante réseau (communication). L'enjeu pour les intégrateurs et les décideurs industriels est concret. Aujourd'hui, les trois fonctions d'enforcement manquantes, que les auteurs nomment Projection (filtrage de chaque sortie du modèle à l'émission), Isolation (encadrement du slot d'exécution et de transmission), et Transfer (repli sur une baseline vérifiée en cas d'échec), existent déjà dans les systèmes déployés, mais sous forme de code applicatif artisanal, reconstruit à chaque projet. Cette fragmentation augmente les coûts d'intégration et crée des surfaces de défaillance non standardisées. Le papier ne présente pas de benchmark de performance ni de déploiement validé en production : c'est un cadre conceptuel et une proposition de standardisation, pas un produit livré. La proposition concrète est un "ROS 2 Harness Profile", un artefact de déploiement qui encapsule la région de sortie déclarée d'un modèle IA, son budget d'inférence et son régime opérationnel, tandis que le middleware (ROS 2, DDS, Zenoh) en assure l'application. Cette démarche s'inscrit dans un mouvement plus large de formalisation des couches d'intégration pour les systèmes robotiques apprenants, auquel contribuent aussi des travaux autour de ROS 2 Nav2, de micro-ROS pour les systèmes embarqués, et des frameworks d'évaluation de robustesse comme ceux proposés par des acteurs tels qu'Intrinsic (filiale Alphabet) ou des laboratoires académiques travaillant sur le sim-to-real. La prochaine étape logique serait une implémentation de référence et une validation sur un système physique, ce que les auteurs n'ont pas encore publié.

RecherchePaper
1 source
Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques
539arXiv cs.RO 

Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques

Une équipe de chercheurs publie sur arXiv (2606.08214) un cadre neuro-symbolique agentique pour la robotique industrielle avec supervision humaine en boucle. Le système hybride confie aux grands modèles de langage (LLM) uniquement les tâches de compréhension du langage naturel et de raisonnement contextuel, tandis que la vérification des contraintes physiques, le séquençage des actions et l'exécution restent entièrement déterministes. L'architecture, baptisée Specifier-Designer-Inspector (SDI), adapte le patron logiciel Planner-Generator-Evaluator (PGE) à la robotique industrielle et s'appuie sur LangGraph pour le routage dynamique en cas d'échec. Un mécanisme de récupération à deux niveaux distingue les échecs structurels (replanification contextuelle) des échecs géométriques à l'exécution (primitives déterministes de correction). Un jumeau numérique sous Unity3D permet à l'opérateur d'inspecter, modifier et valider le plan avant tout déploiement physique. Testé sur des commandes en langage naturel face à dix systèmes de référence, le framework SDI obtient le meilleur taux de réussite sur l'ensemble des niveaux de difficulté évalués. L'intérêt industriel de cette approche tient à son pragmatisme architectural : plutôt que de confier aux LLM la garantie de faisabilité physique d'une trajectoire, le système délègue cette responsabilité à des composants symboliques vérifiables et auditables. C'est une réponse directe au "demo-to-reality gap" qui fragilise de nombreux projets fondés sur des VLA (Vision-Language-Action models) ou des politiques neurales pures. Pour les intégrateurs et les COO industriels, la présence du jumeau numérique comme étape obligatoire de validation avant exécution réduit concrètement le risque opérationnel lors du commissionnement de nouvelles cellules robotiques, en donnant à l'opérateur un droit de regard explicite sur chaque plan généré. Ce travail prolonge une tradition de planification neuro-symbolique héritée de STRIPS et des HTN (Hierarchical Task Networks), en y intégrant les LLM pour l'interprétation des intentions opérateur. Il se positionne en contrepied des approches end-to-end actuellement dominantes, notamment pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou Helix de Figure AI, qui misent sur des politiques entraînées en imitation ou en renforcement sans couche symbolique intermédiaire. La publication reste un preprint non encore évalué par les pairs, ce qui invite à la prudence sur les benchmarks annoncés : aucune métrique de temps de cycle en conditions industrielles réelles n'est fournie, et les commandes testées restent dans un cadre expérimental contrôlé. Aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper
1 source
Estimation dense des forces par capteur tactile optique à événements
540arXiv cs.RO 

Estimation dense des forces par capteur tactile optique à événements

Des chercheurs ont présenté sur arXiv (arXiv:2606.09451) le premier framework de reconstruction dense de champ de force 3D à partir d'un capteur tactile optique à événements. L'approche combine deux modules complémentaires : un algorithme de suivi de marqueurs basé sur les événements pour estimer les déplacements de cisaillement (axes X et Y), et un réseau de neurones convolutif entraîné sur un jeu de données synchronisées force-déplacement-événements pour prédire les déplacements normaux (axe Z). Ces déplacements de surface sont ensuite convertis en forces via la méthode des éléments finis inverse (iFEM). Les performances mesurées atteignent une erreur absolue moyenne de 0,14 N, 0,10 N et 0,93 N sur des plages de force respectives de 4 N, 4 N et 20 N, avec une fréquence de traitement moyenne de 100 Hz. Ce résultat comble une lacune importante dans la perception tactile robotique. Les capteurs tactiles à base de caméra conventionnelle, comme le GelSight du MIT ou le DIGIT de Meta AI, permettent déjà une estimation dense des forces, mais butent sur les limites de framerate des capteurs CMOS, le flou de mouvement lors de contacts dynamiques rapides, et la bande passante nécessaire au transfert d'images. Les capteurs à événements, d'inspiration neuromorphique, contournent ces contraintes avec une résolution temporelle à la microseconde et un encodage asynchrone des variations de luminosité. Jusqu'ici, leur usage en tactile était restreint à la prédiction de forces nettes scalaires, sans distribution spatiale. Le framework présenté ouvre la voie à un retour de force géométriquement dense à haute fréquence, condition nécessaire pour des boucles de contrôle en préhension dextre réactive. La manipulation dextre reste l'un des problèmes ouverts les plus difficiles de la robotique, précisément parce que le toucher humain exploite simultanément la densité spatiale, la sensibilité à la géométrie de contact et la résolution temporelle fine. Le paysage des capteurs tactiles intelligents s'est structuré autour de deux familles : les capteurs visuels élastomère (GelSight, DIGIT, Finger Vision, Tactip) et les capteurs neuromorphiques à événements, encore peu exploités pour la reconstruction de champ. Ce travail constitue une première étape de preuve de concept ; les auteurs ciblent explicitement l'intégration dans des pipelines de contrôle haute fréquence pour la préhension robotique et la manipulation, sans annoncer de plateforme ou de timeline de déploiement précise.

RecherchePaper
1 source
ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action
541arXiv cs.RO 

ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action

Une équipe de recherche a publié sur arXiv (arXiv:2606.09740) ProbeAct, un framework d'intervention à l'exécution conçu pour détecter et corriger les échecs de saisie et de placement dans les modèles Vision-Language-Action (VLA) pré-entraînés, sans modifier leurs poids ni nécessiter de démonstrations supplémentaires. Le système repose sur trois composants couplés : une sonde légère sur les états cachés du modèle qui prédit les positions 3D des objets pertinents à partir des features intermédiaires du VLA (avec suivi d'identité par algorithme hongrois pour les scènes multi-objets) ; une machine à états cinématiques agnostique à l'objet qui détecte les défaillances de saisie, de transport et de placement via les signaux internes du préhenseur et la cinématique de l'effecteur terminal ; enfin, un filtre hiérarchique par Control Barrier Function (CBF) qui encode les zones d'échecs répétés comme contraintes soft sur l'ensemble de sécurité, corrigeant minimalement les actions du VLA sans altérer son comportement nominal. Évalué sur le benchmark LIBERO-plus, ProbeAct améliore le taux de succès d'OpenVLA-OFT de 69,6 % à 74,1 %. Un gain de 4,5 points de taux de succès peut sembler modeste, mais il intervient sur un problème structurel bien identifié des VLA : leur fragilité hors distribution. Ces modèles échouent régulièrement face à des variations de luminosité, des changements de point de vue caméra, ou de légères variations d'état initial, autant de conditions triviales dans un déploiement industriel réel. L'intérêt de ProbeAct est précisément d'être plug-and-play, orthogonal aux pipelines d'entraînement existants, et applicable aussi bien aux modèles de base qu'aux versions fine-tunées. Pour un intégrateur, cela signifie un filet de sécurité superposable sur n'importe quel VLA sans coût de ré-entraînement, ce qui réduit concrètement le gap entre performance en benchmark et robustesse terrain. Les VLA ont connu une accélération notable depuis 2023 avec des modèles comme RT-2 (Google DeepMind), OpenVLA (UC Berkeley) ou pi-0 (Physical Intelligence), mais leur fragilité aux perturbations reste un frein reconnu à la commercialisation. Les approches existantes pour y remédier passent généralement par de l'augmentation de données ou du fine-tuning ciblé, coûteux en temps et en annotations. ProbeAct s'inscrit dans une alternative émergente : la correction à l'inférence, sans toucher au modèle. Il s'agit pour l'instant d'un preprint arXiv, sans déploiement annoncé ni partenaire industriel mentionné ; les prochaines étapes naturelles seraient une validation sur hardware réel hors benchmark simulé.

RechercheOpinion
1 source
Peut-on stabiliser un pendule inversé grâce à une caméra à temps de vol ?
542arXiv cs.RO 

Peut-on stabiliser un pendule inversé grâce à une caméra à temps de vol ?

Une équipe de chercheurs a publié en juin 2026 sur arXiv (2506.09237) une démonstration inattendue : une caméra temps-de-vol (ToF) bas de gamme, à faible résolution spatiale, suffit pour stabiliser de manière fiable un pendule inversé sur un chariot, référence canonique en théorie du contrôle pour les dynamiques rapides et instables. La caméra ToF utilisée est compacte, peu coûteuse et insensible aux variations d'éclairage, mais produit une profondeur bruitée et une résolution limitée, ce qui la rendait jusqu'ici peu crédible comme capteur de rétroaction pour des boucles de contrôle exigeantes. Ce résultat contredit directement un présupposé bien établi dans la communauté : que la résolution spatiale et le bruit de mesure des ToF les excluent du contrôle précis en temps réel. Pour les intégrateurs et ingénieurs systèmes, l'implication est concrète : des capteurs de profondeur à moins de 100 euros pourraient remplacer des systèmes de vision coûteux dans des boucles de commande rapides, notamment sur des plateformes mobiles, des manipulateurs légers ou des robots humanoïdes nécessitant une estimation d'état embarquée à faible consommation. La validité de la démonstration reste à nuancer : l'abstract ne précise ni le modèle exact de caméra, ni les fréquences d'acquisition, ni les conditions de bruit testées. Les caméras ToF sont déjà largement utilisées en robotique pour la cartographie et la détection d'obstacles, mais rarement intégrées dans des boucles de contrôle fermées critiques. Le pendule inversé, formalisé dès les années 1950, sert de banc d'essai universel pour comparer les architectures de contrôle. Les prochaines étapes naturelles seraient de tester la robustesse à des perturbations externes et d'étendre l'approche à des systèmes sous-actionnés plus complexes, comme les robots bipèdes.

RecherchePaper
1 source
IA incarnée : traduire les actions en images de mouvement et de contact pour les modèles du monde
543arXiv cs.RO 

IA incarnée : traduire les actions en images de mouvement et de contact pour les modèles du monde

Des chercheurs proposent iMaC (Image as Action Control), un paradigme de contrôle robotique publié en juin 2026 sur arXiv (2606.09813), qui substitue aux vecteurs d'action structurés de faible dimension - angles articulaires et poses d'effecteur terminal - des images visuelles brutes comme représentation native des actions dans les modèles de monde incarnés. L'architecture comprend deux branches : un encodeur image-action qui compresse des images cibles en embeddings d'action compacts, et un prédicteur de monde dynamique conditionné sur ces tokens visuels pour prédire les états futurs et assurer le contrôle en boucle fermée. Des expériences sur des benchmarks publics de manipulation incarnée et des scénarios réels montrent qu'iMaC dépasse les baselines vectorielles en précision de prédiction, taux de succès et généralisation inter-scènes. L'enjeu central est la généralisation inter-embodiment, l'un des verrous majeurs de la robotique incarnée. Les approches conventionnelles encodent des espaces d'action définis manuellement - cinématique propre à chaque plateforme - ce qui bride la portabilité entre bras industriels, manipulateurs mobiles et humanoïdes. En traitant l'image comme token d'action, iMaC encapsule implicitement les intentions de mouvement spatial, les contraintes géométriques et les dynamiques physiques, sans redéfinir l'espace d'action pour chaque robot. Pour les intégrateurs et les équipes R&D, cela ouvre la perspective d'un contrôleur unique déployable sur des flottes hétérogènes - bras Franka, UR, humanoïdes - sans reconfiguration. Nuance importante : l'article valide la méthode sur des "real-world robotic scenarios" sans préciser les plateformes ni les métriques de déploiement, ce qui invite à une lecture prudente des gains annoncés. iMaC s'inscrit dans la vague des modèles de monde incarnés et des architectures VLA (Vision-Language-Action) qui structurent la recherche robotique depuis 2023-2024, aux côtés de pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). Sa singularité tient à l'abandon des encodages cinématiques explicites au profit d'une représentation visuelle continue, une piste explorée différemment via les action-chunking transformers dans des travaux académiques récents. À ce stade, iMaC demeure une préimpression arXiv, sans déploiement industriel ni partenariat avec un constructeur de robots. Les prochaines étapes naturelles passeraient par une validation sur des plateformes standardisées comme ALOHA ou BridgeData V2, et une confrontation sur les benchmarks RLBench ou MetaWorld pour objectiver les gains de généralisation revendiqués.

RechercheOpinion
1 source
Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange
544arXiv cs.RO 

Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange

Un groupe de chercheurs publie sur arXiv (2606.09640v1, juin 2026) un framework d'apprentissage résiduel structuré pour corriger les modèles de dynamique robot basés sur le formalisme d'Euler-Lagrange. L'approche décompose l'écart entre le modèle nominal et la dynamique réelle en trois composantes : une correction d'inertie, le terme de Coriolis induit correspondant, et un résidu de force généralisée. La composante mécanique est apprise sous contraintes physiques explicites (symétrie, définie-positivité de la matrice d'inertie), tandis que la composante perturbatrice est représentée par un modèle d'interaction latent sparse dépendant de l'historique, adapté en ligne par régression linéaire bayésienne. Les validations couvrent trois types de plateformes : robots mobiles, systèmes aériens et bras manipulateurs, sur des scénarios de dynamique couplée et variable dans le temps. L'enjeu est structurel. La quasi-totalité des méthodes de correction par apprentissage résiduel introduisent un unique terme additif sans contraindre sa forme physique, ce qui dégrade les invariants mécaniques fondamentaux : symétrie de la matrice d'inertie, couplage cohérent entre termes inertiels et termes de vitesse. En pratique, un contrôleur modèle embarquant un tel résidu non contraint risque de produire des prédictions physiquement incohérentes aux limites de l'espace de travail ou sous charges variables. La séparation proposée contraint structurellement la partie mécanique et réserve l'adaptation bayésienne en ligne à la seule composante de perturbation, là où la plasticité est réellement nécessaire. Les auteurs rapportent une amélioration mesurable de la prédiction de dynamique et du suivi de trajectoire, mais les résultats restent au stade expérimental sur plateformes de laboratoire, sans données de déploiement industriel. Le contexte est celui d'une tension persistante dans la robotique à base de modèles : les formulations analytiques d'Euler-Lagrange sont précises en conditions nominales mais se dégradent sous variation de charge utile, friction non modélisée, effets aérodynamiques ou couplages imprévus. Ce travail s'inscrit dans un courant actif de physics-informed learning, aux côtés des Hamiltonian Neural Networks (Greydanus et al., 2019) et des approches par processus gaussiens à noyaux structurés. La différenciation réside dans l'adaptation online sélective via régression bayésienne, computationnellement plus légère que les GPs complets. Le preprint n'annonce ni partenariat industriel ni roadmap commerciale ; les extensions naturelles iraient vers les manipulateurs humanoïdes et la validation sous contraintes temps réel strictes.

RecherchePaper
1 source
AetheRock : un système d'enseignement robotique porté au bras pour l'apprentissage vision-tactile guidé par la force
545arXiv cs.RO 

AetheRock : un système d'enseignement robotique porté au bras pour l'apprentissage vision-tactile guidé par la force

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.09777) les spécifications d'AetheRock, un dispositif portable fixé à l'avant-bras humain destiné à la collecte synchronisée de données de force, de vision et de toucher pour l'apprentissage robotique. Le système intègre au bout des doigts un capteur visuo-tactile modulaire baptisé GelSlim-MiniFab, conçu pour être fabriqué facilement, ainsi qu'un capteur de pression résistif positionné à la zone de contact du doigt humain, un module PCB sur mesure et un kit ergonomique pour des sessions de collecte prolongées. En parallèle, les auteurs introduisent ForceVT, un framework d'apprentissage par représentation qui exploite les signaux de force et de vision pour guider l'apprentissage tactile de manière agnostique à la fidélité du capteur, c'est-à-dire sans hypothèse rigide sur la qualité ou la cohérence des données tactiles entrantes. Le verrou technique adressé est réel : les capteurs tactiles à base de gel (famille GelSight, GelSlim) souffrent d'inconsistances de fabrication et d'usure qui dégradent les politiques apprises lors du déploiement. ForceVT tente de découpler la représentation apprise des artefacts propres à chaque exemplaire de capteur, ce qui, si confirmé à plus grande échelle, réduirait le coût de calibration et améliorerait le transfert sim-to-real pour les tâches de manipulation en contact riche (assemblage, vissage, insertion de connecteurs). Les expériences en conditions réelles mentionnées dans le preprint indiquent une "efficacité des données qualifiée" et une atténuation des inefficacités liées aux inconsistances, sans cependant fournir de métriques quantitatives précises comparables entre méthodes. AetheRock s'inscrit dans une vague de systèmes de télé-opération et de collecte de démonstrations portables apparus depuis 2023, dont UMI (Universal Manipulation Interface, Stanford) et ALOHA (Berkeley), qui cherchent tous à rendre la collecte de données de manipulation haute qualité moins coûteuse et plus accessible. Le capteur GelSlim-MiniFab est une déclinaison miniaturisée de la famille GelSlim issue des travaux du MIT et de CMU. Du côté des acteurs industriels, Meta Research développe le capteur DIGIT sur une philosophie similaire de faible coût et de reproductibilité. Ce travail est un preprint non encore évalué par les pairs ; les performances annoncées restent à reproduire indépendamment avant toute intégration en production.

RecherchePaper
1 source
Conception d'actionneurs souples poreux à déformation programmable par anisotropie volumétrique
546arXiv cs.RO 

Conception d'actionneurs souples poreux à déformation programmable par anisotropie volumétrique

Des chercheurs présentent dans un preprint arXiv (2512.12320v2) une méthode de conception d'actionneurs pneumatiques souples à base de mousse poreuse, capable de produire des déformations programmées à partir d'incisions géométriques pratiquées directement dans le corps de la mousse. Le principe repose sur une entrée vacuumatique globale unique : selon le motif d'incision appliqué à un substrat cylindrique en mousse élastomère, l'actionneur exécute soit une flexion (motif transversal, jusqu'à 80° avec N=2 rangées de découpes), soit un basculement (motif longitudinal, 18°, N=1), soit une torsion (motif diagonal, 115°, N=8). Les angles de déformation sont validés expérimentalement et corrélés à un modèle de simulation par éléments finis (FEA). En application finale, les auteurs ont traduit la carte des plis de la main humaine en un patron d'incision fonctionnel, produisant une main robotique souple capable de saisies adaptatives anthropomorphes, sans recours à des moules complexes. L'intérêt industriel de cette approche tient à l'élimination du lien fort entre géométrie de l'actionneur et type de mouvement, qui est la contrainte principale des actionneurs pneumatiques creux classiques (chambres élastomères de type PneuNets ou fiber-reinforced). Ici, un même substrat cylindrique standard produit trois modalités distinctes selon la seule variable du motif de découpe, ce qui simplifie radicalement le processus de prototypage et ouvre la voie à des actionneurs reconfigurables sans refonte de moule. Pour les intégrateurs en cobotique légère, chirurgie assistée, ou manipulation de produits fragiles, le prototypage sans moule et la scalabilité revendiquée réduisent le délai d'itération de conception. Les performances annoncées (notamment la torsion à 115°) sont issues d'essais expérimentaux dont le protocole reste limité à l'article, sans données de durabilité cyclique ni de charge utile. Les actionneurs souples pneumatiques à chambre creuse dominent le domaine depuis les travaux fondateurs de la Harvard Whitesides Group et du projet Soft Robotics Toolkit (2013-2018). Les approches concurrentes mobilisent la solidification granulaire (jamming), les matériaux à rigidité variable, ou les actionneurs à câbles tendus. L'utilisation de mousse poreuse comme substrat fonctionnel reste relativement peu explorée malgré ses propriétés de stabilité structurelle intrinsèque. Ce travail reste au stade académique : aucun partenaire industriel, aucune timeline de transfert ni pilot annoncés dans le preprint. Les prochaines étapes naturelles seraient la caractérisation en durée de vie, le test sous charge, et l'intégration dans des systèmes multi-actionneurs coordonnés.

RecherchePaper
1 source
Algorithme de cinématique inverse par branch-and-bound à intervalles pour la résolution globalement optimale de la redondance
547arXiv cs.RO 

Algorithme de cinématique inverse par branch-and-bound à intervalles pour la résolution globalement optimale de la redondance

Un préprint révisé sur arXiv (identifiant 2104.12183v2) propose une méthode d'embranchement et de délimitation par intervalles (interval branch-and-bound) pour résoudre le problème général de cinématique inverse (IK) des bras manipulateurs. L'objectif central est de calculer la variété d'auto-mouvement (self-motion manifold, SMM) : l'ensemble complet de toutes les configurations articulaires admissibles permettant d'atteindre une pose précise de l'effecteur terminal. L'algorithme combine cette exploration exhaustive avec un solveur IK numérique rapide utilisé comme heuristique de recherche pour accélérer le parcours de l'espace de solutions. Les expériences numériques portent sur des manipulateurs redondants et non redondants, sans préciser de plateforme hardware particulière ni de robot commercial testé. L'intérêt principal de cette approche réside dans la nature de ses sorties : là où les méthodes par échantillonnage (sampling-based) génèrent des solutions isolées et indépendantes dans l'espace articulaire, la méthode proposée produit des nappes de solutions voisines qui préservent la géométrie locale de la SMM. Cette continuité est précieuse pour la planification de trajectoires optimales, le contrôle en temps réel et l'évitement de singularités. L'algorithme fonctionne également en mode anytime : il retourne des solutions sous-optimales utilisables même si le calcul est interrompu avant convergence complète, propriété utile dans les systèmes à contraintes temps-réel. Cela dit, la validation reste purement numérique en simulation, sans tests sur hardware physique ni benchmarks comparatifs face aux solveurs IK courants tels que KDL, TRAC-IK ou BioIK, ce qui limite la portée des affirmations de performance. Publié initialement en 2021 puis révisé (v2), ce travail s'inscrit dans une ligne de recherche active autour de la résolution globale de l'IK pour bras redondants, défi classique en robotique industrielle et collaborative. Les approches concurrentes incluent les méthodes analytiques (limitées aux architectures simples), les solveurs numériques locaux (rapides mais sensibles aux minima locaux) et les méthodes d'apprentissage automatique (coûteuses à entraîner, peu généralisables hors distribution). La contribution est algorithmique et théorique ; aucune implémentation open-source ni intégration dans des frameworks standards comme MoveIt! n'est mentionnée, ce qui constitue la prochaine étape naturelle vers une adoption industrielle concrète.

RecherchePaper
1 source
Formation de formes pour le transport coopératif d'objets quelconques par apprentissage par renforcement multi-agents
548arXiv cs.RO 

Formation de formes pour le transport coopératif d'objets quelconques par apprentissage par renforcement multi-agents

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.09610v1) une approche par apprentissage par renforcement multi-agents (MARL) pour résoudre un problème concret de robotique collaborative : positionner automatiquement un groupe de robots mobiles sous un objet afin de le transporter de façon stable. La méthode décompose la tâche en trois sous-problèmes couplés, contrôle de formation, navigation coopérative et évitement de collisions, et produit des politiques permettant à la flotte de s'aligner sous l'objet, d'équilibrer son poids malgré une distribution de masse non uniforme, et de naviguer dans des environnements encombrés. Les expériences portent sur des configurations variées (nombre de robots variable, géométries d'objets complexes, scènes avec obstacles) sans que les auteurs précisent le nombre exact de robots testés ni les temps de cycle obtenus. Le principal apport industriel de ces travaux est la généralisation à des objets de forme arbitraire et à masse mal distribuée, ce qui représente la réalité de la plupart des charges en logistique ou en services. Les approches classiques supposent des objets symétriques ou des points de contact prédéfinis manuellement ; ici, la politique apprise s'adapte au vol à la géométrie de la charge. Pour un intégrateur ou un COO industriel, cela signifie potentiellement moins de paramétrage manuel par référence produit. Le paper démontre également une robustesse en environnement encombré, ce qui est un prérequis pour un déploiement en entrepôt réel. Il faut toutefois noter que les résultats présentés restent en simulation : aucune validation hardware n'est rapportée, et le fossé sim-to-real reste l'obstacle non résolu habituel de ce type de travaux. Ce preprint s'inscrit dans un courant actif de recherche MARL appliqué aux systèmes multi-robots physiques, en compétition avec des approches centralisées (planification MPC couplée) ou décentralisées par consensus. Côté industrie, des acteurs comme 6 River Systems, Locus Robotics ou les plateformes AMR d'OTTO Motors adressent des problèmes adjacents mais avec des charges standardisées sur des robots dédiés. Aucun partenariat industriel ni timeline de transfert vers le réel n'est mentionné dans cet article ; il s'agit d'une contribution académique ouvrant la voie à des validations expérimentales futures.

RecherchePaper
1 source
Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion
549arXiv cs.RO 

Latent Diffusion Policy : structurer les espaces latents pour la manipulation robotique par diffusion

Une équipe de chercheurs propose dans un preprint arXiv publié en juin 2026 (réf. 2606.08657) une architecture baptisée Latent Diffusion Policy (LDP), conçue pour améliorer les politiques visuomotrices basées sur la diffusion appliquées à la manipulation robotique. LDP fonctionne en deux étapes : un encodeur CVAE (variational autoencoder conditionnel) conditionné par l'observation absorbe d'abord la compréhension de la scène, puis un modèle de flow matching génère les trajectoires dans cet espace latent pré-structuré. Pour gérer les dépendances temporelles entre tokens, les auteurs introduisent un entraînement par diffusion forcing par token et un schéma d'inférence en escalier (staircase inference sampling) pour corriger le décalage de distribution qui en résulte. Ils proposent également la rFID (reconstruction FID) comme métrique proxy légère permettant de prédire le succès d'une tâche à partir des seules statistiques de l'espace latent, sans nécessiter d'évaluation complète en simulation. Sur le benchmark RoboTwin 2.0, LDP surpasse DP3 par une marge qualifiée de "substantielle", et les auteurs rapportent un transfert effectif vers des déploiements réels en manipulation bimanuelle. L'enjeu technique central que LDP cherche à résoudre est réel : les politiques de diffusion opérant directement dans l'espace d'action brut imposent à un seul processus de débruitage de gérer simultanément l'interprétation de la scène et la planification précise de trajectoires, ce qui augmente la complexité d'apprentissage et pénalise notamment les tâches exigeant une coordination temporelle fine entre plusieurs bras. Séparer ces deux responsabilités dans un cadre à deux étages est une approche structurellement cohérente. La rFID, si elle se confirme empiriquement, pourrait réduire significativement le coût d'évaluation des politiques en simulation. Cela dit, l'abstract ne fournit pas de chiffres de performance quantitatifs précis, ce qui rend difficile l'évaluation indépendante de la "marge substantielle" revendiquée face à DP3. Ce travail s'inscrit dans un champ très actif depuis la publication de Diffusion Policy (Chi et al., 2023) et de DP3, qui ont établi la diffusion comme paradigme dominant pour l'imitation de comportements robotiques complexes. Le flow matching, plus efficace que la diffusion classique en nombre d'étapes d'inférence, s'y impose progressivement. Les approches concurrentes incluent ACT, RDT-1B et pi-zero (Physical Intelligence), qui explorent d'autres voies pour combiner compréhension visuelle et contrôle moteur à grande échelle. LDP reste pour l'instant un résultat académique sans annonce de déploiement industriel ou de partenariat commercial, et RoboTwin 2.0 est un benchmark de simulation dont le gap sim-to-réel méritera une validation plus large.

RechercheOpinion
1 source
Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes
550arXiv cs.RO 

Cadre hiérarchique unifiant modèles du monde centrés objets et Diffusion Policy pour tâches robotiques multi-étapes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (référence 2606.08775) un framework baptisé WorldDP, conçu pour résoudre le problème de la manipulation robotique multi-étapes. L'architecture est hiérarchique : un modèle du monde de haut niveau sert de fonction de transition au sein d'un cadre MPC (Model Predictive Control) et optimise des sous-objectifs intermédiaires à l'exécution, tandis qu'une Diffusion Policy de bas niveau se charge d'atteindre concrètement chacun de ces sous-objectifs. Pour structurer la planification, les auteurs introduisent des représentations object-centric qui découplent les entités de l'environnement, permettant au planificateur de raisonner séquentiellement sur chaque objet indépendamment. Évalué sur plusieurs benchmarks de manipulation robotique standards, WorldDP surpasse les baselines existantes selon les auteurs, résultat à prendre comme une affirmation de preprint, sans replication externe à ce stade. Ce travail s'attaque à un verrou reconnu du domaine : les modèles du monde visuels, aussi performants soient-ils sur des tâches isolées comme le reaching ou le grasping, échouent structurellement dès que la tâche exige plusieurs étapes causalement enchaînées. Pour un intégrateur ou un COO industriel, cela touche directement à l'exploitabilité réelle des robots manipulateurs en ligne de production, où les séquences pick-and-place complexes sont la norme. Le couplage entre la planification physiquement ancrée d'un world model et l'exécution fluide d'une Diffusion Policy représente une piste sérieuse pour réduire le sim-to-real gap sur des tâches longue horizon, sans nécessiter de démonstrations humaines exhaustives pour chaque variante de tâche. La Diffusion Policy, popularisée par Chi et al. en 2023, est devenue l'une des architectures de référence pour l'imitation learning en robotique, mais elle reste principalement réactive et peu adaptée au raisonnement causal multi-étapes. Les approches VLA (Vision-Language-Action), portées par Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, intègrent du raisonnement de haut niveau mais via des LLM, avec une latence et un coût computationnel élevés. WorldDP explore une voie intermédiaire, purement visuelle et sans langage, plus proche en philosophie des travaux sur les modèles du monde latents (DreamerV3, RSSM). Il s'agit d'un preprint académique sans déploiement industriel annoncé ; les prochaines étapes naturelles seraient une validation sur hardware réel et des benchmarks comparatifs face aux pipelines VLA actuels.

RechercheOpinion
1 source