Aller au contenu principal

Dossier arXiv cs.RO — page 16

2192 articles · page 16 sur 44

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Manipulation non préhensile orientée saisie par apprentissage d'un champ de préhensibilité
751arXiv cs.RO RecherchePaper

Manipulation non préhensile orientée saisie par apprentissage d'un champ de préhensibilité

Une équipe de chercheurs a publié le 30 juin 2026 un preprint (arXiv:2606.30474) présentant une nouvelle approche de la manipulation non-préhensile orientée vers la saisie robotique. La manipulation non-préhensile désigne l'ensemble des techniques qui repositionnent un objet sans le saisir directement (poussée, glissement, basculement), typiquement utilisées comme étape préparatoire avant une prise ferme. L'innovation centrale est un "champ de saisissabilité" (graspability field) : au lieu de cibler une pose précise prédéfinie, le système apprend à mesurer, pour chaque configuration de l'objet, dans quelle mesure cette configuration est propice à une saisie réussie. Cette mesure scalaire dense sert de signal d'apprentissage pour un algorithme de renforcement (RL), et détermine automatiquement quand arrêter la phase de manipulation pour passer à la prise. Les expériences ont été conduites à la fois en simulation et sur un robot physique réel, confirmant que la politique apprise reconfigure fiablement les objets en états saisissables sans planificateur externe ni condition d'arrêt définie manuellement. L'intérêt industriel de cette approche réside dans l'élimination d'une contrainte longtemps considérée comme incontournable : la nécessité de spécifier a priori une pose cible pour l'objet. En pratique, un intégrateur robotique sait qu'un objet doit être saisi, mais pas toujours dans quelle orientation exacte. En reformulant le problème comme optimisation d'un objectif de saisissabilité, les auteurs obtiennent un pipeline fermé piloté par une seule politique, sans recours à un planificateur de mouvement séparé. La corrélation mesurée entre la distance de saisissabilité prédite et le taux de succès de saisie réelle est un résultat notable : elle indique que la représentation apprise capture effectivement la faisabilité de la prise, et pas seulement un comportement émergent de la simulation. La manipulation non-préhensile est un domaine de recherche classique en robotique, mais le couplage direct avec un objectif de saisissabilité apprend est une contribution plus récente, rendue possible par la maturité des méthodes RL appliquées à la manipulation. Ce travail s'inscrit dans une tendance plus large qui cherche à réduire le fossé simulation-réalité (sim-to-real gap) pour des tâches de manipulation fine, aux côtés d'approches comme les politiques de diffusion ou les architectures vision-langage-action (VLA). Aucune entreprise partenaire ni timeline de déploiement n'est mentionnée dans ce preprint purement académique. Les suites logiques incluent l'intégration de ce champ de saisissabilité dans des pipelines de manipulation industrielle multi-étapes et son couplage avec des modèles de fondation capables de raisonner sur des catégories d'objets variées.

1 source
DRIVE-Nav : raisonnement directionnel, inspection et vérification pour une navigation efficace à vocabulaire ouvert
752arXiv cs.RO 

DRIVE-Nav : raisonnement directionnel, inspection et vérification pour une navigation efficace à vocabulaire ouvert

Des chercheurs ont publié DRIVE-Nav, un framework pour la navigation en vocabulaire ouvert (OVON, Open-Vocabulary Object Navigation), qui permet à un agent robotique de localiser un objet désigné en langage naturel dans un environnement inconnu. La méthode structure l'exploration autour de "directions persistantes" plutôt que de frontières brutes classiques, en restreignant les décisions à un champ de vue frontal de 240 degrés. Les candidats directionnels sont extraits via une méthode Fast Marching Method (FMM) pondérée, combinée à un enrichissement de prompts vision-langage et une vérification inter-frames pour améliorer la fiabilité du grounding sémantique. Sur le benchmark HM3D-OVON, DRIVE-Nav atteint 50,2 % de taux de succès (SR) et 32,6 % de SPL (Success weighted by Path Length, mesure d'efficacité du chemin), surpassant la meilleure méthode précédente de 1,9 points SR et 5,6 points SPL. Le système obtient également le meilleur SPL sur trois autres benchmarks standard : HM3Dv1, HM3Dv2 et MP3D. Une validation sur robot humanoïde physique est mentionnée. Le gain de 5,6 points de SPL est le résultat le plus structurellement significatif : il indique que l'agent atteint ses cibles non seulement avec succès, mais via des chemins plus courts, ce qui est directement pertinent pour les applications industrielles où le temps de cycle est un critère opérationnel. L'approche s'attaque à un problème récurrent des méthodes zero-shot : la redondance des candidats frontières et les re-visites coûteuses. En maintenant un registre de directions déjà inspectées, DRIVE-Nav réduit l'overhead panoramique que l'on reproche aux méthodes topology-aware. Le déploiement sur humanoïde, bien que brièvement mentionné sans détails de conditions ni métriques, suggère une transférabilité sim-to-real partielle. La navigation OVON est un sous-domaine de l'embodied AI en croissance rapide depuis 2022, porté par les progrès des modèles vision-langage de type CLIP et LLaVA. Les méthodes concurrentes incluent ESC, OpenFMNav et diverses approches zéro-shot basées sur LLM. DRIVE-Nav s'inscrit comme une amélioration incrémentale mais solide de cette famille, sans rupture architecturale majeure. Les benchmarks HM3D et MP3D sont les standards de facto du domaine, développés par Meta Research. Ce travail est une preprint arXiv (2603.28691v2, version révisée), non encore peer-reviewed au moment de la publication. Aucun laboratoire ou industriel européen n'est impliqué.

RecherchePaper
1 source
Estimation de la pose 6-DOF d'un objet à partir d'un seul contact tactile
753arXiv cs.RO 

Estimation de la pose 6-DOF d'un objet à partir d'un seul contact tactile

Une équipe de recherche publie sur arXiv (réf. 2606.28899) YOTO, pour "You Only Touch Once", un système d'estimation de pose 6-DoF fondé exclusivement sur le toucher. Contrairement aux approches visuelles classiques, YOTO reconstruit la position et l'orientation complète d'un objet à partir d'une seule paire de contacts tactiles simultanés, sans nécessiter d'historique de manipulation. Chaque contact est modélisé comme un nuage de points 3D local, puis localisé sur la surface de l'objet par un réseau coarse-to-fine. Les deux contacts localisés, combinés aux poses calibrées des capteurs, alimentent un solveur SVD en forme fermée, conscient des normales de surface, qui restitue la pose 6-DoF en une seule passe. Le réseau est préentraîné sur des patches tactiles virtuels générés depuis le modèle 3D de l'objet, puis affiné avec un petit nombre de contacts réels, réduisant significativement les besoins en données terrain. Les expériences portent sur quatre objets aux géométries variées avec des capteurs GelSight, et incluent une évaluation comparative entre reconstructions issues de scans mobiles grand public et modèles CAO de référence. Ce travail s'attaque à un angle mort bien documenté de la manipulation robotique : les méthodes visuelles de pose estimation échouent systématiquement en cas d'occlusion, d'éclairage défavorable, ou face à des surfaces réfléchissantes et transparentes, conditions courantes en environnement industriel réel. L'approche à contact unique sans historique constitue un avantage pratique majeur, car elle élimine les séquences d'exploration multi-contacts et s'intègre dans des boucles de manipulation courtes. YOTO surpasse les baselines visuelles et géométriques testées dans les scénarios où la perception visuelle est dégradée. La compatibilité avec des scans mobiles plutôt que des modèles CAO précis abaisse la barrière d'intégration pour des objets non catalogués, un point non négligeable pour les intégrateurs industriels. L'estimation de pose par capteurs tactiles de type GelSight est un axe de recherche actif depuis les travaux pionniers du MIT et de l'entreprise éponyme GelSight Inc. Les méthodes antérieures nécessitaient généralement plusieurs contacts successifs ou un historique de manipulation pour converger ; YOTO rompt avec cette contrainte. Sur le plan compétitif, les pipelines visuels basés sur des modèles de fondation (MegaPose, FoundPose, benchmarks BOP) restent dominants en conditions nominales, mais leur robustesse aux surfaces dégradées est limitée, c'est précisément là que le toucher devient complémentaire. Le code, les modèles entraînés et le jeu de données GelSight seront publiés à l'acceptation de l'article. À ce stade, il s'agit d'un preprint arXiv sans déploiement annoncé ni partenaire industriel identifié.

RecherchePaper
1 source
RoboGaze : évaluer les modèles du monde robotiques via l'analyse vision-langage structurée
754arXiv cs.RO 

RoboGaze : évaluer les modèles du monde robotiques via l'analyse vision-langage structurée

Une équipe de recherche a soumis en juin 2026 sur arXiv (réf. 2606.28385) RoboGaze, un framework d'évaluation multi-agents basé sur des modèles de vision-langage (VLM) pour analyser les vidéos générées par des world models robotiques. Sans entraînement spécifique, son pipeline à trois étapes enchaîne un ancrage tâche-scène, un routage vers des agents spécialistes par dimension d'analyse, puis une vérification critique, produisant des rapports de défauts temporellement localisés selon une taxonomie originale en 6 dimensions et 30 types propres à la robotique. Les auteurs ont constitué un jeu de données de référence de 382 clips validés humainement, couvrant simulation et manipulation réelle en multi-vues. Évalué sur huit backbones VLM open-source et propriétaires, RoboGaze améliore le F1 de description jusqu'à +43 points et l'alignement temporel (F1 x IoU) jusqu'à +37 points face aux baselines zero-shot, comblant 85 % de l'écart avec l'évaluateur humain. Ce travail répond à un problème structurel croissant : les world models génèrent des vidéos visuellement convaincantes qui violent pourtant régulièrement les lois physiques, la cohérence temporelle ou la logique de tâche, des défauts que les métriques classiques comme FID ou SSIM ne détectent pas. Les VLMs utilisés en juges monolithiques souffrent par ailleurs du biais dit "cry-wolf" : ils signalent des erreurs sur des clips corrects dans plus de 75 % des cas, rendant leur diagnostic inexploitable en pratique. Le module critic de RoboGaze corrige ce biais, faisant passer la précision sur les clips propres de moins de 25 % à plus de 80 %, ce qui en fait un outil de diagnostic scalable et interprétable pour les équipes qui entraînent ou benchmarkent des modèles génératifs pour la planification robotique. Les world models pour robots incarnés constituent depuis 2024 un axe de recherche en forte croissance, avec des travaux comme UniSim, IRASim ou les approches de planification en espace latent, mais l'évaluation rigoureuse de leurs sorties vidéo restait un angle mort méthodologique. RoboGaze se positionne face aux approches d'évaluation monolithiques en proposant une architecture modulaire et diagnostique, plus proche des pratiques de validation industrielle. En tant que préimpression, les performances annoncées restent à confirmer par révision par les pairs et sur des distributions hors-domaine ; les auteurs ne mentionnent pas de transfert industriel immédiat, mais la nature training-free du système facilite son intégration dans des pipelines d'évaluation existants.

RechercheOpinion
1 source
AERIS : intelligence à rôles en temps réel via un essaim orchestré de modèles de langage en périphérie aérienne
755arXiv cs.RO 

AERIS : intelligence à rôles en temps réel via un essaim orchestré de modèles de langage en périphérie aérienne

Une équipe de chercheurs publie sur arXiv (référence 2606.30151, soumis fin juin 2026) AERIS, un framework de déploiement edge conçu pour embarquer des modèles de langage sur des plateformes aériennes autonomes. L'architecture organise plusieurs petits modèles de langage spécialisés (SLM), associés à des modules de perception et de contrôle allégés, en "rôles" réassignables dynamiquement à l'exécution selon les ressources disponibles à bord. Pour respecter les contraintes de scheduling cadencées par heartbeat propres aux systèmes aériens, AERIS découple un planificateur basse fréquence et un contrôleur haute fréquence, maintenant une boucle perception-décision-contrôle closed-loop en temps réel. La décomposition d'instructions à long horizon repose sur un mécanisme dit "attention-subgoal alignment" : l'étape active de l'instruction est annotée dans les messages entre modules, permettant une progression incrémentale vers l'objectif global. Le framework a été évalué sur un benchmark VLN (Vision-and-Language Navigation) haute fidélité pour UAV, et deux expériences en conditions réelles ont validé capacité de planification et réactivité. Ce travail s'attaque à un verrou bien identifié : la quasi-totalité des architectures LLM+robot supposent une connectivité cloud continue ou des ressources de calcul embarquées peu réalistes pour un drone. AERIS démontre qu'un raisonnement en langage naturel peut tourner localement sur UAV en substituant la taille des modèles par une orchestration fine des rôles. Le rebinding dynamique est potentiellement utile pour des flottes hétérogènes où les ressources varient d'une unité à l'autre. La limite notable : les deux expériences terrain restent des preuves de concept ciblées, sans métriques de déploiement à l'échelle, ni taux de succès mesuré en environnement non structuré. L'intégration de LLMs dans les robots mobiles est portée depuis 2023 par SayCan (Google DeepMind), PaLM-E et les frameworks VLA comme Pi-0 de Physical Intelligence, mais ces travaux visent principalement les manipulateurs terrestres. Dans l'aérien, les contraintes énergétiques et de latence sont plus sévères, ce qui explique que la plupart des démos LLM+drone restent connectées au cloud. Des approches concurrentes sur l'inférence embarquée légère, notamment autour d'EdgeLLM ou des travaux de Microsoft Research sur les modèles compressés, explorent un espace voisin, mais rarement sur UAV. Aucun acteur européen n'est impliqué dans ce preprint. AERIS demeure un résultat académique sans partenaire industriel identifié ni roadmap de commercialisation ; la suite logique serait une validation sur flotte multi-agents en milieu dynamique non contrôlé.

RecherchePaper
1 source
IA incarnée : automatisation de la conception d'architectures d'agents
756arXiv cs.RO 

IA incarnée : automatisation de la conception d'architectures d'agents

Une équipe de chercheurs a publié fin juin 2026 (arXiv:2606.30111) une étude sur l'automatisation de la conception d'architectures d'agents incarnés. Ils introduisent AgentCanvas, un environnement d'exécution à graphe typé qui représente les pipelines de perception, mémoire, planification et action comme des programmes nœud-à-fil éditables, et KDLoop, une procédure de recherche par agent codeur alternant proposition, critique, expérimentation et distillation, avec des réflexions déclenchées en cas de stagnation. L'évaluation suit une matrice 3x4 : trois variantes d'Agent Architecture Search (AAS) testées sur quatre tâches incarnées couvrant la navigation vision-langage, la réponse à des questions situées (embodied QA) et la manipulation conditionnée par le langage. Les résultats montrent des gains directionnels de taux de succès, mais un candidat apparemment performant a été écarté après détection d'une fuite de données (leak-bearing). L'intérêt de ces travaux réside dans le transfert, pour la première fois de façon systématique, des méthodes AAS -- jusqu'ici cantonnées aux agents textuels -- vers des agents perceptifs en simulation. Pour les architectes de systèmes cognitifs, cela ouvre la possibilité d'automatiser partiellement le choix de stockage de l'information, du traitement des observations et de l'enchaînement des appels de modèles, tâche jusqu'ici confiée à l'intuition des chercheurs. Les auteurs identifient cependant trois contraintes propres à l'incarné, absentes dans les benchmarks textuels : le bruit de rollout masque les signaux d'optimisation, la recherche se piège dans des bassins d'édition locaux, et l'attribution de crédit épisodique reste partielle même avec des journaux détaillés. La détection d'un candidat corrompu par fuite de données illustre par ailleurs un risque d'évaluation spécifique aux environnements simulés, où l'agent peut exploiter des artefacts de la simulation plutôt que résoudre la tâche réelle. Ces travaux s'inscrivent dans la mouvance des méthodes de méta-design d'architectures cognitives, appliquées ici à la couche système plutôt qu'aux poids des modèles. Les benchmarks dominants en navigation vision-langage (R2R, ALFRED) restent maîtrisés par des architectures manuelles, et des frameworks comme LangGraph ou AutoGen couvrent l'espace des agents textuels sans gestion de rollout simulé. Aucun acteur européen ou français n'est impliqué dans cette publication. Les prochaines étapes identifiées par les auteurs incluent l'extension à des environnements physiques réels et le renforcement de KDLoop face au bruit de rollout, deux verrous explicites avant toute applicabilité industrielle.

RecherchePaper
1 source
Les modèles d'action du monde permettent un apprentissage par imitation continu avec rejeu génératif récurrent
757arXiv cs.RO 

Les modèles d'action du monde permettent un apprentissage par imitation continu avec rejeu génératif récurrent

Publiés en juin 2026 sur arXiv (référence 2606.27374), des chercheurs présentent REGEN (Recurrent Generative Replay), un cadre d'apprentissage continu par imitation fondé sur les World Action Models (WAMs). Contrairement aux modèles de politique classiques qui se contentent de prédire les actions du robot, les WAMs génèrent également des observations visuelles futures, combinant ainsi deux capacités distinctes dans un seul modèle. REGEN exploite cette dualité en interrogeant récursivement le WAM pour synthétiser des trajectoires de pseudo-replay, conditionnées uniquement sur les instructions des tâches antérieures et les observations de la tâche courante. Testée en simulation et en manipulation réelle, l'approche réduit l'oubli catastrophique de 50 % en comparaison au fine-tuning séquentiel classique, tout en s'approchant des performances des méthodes dites "privileged" qui, elles, conservent l'accès aux démonstrations humaines originales. L'enjeu industriel est direct : l'oubli catastrophique constitue l'un des verrous majeurs au déploiement continu de robots en environnement réel. Dès qu'un système est refiné sur une nouvelle tâche, il dégrade ses capacités acquises précédemment. Les solutions actuelles imposent de conserver les démonstrations humaines originales, ce qui soulève des contraintes de stockage, de coût de collecte et parfois de confidentialité des données opérationnelles. REGEN casse cette dépendance : le robot répète mentalement ses tâches passées sans jamais avoir besoin des vidéos source. Cela ouvre la voie à des déploiements adaptatifs dans des cellules de production ou d'entrepôt où les tâches évoluent en continu. Le gain de 50 % reste cependant partiel, et les auteurs reconnaissent que leur méthode n'atteint pas encore le niveau des méthodes ayant accès aux données réelles. Le travail s'inscrit dans la dynamique des world models appliqués à la robotique, un axe de recherche en forte accélération depuis 2023 porté par des acteurs comme Physical Intelligence (avec π0), Google DeepMind, ou NVIDIA (GR00T N2). L'originalité de REGEN réside dans l'usage génératif du WAM pour l'apprentissage continu, plutôt que pour la planification ou le sim-to-real. Les auteurs identifient deux goulots d'étranglement principaux : la dégradation visuelle sur les horizons longs et l'incohérence entre actions générées et observations synthétisées, deux limites qui dessinent clairement l'agenda de recherche pour les prochaines itérations. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné ; il s'agit à ce stade d'une contribution académique, non d'un produit déployé.

RechercheOpinion
1 source
VibeAct : la vibration comme signal pour la dextérité réactive des robots en contact
758arXiv cs.RO 

VibeAct : la vibration comme signal pour la dextérité réactive des robots en contact

Des chercheurs ont présenté VibeAct, un cadre de manipulation dextère publié sur arXiv en juin 2026, qui intègre des microphones piézoélectriques miniatures dans les doigts d'une main robotique pour détecter les événements de contact et de glissement. La méthode repose sur trois étapes : collecter des données vibro-acoustiques par téléopération, rejouer ces enregistrements dans un jumeau numérique calibré pour étiqueter automatiquement le contact et l'amplitude de glissement par doigt, puis entraîner un estimateur tactile sur les signaux microphone réels. En parallèle, les politiques de manipulation sont entraînées en simulation sur cette même représentation abstraite, et non sur l'audio brut. Le système a été évalué sur cinq tâches riches en contact : re-saisie, réorientation en main et insertion. L'enjeu central est le fossé simulation-réalité qui frappe la manipulation dextère : les événements de contact sont rapides, locaux et souvent masqués visuellement, ce qui rend leur simulation acoustique fidèle quasiment impossible. En découplant l'estimateur tactile, entraîné sur des données réelles, de la politique de contrôle, entraînée en simulation sur la représentation abstraite, le cadre contourne ce verrou sans avoir à modéliser l'audio. Le canal de glissement continu s'avère l'observation la plus informative pour le contrôle réactif soutenu. Sur les cinq tâches, VibeAct surpasse une baseline proprioception et nuage de points, avec les gains les plus nets sur les tâches nécessitant un ajustement continu de la prise. Les politiques apprises se transfèrent à une plateforme physique bras-main dextère, avec une amélioration mesurable des taux de succès. Ce travail s'inscrit dans une compétition dense entre modalités tactiles. Les capteurs à base de caméra comme GelSight ou DIGIT, développé par Meta, offrent une richesse spatiale supérieure mais restent encombrants et coûteux ; les microphones piézoélectriques sont compacts, bon marché et à haute bande passante, mais leur signal est difficile à simuler, d'où l'intérêt du découplage proposé. D'autres travaux exploitent la randomisation de domaine ou des simulations acoustiques approximatives pour tenter de franchir ce seuil. Aucun partenaire industriel ni déploiement commercial n'est annoncé : il s'agit à ce stade de recherche académique. Les prochaines étapes naturelles concernent la généralisation à des objets hors distribution et l'extension à des mains avec davantage de degrés de liberté.

RecherchePaper
1 source
Estimateur de pose inter-robot à 4 DoF en forme fermée par mesures angulaires seules
759arXiv cs.RO 

Estimateur de pose inter-robot à 4 DoF en forme fermée par mesures angulaires seules

Des chercheurs ont publié sur arXiv (identifiant 2606.26616) un estimateur analytique de pose inter-robot à 4 degrés de liberté (4-DOF) reposant exclusivement sur des mesures de relèvement (bearing-only), sans infrastructure externe ni GPS. La méthode fusionne l'angle d'observation entre robots pairs et les données d'odométrie embarquée pour estimer les positions relatives en temps réel. Contrairement aux approches 6-DOF existantes, l'estimateur résout le problème en forme fermée, supprimant toute optimisation itérative coûteuse en calcul. L'article identifie deux configurations critiques pour l'observabilité du système : les formations colinéaires (robots alignés sur un même axe) et les formations à forme préservée (déplacement en bloc rigide). Pour y répondre, un module de test d'observabilité autonome détermine dynamiquement l'instant optimal d'estimation, remplaçant la fenêtre glissante de longueur fixe utilisée classiquement. Ce travail intéresse directement les équipes déployant des flottes d'AMR, des essaims de drones et tout système multi-robot opérant en milieu GNSS-dégradé (entrepôts, souterrains, zones urbaines denses). La solution analytique réduit significativement le coût de calcul, la rendant déployable sur des plateformes embarquées à ressources limitées. Le choix du 4-DOF plutôt que 6 est délibéré : dans la plupart des contextes industriels au sol, les deux degrés résiduels sont mécaniquement contraints, et relâcher ces contraintes améliore la robustesse sans perte pratique de précision. Simulations et expériences réelles confirment que la méthode surpasse les approches concurrentes en précision tout en réduisant l'intervalle de collecte de données nécessaire à l'estimation. La localisation coopérative sans infrastructure est un axe de recherche actif depuis une décennie, porté par les limites du SLAM centralisé et l'essor des flottes autonomes. Les approches bearing-only précédentes souffraient systématiquement de la dégénérescence d'observabilité sous certains schémas de mouvement, rendant les estimations instables dans des configurations pourtant courantes. L'approche 4-DOF proposée réduit les exigences d'excitation du mouvement nécessaires à l'observabilité, élargissant ainsi l'enveloppe opérationnelle effective. À noter : les auteurs ne mentionnent ni partenaire industriel ni déploiement commercial, il s'agit d'une contribution académique préprint, pas d'un produit livré. Les extensions naturelles incluent le passage au 6-DOF complet pour les robots aériens, et l'intégration dans des middlewares standards comme ROS 2.

UEImpact indirect pour les équipes R&D européennes déployant des flottes d'AMR en environnements GNSS-dégradés (entrepôts, usines), mais aucune institution ou entreprise française/européenne impliquée dans ce preprint.

RecherchePaper
1 source
PressMimic : capture et contrôle de mouvement guidés par pression pour l'imitation par robot humanoïde
760arXiv cs.RO 

PressMimic : capture et contrôle de mouvement guidés par pression pour l'imitation par robot humanoïde

Des chercheurs ont publié le 26 juin 2026 sur arXiv (2606.26741) un framework baptisé PressMimic, conçu pour améliorer l'imitation de mouvements humains par les robots humanoïdes en intégrant la pression plantaire comme modalité de perception et de contrôle. Le pipeline combine trois briques : FRAPPE++, un modèle multimodal fusionnant RGB et données de pression pour estimer la pose 3D et la trajectoire globale d'un humain ; une politique d'apprentissage par renforcement supervisée par pression (PSP, Pressure-Supervised Policy) pour la reproduction sur le robot ; et MotionPRO, un jeu de données à grande échelle avec captures RGB, pression et motion capture synchronisées. Les résultats expérimentaux montrent des gains sur l'estimation de mouvement, la cohérence de trajectoire et la stabilité d'exécution, sans que les chiffres précis ne soient détaillés dans l'abstract, ils figurent dans l'article complet. Ce travail s'attaque à un problème concret et bien documenté en robotique humanoïde : les pipelines actuels reposant uniquement sur la vision produisent des artefacts physiquement incohérents, glissement des pieds, pénétration du sol, comportements instables à l'appui. En introduisant la pression comme signal d'ancrage physique (physical grounding), PressMimic impose des contraintes de contact explicites à la fois en perception et en contrôle, ce qui réduit l'ambiguïté inhérente à la seule estimation visuelle. Pour les équipes travaillant sur le sim-to-real et sur les politiques de locomotion, c'est un argument en faveur d'architectures multimodales intégrant des capteurs de force ou de pression dès la capture de données, pas seulement à l'exécution. L'imitation de mouvement humanoïde est un champ très actif : Boston Dynamics, Figure AI, Agility Robotics et des laboratoires académiques comme Stanford et CMU explorent des approches VLA (Vision-Language-Action) et RL pour la manipulation et la locomotion. PressMimic se distingue en ciblant explicitement la cohérence des contacts plutôt que la précision gestuelle seule, un angle complémentaire aux travaux sur les politiques diffuses (Pi-0 de Physical Intelligence) ou les politiques génératives. Il reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé ; la publication du dataset MotionPRO pourrait néanmoins accélérer la reproductibilité et l'adoption par d'autres équipes.

HumanoïdesPaper
1 source
Suivi de l'essor de l'IHR sociale-physique (spHRI) : revue systématique augmentée par de petits modèles de langage
761arXiv cs.RO 

Suivi de l'essor de l'IHR sociale-physique (spHRI) : revue systématique augmentée par de petits modèles de langage

Des chercheurs ont publié sur arXiv (2606.26382) une étude méthodologique sur l'utilisation de petits modèles de langage (SLMs, moins de 1,5 milliard de paramètres) pour accélérer les revues systématiques dans le domaine de l'interaction humain-robot sociale et physique (spHRI). L'équipe a évalué la capacité de ces modèles à effectuer le tri préliminaire de titres et de résumés dans le cadre d'une large revue de littérature spHRI. Aucun SLM testé individuellement n'a atteint le niveau de performance des relecteurs humains. En revanche, un ensemble de SLMs combinés a identifié 39 articles que les experts avaient manqués, soit 10,29 % du corpus final de documents pertinents. Ces modèles ont effectué le tri à une vitesse plusieurs ordres de grandeur supérieure à celle des relecteurs humains, en fonctionnant intégralement en local sur les machines des chercheurs. Le résultat clé est que les SLMs peuvent augmenter le travail des experts sans les remplacer. Dans un domaine comme la spHRI, qui recupe la robotique, l'interaction humain-ordinateur et l'haptique, la terminologie est fragmentée et les méthodologies inconsistantes, ce qui rend toute synthèse systématique difficile. Utiliser un ensemble de SLMs comme filet de sécurité permet de récupérer environ 10 % des articles pertinents qu'une révision humaine seule aurait manqués. Le déploiement local de ces modèles, contrairement aux APIs cloud, préserve la confidentialité des données de recherche, élimine les coûts d'inférence et rend les revues systématiques à grande échelle accessibles pour des équipes académiques aux ressources limitées. Cette étude s'inscrit dans une tendance plus large d'utilisation des LLMs pour accélérer la recherche scientifique, notamment pour le screening bibliographique, tâche chronophage et répétitive. Le choix délibéré de modèles inférieurs à 1,5B paramètres contraste avec le recours à des APIs comme GPT-4 ou Claude, qui offrent de meilleures performances individuelles mais imposent coûts et dépendances cloud. Les résultats valident un pipeline hybride humain + SLM local: les modèles effectuent un premier tri rapide, les experts valident. Pour les laboratoires gérant des revues de plusieurs milliers de papiers, ce type de pipeline pourrait réduire significativement la charge de travail sans sacrifier la rigueur méthodologique, et ouvrir la voie à des revues systématiques continues plutôt qu'épisodiques.

RecherchePaper
1 source
RouterVLA : des tests de fumée transformés en supervision pour la sélection de modèles VLA hétérogènes
762arXiv cs.RO 

RouterVLA : des tests de fumée transformés en supervision pour la sélection de modèles VLA hétérogènes

RouterVLA, présenté dans un preprint arXiv déposé en juin 2026 (identifiant 2606.27355), s'attaque à un problème concret souvent ignoré dans le déploiement robotique : comment choisir, parmi plusieurs politiques vision-language-action (VLA) candidates, celle que l'on installe réellement sur le robot. Les équipes robotiques effectuent systématiquement des "smoke tests" - des séries d'essais courts avant déploiement - pour comparer les candidats, puis retiennent un seul vainqueur global. RouterVLA propose de capitaliser sur ces essais déjà réalisés via une technique dite de "cross-fitting à résultats disjoints" : les essais enregistrés construisent un profil de performance pour chaque politique expert gelée, tandis qu'un essai distinct, non inclus dans ce profil, sert à noter l'expert retenu. Évalué sur 34 752 enregistrements de rollouts issus du benchmark LIBERO-Plus, une règle transparente basée sur le taux de succès des probes fait passer le taux de succès hors-échantillon de 0,4686 à 0,6149, soit un gain de 14,64 points de pourcentage. Le résultat le plus saillant n'est pas le gain lui-même, mais ce qui le produit. Sous les profils scalaires étudiés, les scoreurs appris sont statistiquement indiscernables de la simple règle de succès-probe, ce qui implique que la valeur de routage vient du processus de commissionnement - les smoke tests eux-mêmes - et non d'une capacité ML supplémentaire. Ajouter des couches d'apprentissage pour scorer les politiques ne crée donc pas de valeur additionnelle si les profils restent scalaires. Tout aussi important pour l'intégrité des benchmarks : réutiliser le même essai pour sélectionner et évaluer l'expert gonfle artificiellement le gain mesuré par un facteur de 1,87. Ce résultat constitue un avertissement méthodologique direct pour la communauté, car de nombreux papiers comparatifs en robotique pourraient souffrir de ce biais de contamination si la séparation des outcomes n'est pas garantie. LIBERO-Plus est un environnement de simulation pour la manipulation robotique de table, largement utilisé pour évaluer des politiques de généralisation. RouterVLA s'inscrit dans le champ croissant de la sélection hétérogène de politiques VLA, un problème qui devient critique à mesure que les fondations VLA se multiplient : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), ou les politiques maison des labs comme Google DeepMind. La question de savoir quel modèle router selon la tâche est un vrai enjeu d'industrialisation, distinct de celui d'entraîner de meilleurs modèles individuels. Ce preprint ne mentionne ni déploiement réel ni partenaire industriel : il s'agit d'une contribution méthodologique évaluée en simulation. Les suites naturelles seraient d'étendre l'analyse à des profils non-scalaires (embeddings, séquences temporelles) et de valider la séparation des outcomes en manipulation physique réelle.

RechercheOpinion
1 source
OmniContact : enchaînement de méta-compétences par flux de contact pour la loco-manipulation humanoïde généralisable
763arXiv cs.RO 

OmniContact : enchaînement de méta-compétences par flux de contact pour la loco-manipulation humanoïde généralisable

Des chercheurs ont publié le 26 juin 2026 sur arXiv (réf. 2606.26201) un framework hiérarchique baptisé OmniContact, conçu pour enchaîner des séquences complexes de locomotion et manipulation sur des humanoïdes. Le coeur du système est une représentation intermédiaire appelée "contact flow" (CF): trajectoires corporelles clés et signaux binaires de contact en série temporelle. Deux modules s'appuient dessus, CF-Track (politique bas-niveau, bibliothèque de compétences unifiée) et CF-Gen (planificateur haut-niveau heuristique qui synthétise les séquences futures). En simulation, les résultats annoncés atteignent 98,7% de succès sur la tâche "Carry Box" et 76,5% sur "Push-Stack Boxes", soit respectivement +40,9% et +66,5% face aux baselines sur l'exécution de méta-compétences et leur enchaînement. Le dataset OmniContact, constitué via capture de mouvement (MoCap) d'interactions humain-objet, supporte l'entraînement. Le vrai défi des humanoïdes industriels n'est pas l'exécution d'un geste unitaire mais l'enchaînement robuste de séquences longues avec récupération autonome en cas de défaillance, ce verrou précis que OmniContact cible. Le système propose une interface structurée lisible par le planificateur haut-niveau, une voie médiane entre représentations explicites trop rigides pour la planification et embeddings implicites trop opaques pour la composition fiable. L'intégration avec des VLMs (Vision-Language Models) permettrait des instructions en langage naturel converties en séquences de contact flows, comme l'illustre la démonstration d'arrangement de boîtes en forme de coeur. Nuance importante: toutes les métriques publiées sont issues de conditions contrôlées en laboratoire, sans validation sur hardware physique ni déploiement industriel réel, ce qui laisse entier le problème du sim-to-real. La loco-manipulation longue horizon est devenu le benchmark officieux du secteur humanoïde en 2025-2026. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0) et Boston Dynamics s'affrontent sur des tâches de plus en plus généralisables, tandis que NVIDIA pousse GR00T N2 comme couche de policy universelle. OmniContact vient du monde académique, sans entreprise identifiée derrière ce preprint, mais son approche par contact flow s'inscrit dans la tendance des représentations intermédiaires structurées, en parallèle des architectures VLA à diffusion. La collecte MoCap dédiée aux interactions humain-objet sur humanoïdes confirme que les données de référence restent un goulot d'étranglement même quand la simulation abonde. La prochaine étape déterminante sera le transfert sur un humanoïde physique, condition sine qua non pour que ce framework passe du laboratoire au hangar.

RecherchePaper
1 source
Pilotage du comportement robotique à l'inférence par reconfiguration physiquement informée de la structure de tâche
764arXiv cs.RO 

Pilotage du comportement robotique à l'inférence par reconfiguration physiquement informée de la structure de tâche

Une équipe de recherche a publié sur arXiv (ref. 2606.26588) un système baptisé ReStruct, conçu pour modifier le comportement d'un robot en cours de déploiement sans nécessiter de réentraînement. Le problème visé est ce que les chercheurs appellent le "steering à l'inférence" : forcer une politique robotique apprise à respecter une préférence utilisateur imprévue lors de l'entraînement, au moment du test uniquement. ReStruct repose sur une architecture en deux niveaux : un squelette de haut niveau modélisé comme une machine à états finis (automate neural), qui encode la structure de la tâche, et un contrôleur bas niveau sous forme de politique résiduelle, qui reste entièrement gelé. Lors de la modification d'une préférence, c'est uniquement l'automate qui est reconfiguré via un produit synchrone, mettant à jour les prior d'action transmis au contrôleur. Sur banc de test en simulation et en environnement réel, ReStruct dépasse les modèles VLA (Vision-Language-Action) existants de jusqu'à 25 % en taux de réussite de tâche et en respect des préférences, pour des spécifications allant de contraintes sur des objets spécifiques jusqu'à des contraintes de logique temporelle. L'enjeu industriel est significatif : le réentraînement d'une politique robotique pour chaque nouvelle variante de tâche ou préférence opérateur représente aujourd'hui un verrou majeur à la scalabilité des déploiements. Les approches bout-en-bout (fine-tuning, guidance experte) sont trop coûteuses en pratique, tandis que les méthodes neuro-symboliques classiques génèrent des plans logiquement cohérents mais physiquement irréalisables, ce que ReStruct corrige en intégrant la faisabilité physique directement dans la reconfiguration de la structure de tâche. Le fait que la méthode surpasse les modèles VLA sur ces métriques est notable : les VLA représentent actuellement le paradigme dominant en robotique manipulatrice apprise, et cette architecture hybride formelle-neuronale suggère une voie complémentaire plutôt que concurrente. Ce travail s'inscrit dans un débat de fond entre approches purement end-to-end et méthodes symboliques pour la robotique généraliste. Les modèles VLA comme pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) misent sur des fondations neuronales massives adaptées par fine-tuning, ce qui les rend rigides face aux variations de préférences non anticipées. ReStruct propose une alternative légère, fondée sur la théorie des automates, qui n'impose pas de réentraîner le contrôleur. Il s'agit d'un preprint académique sans affiliation industrielle annoncée ni déploiement terrain mentionné, mais la démonstration en conditions réelles renforce la crédibilité de l'approche. Les prochaines étapes naturelles seraient l'intégration dans des pipelines de déploiement existants et l'évaluation sur des manipulateurs commerciaux multi-tâches.

RechercheOpinion
1 source
SSI-Policy : apprentissage d'interfaces de scène structurées pour la manipulation robotique vision-langage
765arXiv cs.RO 

SSI-Policy : apprentissage d'interfaces de scène structurées pour la manipulation robotique vision-langage

Des chercheurs ont déposé SSI-Policy sur arXiv (2606.26800, juin 2026), un framework modulaire pour la manipulation robotique en régime de faibles données. Le système repose sur une représentation intermédiaire appelée Structured Scene Interface (SSI), une couche RGB-only qui encode simultanément des caractéristiques de profondeur monoculaire, des dispositions spatiales d'objets ancrées dans le langage naturel, et des trajectoires 2D conditionnées par instruction. Sur le benchmark LIBERO avec seulement 10 démonstrations par tâche, SSI-Policy dépasse la meilleure méthode concurrente de près de 15 points, et reste compétitif face aux approches à 50 démonstrations recourant au préentraînement externe à large échelle. Les auteurs valident également sur 13 tâches réelles : raisonnement spatial, transfert cross-embodiment et manipulation avec contact. L'apport central est architectural : en découplant la perception du contrôle via l'interface SSI, la politique aval peut apprendre à partir de très peu de démonstrations. Que l'interface soit entraînable sur des vidéos sans annotation d'action est particulièrement précieux pour les intégrateurs industriels qui peinent à collecter des données de téléopération à grande échelle. L'absence de capteur de profondeur, le système fonctionnant en pure RGB, réduit les prérequis matériels et facilite le déploiement sur des bras standards. Le caractère robot-agnostique de SSI cible directement la faiblesse récurrente des VLA (Vision-Language Action models) comme Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA : leur difficulté à transférer vers de nouveaux embodiments sans réentraînement coûteux. SSI-Policy se positionne face à trois familles de méthodes : les approches vidéo (SuSIE, UniSim), sujettes à dérive géométrique sur les horizons longs ; les méthodes 3D (Act3D, RoboPoint), qui exigent du RGB-D ; et les interfaces de flux optique, sans structure géométrique explicite. SSI-Policy prétend en combiner les avantages, affirmation partiellement étayée par les ablations publiées mais restant à confirmer sur des benchmarks plus larges comme RLBench ou DROID. L'article est un preprint, non soumis à évaluation par les pairs. La suite logique : validation sur plateformes humanoïdes complètes et pilotes industriels réels, deux domaines où la robustesse en faible nombre d'exemples reste le verrou commercial principal.

IA physiqueOpinion
1 source
Tactile-WAM : modèle d'action du monde sensible au toucher avec attention asymétrique tactile
766arXiv cs.RO 

Tactile-WAM : modèle d'action du monde sensible au toucher avec attention asymétrique tactile

Des chercheurs ont publié sur arXiv (référence 2606.26663) un modèle de manipulation robotique intégrant le retour tactile dans le cadre des World Action Models (WAMs), une famille d'architectures qui génèrent simultanément des actions et une prédiction de l'état futur du monde. Baptisé Tactile-WAM, ce système introduit un mécanisme d'attention asymétrique nommé TAAM (Tactile Asymmetric Attention Mechanism) pour combiner flux vidéo et signaux tactiles sans dégradation mutuelle. Sur le benchmark ManiFeel, spécialisé dans les tâches de manipulation au contact, Tactile-WAM améliore le taux de succès moyen de 38,9 % toutes tâches confondues, et de 86 % sur les tâches à fort contact, insertion, assemblage, recherche d'alignement et réorientation, où les caméras seules restent aveugles aux micro-glissements, aux blocages mécaniques (jamming) et aux erreurs d'alignement millimétrique. Le verrou identifié par les auteurs est ce qu'ils nomment la "pollution tactile" : injecter des tokens tactiles dans un modèle de dynamique visuelle force l'architecture à absorber des signaux locaux, épars et événementiels, ce qui perturbe à la fois la prédiction vidéo et la génération d'actions. La solution TAAM sépare les flux via un masque VideoClean, qui bloque l'accès des requêtes vidéo aux tokens tactiles tout en les conservant disponibles pour les requêtes d'action, tandis qu'un biais touch-aware, dérivé des variations tactiles prédites, module dynamiquement l'attention pendant la phase de débruitage. Ce résultat intéresse directement les intégrateurs industriels : il démontre qu'un modèle d'action peut exploiter des capteurs tactiles pour des tâches d'insertion fine en conditions réelles, sans sacrifier les performances visuelles du pipeline. Les WAMs s'inscrivent dans la continuité des modèles VLA (Vision-Language-Action) et des architectures monde telles que Dreamer, mais ciblent le contrôle robotique basse latence. La manipulation tactile est un axe de recherche actif dans plusieurs laboratoires, notamment autour des capteurs visuotactiles GelSight (MIT CSAIL) et des politiques de diffusion appliquées au contrôle fin. Tactile-WAM se distingue en traitant l'intégration multimodale au niveau de l'attention plutôt que par fusion post-hoc des modalités. Il s'agit d'un preprint arXiv non encore évalué par des pairs, sans code publié ni déploiement industriel annoncé : les résultats sur ManiFeel devront être répliqués sur des capteurs et géométries variés pour valider la généralisation en conditions de production réelles.

RechercheOpinion
1 source
E-TTS : un nouveau cadre de mise à l'échelle au moment de l'inférence pour la manipulation robotique
767arXiv cs.RO 

E-TTS : un nouveau cadre de mise à l'échelle au moment de l'inférence pour la manipulation robotique

Des chercheurs présentent sur arXiv (2606.27268, juin 2026) E-TTS, un cadre de mise à l'échelle à l'inférence (test-time scaling) pour la manipulation robotique, applicable en surcouche de modèles vision-language-action (VLA) existants sans réentraînement ni collecte de données supplémentaire. Le framework repose sur deux mécanismes : un échantillonnage conjoint raisonnement-action avec notation par paires, et un tampon d'historique (history buffer) qui stocke les observations passées pour contextualiser les décisions d'action. Contrairement aux méthodes TTS en boucle ouverte, E-TTS intègre du feedback durant l'inférence via un mécanisme de raffinement itératif en boucle fermée, piloté par des vérificateurs vision-langage. Les auteurs rapportent des gains jusqu'à 33,14 % en simulation et 26,62 % en conditions réelles, mesurés sur 4 benchmarks, 6 environnements, 3 morphologies de robots et 4 modèles VLA de base. L'enjeu est de transposer à la robotique ce qui a fonctionné pour les LLMs : amplifier les capacités à l'inférence sans modifier les poids du modèle. Le défi spécifique aux robots est que les tâches sont séquentielles et longues : une observation instantanée ne suffit pas pour choisir la bonne action, contrairement à une requête texte isolée. En partageant un buffer d'historique entre les modules de raisonnement et de vérification d'action, E-TTS comble un angle mort des méthodes TTS précédentes pour l'embodied AI. Le fait que le gain tienne en conditions réelles (26,62 %) et pas seulement en simulation est un signal positif sur le sim-to-real gap, même si les conditions exactes de ces expériences en monde réel méritent examen dans le papier complet. Le test-time scaling a émergé avec les architectures o1 et o3 d'OpenAI et les approches chain-of-thought pour les LLMs, avant d'être progressivement exploré pour les VLA robotiques. E-TTS s'inscrit dans ce mouvement que les auteurs eux-mêmes qualifient d'"early attempts", ce qui situe honnêtement le niveau de maturité. L'architecture modulaire et plug-and-play est conçue pour s'adapter à des VLA variés, ce qui pourrait faciliter l'adoption par des équipes travaillant sur des modèles comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le papier ne mentionne ni déploiement industriel ni partenariat avec un constructeur de robots : il reste une preuve de concept académique dont la validation sur des tâches industrielles réelles (assemblage, palettisation) constituerait l'étape suivante naturelle.

💬 Ce qui change ici, c'est le buffer. Appliquer le test-time scaling à un robot, c'est pas aussi simple qu'à un LLM : un bras qui visse en étape 7 ne peut pas raisonner sur une observation instantanée, il lui faut les étapes précédentes pour contextualiser. Que les gains tiennent à 26 % en conditions réelles et pas seulement en sim, c'est le seul résultat qui compte pour l'instant.

IA physiqueOpinion
1 source
RGB : MPPI corps entier pour humanoïdes guidé par apprentissage par renforcement
768arXiv cs.RO 

RGB : MPPI corps entier pour humanoïdes guidé par apprentissage par renforcement

Une équipe de recherche a publié sur arXiv (référence 2606.25123) une architecture de contrôle hybride baptisée RGB, pour "RL Guided whole-body MPPI", destinée aux robots humanoïdes évoluant dans des environnements à contacts complexes. Le framework a été évalué en simulation MuJoCo sur un Unitree G1 à 29 degrés de liberté, avec une fréquence de contrôle moyenne de 280 Hz. Le principe : au lieu d'utiliser une politique d'apprentissage par renforcement (RL) comme contrôleur final, RGB l'emploie comme prior d'échantillonnage pour guider les rollouts d'un algorithme MPPI (Model Predictive Path Integral). Les objectifs de tâche sont définis via des termes de coût modulaires MPPI, qui corrigent en ligne la politique RL pour satisfaire ces objectifs sans nécessiter de réentraînement. Les tests montrent une réduction de la dérive systématique en marche rectiligne et une meilleure capacité à suivre des signaux de référence corps entier supplémentaires, comparé à une politique RL pure sous la même interface de commande. L'intérêt industriel de cette approche réside dans la rigidité structurelle des politiques RL actuelles : une fois entraînée, une politique couple fortement son comportement à l'objectif d'entraînement et à l'interface de commande. Ajouter un nouvel objectif de feedback (correction de trajectoire, contrainte de contact, suivi d'un membre spécifique) exige généralement un réentraînement complet, coûteux et long. RGB court-circuite cette contrainte en déléguant la précision et la modularité au MPPI, qui opère en boucle fermée à haute fréquence. Pour un intégrateur industriel ou un COO qui doit adapter un humanoïde à plusieurs lignes de production, la possibilité de spécifier de nouveaux comportements via des termes de coût, sans retouch au modèle RL sous-jacent, représente un gain de flexibilité concret. La fréquence de 280 Hz en simulation est encourageante, mais les auteurs ne démontrent pas encore le transfert sim-to-real, ce qui reste le saut critique pour toute validation industrielle. Le cadre MPPI est une technique de contrôle prédictif par échantillonnage bien établie en robotique mobile et manipulation, mais son couplage avec une politique RL comme prior pour les humanoïdes corps entier est une direction récente. Unitree, dont le G1 est devenu une plateforme de recherche courante grâce à son accessibilité commerciale (autour de 16 000 dollars), est au coeur de nombreux travaux académiques concurrents, notamment autour des architectures VLA (Vision-Language-Action) de type GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence. RGB se positionne dans un créneau distinct : il ne vise pas la généralisation via des données de démonstration, mais l'optimisation en ligne de politiques existantes. La prochaine étape logique sera une validation sur hardware réel, déterminante pour établir si les 280 Hz de simulation se maintiennent face aux incertitudes mécaniques et aux latences capteurs d'un vrai G1.

RecherchePaper
1 source
fARfetch : collaboration homme-robot en réalité augmentée colocalisée dans des environnements visuellement hétérogènes, avec adaptation de contenu par VLM
769arXiv cs.RO 

fARfetch : collaboration homme-robot en réalité augmentée colocalisée dans des environnements visuellement hétérogènes, avec adaptation de contenu par VLM

Des chercheurs ont publié sur arXiv (juin 2026) les résultats de fARfetch, un système de collaboration humain-robot en réalité augmentée conçu pour les environnements extérieurs vastes et visuellement hétérogènes. Le dispositif combine un casque Meta Quest 3 et un robot quadrupède Unitree Go2, et repose sur trois mécanismes : une cartographie sémantique partagée entre le casque et le robot qui visualise des repères de l'environnement pour émettre des commandes de navigation par désignation, une représentation miniaturisée de l'espace (world-in-miniature) pour composer des trajectoires précises, et un module d'adaptation visuelle piloté par un VLM (vision-language model) qui ajuste en temps réel la couleur, la taille et l'orientation des éléments AR afin de maintenir leur lisibilité quelle que soit l'arrière-plan. L'évaluation a été conduite en conditions réelles sur une tâche d'inspection extérieure d'environ 30,5 mètres avec 13 participants en protocole intra-sujets. Par rapport à une baseline sans AR, fARfetch réduit le temps d'exécution de 66 %, la charge mentale de 43 %, la pression temporelle de 34 % et le niveau de frustration de 66 %. Ces résultats sont significatifs pour les intégrateurs de robotique mobile en milieux industriels ouverts (sites de construction, inspection d'infrastructure, logistique extérieure) où la téléopération classique bute sur la désorientation spatiale de l'opérateur et la perte de ligne de vue. L'usage d'un VLM pour l'adaptation du rendu AR constitue une avancée méthodologique : plutôt que de coder des règles statiques de contraste, le système raisonne sur le contexte visuel capturé. Cela suggère que la grille sim-to-real ne se limite plus aux actionneurs physiques mais s'étend à la couche d'interaction humain-machine. L'étude reste toutefois limitée : N=13 est un échantillon restreint, la tâche couvre 30,5 mètres en extérieur contrôlé, et aucune métrique de robustesse en conditions adverses (pluie, contre-jour fort, foule) n'est rapportée. fARfetch s'inscrit dans un champ de recherche actif sur l'AR comme interface de supervision de robots mobiles, aux côtés de travaux portant sur les drones et les AMR en entrepôt. Côté hardware, le Unitree Go2 est un quadrupède grand public à moins de 10 000 dollars, ce qui ancre l'expérimentation dans des configurations accessibles, contrairement aux plateformes à six chiffres de Boston Dynamics. Aucun acteur français ou européen n'est impliqué dans cette étude. Les auteurs n'annoncent pas de pilote industriel ni de timeline de déploiement : il s'agit d'un prototype académique dont les prochaines étapes naturelles seraient des évaluations sur des périmètres plus étendus, avec des opérateurs non entraînés et des robots à mobilité différente (bras, AMR sur roues).

RecherchePaper
1 source
Bibliothèques de politiques compactes par adaptation de rang faible en apprentissage par renforcement
770arXiv cs.RO 

Bibliothèques de politiques compactes par adaptation de rang faible en apprentissage par renforcement

Des chercheurs ont publié sur arXiv (référence 2606.25700) un article explorant l'application de LoRA (Low-Rank Adaptation) au domaine de la robotique et de l'apprentissage par renforcement (RL). La technique, largement adoptée pour le fine-tuning des grands modèles de langage, est ici appliquée à un algorithme PPO (Proximal Policy Optimization) pour créer des bibliothèques de politiques spécialisées multi-tâches. Les résultats principaux : une réduction mémoire d'un facteur 20 à 160 par rapport au fine-tuning classique de l'ensemble des couches, soit une économie de stockage de 90 à 95 % lors du déploiement d'une bibliothèque de 10 à 50 politiques spécialisées. Point notable : aucune dégradation significative du taux de succès n'est observée entre le fine-tuning complet et la version LoRA sur les tâches testées. L'enjeu concret pour les intégrateurs robotiques est précis : embarquer une bibliothèque complète de politiques spécialisées en RAM ou basculer en swap-memory sur le matériel embarqué représente un seuil opérationnel critique. Sur un robot industriel ou un système d'inspection autonome gérant 20 à 50 tâches distinctes, la différence entre "tout tient en mémoire vive" et "le système pagine" peut conditionner la latence, la fiabilité temps-réel et les coûts matériels. La conservation du taux de succès sans full fine-tuning suggère par ailleurs que les couches basses du réseau de politique encodent déjà des représentations suffisamment généralisables pour être partagées entre tâches, ce qui conforte l'hypothèse d'un transfert de compétences entre politiques spécialisées sans réapprentissage coûteux. LoRA a été formalisée en 2021 par Hu et al. dans le contexte des LLMs, où elle est devenue un standard du fine-tuning sur matériel contraint. Son transfert au RL n'est pas trivial : les dynamiques d'entraînement par essai-erreur diffèrent structurellement de l'apprentissage supervisé sur lequel LoRA a été validée. Ce preprint est une preuve de concept préliminaire, sans institution ni auteurs nommés dans l'abstract, et sans description détaillée des tâches robotiques testées, ce qui limite l'évaluation de la généralisation des résultats. Dans l'écosystème concurrent, des travaux sur la distillation de politiques (policy distillation), la compression de réseaux pour l'embarqué robotique, et les architectures de fondation pour la robotique (pi0 de Physical Intelligence, GR00T N2 de NVIDIA) explorent des pistes parallèles pour réduire l'empreinte computationnelle à l'inférence. La prochaine étape naturelle serait une validation sur des robots physiques avec contraintes mémoire réelles.

RecherchePaper
1 source
TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence
771arXiv cs.RO 

TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence

Des chercheurs ont publié sur arXiv (papier 2601.14945, version 2) un cadre architectural nommé TIDAL, Temporally Interleaved Diffusion and Action Loop, qui s'attaque directement au goulot d'étranglement en latence des modèles Vision-Language-Action (VLA). Le problème est précis : les VLA actuels basés sur la diffusion tournent typiquement à environ 2,4 Hz sur hardware embarqué, imposant un paradigme "batch-and-execute" où le robot planifie en bloc puis exécute en boucle ouverte. TIDAL introduit une architecture à double fréquence qui découple le raisonnement sémantique (boucle basse fréquence qui met en cache les embeddings d'intention) de l'actuation motrice (boucle haute fréquence qui entrelace intégration de flux à un pas et exécution). Résultat mesuré : environ 9 Hz de mises à jour de contrôle sur edge hardware, soit 4x la fréquence de feedback des baselines, avec un gain de performance 2x sur des tâches d'interception dynamique. La méthode ajoute également un prédicteur différentiel de mouvement pour compenser l'insensibilité à la vélocité des encodeurs visuels statiques, et une stratégie d'entraînement à désalignement temporel pour apprendre à compenser la latence résiduelle. L'impact concret pour les intégrateurs robotiques réside dans ce que le papier nomme "l'angle mort d'exécution" : quand une cible se déplace pendant la fenêtre d'exécution en boucle ouverte, les baselines VLA échouent systématiquement sous protocole d'inférence non-pausée, TIDAL reste opérationnel. C'est architectural et orthogonal aux optimisations système (quantification, batching), ce qui signifie qu'il peut s'empiler sur d'autres gains de performance. La régression marginale sur les tâches statiques (cibles immobiles) est honnêtement reconnue par les auteurs, ce qui est de bonne pratique évaluative. Pour un décideur B2B, la question pertinente reste ouverte : les gains sont mesurés en simulation et sur tâches de laboratoire, pas sur déploiement réel. TIDAL s'inscrit dans une compétition dense autour de la latence des VLA, portée par les modèles Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA. Ces architectures partagent le défi structurel du sim-to-real et de la fréquence de contrôle insuffisante pour les environnements industriels dynamiques (convoyeurs, pièces en mouvement, collaboration humain-robot). TIDAL est un travail de recherche académique sans annonce de déploiement ni partenaire industriel identifié, ce qui tempère toute projection immédiate. La prochaine étape naturelle serait une validation sur hardware réel, bras manipulateur ou humanoïde, avec métriques de robustesse en conditions non-contrôlées.

IA physiqueOpinion
1 source
ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain
772arXiv cs.RO 

ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain

Une équipe de chercheurs a publié sur arXiv (référence 2503.05226v2) un framework décisionnel baptisé Reward-Centered ReST-MCTS, conçu pour améliorer la robustesse des politiques de manipulation robotique en environnement incertain. Le système s'appuie sur la recherche arborescente Monte Carlo (MCTS) augmentée d'un mécanisme de centrage de récompense : les signaux intermédiaires sont décomposés en quatre canaux distincts (règles explicites, heuristiques, réseau neuronal optionnel, estimation de valeur), puis normalisés par rapport à des contextes de tâche comparables afin de biaiser ou corriger la recherche sans altérer l'évaluation terminale. Le résultat central porte sur le benchmark LIBERO-Spatial en mode stress, avec perturbations du canal d'action : 0 succès sur 10 sans le vérificateur, contre 9 sur 10 avec. En conditions propres, le modèle de base OpenVLA-OFT atteint 10/10 avec ou sans le module RC, confirmant que le gain est spécifique aux scénarios dégradés. Des tests complémentaires sur ManiSkill couvrent le bruit d'observation, les décalages de pose initiale et les défaillances de primitives motrices. Ce résultat intéresse les intégrateurs et décideurs industriels parce qu'il cible directement le "reality gap" : les politiques VLA (Vision-Language-Action) telles qu'OpenVLA-OFT se comportent correctement en laboratoire mais se dégradent sous perturbation réelle (éclairage variable, position des pièces, usure des actionneurs). RC ReST-MCTS ne se pose pas comme une politique de remplacement, mais comme un vérificateur à inférence (test-time verifier) capable de corriger les actions générées par un VLA existant sans réentraîner le modèle de base. Pour un architecte système ou un COO, cela signifie qu'il devient possible de renforcer une politique déployée contre la variance du monde réel sans déclencher un cycle complet de fine-tuning, ce qui réduit considérablement le coût opérationnel de la mise à l'échelle. La recherche arborescente Monte Carlo appliquée à la manipulation robotique souffrait jusqu'ici de récompenses éparses en fin de rollout et d'un coût computationnel élevé pour les arbres profonds. ReST-MCTS avait déjà proposé d'itérer sur ce problème via du self-improvement guidé ; RC ReST-MCTS ajoute la couche de centrage pour stabiliser le signal dans des domaines bruités. Le benchmark LIBERO, issu d'une collaboration académique inter-universités, reste un standard reconnu pour la manipulation multi-tâche, aux côtés de ManiSkill (Université du Maryland). Les concurrents directs incluent les approches de test-time compute scaling de Physical Intelligence (pi0), ainsi que les méthodes de distillation et DAgger. Les auteurs restreignent volontairement leurs affirmations à un cadre "same-backbone" et s'abstiennent de toute comparaison de supériorité sur des benchmarks généraux, posture méthodologiquement honnête mais qui limite la portée des conclusions à ce stade de la recherche.

RechercheOpinion
1 source
MirrorDuo : apprentissage visuo-moteur cohérent par paires de démonstrations en miroir
773arXiv cs.RO 

MirrorDuo : apprentissage visuo-moteur cohérent par paires de démonstrations en miroir

Une équipe de chercheurs publie MirrorDuo (arXiv:2606.20048, juin 2026), une méthode d'apprentissage par imitation qui exploite la symétrie par réflexion pour doubler virtuellement les données d'entraînement sans collecte supplémentaire. Le principe est géométrique : pour chaque démonstration capturée via caméra RGB, le système génère automatiquement son équivalent en miroir, transformant simultanément l'image, les données proprioceptives et les tuples d'action en espace 6-DOF (six degrés de liberté du préhenseur). Les auteurs résument l'idée en une formule : "collect one, get one for free". La méthode s'intègre soit comme stratégie d'augmentation de données dans des pipelines existants, notamment le clonage comportemental standard et la diffusion policy, soit comme prior structurel pour des réseaux de politique réflexion-équivariants. L'enjeu pratique est direct : le coût de collecte de démonstrations diversifiées reste l'un des principaux freins au déploiement de robots manipulateurs en milieu industriel. MirrorDuo apporte un gain de performance mesurable à budget de données constant, particulièrement lorsque les démonstrations sont distribuées de façon équilibrée des deux côtés de l'espace de travail. Mieux : lorsque les démonstrations sont concentrées d'un seul côté, la méthode permet un transfert de compétence vers le côté symétrique avec seulement zéro à cinq démonstrations dans la configuration cible. C'est un résultat significatif dans un domaine où la généralisation inter-configuration reste coûteuse et fragile. Cela dit, les auteurs ne fournissent pas de métriques absolues de taux de succès dans le résumé, ce qui rend difficile d'évaluer l'ampleur réelle du gain sans lire les expériences complètes. Cette approche s'inscrit dans une tendance plus large visant à maximiser l'extraction d'information depuis un volume limité de démonstrations humaines. Les méthodes concurrentes incluent l'augmentation classique par transformation géométrique 2D, l'apprentissage en simulation avec transfert sim-to-real, et les architectures équivariantes déjà explorées pour des tâches planaires. MirrorDuo étend ce raisonnement au cas 6-DOF en espace 3D, ce qui est techniquement plus exigeant. L'article ne mentionne pas de partenaires industriels ni de calendrier de déploiement, et les validations restent confinées à des environnements de laboratoire contrôlés. La prochaine étape logique serait une évaluation sur des morphologies robotiques variées et des scènes non contraintes, là où la symétrie de l'espace de travail est moins garantie.

RecherchePaper
1 source
Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel
774arXiv cs.RO 

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Des chercheurs ont publié en décembre 2024 (arXiv:2512.20014) une méthode appelée Visual Attentive Prompting (VAP), conçue pour permettre aux modèles Vision-Language-Action (VLA) de répondre à des consignes personnalisées du type "apporte ma tasse". Le problème adressé est précis : un VLA classique, même performant sur des instructions génériques, échoue à identifier un objet spécifique parmi plusieurs visuellement identiques sans avoir été entraîné sur cet objet. VAP fonctionne sans ré-entraînement (training-free), c'est son argument central. Il prend quelques images de référence de l'objet cible, effectue une détection en vocabulaire ouvert dans la scène, compare les embeddings visuels pour localiser l'instance correcte, puis injecte cette localisation directement dans le flux d'entrée du VLA : surlignage de l'objet et réécriture de l'instruction. Les auteurs ont construit deux benchmarks en simulation (Personalized-SIMPLER et Personalized-VLABench) et un benchmark réel sur table pour valider l'approche sur plusieurs robots et tâches. VAP surpasse les politiques génériques et les baselines par apprentissage de tokens, à la fois en taux de succès global et en taux de manipulation du bon objet. L'enjeu industriel derrière ce travail est la personnalisation au niveau de l'instance, un verrou jusqu'ici sous-traité dans la recherche VLA. Pour un intégrateur ou un COO déployant des robots en environnement résidentiel ou hospitalier, la capacité à distinguer "la tasse de Paul" de "la tasse de Marie" sans pipeline d'apprentissage dédié par utilisateur représente un gain opérationnel significatif. VAP démontre que l'attention sélective top-down, couplée à une mémoire visuelle non-paramétrique, peut combler l'écart entre compréhension sémantique et contrôle au niveau de l'instance, un problème que les approches fondées sur le langage seul ne résolvent pas. L'absence de ré-entraînement est un avantage de déploiement réel, même si les benchmarks restent à l'échelle tabletop, loin de la chaîne logistique. Ce travail s'inscrit dans la dynamique post-RT-2 et post-OpenVLA : les VLA généralistes (π0 de Physical Intelligence, GR00T N2 de NVIDIA, ou encore les approches Octo et RoboFlamingo) excellent sur des distributions larges mais restent aveugles à la sémantique d'instance. VAP propose une surcouche légère compatible avec n'importe quel VLA gelé, ce qui le positionne comme un adaptateur potentiel pour des systèmes existants plutôt qu'un modèle concurrent. Les prochaines étapes naturelles incluent des tests hors tabletop (manipulation mobile, environnements encombrés), l'évaluation à plus grande échelle d'objets personnels, et l'intégration dans des frameworks open-source comme LeRobot d'Hugging Face. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans la publication.

UEImpact indirect limité via la mention de LeRobot (HuggingFace, entreprise franco-américaine) comme cible d'intégration naturelle, sans implication directe d'acteurs ou institutions français/européens dans la publication.

💬 Le vrai verrou des robots en environnement réel, c'est pas la compréhension du langage, c'est la sémantique d'instance : distinguer "ma tasse" de "ta tasse" sans ré-entraîner le modèle pour chaque utilisateur. VAP règle exactement ça, avec quelques photos de référence et une surcouche légère compatible avec n'importe quel VLA existant. Reste à voir ce que ça donne hors tabletop, mais comme brique vers des robots vraiment personnalisables en déploiement réel, c'est ce qui manquait.

IA physiqueOpinion
1 source
Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques
775arXiv cs.RO 

Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques

Des chercheurs ont publié sur arXiv en juin 2026 (arXiv:2606.18189) une méthode appelée E-MPC (Engagement-aware Model Predictive Control), conçue pour repenser le rôle de l'humain dans la supervision des robots d'assistance. L'approche a été validée en simulation puis dans une étude utilisateur réelle, sur un système robotique d'aide à l'alimentation (bite acquisition), avec des participants simulant des limitations de mobilité. Le principe central : plutôt que de solliciter l'opérateur uniquement lorsqu'un robot échoue ou est en incertitude, le système planifie proactivement des moments d'interaction pour maintenir un niveau d'engagement choisi par l'utilisateur, tout en respectant une contrainte de charge cognitive maximale. E-MPC intègre un modèle de dynamique d'interaction utilisateur qui prédit comment l'engagement évolue en fonction de la fréquence et du type d'intervention demandée. Ce travail remet en cause un postulat dominant dans la robotique d'assistance : que l'autonomie maximale est toujours préférable pour l'utilisateur. Dans des contextes de caregiving physique, les personnes à mobilité réduite risquent de devenir de simples observateurs passifs d'un robot qui agit entièrement seul, ce qui dégrade l'expérience et potentiellement l'adhésion au système. E-MPC déplace le curseur : l'interaction n'est plus un signal d'échec, mais un levier de conception du workflow. Cela a des implications concrètes pour les intégrateurs de systèmes d'assistance à domicile ou en EHPAD, où le consentement continu et le sentiment de contrôle de l'utilisateur sont des critères de certification et d'acceptabilité. La robotique d'assistance humanoïde et collaborative accumule depuis plusieurs années des travaux sur le human-in-the-loop, mais ceux-ci se concentrent presque exclusivement sur la robustesse (détection de pannes, out-of-distribution handling). E-MPC s'inscrit dans une tendance plus récente qui emprunte aux travaux sur l'interaction adaptative et la téléopération partagée, avec des connexions aux recherches sur le shared autonomy (Javdani, Srinivasa et al.). Les auteurs n'annoncent pas de commercialisation ni de partenariat industriel à ce stade : il s'agit d'un prototype de recherche avec étude utilisateur, pas d'un produit déployé. Les suites naturelles incluent des essais avec de vraies populations en situation de handicap et l'extension à des tâches multi-étapes plus complexes que l'alimentation.

UELes implications pour la certification des robots d'assistance à domicile et en EHPAD (consentement continu, sentiment de contrôle utilisateur) sont directement pertinentes pour les intégrateurs français et la réglementation médicosociale en France.

RecherchePaper
1 source
Adaptation aux dommages en quelques secondes pour les matériaux architecturés
776arXiv cs.RO 

Adaptation aux dommages en quelques secondes pour les matériaux architecturés

Des chercheurs du Murphey Lab publient sur arXiv (référence 2606.17394, juin 2026) LEAP, un algorithme d'adaptation proprioceptive permettant à un robot souple de compenser des dommages catastrophiques, coupures, brûlures ou défaillances d'actionneurs, en moins d'une minute sans recours à la simulation. La démonstration porte sur une tâche de traçage menée par un poignet souple à 6 degrés de liberté (6DoF) à base d'actionneurs HSA (Handed Shearing Auxetic), une classe de matériaux dits architecturés dont la géométrie interne est conçue pour coupler rotation et translation. L'algorithme exploite uniquement des signaux proprioceptifs internes pour inférer une représentation latente des dommages dans un espace de faible dimension, puis une méthode d'ensemble robuste permet d'adapter le contrôle en temps réel à des dommages non anticipés lors de l'entraînement. Le résultat théorique central est que, pour les matériaux architecturés, la complexité d'échantillonnage nécessaire à l'apprentissage de représentations de dommages croît de façon linéaire plutôt qu'exponentielle, un avantage structurel par rapport aux composants rigides ou aux mécanismes souples continus. Pour les intégrateurs, l'absence de dépendance à un simulateur supprime le problème du sim-to-real gap, fréquemment bloquant en production réelle. La capacité à s'adapter à des dommages imprévus en moins d'une minute constitue un verrou critique pour l'autonomie longue durée des robots de service et industriels, que LEAP adresse ici sur un effecteur physique réel. À noter que la validation reste limitée à un unique type d'effecteur et à des scénarios de dommages relativement ciblés. LEAP s'inscrit dans la dynamique de la robotique souple où des acteurs comme Harvard (Soft Robotics Toolkit), l'EPFL (laboratoire Biorobotics) et Festo du côté européen travaillent sur la résilience matérielle et l'adaptation en service. Les actionneurs HSA sont une innovation issue de recherches antérieures sur les matériaux auxétiques, connus pour leur comportement mécanique non conventionnel. Ce travail est un preprint académique, pas un produit commercialisé ni un déploiement industriel annoncé. Les suites naturelles incluent l'intégration sur un bras complet, des tests hors laboratoire en environnement non structuré, et la validation sur des cycles de vie prolongés.

UEL'EPFL (laboratoire Biorobotics) et Festo, acteurs européens de la robotique souple résiliente, opèrent dans le même périmètre ; LEAP constitue une référence académique directement pertinente pour leurs travaux sur l'adaptation en service sans dépendance au simulateur.

RecherchePaper
1 source
Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée
777arXiv cs.RO 

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper
1 source
GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée
778arXiv cs.RO 

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

Une équipe de chercheurs a publié fin juin 2026 un système baptisé GASE (Gaussian Splatting-Based Automated System for Reconstructing Embodied-Simulation Environments), conçu pour automatiser la construction de scènes de simulation photoréalistes destinées à l'entraînement de robots. Le pipeline exploite des réseaux de caméras panoramiques multivues pour capturer l'environnement réel, extrait automatiquement les objets de premier plan via une stratégie basée sur les poses de caméras dans le domaine 2D, puis reconstruit séparément objets et arrière-plan statique par 3D Gaussian Splatting avant de les importer dans un simulateur physique avec inpainting haute-fidélité des zones manquantes. Sur des benchmarks de segmentation, GASE surpasse les méthodes 3DGS concurrentes de plus de 10 %. Surtout, lors de déploiements réels sur des tâches de manipulation et de navigation, les politiques entraînées en simulation n'affichent qu'un écart de performance inférieur à 10 % par rapport à celles entraînées sur données réelles, arXiv:2606.17520. Ce résultat chiffré est l'argument central du papier. Le sim-to-real gap, soit la dégradation des performances lors du passage du simulateur au robot physique, reste l'un des obstacles majeurs au déploiement à grande échelle de l'apprentissage robotique. Un écart sous les 10 % suggère que la simulation générée automatiquement depuis des scans réels peut constituer un vecteur de data augmentation viable, réduisant la dépendance à des opérateurs qualifiés et à du matériel coûteux pour la collecte terrain. Pour les intégrateurs et les industriels engagés dans des projets de manipulation ou de navigation autonome, la promesse est de compresser significativement le coût des pipelines d'entraînement, à condition que la méthode tienne à l'échelle et sur des environnements plus complexes que ceux testés. GASE s'inscrit dans la trajectoire tracée par l'émergence du 3D Gaussian Splatting en 2023 comme alternative temps-réel aux NeRF pour la reconstruction de scènes. Les approches concurrentes, notamment SplatSim, Gaussian Grouping et les pipelines d'assets manuels dans Isaac Sim ou MuJoCo, progressent en parallèle, mais l'automatisation complète de l'acquisition jusqu'à l'import simulateur reste un problème ouvert. Le preprint ne mentionne ni institution ni partenaires industriels, ce qui rend difficile l'évaluation des perspectives de transfert applicatif. Le code doit être publié ultérieurement mais n'est pas encore disponible au moment de la soumission. Le périmètre limité des tâches testées et l'absence de comparaison avec des environnements synthétiques construits manuellement laissent plusieurs questions ouvertes à la communauté.

RecherchePaper
1 source
WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive
779arXiv cs.RO 

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Des chercheurs ont publié WeaveLA (Weave Latent Memory for Vision-Language-Action Policies) sur arXiv (identifiant 2606.17463v1), un module de mémoire inter-sous-tâches qui se greffe sur un backbone VLA gelé, en l'occurrence π₀.₅ de Physical Intelligence, sans modifier ses poids. À chaque franchissement d'un sous-objectif, WeaveLA compresse le segment d'actions accompli en tokens latents via attention pooling guidé par requêtes, puis injecte ces tokens dans le chemin de génération d'actions du sous-objectif suivant. Évalué sur le benchmark RoboMME, le résultat le plus saillant porte sur la tranche "SwingXtimes" à N=3 répétitions : le taux de succès passe de 0 % à 47,8 %, tandis que les épisodes à exécution unique restent inchangés, confirmant que les gains sont strictement confinés aux tâches causalement dépendantes entre sous-objectifs. Ce résultat pointe une limite structurelle précise des VLA à fenêtre courte : l'absence d'un canal explicite pour propager l'état entre sous-tâches. Les architectures actuelles, qu'il s'agisse de π₀, OpenVLA ou des variantes à mémoire existantes, gèrent bien la manipulation pas-à-pas, mais peinent dès que la réussite d'une étape conditionne la suivante. WeaveLA montre qu'un module léger, déclenché uniquement sur les événements de complétion de sous-objectifs, suffit à corriger cette fragilité sans régression sur les tâches simples. C'est un signal favorable pour les intégrateurs industriels qui cherchent à déployer des politiques génériques sur des workflows multi-étapes sans réentraîner l'intégralité du modèle. Le backbone π₀.₅ utilisé est celui de Physical Intelligence, startup fondée à San Francisco en 2023 et ayant levé environ 400 millions de dollars, devenue référence de facto en manipulation généraliste. WeaveLA s'inscrit dans un courant visant à augmenter les VLA par des modules de mémoire externe plutôt que de les remplacer, une direction concurrente aux travaux de Google DeepMind (RT-2, RT-X), NVIDIA (GR00T N2) et Figure AI (Helix). Étant un preprint non relu par les pairs, le travail ne s'accompagne d'aucun calendrier de déploiement ni de partenariat annoncé, et ses résultats, obtenus en environnement simulé, restent à valider sur des plateformes réelles.

RechercheOpinion
1 source
Prise de décision bio-inspirée dans les essaims de robots soumis à des biais
780arXiv cs.RO 

Prise de décision bio-inspirée dans les essaims de robots soumis à des biais

Des chercheurs présentent dans un preprint arXiv (2509.07561, version 2, juin 2026) une étude comparative sur les mécanismes de prise de décision collective dans les essaims de robots minimalistes. Le scénario central : des robots individuels commettent fréquemment des erreurs de perception environnementale, mais le groupe doit néanmoins converger rapidement et fiablement vers la meilleure option parmi n alternatives discrètes. L'étude compare deux règles canoniques issues de la dynamique d'opinion observée dans les systèmes biologiques, le "direct-switch" (bascule directe) et la "cross-inhibition" (inhibition croisée), en les soumettant à des biais asociaux, c'est-à-dire des prédispositions individuelles indépendantes de l'interaction sociale. Les modèles de champ moyen existants sont généralisés pour intégrer ces perturbations. Les résultats ont une implication directe pour quiconque conçoit des systèmes multi-agents décentralisés : la cross-inhibition, mécanisme inspiré des colonies d'insectes et des populations neuronales, surpasse systématiquement le direct-switch en présence de biais. Là où le direct-switch se révèle performant en conditions idéales, il conduit à des blocages décisionnels ("decision deadlocks") dès que des biais individuels entrent en jeu. La cross-inhibition, elle, produit des décisions plus rapides, plus cohésives, plus précises et plus robustes sur une large gamme de conditions biaisées, et ce à des échelles croissantes d'essaims. C'est un résultat concret contre l'hypothèse que des règles simples suffisent sans distinction dans des environnements bruités. Cette recherche s'inscrit dans un corpus plus large sur la robotique en essaim (swarm robotics), domaine porté notamment par des équipes comme celles de Marco Dorigo (Université Libre de Bruxelles) et Vito Trianni (CNR-ISTC, Rome), avec des applications visées en surveillance environnementale, réponse aux catastrophes et logistique médicale. Sur le plan compétitif, les approches centralisées (flottes AMR coordonnées par un orchestrateur central, comme chez Exotec ou 6 River Systems) offrent des performances prévisibles mais restent fragiles à la perte de communication. L'enjeu ici est de prouver qu'une architecture entièrement distribuée peut égaler cette fiabilité sans infrastructure centralisée. La prochaine étape naturelle serait la validation expérimentale sur robots physiques, absente de cette version de l'étude.

UELes équipes européennes porteuses de ces travaux (Marco Dorigo, ULB Bruxelles ; Vito Trianni, CNR-ISTC Rome) positionnent la recherche EU en tête sur la robotique en essaim décentralisée, avec des retombées potentielles pour les applications de logistique et de réponse aux catastrophes en Europe.

RecherchePaper
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
781arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source
Entraînement et évaluation des politiques de diffusion avec de longs contextes
782arXiv cs.RO 

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Une équipe de recherche a publié le 20 juin 2026 sur arXiv (arXiv:2606.16447) une étude systématique sur l'impact de la longueur de contexte dans l'apprentissage par imitation pour la manipulation robotique. Les politiques diffusion actuelles, celles qui apprennent des trajectoires motrices à partir d'observations RGB, ne conditionnent généralement les actions du robot que sur une courte fenêtre temporelle d'observations passées. Les auteurs ont construit un benchmark couvrant un spectre de tâches à stabilité locale et à exigences mémoire variables, en faisant varier progressivement la longueur du contexte de courte à longue, et ce dans plusieurs régimes de données. Leur résultat central : avec le bon backbone de débruitage (UNet avec cross-attention), les politiques single-task atteignent des taux de succès élevés même en scalant naïvement le contexte, y compris dans les régimes de données standards. Les chercheurs proposent également un algorithme d'entraînement qui entraîne conjointement les politiques sur plusieurs longueurs de contexte, réduisant ainsi la complexité d'échantillonnage de l'apprentissage à long contexte. Cette étude remet directement en cause un consensus répandu dans la littérature sur les VLA (Vision-Language-Action models) et les diffusion policies : l'idée que l'extension naïve du contexte serait fragile et nécessiterait des solutions architecturales spécifiques. Si ce résultat se confirme sur des benchmarks plus larges, il simplifie considérablement le pipeline de développement pour les intégrateurs robotiques, qui n'auraient plus besoin d'architectures mémoire spécialisées (LSTM, state-space models) pour résoudre des tâches séquentielles longues. C'est aussi un signal que le "memory gap" souvent invoqué pour justifier des approches complexes était peut-être surestimé, au moins dans les régimes de données courants. Les diffusion policies sont devenues un axe central de la robotique de manipulation depuis les travaux de Diffusion Policy (Chi et al., 2023) et leurs déclinaisons comme pi-0 de Physical Intelligence. La question du contexte long était jusqu'ici traitée par des approches ad hoc, recurrence, attention causale, mémoire externe. Cette étude offre la première analyse systématique à ce niveau de granularité, selon les auteurs eux-mêmes. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation industrielle réelle, la généralisation multi-tâche, et l'évaluation contre des baselines comme ACT ou des variantes de pi-0, dont les benchmarks publics permettraient une comparaison directe.

RecherchePaper
1 source
PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude
783arXiv cs.RO 

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

RecherchePaper
1 source
Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence
784arXiv cs.RO 

Récupérer plutôt que réentraîner : étendre les modèles vision-langage-action (VLA) à de nouvelles tâches au moment de l'inférence

Des chercheurs ont publié en juin 2026 (arXiv:2606.15631) une méthode permettant d'étendre un modèle VLA (Vision-Language-Action) à de nouvelles tâches sans réentraînement par tâche. Le principe : remplacer le fine-tuning par de la récupération d'exemples (retrieval) au moment du déploiement. La politique est entraînée une seule fois sur des démonstrations appariées entre deux embodiments, le robot cible et un embodiment moins coûteux, typiquement une vidéo de main humaine, puis gelée définitivement. Pour ajouter une nouvelle tâche, il suffit d'indexer des démonstrations supplémentaires dans un pool de récupération : aucune mise à jour de paramètres n'est nécessaire. À chaque pas de contrôle, la politique gelée conditionne ses actions sur des trajectoires récupérées dynamiquement. Un fine-tuning reste nécessaire uniquement lors du passage à un embodiment entièrement inconnu, pas pour chaque nouvelle tâche. La méthode a été validée sur les benchmarks PushT et RoboTwin 2.0, ainsi que sur un robot réel. Ce résultat s'attaque directement au principal frein au déploiement industriel des politiques VLA : le coût d'adaptation par tâche. Aujourd'hui, intégrer une nouvelle tâche dans un système VLA exige des démonstrations téléopérées et un fine-tuning intensif en calcul, une barrière réelle pour les intégrateurs devant couvrir des dizaines de SKU ou de postes de travail. Remplacer ce cycle par une simple indexation de données change radicalement l'équation économique. L'effet est notable sur des backbones VLA standard, mais il est surtout prononcé avec Cosmos Policy, le world-action model (WAM) de NVIDIA basé sur la génération vidéo : le retrieval fournit la progression macroscopique de la tâche, tandis que l'objectif de prédiction d'images futures du WAM renforce la cohérence des actions conditionnées. Cela suggère que les modèles de robotique générative de prochaine génération sont particulièrement bien positionnés pour tirer parti de cette approche. Le retrieval-augmented generation (RAG) est une technique établie en traitement du langage naturel ; son application aux politiques de contrôle robotique est plus récente. Les modèles VLA actuels, π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, offrent une bonne généralisation mais exigent toujours un fine-tuning par tâche pour être fiables en production. RoboTwin 2.0 est un benchmark récent pour la manipulation bimanuale. L'aspect cross-embodiment, qui utilise des vidéos de main humaine comme source bon marché, est également structurant : il ouvre la possibilité de collecter des données de déploiement sans robot. Les prochaines étapes naturelles incluent des expériences à plus grande échelle de pools de démonstrations et une intégration avec des systèmes de récupération dense type FAISS pour des catalogues de tâches industrielles larges.

IA physiqueOpinion
1 source
Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées
785arXiv cs.RO 

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement. L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche. Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

RecherchePaper
1 source
λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes
786arXiv cs.RO 

λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes

Une équipe de chercheurs publie sur arXiv (arXiv:2606.16022, juin 2026) une nouvelle méthode d'analyse de sécurité pour robots humanoïdes à haute dimension, baptisée λ-Reachability. L'approche reformule les équations de Bellman Hamilton-Jacobi, qui permettent de délimiter le "safe set" d'un système dynamique, en remplaçant les mises à jour TD à un seul pas par un estimateur stochastique multi-pas à horizon géométrique. Un paramètre λ contrôle l'interpolation entre cohérence locale et objectifs sur horizon long, par analogie avec TD(λ) en apprentissage par renforcement. Un second paramètre δ < 1 garantit formellement que la mise à jour est une contraction, permettant l'apprentissage par différence temporelle avec convergence prouvée. Les auteurs appliquent la méthode à des humanoïdes en simulation et en conditions réelles, sur des tâches d'équilibre et d'évitement de collision, avec une amélioration significative de la classification des frontières du safe set et de l'estimation des marges de sécurité par rapport aux baselines TD à un seul pas. Le verrou que cherche à lever ce travail est central pour la commercialisation des humanoïdes : garantir formellement la sécurité d'un système à plusieurs dizaines de degrés de liberté opérant près d'humains. L'analyse Hamilton-Jacobi est mathématiquement rigoureuse mais ne passait pas à l'échelle au-delà de six ou sept dimensions. L'estimateur multi-pas à horizon géométrique améliore l'estimation de valeur de sécurité sans exploser la variance, un compromis que les méthodes à un seul pas gèrent mal sur des espaces d'état élevés. L'inclusion d'expériences sur vrai robot renforce la crédibilité des résultats, même si la nature précise du robot et les conditions expérimentales exactes ne sont pas détaillées dans le résumé du preprint. L'analyse de reachability Hamilton-Jacobi est un domaine actif depuis les années 1990, mais les toolboxes classiques (helperOC, BEACLS) butaient sur la malédiction de la dimensionnalité. Les méthodes concurrentes incluent les Control Barrier Functions (CBF), très utilisées dans les laboratoires de CMU, MIT et Berkeley, et le safe RL à contraintes Lagrangiennes. La connexion avec TD(λ) positionne ce travail à l'intersection du contrôle optimal et du deep RL, un territoire que convoitent Figure, 1X, Agility Robotics et Unitree pour obtenir des garanties de sécurité certifiables en déploiement industriel. Il s'agit d'un preprint académique sans partenariat industriel annoncé : les équipes robotique qui évaluent des approches de safety pour homologation auront intérêt à surveiller la suite de ces travaux.

UELes laboratoires européens comme le CEA-List et l'INRIA, actifs sur la vérification formelle des systèmes robotiques, pourraient intégrer cette approche à horizon géométrique dans leurs travaux de certification sécurité pour humanoïdes.

RecherchePaper
1 source
FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes
787arXiv cs.RO 

FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes

FlashNav, un framework d'entraînement de politiques de navigation robotique présenté dans une préprint arXiv (2606.15846) publiée en juin 2026, annonce un entraînement en moins de 20 secondes sur GPU pour des politiques de navigation déployables sur robots réels. Les auteurs ont testé le système sur deux plateformes matérielles : le robot à roues TurtleBot2 et le robot quadrupède Unitree Go2. Sur une carte RTX 5090, FlashNav atteint un taux de succès de 100 % en dessous de 20 secondes, et reste dans les dizaines de secondes sur des GPU de bureau grand public. L'architecture repose sur un simulateur bitmap batché et un pipeline d'entraînement entièrement résidant sur GPU, piloté par un algorithme baptisé FastDSAC, qui génère en parallèle un volume massif de transitions de navigation sans jamais quitter la mémoire GPU. La clé du gain de vitesse est architecturale : FlashNav aligne strictement la simulation sur le MDP (processus de décision markovien) de navigation, en conservant uniquement les composantes utiles à l'apprentissage, géométrie d'occupation, capteurs de distance (range sensing), contrôle conditionné par objectif, dynamique de mouvement, gestion des collisions, terminaison et réinitialisation, tout en éliminant le rendu graphique et les détails physiques haute-fidélité habituellement présents dans les simulateurs. Ce choix réduit drastiquement le coût computationnel sans sacrifier la transférabilité : les politiques apprises se transfèrent sur robots physiques, en environnement intérieur statique et dynamique. Pour les intégrateurs robotiques, c'est un signal fort : le sim-to-real gap reste gérable même avec une simulation volontairement appauvrie, à condition que le MDP soit correctement modélisé. Le deep reinforcement learning pour la navigation autonome souffrait jusqu'ici d'un frein majeur à l'adoption industrielle : des cycles d'entraînement de plusieurs heures, voire de plusieurs jours, incompatibles avec l'itération rapide en production. FlashNav attaque directement ce verrou. Sur le plan concurrentiel, il se positionne face aux approches de navigation basées sur des cartes (SLAM classique) et aux VLA (Vision-Language-Action models) qui nécessitent des ressources de calcul bien supérieures. La prochaine étape naturelle sera de valider le passage à l'échelle dans des environnements dynamiques plus complexes et sur des flottes de robots, ce que la préprint ne couvre pas encore.

RecherchePaper
1 source
La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif
788arXiv cs.RO 

La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif

Une équipe de chercheurs publie sur arXiv (identifiant 2606.15064) un résultat négatif sur la curation de démonstrations pour l'apprentissage par imitation en robotique. L'hypothèse testée était la suivante : segmenter chaque trajectoire en phases temporelles, appliquer à chaque phase la métrique de qualité localement la plus informative, puis agréger les scores pour sélectionner les meilleures démonstrations. Les expériences portent sur trois tâches de saisie-dépose ("pick-and-place") de la suite de benchmarks LIBERO, avec un défaut structurel contrôlé dit "early-release" (relâchement prématuré de l'objet saisi), évalué sur cinq seeds aléatoires par condition. Résultat sans ambiguïté : la curation par phase n'est jamais la meilleure stratégie, et s'avère la pire sur deux tâches sur trois. Les chiffres sont nets : tâche 1, 86,0 % de taux de succès pour la méthode phasée contre 92,0 % pour la métrique globale unique ; tâche 3, 22,7 % contre 48,0 % pour l'application uniforme de la même métrique. Le mécanisme d'échec est tracé précisément : lorsque le signal de défaut est concentré dans une seule phase, l'agrégation des scores sur l'ensemble des phases dilue ce signal avec des valeurs non informatives issues des segments sans défaut, dégradant la sélection du sous-ensemble de démonstrations. Second problème structurel : les métriques gagnantes par phase ne se transfèrent pas d'une tâche à l'autre, aucune phase ne partageant la même métrique optimale entre deux tâches distinctes. La méthode est donc non réutilisable et exige une re-dérivation coûteuse pour chaque nouveau contexte. Pour les praticiens du "behavior cloning" et de l'apprentissage par imitation, ce résultat recadre une intuition répandue : la structure temporelle des démonstrations ne justifie pas une curation localisée quand le défaut est ponctuel. Ce travail s'inscrit dans la problématique croissante de la qualité des données en imitation learning. Des travaux antérieurs avaient établi qu'une métrique globale unique peut être le meilleur détecteur d'un défaut tout en étant le pire curateur de la politique résultante, tension qui avait motivé l'hypothèse phasée. La conclusion pratique est inverse : identifier une seule métrique informative sur le défaut et l'appliquer uniformément surpasse systématiquement la décomposition par phase. Le pipeline complet, les implémentations de métriques et les résultats par seed sont publiés en open source. Le sujet gagne en importance industrielle à mesure que les pipelines VLA (vision-language-action) et les systèmes de collecte téléopérée à grande échelle, notamment pour les robots humanoïdes en cours de déploiement chez Figure, 1X ou Apptronik, font du filtrage de démonstrations un levier critique pour la qualité des politiques apprises.

RecherchePaper
1 source
Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable
789arXiv cs.RO 

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.16572) SteerGenPO, un cadre d'apprentissage par renforcement en espace latent destiné à transformer une politique générative entraînée, basée sur la diffusion ou les flux normalisants, en un contrôleur robotique déterministe et stable. Le système a été évalué sur six benchmarks Isaac Lab d'NVIDIA et sur une tâche de locomotion avec le robot humanoïde Unitree G1, avec des résultats supérieurs aux baselines RL classiques et génératives selon les auteurs. Il s'agit d'une publication académique en pré-impression, sans déploiement industriel annoncé ni validation terrain au-delà du G1. Le verrou technique adressé est connu : les politiques de diffusion accumulent des variations d'action à chaque pas de temps, ce qui dégrade la stabilité sur des systèmes robotiques à haute dimensionnalité. SteerGenPO sépare architecturalement exploration et contrôle : l'échantillonnage stochastique reste actif à l'entraînement pour diversifier les proposals d'actions, mais au déploiement, un acteur latent appris prédit une entrée déterministe et dépendante de l'état qui pilote la politique générative sans bruit résiduel. Pour les intégrateurs, la proposition n'exige pas de réentraîner la politique depuis zéro : elle greffe un mécanisme de pilotage sur un checkpoint pré-entraîné existant, ce qui ouvre la voie à l'exploitation de modèles fondation tout en garantissant la reproductibilité des trajectoires en production. Ce travail s'inscrit dans la compétition intense autour des politiques génératives en robotique. Physical Intelligence avec Pi-0 (2024) et NVIDIA avec GR00T N2 (2025) ont validé l'approche VLA-diffusion en environnements contrôlés, mais les questions sur la robustesse à l'inférence longue restent ouvertes. Boston Dynamics, Agility Robotics et Figure AI privilégient des pipelines de contrôle plus classiques pour la fiabilité en production. SteerGenPO propose une voie médiane : capitaliser sur la richesse exploratoire des modèles génératifs sans en subir l'instabilité au déploiement. Aucune timeline, partenariat industriel ni essai terrain n'est mentionné dans le préprint ; les prochaines validations naturelles porteraient sur la manipulation dextère et des tests sim-to-real approfondis.

IA physiqueOpinion
1 source
Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées
790arXiv cs.RO 

Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées

Des chercheurs ont présenté Sequential Asymmetric Imitation (SAI), une méthode d'apprentissage par imitation pour entraîner deux robots manipulateurs mobiles bimanuels à collaborer physiquement sur des tâches conjointes impliquant des objets rigides ou déformables. Publiée en pré-impression sur arXiv (2606.16490v1), l'étude part d'un constat précis : les échecs en manipulation collaborative ne proviennent pas d'un manque de compétence individuelle, mais de problèmes de synchronisation, notamment les attentes mal timées, le cédage insuffisant et les conflits lors du saisissement ou du relâchement d'objets. SAI propose un curriculum en trois étapes piloté par un seul téléopérateur : Robot A est d'abord entraîné à partir de démonstrations unilatérales avec un partenaire humain compliant ; Robot B est ensuite entraîné contre la politique déployée de Robot A ; enfin, Robot A est affiné par des interventions ponctuelles ciblées sur les zones de défaillance de coordination. Les expériences en conditions réelles montrent des gains mesurés sur la réussite des tâches, la synchronisation de phase et le comportement de cédage adaptatif, par rapport à des baselines d'imitation indépendante. L'apport principal de SAI réside dans l'élimination de la contrainte des démonstrations synchronisées à deux opérateurs, un frein logistique majeur pour la collecte de données dans les systèmes multi-robots. En structurant le curriculum de manière asymétrique, la méthode expose progressivement chaque robot à des comportements partenaires de plus en plus réalistes, incluant délais, décalages de phase et résistance insuffisante, sans nécessiter de canal de communication explicite entre les robots. Pour les intégrateurs industriels, l'argument est concret : un seul opérateur qualifié suffit à générer un dataset multi-agent viable. L'étude suggère que la coordination physique peut émerger de la structure du curriculum d'imitation elle-même, plutôt que d'un mécanisme de coordination dédié, ce qui contredit l'hypothèse dominante selon laquelle la collaboration multi-robot nécessite obligatoirement une communication inter-agents ou des démonstrations co-téléopérées. Ce travail s'inscrit dans un corpus croissant sur la manipulation multi-robot en milieu non structuré, où les approches dominantes reposaient jusqu'ici soit sur des communications inter-robots explicites, soit sur des démonstrations co-téléopérées coûteuses. En n'utilisant aucun des deux, SAI propose une troisième voie potentiellement plus scalable pour les déploiements industriels impliquant des paires de bras robotiques. Il convient toutefois de souligner que la méthode n'est validée que sur un ensemble limité de tâches réelles, sans benchmark standardisé face à des méthodes récentes comme ACT ou Diffusion Policy en contexte multi-agent, et que ce document reste un pré-print non révisé par les pairs. La page projet est disponible sur GitHub (cyc0429.github.io/sai-project-page) ; les prochaines étapes naturelles incluront la généralisation à des topologies de tâches plus complexes et l'évaluation sur des horizons temporels plus longs.

RecherchePaper
1 source
RHO : votre agent de code est secrètement un roboticien
791arXiv cs.RO 

RHO : votre agent de code est secrètement un roboticien

Des chercheurs ont publié en juin 2026 une méthode nommée RHO (Robotics Harness Optimization), qui repense l'usage des LLM pour le contrôle robotique. Plutôt que de générer du code en boucle pendant l'exécution, comme le font les systèmes Code-as-Policies actuels, RHO déplace l'optimisation à l'entraînement : des agents codeurs explorent des dépôts de politiques multi-fichiers (Repositories-as-Policies), composant des primitives de perception, planification et contrôle, avec pour seul signal du reward d'environnement, sans démos téléopérées. À l'exécution, le robot tourne sur du code statique. Sur le benchmark LIBERO-PRO (saisie-dépose avec perturbations), OpenVLA plafonne à 0,0 % et π₀.₅ de Physical Intelligence atteint 12,83 %, contre 45,0 % pour RHO, soit 2,5 fois le meilleur système multi-tour concurrent. Sur Robosuite, RHO fixe un nouveau SOTA à 70,0 % (record précédent : 68,29 %), en exécution single-turn sans corrections LLM au déploiement. Sur le benchmark O3DE de RAI, le taux de succès passe de 23,5 % à 44,3 %, avec 20 % moins de temps horloge et 27 % moins d'appels d'outils. Le résultat pointe un problème concret des VLA (Vision-Language-Action models) et des pipelines Code-as-Policies classiques : itérer avec un LLM à chaque cycle de contrôle est incompatible avec les contraintes temps-réel d'un bras industriel. RHO sépare raisonnement offline et exécution rapide, ce qui rend le déploiement possible sans dépendance cloud en temps réel. Sur LIBERO-PRO, les VLA de Physical Intelligence, parmi les plus robustes du secteur, échouent quasi-systématiquement sur des variantes perturbées que RHO gère à 45 %, ce qui suggère une meilleure généralisation out-of-distribution via l'approche neurosymbolique. Le paradigme Code-as-Policies a été popularisé par des travaux de Google et CMU, mais souffrait de son coût à l'inférence. RHO s'inscrit dans une logique de séparation train/deploy que l'on retrouve dans les approches de compilation de politiques robotiques. Les concurrents directs sur les benchmarks cités sont OpenVLA (Berkeley/Stanford) et π₀.₅ de Physical Intelligence. La recherche est un preprint arXiv (juin 2026), non encore soumis à peer review, et tous les résultats ont été obtenus en simulation ; une validation sur hardware physique et des déploiements industriels réels restent à démontrer.

IA physiqueOpinion
1 source
Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques
792arXiv cs.RO 

Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques

Des chercheurs ont publié (arXiv:2602.02773, mise à jour juin 2026) les résultats d'un système permettant à des utilisateurs atteints de lésions cervicales de la moelle épinière (cSCI, quadriplégie) de piloter un manipulateur mobile domestique via des manchettes électromyographiques haute densité (HDEMG). Le dispositif consiste en deux manchettes textiles intégrées, portées sur les deux avant-bras, qui captent l'activité neuromotrice résiduelle de membres cliniquement paralysés et la convertissent en commandes gestuelles temps réel pour le robot. Sur deux participants avec cSCI, le système atteint un taux de classification des intentions motrices allant jusqu'à 98,0 %. L'étude s'est déroulée sur douze jours en conditions réelles, dans le domicile même des participants, pour des tâches quotidiennes de type ADL (activities of daily living). Ce résultat est significatif pour plusieurs raisons. D'abord, il démontre qu'une interface de contrôle non invasive et portable peut extraire un signal moteur exploitable depuis des membres dont la paralysie est établie cliniquement, ce qui remet en cause l'hypothèse selon laquelle les interfaces robustes nécessitent obligatoirement une implantation chirurgicale (BCI intracrânien) ou des capacités motrices résiduelles importantes. Ensuite, l'architecture d'autonomie partagée, combinant vision, langage naturel et planification de mouvement, réduit la charge cognitive de l'opérateur pour les tâches de navigation, qui sont habituellement les plus pénibles dans un environnement domestique non structuré. Pour un intégrateur ou un décideur industriel, cela valide un paradigme de téléopération augmentée où l'IA complète les intentions de l'utilisateur sans les supplanter. Ce travail s'inscrit dans un champ de recherche qui, depuis une décennie, explore l'EMG de surface pour le contrôle prothétique et robotique, mais qui peinait à franchir le cap du test en laboratoire vers un déploiement prolongé hors-lab. Côté concurrence, des acteurs comme Aescape, Wandercraft (exosquelettes) ou des programmes DARPA/NSF travaillent sur des interfaces haptiques et neurales, mais peu ont publié des études en domicile réel sur plusieurs jours. Les prochaines étapes probables incluent l'élargissement de la cohorte au-delà de n=2, l'intégration avec des plateformes commerciales comme le Stretch de Hello Robot ou le spot-arm de Boston Dynamics, et l'évaluation des effets d'adaptation sur le long terme.

UEImpact indirect pour les acteurs français comme Wandercraft qui développent des interfaces neuromotrices pour exosquelettes, mais l'étude provient de chercheurs non identifiés comme européens et ne cible pas le marché UE.

RecherchePaper
1 source
Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel
793arXiv cs.RO 

Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel

Des chercheurs proposent, dans un preprint déposé en juin 2026 sur arXiv (2606.15285), un cadre asynchrone baptisé "semantic-action decoupling" qui découple l'inférence sémantique de la génération d'actions au sein des modèles Vision-Language-Action (VLA). L'architecture divise le VLA en deux modules distincts: un module de compréhension à basse fréquence qui met à jour de manière asynchrone des conditions sémantiques réutilisables, et un module d'action à haute fréquence qui produit en continu des commandes de contrôle sans relancer l'intégralité du modèle. Testée sur le benchmark LIBERO avec les modèles π₀.₅ (Physical Intelligence) et UniVLA, ainsi que sur un robot réel avec UniVLA, la méthode atteint un débit d'inférence côté serveur allant jusqu'à 35,6 Hz pour le seul module d'action. Pour compenser le décalage temporel entre des représentations sémantiques potentiellement périmées et l'état d'exécution courant, les auteurs introduisent deux mécanismes additionnels: le conditionnement sur l'historique des actions passées, et un entraînement explicite à la désynchronisation temporelle (time-misalignment training). Ce résultat s'attaque à l'un des verrous centraux du déploiement industriel des VLA: leur coût computationnel élevé les contraint aujourd'hui à des fréquences de contrôle trop basses pour des tâches de manipulation rapide ou réactive. Atteindre 35,6 Hz sans modifier le backbone vision-langage ni introduire un planificateur externe est non trivial, car cela signifie qu'un intégrateur peut greffer cette optimisation sur un VLA existant sans refonte architecturale. Le travail apporte une réponse partielle au "demo vs. reality gap" souvent reproché aux VLA: en maintenant un contrôle en boucle fermée à haute fréquence, le système peut absorber des perturbations que des architectures synchrones rateraient. Il reste que les métriques publiées correspondent à un throughput serveur, et non à une latence de bout en bout sur un système embarqué, ce qui nuance la portée opérationnelle immédiate. Les VLA sont devenus l'architecture dominante en robotique de manipulation depuis π₀ (Physical Intelligence, 2024) et les travaux de Google DeepMind sur RT-2, OpenVLA et leurs successeurs. UniVLA, lui, est issu de travaux récents visant à unifier les modalités de commande dans un modèle unique. La problématique de la fréquence de contrôle est traitée en parallèle par plusieurs équipes: Physical Intelligence avec π₀.₅, mais aussi des approches par distillation ou par action chunking (ACT, Diffusion Policy). Ce preprint ne présente pas encore de déploiement industriel ni de timeline commerciale, mais il ouvre une voie d'optimisation compatible avec des VLA open-source, ce qui pourrait accélérer l'adoption par des intégrateurs disposant d'une infrastructure GPU serveur sans retraîner leurs modèles de base.

RechercheOpinion
1 source
X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques
794arXiv cs.RO 

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

Publié sur arXiv (2603.03733) en 2025, X-Loco est un framework d'entraînement d'une politique de locomotion généraliste basée sur la vision pour robots humanoïdes. L'approche repose sur une distillation synergétique : plusieurs politiques expertes sont entraînées séparément pour des compétences distinctes - locomotion bipède stable, récupération après chute, coordination corps entier, franchissement de terrains variés - puis une politique unique guidée par entrée visuelle est distillée à partir de ces experts via un mécanisme de sélection adaptative au cas par cas. X-Loco opère uniquement sur des commandes de vitesse, sans recours à des mouvements de référence issus de captures de mouvement. Les auteurs revendiquent une première dans l'intégration simultanée de toutes ces compétences dans une seule politique vision - affirmation à prendre avec les précautions d'usage pour un preprint non encore évalué par les pairs. Ce travail s'attaque à un verrou technique central : entraîner une politique unique qui maîtrise des comportements aux dynamiques radicalement différentes et aux objectifs de contrôle parfois contradictoires. Une telle politique simplifie le déploiement opérationnel en éliminant les modules de commutation entre comportements. L'absence de dépendance aux données de mocap rend également le pipeline d'entraînement plus scalable, puisqu'il ne requiert pas de bibliothèques de mouvements spécifiques à chaque compétence cible. Les études d'ablation incluses renforcent la crédibilité des choix architecturaux, mais les résultats restent cantonnés à la simulation et au laboratoire, sans validation sur hardware réel à grande échelle. X-Loco s'inscrit dans une dynamique de recherche intense sur la locomotion humanoïde, portée par des équipes comme Berkeley Humanoid, CMU et les labos gravitant autour d'Unitree. La distillation enseignant-étudiant est un paradigme établi en apprentissage par renforcement, mais son application à un spectre aussi large de compétences reste un défi ouvert. Côté commercialisation, Tesla (Optimus Gen 2), Figure AI, Boston Dynamics (Atlas) et 1X Technologies travaillent sur des problèmes similaires avec des ressources bien supérieures. La suite logique pour X-Loco serait une validation sim-to-real convaincante sur hardware physique, étape non encore franchie selon le papier.

RecherchePaper
1 source
Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné
795arXiv cs.RO 

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

Des chercheurs publient sur arXiv (référence 2606.14084) une méthode baptisée SDN (Selected Diffusion Noise), conçue pour améliorer à l'inférence les politiques VLA (Vision-Language-Action) basées sur la diffusion, sans nécessiter de réentraînement. SDN opère dans l'espace du bruit de diffusion en sélectionnant dynamiquement des vecteurs de bruit maximalement séparés d'un ensemble de référence, ce qui réduit la dépendance aux corrélations visuelles parasites, tout en filtrant les candidats produisant des trajectoires d'action plus cohérentes. La méthode a été évaluée sur deux benchmarks de simulation (Google Robot, Widow-X) et deux jeux de données réels, sur plusieurs politiques VLA majeures dont pi0 (Physical Intelligence), Groot-N1.5 et Groot-N1.6 (NVIDIA). Les gains annoncés sont de +8 points de taux de succès en simulation et +10 points en conditions réelles, avec une réduction mesurable du "action jitter", c'est-à-dire l'instabilité des trajectoires articulaires. Ces résultats sont issus d'un preprint non encore évalué par les pairs. L'intérêt pratique tient à l'approche "training-free" : SDN s'applique à l'inférence sans modifier les paramètres du modèle, ce qui permet d'améliorer un système déjà déployé sans refondre le pipeline ML ni supporter les coûts d'un réentraînement. Pour un intégrateur ou un décideur achetant une solution robotique basée sur une politique VLA, ce type de méthode représente un levier de fiabilité à faible coût opérationnel. La robustesse maintenue sous des observations avec occultation partielle (object-masked observations) est également pertinente pour les environnements industriels réels. SDN s'inscrit dans la tendance plus large des techniques d'optimisation test-time appliquées aux modèles génératifs, analogues au best-of-N sampling dans les LLMs. Les politiques VLA basées sur la diffusion, popularisées par Physical Intelligence (pi0, pi0.5) et NVIDIA Isaac (GR00T N1.5, N1.6), sont devenues en 2025-2026 la référence de facto en manipulation robotique généraliste. Elles héritent toutefois d'une sensibilité aux artefacts visuels hors distribution et d'une certaine instabilité d'action, deux problèmes que SDN cible directement. L'abstract ne mentionne ni affiliation institutionnelle ni dépôt de code public, ce qui limite pour l'instant la reproductibilité et les comparaisons indépendantes. Les prochaines étapes naturelles seraient une validation sur plateformes humanoïdes complètes (Figure, 1X, Unitree H1) et des benchmarks de manipulation plus diversifiés que Widow-X ou Google Robot.

UELes intégrateurs européens déployant des solutions robotiques basées sur des politiques VLA (pi_0, GR00T) pourraient bénéficier de cette méthode d'optimisation sans réentraînement, mais aucun acteur FR/EU n'est directement impliqué dans ces travaux.

IA physiqueOpinion
1 source
Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables
796arXiv cs.RO 

Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables

Fin juin 2025, une équipe de recherche a déposé sur arXiv (2506.14188) CORD-SLS, une méthode de contrôle temps réel pour la manipulation certifiée d'objets déformables, principalement des cordes et des tissus. Le coeur du système est un simulateur différentiable GPU-parallèle avec lissage de contact, permettant une planification par gradient à travers des contacts intermittents. Un algorithme de commande prédictive robuste (MPC) à retour de sortie, lui aussi GPU-parallèle, exploite ce simulateur pour générer des trajectoires en quelques millisecondes. Pour gérer les incertitudes de modèle et de perception, le système intègre la prédiction conforme (conformal prediction), qui calibre les erreurs de rétroaction visuelle et produit des "tubes atteignables" offrant des garanties probabilistes de sécurité. Les expériences couvrent des tâches à contact riche: évitement d'obstacles, routage de corde, pliage et lissage de tissu, évaluées en simulation et sur matériel réel, avec des résultats supérieurs aux baselines sur les critères de sécurité, de vitesse et de taux de succès. La manipulation d'objets déformables reste l'un des angles morts de la robotique industrielle: cordes et tissus présentent des espaces d'états quasi-infinis et des dynamiques de contact difficiles à modéliser. CORD-SLS attaque deux verrous simultanément: la vitesse de planification compatible avec du contrôle en boucle fermée temps réel, et des garanties formelles de sécurité absentes de la quasi-totalité des approches par apprentissage (RL, VLA). Le fait que le même simulateur accélère également l'entraînement de politiques neuronales model-based est notable: cela ouvre la voie à des pipelines hybrides combinant planification robuste et politiques apprises. Pour les intégrateurs ciblant la couture automatisée, la logistique textile ou la robotique chirurgicale, c'est une démonstration académique sérieuse, pas encore un produit déployé. La manipulation déformable est étudiée depuis les années 1990, mais les approches classiques échouaient systématiquement à l'échelle réelle faute de simulateurs rapides et fiables. Les méthodes par apprentissage de type diffusion policies et VLAs gagnent du terrain mais peinent à fournir des garanties certifiables, ce qui freine leur adoption dans des contextes régulés. CORD-SLS positionne le couplage MPC robuste et prédiction conforme comme une alternative formellement vérifiable. Les concurrents directs incluent les travaux de simulation différentiable de DiffTaichi, les approches MPC déformable développées à MIT et CMU, et les politiques end-to-end de type Pi-0 de Physical Intelligence. Le papier reste un preprint sans publication en conférence confirmée à ce stade; les suites dépendront de validations sur des tâches industrielles réelles et d'une éventuelle mise à disposition publique du code.

RecherchePaper
1 source
ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés
797arXiv cs.RO 

ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés

Des chercheurs ont publié sur arXiv (référence 2604.16405) un système d'évaluation baptisé ICAT, Incident-Case-Grounded Adaptive Testing, ciblant une lacune précise des modèles de monde vidéo-génératifs : leur capacité à prédire les risques physiques dans des contextes d'action incarnée. Ces modèles, utilisés comme simulateurs neuronaux pour la planification et l'apprentissage de politiques en robotique embarquée, sont soumis à des scénarios de risque construits à partir de rapports d'incidents réels et de manuels de sécurité. ICAT structure ces sources en mémoires de risques, puis les récupère et les compose pour générer des cas de test avec chaînes causales et étiquettes de sévérité. Les expériences menées sur un benchmark dérivé de cette méthode révèlent que les modèles de monde courants omettent fréquemment les mécanismes déclencheurs des situations dangereuses et mal-calibrent systématiquement le niveau de sévérité des conséquences. Ce résultat a des implications directes pour quiconque envisage d'utiliser des world models comme substrat d'entraînement ou de planification pour des systèmes robotiques en environnement réel. Un modèle qui minimise ou ignore les signaux de danger dans ses rollouts imaginés peut inculquer des préférences comportementales non sûres à la politique apprise, sans que l'ingénieur ne le détecte en phase de simulation. Le gap sim-to-real prend ici une dimension nouvelle : ce n'est plus seulement une question de fidélité physique (textures, friction, dynamique), mais de fiabilité dans la représentation des conséquences graves. Pour les intégrateurs qui s'appuient sur des VLA (Vision-Language-Action models) entraînés sur des trajectoires synthétiques, c'est un signal d'alerte concret sur l'absence de métriques de sécurité standardisées dans les pipelines d'évaluation actuels. Les modèles de monde vidéo-génératifs, dont UniSim, DreamerV3, ou les approches issues de Genie et GameNGen, ont connu un regain d'intérêt comme alternatives aux simulateurs physiques classiques (MuJoCo, Isaac Sim), notamment pour leur capacité à généraliser à partir de vidéos brutes. Mais leur évaluation reste dominée par des métriques visuelles (FID, FVD) peu corrélées à la sécurité opérationnelle. ICAT propose un protocole ancré dans les données d'incidents industriels, ce qui le différencie des benchmarks synthétiques existants. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade ; il s'agit d'une contribution académique, et la robustesse du benchmark lui-même reste à valider sur un périmètre de modèles plus large.

RechercheOpinion
1 source
ST-π : VLA spatio-temporel structuré pour la manipulation robotique
798arXiv cs.RO 

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Une équipe de chercheurs a publié fin avril 2026 ST-π (ST-pi), un modèle vision-langage-action (VLA) conçu pour améliorer la manipulation robotique fine en introduisant une planification spatiotemporelle explicitement structurée. Contrairement aux VLA classiques qui projettent directement les observations visuelles vers des actions step-by-step, ST-π décompose la tâche en deux niveaux distincts : un VLM spatiotemporel qui encode des observations 4D (vidéo + profondeur) et génère une séquence ordonnée de "prompts d'action" au niveau chunk, incluant sous-tâches, ancrage spatial et ancrage temporel ; puis un "action expert" conditionné sur ces prompts, qui utilise un mécanisme de double générateur pour modéliser conjointement les dépendances spatiales et la causalité temporelle, produisant in fine les paramètres d'action step-level. Les auteurs ont également constitué un dataset réel avec annotations spatiotemporelles structurées pour le fine-tuning. Le code source est disponible sur GitHub (chuanhaoma/ST-pi). L'intérêt de cette approche réside dans l'explicitation du raisonnement spatiotemporal, un point aveugle documenté des VLA actuels. Les modèles existants comme Pi-0 (Physical Intelligence), OpenVLA ou RT-2 encodent implicitement ce raisonnement dans les représentations visuelles et d'action, ce qui les rend fragiles face à des séquences comportementales multiples avec des frontières temporelles précises, typiquement les tâches d'assemblage, de tri ou de manipulation en plusieurs étapes que les intégrateurs industriels cherchent à automatiser. ST-π propose une architecture où le VLM planifie globalement et l'action expert raffine localement, ce qui est une séparation de responsabilités plus proche de la façon dont les ingénieurs roboticiens structurent eux-mêmes les programmes de manipulation. Ce travail s'inscrit dans une dynamique de recherche active sur le sim-to-real et la généralisation des VLA, portée notamment par Physical Intelligence, Google DeepMind (avec GR00T N2 côté NVIDIA) et des laboratoires académiques en Chine. ST-π est un preprint arXiv (2604.17880), pas encore évalué en peer review, et les métriques de performance annoncées restent à confronter à des benchmarks indépendants comme LIBERO ou RLBench. Aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade, il s'agit d'une contribution de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés et un test sur des robots réels en dehors du dataset des auteurs.

IA physiqueOpinion
1 source
Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique
799arXiv cs.RO 

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

Une étude publiée sur arXiv (2604.17896) examine une lacune structurelle dans l'entraînement des modèles VLA (Vision-Language-Action) : ces architectures, qui transforment des entrées multimodales (vision, langage) directement en commandes motrices pour robots, sont typiquement entraînées par imitation à grande échelle, sans aucune supervision explicite des contraintes physiques dures. Les auteurs intègrent un objectif de faisabilité géométrique dans la phase d'entraînement d'une politique VLA basée sur la diffusion, et évaluent l'impact sur des tâches de manipulation avec obstacles, utilisées comme banc d'essai contrôlé de la faisabilité physique. Les résultats montrent une amélioration de la fiabilité physique, de la performance globale, et de l'efficacité d'apprentissage en régime de faibles données. L'enjeu est significatif pour quiconque déploie des VLA en environnement industriel non contrôlé. Jusqu'ici, l'hypothèse implicite du paradigme d'imitation était que suffisamment de démonstrations permettraient au modèle d'inférer les contraintes géométriques (évitement d'obstacles, faisabilité cinématique) de façon latente. Cette étude apporte une preuve empirique que cette inférence reste incomplète : ajouter un signal de faisabilité explicite, même simple, améliore à la fois la robustesse physique et les performances sur la tâche. L'effet est particulièrement marqué en faible volume de données, ce qui est précisément le régime courant en déploiement réel où les démonstrations sont coûteuses à collecter. Le contexte est celui d'une compétition intense autour des politiques de manipulation généralisable : OpenVLA, pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou encore les travaux issus de RT-2/RT-X font tous le pari de l'imitation à grande échelle comme voie royale. Cette étude ne remet pas en cause ce paradigme, mais propose une correction ciblée, peu coûteuse à intégrer, sur le point précisément où les VLA actuels montrent leurs limites en production : la collision et la faisabilité cinématique. Aucun acteur commercial spécifique n'est impliqué ici, il s'agit d'une contribution académique, mais ses conclusions sont directement exploitables par les équipes d'intégration qui fine-tunent des VLA sur des postes de travail réels.

IA physiqueOpinion
1 source
VeriGraph : graphes de scène pour la vérification de plans de robots
800arXiv cs.RO 

VeriGraph : graphes de scène pour la vérification de plans de robots

Des chercheurs ont publié VeriGraph (arXiv:2411.10446v3), un système de planification robotique qui combine des modèles vision-langage (VLM) avec un mécanisme de vérification formelle des actions. Le principe central repose sur l'utilisation de graphes de scène comme représentation intermédiaire : à partir d'images en entrée, le système construit un graphe capturant les objets présents et leurs relations spatiales, puis s'en sert pour valider et corriger en boucle les séquences d'actions générées par un planificateur LLM. Les gains rapportés sur des tâches de manipulation sont significatifs : +58 % de taux de complétion sur les tâches guidées par langage, +56 % sur des puzzles tangram, et +30 % sur les tâches guidées par image, par rapport aux méthodes de référence testées. Ce résultat pointe un problème structurel bien documenté dans le domaine : les VLM et LLM génèrent des plans plausibles en surface mais géométriquement ou physiquement incorrects, un objet posé sur une surface inexistante, une saisie dans un ordre impossible. VeriGraph traite ce gap en introduisant une couche de vérification symbolique ancrée dans l'état réel de la scène, ce qui réduit les hallucinations de planification sans nécessiter de fine-tuning du modèle sous-jacent. Pour les intégrateurs industriels et les équipes robotique, cela suggère une voie pragmatique : greffer un vérificateur léger sur des LLM généralistes plutôt que de tout réentraîner, ce qui abaisse potentiellement le coût d'adaptation à de nouveaux environnements. VeriGraph s'inscrit dans un courant de recherche actif autour des architectures hybrides neuro-symboliques pour la robotique, où des travaux comme SayPlan (Rana et al.), LLMTAMP ou les approches PDDL-guided cherchent tous à contraindre la génération de plans par des vérificateurs formels ou géométriques. La nouveauté ici réside dans l'usage du graphe de scène comme interface universelle entre perception et planification. Les auteurs publient le code sur un site dédié, ce qui facilite la reproductibilité, mais les expériences restent en environnement simulé ou de laboratoire contrôlé, aucun déploiement en conditions industrielles réelles n'est mentionné à ce stade.

RechercheOpinion
1 source